0% encontró este documento útil (0 votos)
56 vistas133 páginas

Introducción al Análisis Multivariante

Este documento presenta el curso de Análisis Multivariante I. Incluye una introducción al análisis multivariante y sus técnicas descriptivas y gráficas para el análisis exploratorio de datos, como diagramas de caja, histogramas, densidad de kernel y gráficos de dispersión. También cubre las caras de Chernoff-Flury. El curso consta de cuatro unidades sobre regresión multivariante, análisis de varianza multivariante, y análisis discriminante multivariante.

Cargado por

josselyn250199
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
56 vistas133 páginas

Introducción al Análisis Multivariante

Este documento presenta el curso de Análisis Multivariante I. Incluye una introducción al análisis multivariante y sus técnicas descriptivas y gráficas para el análisis exploratorio de datos, como diagramas de caja, histogramas, densidad de kernel y gráficos de dispersión. También cubre las caras de Chernoff-Flury. El curso consta de cuatro unidades sobre regresión multivariante, análisis de varianza multivariante, y análisis discriminante multivariante.

Cargado por

josselyn250199
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

ANÁLISIS MULTIVARIANTE I

PROFESOR: JOSÉ ANTONIO SÁNCHEZ


SEMESTRE 2022-2023
ANÁLISIS MULTIVARIANTE I

El análisis multivariante es una parte de la estadística y del análisis exploratorio de datos que estudia,
analiza, representa e interpreta los datos que resultan de observar más de una variable estadística sobre
una muestra de individuos. Las variables observables son homogéneas y correlacionadas, sin que alguna
predomine sobre las demás. La información estadística en este análisis es de carácter multidimensional, por
lo tanto, la geometría, el cálculo matricial y las distribuciones multivariantes juegan un papel fundamental.
La información multivariante es una matriz de datos de nxp, pero a menudo, en el análisis multivariante la
información de entrada consiste en matrices de distancias o similaridades, que miden el grado de
discrepancia entre los individuos. Esta técnica estadística se basa en matrices de datos nxp; siendo n el
número de individuos y p el número de variables
ANÁLISIS MULTIVARIANTE I

CONTENIDOS:

Unidad 1.- INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE.


Unidad 2.- ANÁLISIS DE REGRESIÓN MULTIVARIANTE.
Unidad 3.- ANÁLISIS DE VARIANZA MULTIVARIANTE.
Unidad 4.- ANÁLISIS DISCRIMINANTE MULTIVARIANTE.

EVALUACIÓN.

En caso de volver a la educación presencial la evaluación será acorde lo que indica el sílabo de la asignatura
UNIDAD 1.
INTRODUCCIÓN AL
ANÁLISIS
MULTIVARIANTE
¿Existen combinaciones lineales "de baja dimensión" de X que muestran un compor

UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE


El análisis estadístico multivariado se ocupa de analizar y comprender datos en dimensiones elevadas. Si
tenemos un conjunto de observaciones de un vector variable en . Es decir, suponemos que cada observación
tiene dimensiones:
,
y que esta es un valor observado de un vector variable . Por tanto, es compuesto por variables aleatorias:

donde , para es una variable aleatoria unidimensional. ¿Cómo comenzamos a analizar este tipo de datos?
Antes de investigar preguntas sobre las inferencias que podemos obtener de los datos, debemos pensar en
cómo mirar los datos. Esto involucra técnicas descriptivas. Las preguntas que podríamos responder mediante
técnicas descriptivas son:
• ¿Hay componentes de X que están más dispersos que otros?
• ¿Hay algunos elementos de X que indiquen subgrupos de datos?
• ¿Hay valores atípicos en los componentes de X?
• ¿Qué tan “normal” es la distribución de los datos?
• ¿Hay combinaciones lineales "de baja dimensión" de X que muestren "no normales"?
¿comportamiento?
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.1 DIAGRAMA DE CAJA

El diagrama de caja es una técnica gráfica que muestra la distribución de variables. Ayuda a ver la ubicación, asimetría, extensión, longitud
de la cola y los puntos periféricos.

El diagrama de caja es una representación gráfica del resumen de 5 números.

Creación de un diagrama de caja:


 Dibuja un cuadro con bordes

 Dibuja la mediana como una línea sólida y la media como una línea de puntos.

 Dibuja "bigotes" desde cada extremo de la caja hasta el punto más remoto que NO es

 un valor atípico.

 Mostrar valores atípicos como "*" o "°"


UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.1 DIAGRAMA DE CAJA

 Las barras de la mediana y la media son medidas de ubicaciones.


 La ubicación relativa de la mediana (y la media) en el cuadro es un medida de lo sesgado que está.
 La longitud de la caja y los bigotes son una medida de extensión.
 La longitud de los bigotes indica la longitud de la cola de la distribución.
 Los puntos periféricos se indican con un "*" o "." dependiendo de si están fuera de la caja
 Los diagramas de caja no indican multimodalidad o conglomerados.
 Si comparamos el tamaño relativo y la ubicación de las cajas, estamos comparar distribuciones
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.2 HISTOGRAMA

• Datos cuantiativos - continuos


• Estimación de la densidad
• Distribución de los datos
• Simetría - sesgo
• Multimodal
• Tabla de frecuencias
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.3 DENSIDAD DE KERNEL

Las principales dificultades de la estimación de histogramas se pueden resumir en cuatro críticas:


• determinación del binwidth h, que controla la forma del histograma,
• elección del origen del contenedor x0, que también influye en cierta medida en la forma,
• pérdida de información ya que las observaciones son reemplazadas por el punto central del
intervalo en el que caen,
• A menudo se supone que la función de densidad subyacente es uniforme, pero el histograma
no es suave.
Rosenblatt (1956), Whittle (1958) y Parzen (1962) desarrollaron un enfoque
lo que evita las tres últimas dificultades. Primero, una función de kernel fluida en lugar de
una caja se utiliza como bloque de construcción básico. En segundo lugar, la función suave está centrada
directamente sobre cada observación
Forma general del simulador de
kernel
Vamos a tratar un conjunto de datos de muestra no normal. Hemos
generado 50 valores aleatorios de una distribución uniforme entre
-3 y 3. A raíz de medidas similares, siguiendo pasos similares, se
ha elaborado el histograma y el EDK:

Tabla de funciones de Kernel


UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.4 GRÁFICOS DE DISPERSIÓN

 Los gráficos de dispersión son gráficos bivariados o trivariados de las variables entre sí. Nos ayudan a entender las relaciones
entre las variables de un conjunto de datos. En este sentido, las variables se representan como un punto en el plano cartesiano y
de acuerdo a la relación que exista entre ellas, definimos su tipo de correlación.

Tipos de correlación en un gráfico de dispersión

Con base en el comportamiento que toman las variables de estudio, podemos encontrar 3 tipos de correlación: Positiva, negativa y
nula.
• Correlación positiva

Se presenta cuando una variable aumenta o disminuye y la otra también, respectivamente. Hay una relación proporcional.
Por ejemplo para un vendedor de carros, si él vende más carros (variable 1), va a ganar más dinero (variable 2).
• Correlación negativa

Se presenta cuando una variable se comporta de forma contraria o a la otra, es decir que si una variable aumenta, la otra disminuye. Hay una
relación inversa proporcional. Por ejemplo para la construcción de un edificio, entre más trabajadores estén construyendo un edificio
(variable 1), menos tiempo se necesitará para tenerlo listo (variable 2)
• Correlación nula

Si no encuentras un comportamiento entre las variables, existe una correlación nula.


UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.5 CARAS DE CHERNOFF-FLURY

 Herman Chernoff, es un matemático norteamericano, nacido en


1923.
 En 1973 Chernoff propuso un método para mostrar gráficamente
datos multivariados y representar puntos en k dimensiones, donde
k ≤ 18, asignando a cada unidad de observación una cara.
 La posición, longitud y forma de cada uno de los componentes
faciales reflejen el comportamiento de cada una de las variables
que intervienen en el estudio.
 El rango de variabilidad se establece de manera que la estructura
global mantenga las características básicas de una cara.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.5 CARAS DE CHERNOFF-FLURY

 Dos de los trabajos más famosos fueron hechos por Bernhard


Flury y Hans Riedwyl en 1981, dividiendo una cara en dos
mitades independientes para incrementar el número de
variables a representar de 18 a 36.
 El resultado visual es muy atractivo y bien usado puede llevar a
conclusiones rápidas y toma de decisiones.
 La asignación de cada variable a los parámetros faciales es
arbitraria. Aunque algunos investigadores recomiendan elegir
cuidadosamente la forma en que las variables se asignan a los
rasgos de la cara.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.5 CARAS DE CHERNOFF-FLURY
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.5 CARAS DE CHERNOFF-FLURY
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.5 CARAS DE CHERNOFF-FLURY
 El producto que es distinto a los demás es la hamburguesa simple. (tiene los contenidos más bajos de nutrientes).

 Los productos con mayor cantidad de calorías más parecidos (altura de la cara) , son : el cuarto de libra con queso, el Big Mac y la
McNífica.
 En el contenido de grasas (ancho de la cara) los más parecidos son el Big Mac y el Cuarto de Libra con Queso.

 En el contenido de proteína (altura de la boca) el más bajo es la Hamburguesa simple y los mayores son cuarto de libra con queso y Mc
Royal bacon con queso.
 En el contenido de colesterol (ancho de la boca), el que menos tiene es la hamburguesa simple y los que más tienen es el cuarto de libra
con queso y el Mc Royal.
 En el contenido de sodio (sonrisa), el Mc Pollo es el que tiene menos y los que más tienen son el cuarto de libra con queso y el Mc royal
Bacon con queso.
 En base a todas las características, las tres hamburguesas más parecidas son: Cuarto de libra con queso, Big Mac y Mc Royal.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.6 CURVAS DE ANDREW.

El problema básico de las presentaciones gráficas de datos multivariados es la dimensionalidad.

Andrews propuso un método basado en la transformación de Fourier para representar datos multivariantes en dos dimensiones, sugirió la idea
de codificar y representar datos multivariados mediante curvas. Cada punto k dimensional es representado por una función en un rango de -Π
<t< Π para permitir la representación de los datos y X = X1, X2, ...Xk representa el vector de observaciones.

Planteamiento matemático para varias dimensiones

en un rango de -π ≤ t ≤ π
EJEMPLO

LOS VALORES ATÍPICOS APARECEN COMO CURVAS


Ejemplo:ÚNICAS DE ANDREWS (DIFERENTE PATRÓN)

SUBGRUPOS DE DATOS SE CARACTERIZAN POR UN CONJUNTO DE CURVAS SIMILARES

EL ORDEN DE LAS VARIABLES ES MUY IMPORTANTE PARA LA INTERPRETACIÓN, Y SE PUEDE OPTIMIZAR EL ORDEN MEDIANTE
EL ANÁLISIS DE COMPONENTES PRINCIPALES
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.7 GRÁFICOS HEXAGONALES.

En geometría, un hexágono es un polígono con seis aristas y seis


vértices.
El agrupamiento hexagonal es un tipo de histograma bivariado
con bordes hexagonales. Es útil para visualizar la estructura de
conjuntos de datos que implican un gran número de observaciones
n.

El concepto de agrupamiento hexagonal es el siguiente:


1. El plano xy sobre el conjunto (rango (x), rango (y)) está teselado por una cuadrícula regular
de hexágonos.
2. Se cuenta el número de puntos que caen en cada hexágono.
3. Los hexágonos con recuento> 0 se trazan usando una rampa de color o variando el radio del
hexágono en proporción a los recuentos.
Características:
• El agrupamiento
hexagonal es un tipo de
histograma bivariado
que se utiliza para
visualizar datos grandes

• Los hexágonos tienen la


propiedad de “simetría
de los vecinos más
cercanos” que carecen
de casillas cuadradas

• La varianza y el sesgo
varían en direcciones
opuestas con el ancho
del contenedor
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS
MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y
GRÁFICAS PARA EL ANÁLISIS
EXPLORATORIO DE DATOS
1.1.8 GRÁFICOS DE COORDENADAS
PARALELAS.

Datos cuantitativos y cualitavos.


Comparacion de variables.
Grafica individual a una ojiva.
Cada punto del eje x representa una
variable y normalmente tiene su
propia escala.
De no ser bien utilizada llega a ser
confusa. "Error del tallarin"
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.9 BOSTON HOUSING.

 Los datos de la vivienda contienen 506 secciones censales de Boston del censo de 1970.

 El conjunto de datos de Boston Housing fue analizado por Harrison y Rubinfeld (1978), quienes querían saber si el "aire limpio" influía en
los precios de la vivienda.
 Cuenta con 14 variables.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.9 BOSTON HOUSING.
Parallel coordinates plot para Boston datos de
vivienda
• Las Líneas Rojas corresponde a las
observaciones mayor a la mediana de
X14(MEDV) para destacar las relaciones con
las 13 variables restantes.
• Existe una relación de dependencia negativa
entre X12 Y X14 ya que no se dibujan líneas
rojas en la parte inferior de X12.
• Sucede lo contrario en la variable X11, que
hay solo líneas rojas trazadas en la parte
inferior.
• Se observa que las variables X1 y X9 están
concentrados alrededor de 0.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.9 BOSTON HOUSING.
 TRANSFORMACIONES

Dado que la mayoría de las variables presentan una asimetría con mayor densidad en el lado izquierdo, se
proponen las siguientes transformaciones:
Tomar el logaritmo o elevar las variables a la potencia de algo menor
que uno ayuda a reducir la asimetría.
Esto se debe al hecho de que los valores más bajos se alejan
más entre sí, mientras que la distancia entre valores mayores se reduc
e por estas transformaciones.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL Matrices y vectores
1.2.1 OPERACIONES ELEMENTALES.
especiales
Se define a una matriz como un sistema de
números con n filas y p columnas

• Nos referimos a un elemento de la


matriz de la siguiente forma
• Una Matriz la podemos representar
con una letra mayúscula o
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.1 OPERACIONES ELEMENTALES.

OPERACIONES CARACTERÍSTICAS DE LA MATRIZ


ELEMENTALES • Rango.
El rango, rank(A), de una matriz se define como el número
máximo de filas (columnas) linealmente independientes
• Traza.
La traza de una matriz es la suma de sus elementos
diagonales.
• Determinante.
• Transpuesta.
PROPIEDADES DE LAS Para y ; y
OPERACIONES DE • Inversa.
MATRICES • Inversa generalizada.
Un concepto más general es el G-inverso (inverso generalizado) A
que satisface la siguiente:
• Eigenvalores
• Eigenvectores
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.1 OPERACIONES ELEMENTALES.
CARACTERÍSTICAS DE LA MATRIZ
• Determinante.
El proceso de encontrar el valor de un determinante se conoce como evaluación, expansión o reducción del
determinante. Esto se logra al manipular los elementos de la matriz en una forma bien definida.
Propiedades de los determinantes
1. Una matriz cuyo determinante tiene un valor de cero se denomina matriz singular, mientras que aquélla con un determinante
diferente de cero se denomina matriz no singular. No hay inversa de una matriz como la recién definida para una matriz singular.
2. Si todos los elementos de cualquier renglón de A son cero, su determinante es cero.
3. ; es decir, los determinantes de A y de A traspuesta son los mismos.
4. El intercambio de dos renglones cualesquiera o de dos columnas cualesquiera de una matriz A cambian el signo de .
5. Si cada elemento de un renglón o de una columna de A se multiplica por un escalar λ, entonces se multiplica por λ.
6. Si dos renglones o columnas de una matriz son idénticas, su determinante es cero.
7. Si un renglón o una columna de una matriz es un múltiplo de otro renglón o columna de esa matriz, su determinante es cero.
8. ; es decir, el determinante del producto de dos matrices es el producto de sus determinantes (individuales).
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.1 OPERACIONES ELEMENTALES.
CARACTERÍSTICAS DE LA MATRIZ
• Inversa.
Si A es cuadrada y no singular (es decir,), su inversa se encuentra de la siguiente
manera:

Los pasos comprendidos en el cálculo son los siguientes:


1. Encontrar el determinante de A. Si es diferente de cero, proceda al paso 2.
2. Remplazar cada elemento de A por su cofactor para obtener la matriz de cofactores.
3. Trasponer la matriz de cofactores para obtener la matriz adjunta.
4. Dividir cada elemento de la matriz adjunta por .
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.1 OPERACIONES ELEMENTALES.
PROPIEDADES DE LAS CARACTERÍSTICAS DE LA MATRIZ
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.2 DESCOMPOSICIÓN ESPECTRAL.

Las matrices reales simétricas de dimensión n × n satisfacen lo que se conoce como teorema de descomposición espectral o
descomposición de Jordan, que permite escribir (descomponer) éstas como una suma de n matrices derivadas a partir de sus valores
y vectores propios, es decir en las direcciones de los vectores propios con coeficientes que dependen de los valores propios.

Teorema Descomposición de Jordan


Cada matriz A simétrica (nxn) puede escribirse como:

Esta descomposición puede escribirse

De donde resulta que descompone la matriz A como suma de n matrices de rango uno u iu’i con coeficientes λi.
EJEMPLO
Estos tres vectores forman una base de R3; además, es fácil comprobar que también forman un conjunto
ortogonal. Si en lugar de usar estos vectores para obtener la matriz U en el proceso de diagonalización, usamos los
vectores unitarios correspondientes
LA DESCOMPOSICIÓN DE JORDAN DA UNA REPRESENTACIÓN DE UNA MATRIZ SIMÉTRICA EN
TÉRMINOS DE VALORES Y VECTORES PROPIOS
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.2 DESCOMPOSICIÓN ESPECTRAL.
Descomposición de Valores Singulares

donde U es una matriz con columnas ortogonales de m × n, V es una matriz ortogonal


de n × n, y Σ una matriz “diagonal” de n × n

Autovalores
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.2 DESCOMPOSICIÓN ESPECTRAL.

Vectores Unitarios
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.2 DESCOMPOSICIÓN ESPECTRAL.

Producto
Suma
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.3 FORMAS CUADRÁTICAS.

• Aplicacion de Valores y Vectores propios. Definición


• Estudios de optimización
• Polinomio de 2do grado n variables.

Ejemplo de la Forma Cuadrática

Cambio de Variable
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.4 DERIVADAS.

La "matriz hessiana" de una función multivariable f(x,y,z,…), organiza todas las derivadas parciales de segundo
orden en una matriz:
Entonces, dos cosas que hay que notar aquí son:
• Este objeto matemático solo tiene sentido para funciones
escalares.
• Este objeto Hf es una matriz ordinaria; es una matriz cuyas
entradas son funciones. En otras palabras, está hecha para
evaluarse en algún punto
Ejemplo: calcular la matriz hessiana en el punto (1,2)

Necesitamos las derivadas parciales de segundo orden de f es por ello


que lo primero a calcular son las de primer orden.
Formamos la matriz

Evaluamos en el punto (1,2)


USOS
Al capturar toda la segunda derivada ordinaria en cálculo de una sola variable. De manera más notable,
aparece en estos dos casos:
 Aproximaciones cuadráticas de funciones multivariables, que es un poco como una expansión de Taylor
de segundo orden, pero para funciones multivariables.
 El criterio de la segunda derivada, que te ayuda a encontrar el máximo o el mínimo de una función
multivariable.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.5 MATRIZ PARTICIONADA.
Una matriz particionada es una matriz de matrices, ésta puede representar divisiones reales o imaginarias dentro de
una matriz.
Dada una matriz A= [aij]m×n; mediante un sistema de rectas horizontales o verticales se puede "particionarla" en
submatrices de A (Matriz particionada), como se ilustra en el siguiente ejemplo:
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.5 MATRIZ PARTICIONADA.

Suma de una matriz particionada


Sea A y B matrices de igual orden y particionadas de la misma forma, entonces la suma
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.5 MATRIZ PARTICIONADA.
Multiplicación de matrices particionadas
Las matrices particionadas se pueden multiplicar utilizando la regla fila-columna como si las entradas del bloque
fueran escalares, siempre que para un producto AB, la partición por columnas de A equivalga a la partición por
filas de B.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.5 MATRIZ PARTICIONADA.
Inversa de matrices particionadas

Transpuesta de matrices particionadas


Para calcular la traspuesta de una matriz particionada, se traspone cada bloque como si fuesen escalares, y luego se
traspone cada uno de los bloques
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.

Distancia

Sea .Una distancia d es definida como una función:

 Se define la distancia euclidiana d(A,B) entre los puntos A y B


ubicados sobre una recta, como:
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.

Norma de un vector

• Se denomina norma o longitud de un vector a .Se notará por .

Propiedades:
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.

Ángulo entre dos vectores


UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.

Rotaciones
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.3. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
1.3.1 NIVELES DE MEDIDA DE LAS VARIABLES

 El tipo de escala utilizado para medir una variable es fundamental en la elección y aplicación
correcta del análisis multivariante.

 Según Stevens (1946) las escalas de medida pueden clasificarse en cuatro tipos: nominales,
ordinales, de intervalo y de razón.

1.3.1. Escala Nominal

 Los números asignados a cada característica se comportan como


etiquetas.
 Es totalmente inapropiado calcular estadísticos como la media o la
varianza de una variable nominal.
 Una exigencia básica es que las categorías sean mutuamente
excluyentes y exhaustivas.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.3. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
1.3.1 NIVELES DE MEDIDA DE LAS VARIABLES

1.3.2. Escala Ordinal

 Además de distinguir entre valores, establece un orden entre ellos.

 Los estadísticos que pueden calcularse en este tipo de escalas son las
medianas, percentiles, recuentos de frecuencias, moda.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.3. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
1.3.1 NIVELES DE MEDIDA DE LAS VARIABLES

1.3.3. Escala de intervalo


UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.3. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
1.3.1 NIVELES DE MEDIDA DE LAS VARIABLES

1.3.3. Escala de razón


UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.3. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO
1.3 NIVELES DE MEDIDA DE LAS VARIABLES

1.3.2 TÉCNICAS DE ANÁLISIS DE INTERDEPENDENCIA

• ¿Nuestra investigación responde a un problema de dependencia


entre variables o interdependencia entre las mismas?
• ¿Cómo están medidas las variables implicadas, en escalas
métricas o no métricas?
• Si estamos en un problema de dependencia. ¿Cuántas variables
dependientes existen?
1.3.1 TÉCNICAS DE ANÁLISIS DE DEPENDENCIA
Las Técnicas de análisis de dependencia buscarán la existencia o ausencia de relaciones entre los dos grupos de
variables. Si el investigador clasifica los dos grupos de variables en dependientes e independientes, entonces el
objetivo de las técnicas de dependencia será establecer si el conjunto de variables independientes afecta al
conjunto de dependientes de manera conjunta o individualmente.
El análisis de regresión lineal múltiple se empleará cuando se pretenda analizar la relación existente entre una
variable dependiente métrica y un conjunto de variables independientes que pueden o no ser métricas:

En el caso de que la variable dependiente no sea métrica ya no se puede recurrir a una regresión lineal y se
optará por el análisis discriminante o la regresión de variable dependiente limitada.
TÉCNICAS DE ANÁLISIS DE INTERDEPENDENCIA
Componente
principal
Métricas

Análisis factorial
Relación entre variables

No métricas Análisis correspondencias

Técnicas de análisis
de interdependencia

Relación entre casos Análisis conglomerados

Escalamiento
Relación entre objetos
multidimensional
 El análisis de componentes principales: Técnica de reducción de datos que construye combinaciones
lineales de las variables originales que expliquen la mayor parte posible de la información recogida de las
variables originales.
 El análisis factorial: Establecer que causas latentes (factores) pueden estar causando la correlación entre las
variables observadas.
 El análisis de conglomerados: No se agrupa variables si no observaciones de los grupos, de tal forma que
las observaciones de cada grupo sean parecidas respecto a las variables que se utilizaron para agrupar.
 El análisis de escalamiento multidimensional: Permite aflorar los criterios subyacentes que utilizan los
individuos para considerar que distintos objetos son parecidos o distintos.
 El análisis de correspondencia: Permite visualizar gráficamente las tablas de contingencia
Valores Perdidos
• Producidos por:
• Cuestionarios mal diseñados.
• Factores externos.
• Errores en la introduccion de los datos.
• El no tratar los datos causa sesgos.
• No todos los NA son valores perdidos.

EJEMPLO
¿Existe un Patron?

OPCIÓN 1 OPCIÓN 2

MCAR
SOLUCIONES SI existe un patrón es dificil solucionar el
problema
Eliminar Registros Procesos de Imputación

Los procesos de imputacion deben ser


seleccionados dependiendo del caso y de los
datos obtenidos por le investigador
INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
1.4 PROCESO DE APLICACIÓN DE UNA TÉCNICA MULTIVARIANTE
Las técnicas multivariantes son de manera general herramientas eficaces que permiten al investigador extraer mucha
información de los datos disponibles. Estas técnicas pueden ser un tanto complejas por lo que se requiere conocimientos
profundos de sus fundamentos y condiciones de aplicabilidad.
A continuación se presenta una serie de pasos para lograr la aplicación correcta de las técnicas multivariantes y facilite
llegar a conclusiones razonables

Definición del
Análisis de Estimación del
problema, objetivo Desarrollo del plan Interpretación de Validación del
condiciones de modelo y ajuste
y decisión de de análisis resultados modelo
aplicabilidad global
técnica
INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
1.4 APLICACIÓN DE UNA TÉCNICA MULTIVARIANTE

Paso 1: Definición del problema que se está investigando, sus


objetivos y decisión sobre la técnica multivariante que se debe
utilizar
• El investigador debe analizar conceptualmente su objeto de investigación, definir los
conceptos e identificar las relaciones fundamentales que se quiere investigar.

Paso 2: Desarrollo del plan de análisis


• Se centra en aplicar adecuadamente la técnica elegida, lo que se refiere básicamente a los
tamaños muestrales mínimos que permiten su aplicación y medir las variables con escalas
oportunas

Paso 3: Análisis de las condiciones de aplicabilidad de la técnica


elegida
• Una vez recogidos los datos, es necesario conocer las hipótesis en las cuales se basan las
técnicas multivariantes, sino cumplen hace que carezca de sentido aplicarlas. Por ejemplo,
en las técnicas de dependencia es necesario que los datos cumplan hipótesis de
normalidad, linealidad, independencia del termino de error y homoscedasticidad.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
1.4 APLICACIÓN DE UNA TÉCNICA MULTIVARIANTE

Paso 4. Estimación del modelo multivariante y ajuste global del


mismo.
• Se aplica la técnica multivariante elegida y hay que fijarse si el nivel de bondad del ajuste
es adecuado. Si no es así se debe Re especificar el modelo, añadiendo o eliminando
variables. Nota: no todos las técnicas tienen indicadores de bondad de ajuste.

Paso 5: Interpretación de los resultados


• Después de aceptar un nivel de ajuste que sea aceptable, se debe interpretar el modelo,
para esto hay que observar los coeficientes, cargas factoriales, utilidades, etc, de las
variables individuales.
• La interpretación del modelo puede conducir a nuevas re especificaciones

Paso 6: Validación del modelo


• Antes de aceptar los resultados se debe aplicar una serie de técnicas de diagnóstico que
aseguren que los resultados se pueden generalizar a la población
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
OUTLIERS
Los outliers o casos atípicos son aquellos casos para los que una, o múltiples variables toman valores extremos que los
hacen diferir del comportamiento del resto de la muestra y sospechar al investigador que han sido generados por
mecanismos distintos al resto.
¿Por qué es importante detectar los valores atípicos?
• Distorsionan los resultados al oscurecer el patrón de comportamiento del resto de casos y obtenerse conclusiones
que , sin ellos, serían completamente distintas
• Pueden afectar gravemente a una de las condiciones de aplicabilidad más habituales de la mayor parte de técnicas
multivariantes, la normalidad
Las causas que generan la existencia de valores atípicos en un fichero de datos son:
• Errores en los datos: tanto en su recogida como en la introducción de los mismos en la base de datos.
• Errores intencionados en la contestación al cuestionario por parte del entrevistado
• Errores en el muestro que se concretan en introducir en la muestra a individuos pertenecientes a una población
distinta a la objetivo
• Outliers legítimo, es decir, casos pertenecientes a la población objetivo que se quería muestrear pero que por la
variabilidad inherente a las muestras difieren del resto en sus opiniones, actitudes y comportamientos
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.1 DETECCIÓN UNIVARIANTE DE CASOS

Un investigador desea saber cuales son las


causas que explican la distinta remuneración
de los altos directivos de las empresas

Para la detección de un cas atípico se debe considerar aquellos casos cuyo valor estandarizado de la variable
analizada (Zi) supere un umbral determinado. Al estandarizar la variable x mediante la siguiente expresión:
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.1 APLICACIÓN DE UNA TÉCNICA MULTIVARIANTE

Por lo tanto para establecer si un valor es atípico es necesario determinar el umbral que debe superar y que
normalmente se exprese en número de desviaciones, típicas k, Así que será un valor atípico si su valor
estandarizado zi

Dato que son valores estandarizados, la media es 0 y la desviación típica 1

Lo normal es considerar que k=2,5 para muestras pequeñas (menos de 80 casos) y k=3 o k=4 para
muestras mayores
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.1 APLICACIÓN DE UNA TÉCNICA MULTIVARIANTE

TEST DE GRUBBS
Parte de la hipótesis nula de que no hay casos atípicos entre los datos, se calcula el estadístico G

Como 4,15> 3,38, rechazamos la hipótesis nula de ausencia de outliers, se realizaría este proceso con cada uno de los
registros de la base
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.2 DETECCIÓN BIVARIANTE DE CASOS ATÍPICOS

Detección bivariante de casos atípicos


La detección bivariante tienen
utilidad cuando se va a realizar algún
análisis en el cual la variable vaya
actuar como dependiente, de esa
forma podemos realizar una
inspección de la relación que cada
independiente guardará
previsiblemente con ella.
El proceso para la detección de los
casos atípicos es realizando un
gráfico de dispersión y realizando
una regresión simple
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.2 DETECCIÓN BIVARIANTE DE CASOS ATÍPICOS

Podemos observer en los gráficos 2.2, 2.3 y 2.4 que los casos 14,82,7 y 89
son casos atípicos bivariantes, pues sistemáticamente aparecen como tales
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.3. DETECCIÓN MULTIVARIANTE DE CASOS ATÍPICOS.

 Un procedimiento bastante intuitivo consiste en calcular la distancia de cada caso al


centroide del conjunto de datos, en donde, cuanto más lejos este un caso de la media de los
casos más probable es que sea un caso atípico.
 La distancia mas empleada en la detección de casos atípicos es la distancia de Mahalanobis
(D):
 En estadística, la distancia de Mahalanobis es una medida de distancia introducida por
Mahalanobis en 1936. Su utilidad radica en que es una forma de determinar la similitud
entre dos variables aleatorias multidimensionales. Se diferencia de la distancia euclídea en
que tiene en cuenta la correlación entre las variables aleatorias.
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.3. DETECCIÓN MULTIVARIANTE DE CASOS ATÍPICOS.
Caso 2.3.
Sea X la matriz de datos formada por n=10 casos y m=5 variables donde quiere detectarse la existencia de casos
atípicos. Deseamos saber cuánto dista cada caso del centroide de los datos, es decir, del vector de medias de las
variables implicadas que denotaremos como que se transforma en una matriz de nxm repitiendo el vector de medias 1 x
n en las m filas de esa matriz para que la resta con X se compatible.
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.3. 
DETECCIÓN MULTIVARIANTE
El Cuadrado DE CASOS ATÍPICOS.
de la distancia de Mahalanobis () se obtiene como sigue:

En donde es la inversa de la matiz de covarianzas de que se obtiene:

SOLUCIÓN:
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.3. DETECCIÓN MULTIVARIANTE DE CASOS ATÍPICOS.

𝑫 𝟐 = 𝒅𝒊𝒂𝒈 { [ 𝑿 − 𝑿 ] 𝑺 −𝟏 [ 𝑿 − 𝑿 ] ′ } =¿

 Para realizar una mejor interpretación a continuación se muestra la sintaxis R que


facilita la interpretación de los datos:
Para determinar si alguno de los 10 casos específicos es un outlier, dado
que la de Mahalanobis se distribuye como una con tantos grados de
libertad como variables implicadas -5 en nuestro caso-, bajo la hipótesis
nula (Ho= El caso i no es un caso atípico), se toma las siguientes
consideraciones:
- A la hora de clasificar un caso como outlier, recomendado clasificarlo
como tal solo cuando la significatividad del test sea p<0,01.
- Se recomienda seguir las tablas proporcionadas por Barnett y Lewis
(1994), donde para un N=500 con 5 variables, valores de la superiores a
25 considerarse como outliers, con N=100 un superior a 15, y para
muestras muy reducidas de N=30 un superior a 11.
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1. NORMALIDAD

Normalidad
Sharma (1996) plantea el siguiente razonamiento para justificar la relevancia de comprobar la normalidad univariante y
multivariante de las variables implicadas en el análisis.
Cuando se pretende contrastar una hipótesis nula se puede tener 2 tipos de errores

Error tipo I (α): Probabilidad de equivocarnos al rechazar la hipótesis nula

Por lo general el investigador elige un nivel estándar para el error (0.05)


Si se repitiera infinidad de veces el estudio, nos equivocaríamos un 5% de veces al rechazar la hipótesis nula, Sin embargo, si
se está violando algún supuesto del modelo, eje: normalidad, el número de veces que nos estaríamos equivocando seria
mayor al 5%

Error tipo II (β): Probabilidad de no rechazar la hipótesis nula cuando esta es, de hecho, falsa

Se define el test como , es la probabilidad de acertar al rechazar la hipotesis nula cuando esta es falsa, Mientras más
baja la potencia de un test se reduce la posibilidad de encontrar resultados significativos
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1. NORMALIDAD

 Ambas variables pueden verse afectadas por la violación de hipótesis subyacentes, la violación de hipótesis de
normalidad no tiene un efecto apreciable sobre el error tipo I pero si es importante sobre el error tipo II.
Contrastar la normalidad univariante antes que la normalidad multivariante
1) Los test multivariantes son más complejos y se entienden mejor viendo los univariantes
2) Es posible que sean todas las variables univariantes normales, pero no lo sean multivariantemente, por lo que es
difícil que la no normalidad multivariante no sea detectada a través de la no normalidad univariante.
3) Si la distribución no es multivariante normal, entonces se debe indagar que variables están causando este
problema.
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1. NORMALIDAD
A. ANALISIS UNIVARIANTE DE LA NORMALIDAD

Análisis univariante de la normalidad.


Primero se debe analizar la asimetría y la
curtosis de las distribuciones de cada
variable, Cuando una distribución es
normal, los valores de asimetría y
curtosis son cero (Paquetes estadísticos
toman cero como referencia)
Para contrastar si el coeficiente de asimetría
(A) o el de curtosis (C) es o no
estadísticamente distinto de cero, se calcula
la probabilidad de que sus valores
estandarizados ZA y ZC que se distribuyen
según una N(0,1), Nivel de significancia=
0.01 (Datos 2.3)
GRAFICAS Q-Q
Otra alternativa para establecer normalidad es el
recurso de los gráficos Q-Q. que se obtiene de la
siguiente manera:

• Se ordenan de menor a mayor los n valores


de las variables analizadas

• La proporción de observaciones que son


inferiores a Xj, se estiman mediante la
expresión (j-0,5)/n, donde 0,5 es un factor de
corrección

• Los valores anteriores se asumen que son los


niveles de probabilidad de la función de
La relación lineal no es muy
distribución normal acumulativa evidente para cualquier caso, los
estandarizada si los datos siguen una normal. gráficos Q-Q no son útiles salvo
para muestras de cierto tamaño,
n<20por lo que se recomienda
calcular el coeficiente de
correlación entre la muestra (Xj) los
niveles de probabilidad de la
normal estandarizada y compararlo
con los valores críticos.
Calculando el coeficiente de correlación que seria 0,914 comparamos con el valor critico para
n=10, se constata la aceptación de la hipótesis de normalidad para p<0,01 (coeficiente superior
al valor critico)
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1.B. ANÁLISIS MULTIVARIANTE DE LA NORMALIDAD

Hasta ahora se han mostrado métodos que permiten contrastar la hipótesis de normalidad para cada una de las variables observables
consideradas por separado. El siguiente paso es que se debe verificar que las variables observadas siguen de forma conjunta una
distribución normal multivariante. En este sentido, el que cada una de estas variables verifique normalidad univariante resulta ser una
condición necesaria pero no suficiente para que conjuntamente sigan una normal multivariante (si la distribución conjunta es normal
multivariante, cada una de las marginales es una normal univariante, pero no a la inversa).

Por este motivo, una vez comprobada la normalidad de cada una de las variables observadas consideradas individualmente, se hace necesario
también contrastar la hipótesis de normalidad multivariante.

Según Sharma (1996) hay pocos tests para el contraste de la normalidad multivariante.

El método gráfico es similar al que se utiliza para la normalidad univariante (gráfico ji-cuadrado). Mientras que los tests: Mardia-curtosis,
Mardia-apuntamiento y Henze –Zirlker, Royston están operativizados en muy pocos paquetes estadísticos además su distribución no es muy
bien conocida por lo que se tienen una utilidad limitada.
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1.B. ANÁLISIS MULTIVARIANTE DE LA NORMALIDAD
Construcción gráfico Ji-Cuadrado

1) Se calculan las distancias de Mahalanobis (D2) para todas las


variables cuya normalidad multivariante se desea contrastar.

2) Para cada distancia se calcula el percentil donde n es el número de


casos

3) Se calculan los valores X2 de los percentiles de una distribución X2


con p grados de libertad, donde p es el número de variables
implicadas

4) Se representa en un gráfico de dispersión el cuadrado de la distancia


de Mahalanobis y el valor X2. La relación debería ser lineal (y=x)

Cuando no es evidentemente lineal se puede calcular el coeficiente de


correlación entre las variables relacionadas en el gráfico y comparar
con los valores críticos (p)

El paquete de R, MVN, permite calcular los test Mardia, Henze-


Zirkler, Royston de una manera sencilla
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1.B. ANÁLISIS MULTIVARIANTE DE LA NORMALIDAD
Test Mardia

Test Henze-Zirkler
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1.B. ANÁLISIS MULTIVARIANTE DE LA NORMALIDAD
Test Royston

NOTA: No aplique la prueba de Royston, si el conjunto de datos incluye más de 5000 casos o menos de 3 casos

El problema se presenta cuando no se puede verificar la normalidad univariante o multivariante, la pregunta es ¿qué hacer? La
respuesta es transformar los valores originales, sin embargo la transformación depende del problema de asimetría o curtosis
que cause la no normalidad.
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1.B. ANÁLISIS MULTIVARIANTE DE LA NORMALIDAD
Test Royston
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD

Datos no agrupados: La variabilidad de los valores de


una variable continua, se mantienen mas o menos
constante para todos los valores de otra variable
continua.

HOMOCEDASTICIDAD
Datos agrupados: La varianza de la variable continua
 Homo = igual es mas o menos la misma en todos los grupos que
 Cedasticidad = dispersión conforma la variable no métrica que delimita los
grupos

 Una varianza constante nos permite disponer de modelos mas fiables, puede ser comprobada mediante un grafico de dispersión, un
diagrama de caja y bigotes o mediante pruebas de significancia
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD

 El gráfico de dispersión de los datos


es la prueba mas simple y visual de la
homocedasticidad de los mismos
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD

 Ejemplo

 Generamos dos vectores y comprobamos sus varianzas  2° Test: F test

 1° Test: Visual
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD

 2° Test: F test

 3° Test:Bartlet
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD

 4° Test: Levene
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD

 5° Test: Fligner-Killeen
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.4. INDEPENDENCIA DE LAS OBSERVACIONES

Se consideran que dos observaciones son independientes cuando los valores que toman las variables de ese caso no se ven
influidas por las observaciones que hayan tomado en otro caso.
Por ejemplo en investigación de mercados podría concretarse en que las respuestas dadas en un cuestionario por un individuo
no influye en las que dará otro, lo que no siempre es sencillo. Si se envía un cuestionario por correo a una familia esperando
que lo contesten dos cónyuges es difícil creer que las respuestas serán independientes, que no se van a consultar juntos el
cuestionario, ni comentarlo entre ellos.
Sharma indica que la influencia que tiene la violación del supuesto de independencia sobre los niveles de significancia y la
potencia de las pruebas es muy importante. Si las observaciones no son independientes, el nivel de significación de las pruebas
debería incrementarse al menos 10 veces, es decir rechazar la hipótesis nula a partir de p <0,005 y no de p<0,05 como se lo
hace habitualmente.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.2 MEDIDAS DE CENTRALIZACIÓN.

Las medidas de centralización escalares basadas en el orden de las observaciones no pueden generalizarse facilmente al caso
multivariante. Por ejemplo, podemos calcular el vector de medianas, pero este punto no tiene necesariamente una situacion como
centro de los datos. Esta dificultad proviene de la falta de un orden natural de los datos multivariantes.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.2 MEDIDAS DE CENTRALIZACIÓN.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.3 MEDIDAS GLOBALES DE VARIABILIDAD.

Inconveniente: No considera la estructura de dependencia entre las


variables
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.3 MEDIDAS GLOBALES DE VARIABILIDAD.
3) Varianza Generalizada
Se define como el determinante de la matriz de varianzas
y covarianzas es decir:

Propiedades:
- Esta bien definida, ya que el determinante de la matriz
es siempre negativo
- Es una medida del área ( para p=2), volumen (para p=3)
o hipervolumen (para p>3) ocupado por el conjunto de
datos.
Como el determinante es el producto de los valores
propios, la varianza efectiva es la media geométrica de
los valores propios, que por ser semidenifinda positiva
serán siempre no negativos
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS

El concepto de Distancia
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS

Distancias de Minkowski.
Se define en función de un parámetro r:
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS

Distancia de Mahalanobis
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS

Distancia de Mahalanobis
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS

Distancia Promedio
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL

También podría gustarte