Introducción al Análisis Multivariante
Introducción al Análisis Multivariante
El análisis multivariante es una parte de la estadística y del análisis exploratorio de datos que estudia,
analiza, representa e interpreta los datos que resultan de observar más de una variable estadística sobre
una muestra de individuos. Las variables observables son homogéneas y correlacionadas, sin que alguna
predomine sobre las demás. La información estadística en este análisis es de carácter multidimensional, por
lo tanto, la geometría, el cálculo matricial y las distribuciones multivariantes juegan un papel fundamental.
La información multivariante es una matriz de datos de nxp, pero a menudo, en el análisis multivariante la
información de entrada consiste en matrices de distancias o similaridades, que miden el grado de
discrepancia entre los individuos. Esta técnica estadística se basa en matrices de datos nxp; siendo n el
número de individuos y p el número de variables
ANÁLISIS MULTIVARIANTE I
CONTENIDOS:
EVALUACIÓN.
En caso de volver a la educación presencial la evaluación será acorde lo que indica el sílabo de la asignatura
UNIDAD 1.
INTRODUCCIÓN AL
ANÁLISIS
MULTIVARIANTE
¿Existen combinaciones lineales "de baja dimensión" de X que muestran un compor
donde , para es una variable aleatoria unidimensional. ¿Cómo comenzamos a analizar este tipo de datos?
Antes de investigar preguntas sobre las inferencias que podemos obtener de los datos, debemos pensar en
cómo mirar los datos. Esto involucra técnicas descriptivas. Las preguntas que podríamos responder mediante
técnicas descriptivas son:
• ¿Hay componentes de X que están más dispersos que otros?
• ¿Hay algunos elementos de X que indiquen subgrupos de datos?
• ¿Hay valores atípicos en los componentes de X?
• ¿Qué tan “normal” es la distribución de los datos?
• ¿Hay combinaciones lineales "de baja dimensión" de X que muestren "no normales"?
¿comportamiento?
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.1 DIAGRAMA DE CAJA
El diagrama de caja es una técnica gráfica que muestra la distribución de variables. Ayuda a ver la ubicación, asimetría, extensión, longitud
de la cola y los puntos periféricos.
Dibuja la mediana como una línea sólida y la media como una línea de puntos.
Dibuja "bigotes" desde cada extremo de la caja hasta el punto más remoto que NO es
un valor atípico.
Los gráficos de dispersión son gráficos bivariados o trivariados de las variables entre sí. Nos ayudan a entender las relaciones
entre las variables de un conjunto de datos. En este sentido, las variables se representan como un punto en el plano cartesiano y
de acuerdo a la relación que exista entre ellas, definimos su tipo de correlación.
Con base en el comportamiento que toman las variables de estudio, podemos encontrar 3 tipos de correlación: Positiva, negativa y
nula.
• Correlación positiva
Se presenta cuando una variable aumenta o disminuye y la otra también, respectivamente. Hay una relación proporcional.
Por ejemplo para un vendedor de carros, si él vende más carros (variable 1), va a ganar más dinero (variable 2).
• Correlación negativa
Se presenta cuando una variable se comporta de forma contraria o a la otra, es decir que si una variable aumenta, la otra disminuye. Hay una
relación inversa proporcional. Por ejemplo para la construcción de un edificio, entre más trabajadores estén construyendo un edificio
(variable 1), menos tiempo se necesitará para tenerlo listo (variable 2)
• Correlación nula
Los productos con mayor cantidad de calorías más parecidos (altura de la cara) , son : el cuarto de libra con queso, el Big Mac y la
McNífica.
En el contenido de grasas (ancho de la cara) los más parecidos son el Big Mac y el Cuarto de Libra con Queso.
En el contenido de proteína (altura de la boca) el más bajo es la Hamburguesa simple y los mayores son cuarto de libra con queso y Mc
Royal bacon con queso.
En el contenido de colesterol (ancho de la boca), el que menos tiene es la hamburguesa simple y los que más tienen es el cuarto de libra
con queso y el Mc Royal.
En el contenido de sodio (sonrisa), el Mc Pollo es el que tiene menos y los que más tienen son el cuarto de libra con queso y el Mc royal
Bacon con queso.
En base a todas las características, las tres hamburguesas más parecidas son: Cuarto de libra con queso, Big Mac y Mc Royal.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.6 CURVAS DE ANDREW.
Andrews propuso un método basado en la transformación de Fourier para representar datos multivariantes en dos dimensiones, sugirió la idea
de codificar y representar datos multivariados mediante curvas. Cada punto k dimensional es representado por una función en un rango de -Π
<t< Π para permitir la representación de los datos y X = X1, X2, ...Xk representa el vector de observaciones.
en un rango de -π ≤ t ≤ π
EJEMPLO
EL ORDEN DE LAS VARIABLES ES MUY IMPORTANTE PARA LA INTERPRETACIÓN, Y SE PUEDE OPTIMIZAR EL ORDEN MEDIANTE
EL ANÁLISIS DE COMPONENTES PRINCIPALES
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.7 GRÁFICOS HEXAGONALES.
• La varianza y el sesgo
varían en direcciones
opuestas con el ancho
del contenedor
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS
MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y
GRÁFICAS PARA EL ANÁLISIS
EXPLORATORIO DE DATOS
1.1.8 GRÁFICOS DE COORDENADAS
PARALELAS.
Los datos de la vivienda contienen 506 secciones censales de Boston del censo de 1970.
El conjunto de datos de Boston Housing fue analizado por Harrison y Rubinfeld (1978), quienes querían saber si el "aire limpio" influía en
los precios de la vivienda.
Cuenta con 14 variables.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.9 BOSTON HOUSING.
Parallel coordinates plot para Boston datos de
vivienda
• Las Líneas Rojas corresponde a las
observaciones mayor a la mediana de
X14(MEDV) para destacar las relaciones con
las 13 variables restantes.
• Existe una relación de dependencia negativa
entre X12 Y X14 ya que no se dibujan líneas
rojas en la parte inferior de X12.
• Sucede lo contrario en la variable X11, que
hay solo líneas rojas trazadas en la parte
inferior.
• Se observa que las variables X1 y X9 están
concentrados alrededor de 0.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1. TÉCNICAS DESCRIPTIVAS Y GRÁFICAS PARA EL ANÁLISIS EXPLORATORIO DE DATOS
1.1.9 BOSTON HOUSING.
TRANSFORMACIONES
Dado que la mayoría de las variables presentan una asimetría con mayor densidad en el lado izquierdo, se
proponen las siguientes transformaciones:
Tomar el logaritmo o elevar las variables a la potencia de algo menor
que uno ayuda a reducir la asimetría.
Esto se debe al hecho de que los valores más bajos se alejan
más entre sí, mientras que la distancia entre valores mayores se reduc
e por estas transformaciones.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL Matrices y vectores
1.2.1 OPERACIONES ELEMENTALES.
especiales
Se define a una matriz como un sistema de
números con n filas y p columnas
Las matrices reales simétricas de dimensión n × n satisfacen lo que se conoce como teorema de descomposición espectral o
descomposición de Jordan, que permite escribir (descomponer) éstas como una suma de n matrices derivadas a partir de sus valores
y vectores propios, es decir en las direcciones de los vectores propios con coeficientes que dependen de los valores propios.
De donde resulta que descompone la matriz A como suma de n matrices de rango uno u iu’i con coeficientes λi.
EJEMPLO
Estos tres vectores forman una base de R3; además, es fácil comprobar que también forman un conjunto
ortogonal. Si en lugar de usar estos vectores para obtener la matriz U en el proceso de diagonalización, usamos los
vectores unitarios correspondientes
LA DESCOMPOSICIÓN DE JORDAN DA UNA REPRESENTACIÓN DE UNA MATRIZ SIMÉTRICA EN
TÉRMINOS DE VALORES Y VECTORES PROPIOS
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.2 DESCOMPOSICIÓN ESPECTRAL.
Descomposición de Valores Singulares
Autovalores
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.2 DESCOMPOSICIÓN ESPECTRAL.
Vectores Unitarios
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.2 DESCOMPOSICIÓN ESPECTRAL.
Producto
Suma
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.3 FORMAS CUADRÁTICAS.
Cambio de Variable
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.4 DERIVADAS.
La "matriz hessiana" de una función multivariable f(x,y,z,…), organiza todas las derivadas parciales de segundo
orden en una matriz:
Entonces, dos cosas que hay que notar aquí son:
• Este objeto matemático solo tiene sentido para funciones
escalares.
• Este objeto Hf es una matriz ordinaria; es una matriz cuyas
entradas son funciones. En otras palabras, está hecha para
evaluarse en algún punto
Ejemplo: calcular la matriz hessiana en el punto (1,2)
Distancia
Norma de un vector
Propiedades:
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
Rotaciones
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.2. ALGEBRA MATRICIAL
1.2.6 ASPECTOS GEOMÉTRICOS.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.3. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
1.3.1 NIVELES DE MEDIDA DE LAS VARIABLES
El tipo de escala utilizado para medir una variable es fundamental en la elección y aplicación
correcta del análisis multivariante.
Según Stevens (1946) las escalas de medida pueden clasificarse en cuatro tipos: nominales,
ordinales, de intervalo y de razón.
Los estadísticos que pueden calcularse en este tipo de escalas son las
medianas, percentiles, recuentos de frecuencias, moda.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.3. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
1.3.1 NIVELES DE MEDIDA DE LAS VARIABLES
En el caso de que la variable dependiente no sea métrica ya no se puede recurrir a una regresión lineal y se
optará por el análisis discriminante o la regresión de variable dependiente limitada.
TÉCNICAS DE ANÁLISIS DE INTERDEPENDENCIA
Componente
principal
Métricas
Análisis factorial
Relación entre variables
Técnicas de análisis
de interdependencia
Escalamiento
Relación entre objetos
multidimensional
El análisis de componentes principales: Técnica de reducción de datos que construye combinaciones
lineales de las variables originales que expliquen la mayor parte posible de la información recogida de las
variables originales.
El análisis factorial: Establecer que causas latentes (factores) pueden estar causando la correlación entre las
variables observadas.
El análisis de conglomerados: No se agrupa variables si no observaciones de los grupos, de tal forma que
las observaciones de cada grupo sean parecidas respecto a las variables que se utilizaron para agrupar.
El análisis de escalamiento multidimensional: Permite aflorar los criterios subyacentes que utilizan los
individuos para considerar que distintos objetos son parecidos o distintos.
El análisis de correspondencia: Permite visualizar gráficamente las tablas de contingencia
Valores Perdidos
• Producidos por:
• Cuestionarios mal diseñados.
• Factores externos.
• Errores en la introduccion de los datos.
• El no tratar los datos causa sesgos.
• No todos los NA son valores perdidos.
EJEMPLO
¿Existe un Patron?
OPCIÓN 1 OPCIÓN 2
MCAR
SOLUCIONES SI existe un patrón es dificil solucionar el
problema
Eliminar Registros Procesos de Imputación
Definición del
Análisis de Estimación del
problema, objetivo Desarrollo del plan Interpretación de Validación del
condiciones de modelo y ajuste
y decisión de de análisis resultados modelo
aplicabilidad global
técnica
INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1. INTRODUCCION AL ANALISIS MULTIVARIANTE (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
1.4 APLICACIÓN DE UNA TÉCNICA MULTIVARIANTE
Para la detección de un cas atípico se debe considerar aquellos casos cuyo valor estandarizado de la variable
analizada (Zi) supere un umbral determinado. Al estandarizar la variable x mediante la siguiente expresión:
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.1 APLICACIÓN DE UNA TÉCNICA MULTIVARIANTE
Por lo tanto para establecer si un valor es atípico es necesario determinar el umbral que debe superar y que
normalmente se exprese en número de desviaciones, típicas k, Así que será un valor atípico si su valor
estandarizado zi
Lo normal es considerar que k=2,5 para muestras pequeñas (menos de 80 casos) y k=3 o k=4 para
muestras mayores
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.1 APLICACIÓN DE UNA TÉCNICA MULTIVARIANTE
TEST DE GRUBBS
Parte de la hipótesis nula de que no hay casos atípicos entre los datos, se calcula el estadístico G
Como 4,15> 3,38, rechazamos la hipótesis nula de ausencia de outliers, se realizaría este proceso con cada uno de los
registros de la base
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.2 DETECCIÓN BIVARIANTE DE CASOS ATÍPICOS
Podemos observer en los gráficos 2.2, 2.3 y 2.4 que los casos 14,82,7 y 89
son casos atípicos bivariantes, pues sistemáticamente aparecen como tales
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.3. DETECCIÓN MULTIVARIANTE DE CASOS ATÍPICOS.
SOLUCIÓN:
ANALISIS PREVIOS DE LOS DATOS
2.3 OUTLIERS: CASOS PERDIDOS (LIBRO ANALISIS MULTIVARIANTE APLICADO CON R)
2.3.3. DETECCIÓN MULTIVARIANTE DE CASOS ATÍPICOS.
𝑫 𝟐 = 𝒅𝒊𝒂𝒈 { [ 𝑿 − 𝑿 ] 𝑺 −𝟏 [ 𝑿 − 𝑿 ] ′ } =¿
Normalidad
Sharma (1996) plantea el siguiente razonamiento para justificar la relevancia de comprobar la normalidad univariante y
multivariante de las variables implicadas en el análisis.
Cuando se pretende contrastar una hipótesis nula se puede tener 2 tipos de errores
Error tipo II (β): Probabilidad de no rechazar la hipótesis nula cuando esta es, de hecho, falsa
Se define el test como , es la probabilidad de acertar al rechazar la hipotesis nula cuando esta es falsa, Mientras más
baja la potencia de un test se reduce la posibilidad de encontrar resultados significativos
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1. NORMALIDAD
Ambas variables pueden verse afectadas por la violación de hipótesis subyacentes, la violación de hipótesis de
normalidad no tiene un efecto apreciable sobre el error tipo I pero si es importante sobre el error tipo II.
Contrastar la normalidad univariante antes que la normalidad multivariante
1) Los test multivariantes son más complejos y se entienden mejor viendo los univariantes
2) Es posible que sean todas las variables univariantes normales, pero no lo sean multivariantemente, por lo que es
difícil que la no normalidad multivariante no sea detectada a través de la no normalidad univariante.
3) Si la distribución no es multivariante normal, entonces se debe indagar que variables están causando este
problema.
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1. NORMALIDAD
A. ANALISIS UNIVARIANTE DE LA NORMALIDAD
Hasta ahora se han mostrado métodos que permiten contrastar la hipótesis de normalidad para cada una de las variables observables
consideradas por separado. El siguiente paso es que se debe verificar que las variables observadas siguen de forma conjunta una
distribución normal multivariante. En este sentido, el que cada una de estas variables verifique normalidad univariante resulta ser una
condición necesaria pero no suficiente para que conjuntamente sigan una normal multivariante (si la distribución conjunta es normal
multivariante, cada una de las marginales es una normal univariante, pero no a la inversa).
Por este motivo, una vez comprobada la normalidad de cada una de las variables observadas consideradas individualmente, se hace necesario
también contrastar la hipótesis de normalidad multivariante.
Según Sharma (1996) hay pocos tests para el contraste de la normalidad multivariante.
El método gráfico es similar al que se utiliza para la normalidad univariante (gráfico ji-cuadrado). Mientras que los tests: Mardia-curtosis,
Mardia-apuntamiento y Henze –Zirlker, Royston están operativizados en muy pocos paquetes estadísticos además su distribución no es muy
bien conocida por lo que se tienen una utilidad limitada.
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1.B. ANÁLISIS MULTIVARIANTE DE LA NORMALIDAD
Construcción gráfico Ji-Cuadrado
Test Henze-Zirkler
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1.B. ANÁLISIS MULTIVARIANTE DE LA NORMALIDAD
Test Royston
NOTA: No aplique la prueba de Royston, si el conjunto de datos incluye más de 5000 casos o menos de 3 casos
El problema se presenta cuando no se puede verificar la normalidad univariante o multivariante, la pregunta es ¿qué hacer? La
respuesta es transformar los valores originales, sin embargo la transformación depende del problema de asimetría o curtosis
que cause la no normalidad.
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.1.B. ANÁLISIS MULTIVARIANTE DE LA NORMALIDAD
Test Royston
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD
HOMOCEDASTICIDAD
Datos agrupados: La varianza de la variable continua
Homo = igual es mas o menos la misma en todos los grupos que
Cedasticidad = dispersión conforma la variable no métrica que delimita los
grupos
Una varianza constante nos permite disponer de modelos mas fiables, puede ser comprobada mediante un grafico de dispersión, un
diagrama de caja y bigotes o mediante pruebas de significancia
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD
Ejemplo
1° Test: Visual
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD
2° Test: F test
3° Test:Bartlet
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD
4° Test: Levene
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.2. HOMOCEDASTICIDAD
5° Test: Fligner-Killeen
ANÁLISIS MULTIVARIANTE APLICADO CON R
2.4 COMPROBACIÓN DE LOS SUPUESTOS BÁSICOS DEL ANÁLISIS MULTIVARIANTE
2.4.4. INDEPENDENCIA DE LAS OBSERVACIONES
Se consideran que dos observaciones son independientes cuando los valores que toman las variables de ese caso no se ven
influidas por las observaciones que hayan tomado en otro caso.
Por ejemplo en investigación de mercados podría concretarse en que las respuestas dadas en un cuestionario por un individuo
no influye en las que dará otro, lo que no siempre es sencillo. Si se envía un cuestionario por correo a una familia esperando
que lo contesten dos cónyuges es difícil creer que las respuestas serán independientes, que no se van a consultar juntos el
cuestionario, ni comentarlo entre ellos.
Sharma indica que la influencia que tiene la violación del supuesto de independencia sobre los niveles de significancia y la
potencia de las pruebas es muy importante. Si las observaciones no son independientes, el nivel de significación de las pruebas
debería incrementarse al menos 10 veces, es decir rechazar la hipótesis nula a partir de p <0,005 y no de p<0,05 como se lo
hace habitualmente.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.2 MEDIDAS DE CENTRALIZACIÓN.
Las medidas de centralización escalares basadas en el orden de las observaciones no pueden generalizarse facilmente al caso
multivariante. Por ejemplo, podemos calcular el vector de medianas, pero este punto no tiene necesariamente una situacion como
centro de los datos. Esta dificultad proviene de la falta de un orden natural de los datos multivariantes.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.2 MEDIDAS DE CENTRALIZACIÓN.
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.3 MEDIDAS GLOBALES DE VARIABILIDAD.
Propiedades:
- Esta bien definida, ya que el determinante de la matriz
es siempre negativo
- Es una medida del área ( para p=2), volumen (para p=3)
o hipervolumen (para p>3) ocupado por el conjunto de
datos.
Como el determinante es el producto de los valores
propios, la varianza efectiva es la media geométrica de
los valores propios, que por ser semidenifinda positiva
serán siempre no negativos
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
El concepto de Distancia
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
Distancias de Minkowski.
Se define en función de un parámetro r:
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
Distancia de Mahalanobis
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
Distancia de Mahalanobis
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.4 VARIABILIDAD Y DISTANCIAS
Distancia Promedio
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL
UNIDAD 1. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.4 ANÁLISIS DE DATOS MULTIVARIANTES
1.4.5 MEDIDAS DE DEPENDENCIA LINEAL