Estadística Multivariante
Sesión 01
Pedro Pablo Rosales López, Dr. Ing.
¿Qué observas?
Contenido 1/16
Introducción al Análisis Multivariante
¿Qué es el Análisis Multivariante?
Utilidad del Análisis Multivariante
Los datos en el Análisis Multivariante
Variables y escalas de medida
Análisis inicial de datos
Las técnicas de Análisis Multivariante
Técnicas de análisis de la dependencia
Técnicas de análisis de la interdependencia
Guía Práctica de Casos y Problemas.
Unidad 1 – Introducción al Análisis Mutivariante
Conceptos y Fundamentos del la Estadística Multivariante.
Estadística Multivariante
INTRODUCCIÓN AL ANÁLISIS
MULTIVARIANTE
¿Qué es el Análisis Multivariable?
El análisis multivariable puede
definirse como el conjunto de
¿Qué es el Análisis métodos o técnicas, diseñados con
Multivariable? el fin de maximizar e interpretar la
información contenida en un
conjunto de variables, sin perder la
interacción o grado en que se
afectan unas con otras.
El análisis multivariable permite llevar a cabo la
resolución de problemas y la toma de decisiones con
un enfoque analítico sobre todas las variables que
llegan a influir sobre el o los problemas en cuestión.
Utilidad del Análisis Multivariable
La complejidad de la realidad socioeconómico-empresarial y el
hecho de que en su conocimiento confluyan disciplinas científicas de
origen diverso hacen que el contenido de los métodos multivariables
se proyecte como un cuerpo de conocimientos de naturaleza
interdisciplinaria.
En el análisis multivariable, se
Las necesidades de información
puede encontrar una herramienta
de los investigadores y decidores
práctica, versátil y adaptable a
para la planificación, ejecución de
todo tipo de análisis, al permitir
acciones o el control de
extraer información relevante, y
resultados son cada vez mayores.
eficiente.
Los datos en el Análisis Multivariable
Variables y escalas de medida
Análisis
Datos Multivariable
Valores que toman las
Variables
Magnitudes que representan La precisión de tal
distintos conceptos o atributos representación dependerá
de individuos u objetos directamente de la escala de
medida
Los datos en el Análisis Multivariable
Escalas de medida
La tipología de escalas de medida distingue cuatro básicas
Nominal
Escalas no métricas o cualitativas
Ordinal
Intervalo Escalas métricas o cuantitativas
Razón
Los datos en el Análisis Multivariable
Escalas de medida
Una variable no métrica puede ser convertida en variable ficticias binarias
(dummy). Sería necesario contar con un número de ellas igual al número
de categorías de la variable no métrica menos uno.
Caso:
Supóngase que se pretende transformar la variable Categoría F1 F2
“medios de transporte más comunes” de tres
categorías: 1=autobús, 2=tren y 3=avión.
La conversión podría efectuarse por medio de dos Autobús 1 0
variables ficticias, F1 y F2. Los valores que éstas
tomarían para representar cada categoría serían los Tren 0 1
siguientes:
Avión 0 0
Análisis Inicial de Datos
Examen exhaustivo de los datos
Datos
Detección de problemas ocultos ausentes
en las matrices de datos (missing
values)
Resultados lógicos y
consistentes
Análisis Inicial de Datos
Analizar si es relevante para el
análisis obtener los datos
Análisis de perdidos
Datos
Ausentes Determinar si la información
(missing que falta puede ser completada
values)
Sustituir los datos por valores
estimados
Análisis Inicial de Datos
Histogramas de cada variable
Representaciones gráficas
Gráficos de dispersión
para el análisis de datos
Gráfico de cajas ( Boxplot)
Tablas de frecuencia
Tablas
Tablas de contingencia
Detección de outliers Estudiar los casos atípicos
Análisis Inicial de Datos
Normalidad de las variables
Supuestos
Linealidad
subyacentes
( existencia de asociaciones
en los
lineales entre variables)
métodos
multivariables Homocedasticidad
(Varianza de los errores es
constante)
Las técnicas del Análisis Multivariable
Tipología de las técnicas
De análisis de la dependencia
De análisis de la interdependencia
Otras técnicas
Las técnicas del Análisis Multivariable
Técnicas aplicables cuando una o varias
De análisis de la variables dependientes van a ser explica-
dependencia das por un conjunto de variables indepen-
dientes que actúan como predictoras
Técnicas que otorgan la misma
De análisis de la consideración a todas las variables objeto
de estudio, sin distinguir entre dependien-
interdependencia tes e independientes, y que tienen como
fin descubrir las interrelaciones entre ellas.
Son técnicas de clasificación.
Técnicas novedosas que permiten un
Otras técnicas tratamiento más eficaz y eficiente en
grandes cantidades de datos, como
análisis con redes neuronales, data
mining.
Técnicas de análisis de la dependencia
Técnica Variable Variables
dependiente independientes
Análisis de la varianza y la Métrica No métricas
covarianza
Análisis discriminante No métrica Métricas
Regresión lineal múltiple Métrica Métricas
ídem con variables ficticias Métrica No métricas
Modelos de elección discreta No métrica Métricas
ídem con variables ficticias No métrica No métricas
Análisis conjunto Métrica o no No métricas
métrica
Segmentación Jerárquica No métrica o No métricas
métrica
Análisis de ecuaciones estructurales Métrica Métricas o no métricas
Análisis con clases latentes No métrica latente No métricas observables
Terminología
Variable ficticia
Variable binaria que se suele emplear para representar una
categoría de una variable no métrica.
Variable métrica (o cuantitativa)
Variable medida en escala de intervalo o de razón, capaz de
reflejar, por tanto, diferencias de grado o cantidad entre sus
elementos. La diferencia entre dos elementos consecutivos es
constante a lo largo de toda la escala.
Variable no métrica (o cualitativa)
Variable medida en escala nominal u ordinal que identifica
categorías o propiedades. Si es ordinal, los números asignados
a cada categoría guardan una relación de orden; pero, por lo
demás, son simples etiquetas sin ningún otro significado.
ANOVA (o análisis de la varianza)
Método para contrastar si diversas muestras proceden
de poblaciones con igual media.
ANCOVA (o análisis de la covarianza)
Proceso que comienza por emplear la regresión para
eliminar la variación experimentada por la variable
dependiente producida por una variable independiente
no controlada (covariable) cuyos efectos se consideran
indeseados, y sigue con un ANOVA sobre la variable
dependiente ajustada.
Análisis discriminante
Técnica de clasificación que permite agrupar a los elementos
de una muestra en dos o más categorías diferentes,
predefinidas en una variable dependiente no métrica, en
función de una serie de variables independientes métricas
combinadas linealmente.
Regresión lineal múltiple
Técnica que pretende determinar la combinación lineal de
variables independientes cuyos cambios son los mejores
predictores de los cambios experimentados por la variable
dependiente. Todas las variables que intervienen en la
regresión son métricas, aunque admite la posibilidad de
trabajar con variables independientes no métricas si se
emplean variables ficticias para su transformación en
variables dami.
Modelo logit
Modelo de elección discreta en el que la función de
distribución de probabilidad de la variable perturbación
es la función logística.
Modelo logit multinomial
Modelo logit en el que la variable dependiente es
politómica en lugar de dicotómica.
Modelo probit
Modelo de elección discreta en el que la función de
distribución de probabilidad de b, variable perturbación
es la función normal.
Análisis conjunto
Técnica que se emplea para entender cómo conforman
los individuos sus preferencias hacia los objetos,
normalmente marcas o productos.
Segmentación jerárquica
Técnica de análisis de la dependencia que tiene por
objeto distinguir grupos de elementos homogéneos en
una población a través de un proceso iterativo
descendente de partición de la muestra total en
sucesivos grupos en virtud del valor adoptado por la
variable dependiente, el cual es función de los valores
presentados por las variables independientes.
Análisis con clases latentes
Técnica que busca distinguir en una muestra grupos de
elementos homogéneos en función de los valores que
adopta una variable latente no métrica. Tales valores
son las categorías de esa variable, las cuales reciben el
nombre de clases latentes.
Análisis con ecuaciones estructurales (o análisis de
estructuras de covarianzas)
Técnica que permite analizar varias relaciones de
dependencia que se presentan simultáneamente.
Técnicas de análisis de la interdependencia
Se incluyen en esta categoría las siguientes: el
análisis factorial y por componentes principales, el
análisis de correspondencias, el análisis de
conglomerados, el escalamiento multidimensional y el
análisis con clases latentes.
En el cuadro siguiente se observan algunas
características diferenciadoras entre ellas, como son
el tipo de variables que permiten manejar y qué clase
de elementos componen los grupos que resultan de la
aplicación de cada una.
Técnicas de análisis de la interdependencia.
Técnica Variable Forma grupos de
Análisis factorial y por Métrica Variables
componentes principales
Análisis de No métrica Categorías de variables
correspondencias
Análisis de conglomerados Métrica y no Objetos
métrica
Escalamiento Métrica y no Objetos
multidimensional métrica
Análisis con clases latentes No métricas Objetos y categorías de
variables
Análisis factorial
Técnica de análisis de la interdependencia presentada por un cierto
número de variables susceptible de ser sintetizada en un conjunto de
factores comunes que subyacen tras ella. Dichos factores pueden ser
comunes (captan la variabilidad compartida por todas las variables), o
específicos (captan la variabilidad propia de cada variable, sin relación
con las demás).
Análisis por componentes principales
Técnica de análisis de la interdependencia presentada por un cierto
número de variables susceptible de ser sintetizada en un conjunto de
factores comunes que subyacen tras ella. Dichos factores o
componentes buscan explicar la mayor proporción posible de la
variabilidad total, lo que quiere decir que, a diferencia de lo que ocurre
en análisis factorial. no existen factores específicos.
Análisis de correspondencias
Técnica basada en el estudio de la asociación entre las
categorías de múltiples variables no métricas, que
persigue la elaboración de un mapa perceptual que ponga
de manifiesto dicha asociación en modo gráfico.
Análisis de conglomerados (o análisis cluster)
Técnica cuyo fin es clasificar sujetos u objetos en función
de ciertas características de
modo que los elementos de cada grupo sean muy
similares entre sí.
Escalamiento multidimensional
Técnica cuyo fin es elaborar una representación gráfica
que permita conocer la imagen que los individuos se
crean de un conjunto de objetos por posicionamiento de
cada uno en relación a los demás.
Análisis con clases latentes
Técnica que busca distinguir en una muestra grupos de
elementos homogéneos en función de los valores que
adopta una variable latente no métrica. Tales valores son
las categorías de esa variable, las cuales reciben el
nombre de clases latentes.
Otras técnicas
Elección multicriterio discreta
Conjunto de métodos de ayuda en la resolución de problemas de
decisión en los que se han de tener en cuenta diferentes puntos de vista
o criterios y en los que se baraja un número finito de alternativas.
Data mining (o minería de datos o extracción de datos)
Proceso mediante el cual se explora y analiza un gran volumen de datos
con el fin de descubrir relaciones, reglas o patrones de comportamiento
en ellos que sean de utilidad para el usuario en la toma de decisiones.
Análisis con redes neuronales
Técnica cuya forma de proceder pretende replicar el funcionamiento del
cerebro humano, intentando aprender de los errores cometidos en aras
de la consecución del mejor resultado posible.
La elección de una técnica concreta
A la luz de lo expuesto en este apartado se deduce que la elección
de una determinada técnica de análisis multivariable pasa por dar
respuesta previa a preguntas como
¿Sigue un fin predictivo o clasificatorio?
¿Se puede distinguir entre variables dependiente e
independientes?
¿Cuántas variables dependientes hay?
¿Qué tipo de escalas de medida presentan las
variables?
¿Estas se distribuyen normalmente?
Técnicas de Análisis de la Dependencia
Variable Independiente
Métrica No Métrica
Variable Dependiente Variable Dependiente
Métrica No Métrica
Métrica No Métrica
Simple
Modelo de elección
ANOVA Múltiple
discreta con variable
Simple Múltiple Análisis ANCOCA
ficticia.
Discriminante. Análisis conjunto. MANOVA
Análisis de conjunto.
Regresión Análisis con Modelos de Segmentación MANCOVA
Segmentación
Lineal Ecuaciones Elección Jerárquica Análisis con
jerárquica
Múltiple Estructurales Discreta. Regresión Lineal Ecuaciones
Análisis con clases
con variable Estructurales
latentes
ficticia
Técnicas de Análisis de la Interdependencia
Variables
Métrica No Métrica
Análisis factorial. Análisis de
Análisis por correspondencia.
componentes Análisis de
principales. conglomerados.
Análisis de Escalamiento
conglomerados. multidimensional.
Otras Técnicas
Escalamiento Análisis con clase
multidimensional Elección multicriterio discreto. latente.
Redes neuronales.
Data mining.
Técnicas a estudiar
De análisis de la dependencia
Análisis de varianza de En SPSS
un factor menú Analizar/Comparar Medias
Regresión lineal simple De análisis de la dependencia
En SPSS
menú Analizar/Regresión
Regresión lineal múltiple De análisis de la dependencia
En SPSS
menú Analizar/Regresión
De análisis de la dependencia
Regresión logística
En SPSS
menú Analizar/Regresión/Logística
De análisis de la interdependencia
Análisis Factorial En SPSS
menú Analizar/Reducción de datos
Bibliografía
Hair J., Anderson R., Tatham R. y Black W. Análisis Multivariante. Quinta
Edición, Editorial Prentice - Hall Iberia. Madrid.
Freund J. y Walpole R. Estadística Matemática con Aplicaciones. Cuarta
Edición, Editorial Prentice - Hall Hispanoamericana S.A. México.
Ato M. y Lopez J. Fundamentos de Estadística con SYSTAT. Edición RAMA,
Editorial Addison – Wesley Iberoamericana S.A. Wilmington, Delaware,
E.U.A.
Presentación preparada en base al trabajo previo de la Dra. Sara Arancibia
C. (2012) de la Universidad de Chile.
Para terminar
¿Qué hemos aprendido?
¿En Qué consiste el análisis multivariante?
¿Por qué es útil lo aprendido?
Desarrollar el Laboratorio……
Quien obtiene una victoria sobre otros
hombres es fuerte, pero quien obtiene
una victoria sobre sí mismo es
todopoderoso.
Lao-Tsé