Técnicas de Análisis Multivariante
Técnicas de Análisis Multivariante
Introducción
Las técnicas del análisis multivariante se aplican ampliamente en la industria, administración,
centros de investigación universitario, etc. Tanto los estudiosos del comportamiento, como los
directivos de empresas o los funcionarios de la administración pública, tienen que desarrollar
conocimientos (por lo menos básicos) en las técnicas del análisis multivariante para conseguir una
mejor comprensión de los complejos fenómenos de sus ámbitos de trabajo.
Cualquier profesionista que examina sólo relaciones de dos variables y que evita el análisis
multivariante está ignorando poderosas herramientas que podrían suministrar información
potencialmente útil, para la toma de decisiones, el desarrollo de un producto o en términos
generales el comportamiento de una persona, grupo o variables de estudio.
Uno de los problemas principales que tienen los analistas es que no siempre pueden utilizar
experimentos caracterizados por 1 o 2 variables de decisión, ya sea por cuestiones de orden
práctico o ético. Esta situación resulta evidente cuando los estudios se realizan en los escenarios
naturales donde se produce la actividad, en los cuales no se pueden prever o controlar
adecuadamente, todas y cada una de las variables que están involucradas en el fenómeno
estudiado.
En la mayor parte de los mercados actuales, los directivos no pueden fiarse de las antiguas
aproximaciones donde se consideraban consumidores homogéneos y caracterizados por un
reducido número de variables demográficas. En su lugar, deben desarrollar estrategias para atraer
a numerosos segmentos de clientes con diversas características demográficas y psicográficas en
un mercado con múltiples restricciones (legales, económicas, competitivas, tecnológicas, etc.).
Sólo a través de las técnicas de análisis multivariante se pueden examinar adecuadamente las
relaciones múltiples de este tipo para llegar a una comprensión de la toma de decisiones más
completa y realista.
Análisis Multivariante
El análisis multivariante no es fácil de definir, una de las razones es la interpretación que cada
analista le de al término “multivariante”, por ejemplo, para algunos investigadores multivariante
significa simplemente examinar relaciones entre más de dos variables. Otros usan el término sólo
para problemas en los que se supone que todas las variables múltiples tienen una distribución
normal multivariante
En término generales cualquier análisis de más de dos variables puede ser considerado
aproximadamente como un análisis multivariante, muchas de sus técnicas son extensiones de
análisis univariante (análisis de distribuciones de una sola variable) y de análisis bivariante (análisis
de varianza y regresiones simples), visto como extensión del análisis bivariante que se propone
analizar e interpretar las relaciones entre variables pero mediante la construcción de modelos
matemáticos es posible definir el análisis multivariante de la siguiente manera:
Análisis Multivariante.- Es el conjunto de técnicas estadísticas que tienen como objetivo analizar e
interpretar las relaciones entre distintas variables de manera simultánea, mediante la construcción
de modelos estadísticos complejos que permiten medir la contribución independiente de cada una
de ellas en el sistema de relaciones y, de este modo, describir, explicar, o predecir los fenómenos
que son objeto de interés para la investigación.
En las ciencias económicas los métodos estadísticos multivariantes se utilizan para cuantificar el
desarrollo de un país, o determinar las relaciones existentes entre ingresos y gastos de un grupo
familiar, comprender el comportamiento de los consumidores o medir la calidad de productos y
servicios.
En el campo de la ingeniería se emplean para diseñar equipos inteligentes que reconozcan objetos
o caracteres, construir sistemas automatizados que aprendan de manera interactiva con su entorno
y a su vez puedan establecer sistemas de control de proceso productivo para analizar la eficiencia
energética, desarrollar sistemas de inteligencia artificial.
En ciencias de la tierra para la evaluación de los riesgos ambientales y económicos en los cambios
climáticos.
En general cualquier estudio simultáneo de más de dos variables puede ser analizado mediante
técnicas de análisis multivariante, basándose en los siguientes aspectos:
Variables.- Son el conjunto de constructos (objeto conceptual o ideal) que se analizan, estos tienen
ponderaciones (pesos) determinados empíricamente. El analista selecciona las variables, las
ponderaciones son determinadas en función de la técnica seleccionada, según el objetivo del
estudio.
Variables latentes.- Se definen como aquellas que no son directamente observables o medibles, es
decir, no presentan una unidad de medida específica, por lo que cualquier estimación podría
suponer un error asociado.
Variables observables.- Son un conjunto de variables que se utilizan para definir o inferir la variable
latente.
Indicadores reflectivos y formativos.- Los analistas utilizan la teoría existente que denominan
constructos y la miden por medio indicadores, estos constructos se relacionan, formando hipótesis;
mientras que los indicadores se vinculan a los constructos, en los cuales se identifican dos tipos:
Indicativo de:
Característica
Reflectivo Formativo
Los indicadores son El constructo es formado
Causalidad del constructo
causados por el constructo por los indicadores
Todos los indicadores están
No hay requisito de
Relación conceptual entre relacionados
vinculación conceptual
los indicadores conceptualmente porque
entre los indicadores
tienen una causa común
Inventario exhaustivo de
Muestra representativa de
Dominio de los indicadores todos los posibles
los posibles indicadores
indicadores
A priori no colinealidad
Covarianza entre los Colinealidad esperada
esperada entre los
indicadores entre los indicadores
indicadores
Consistencia interna Requerida No requerida
Formas de la validez del
Interna y externa Solo externa
constructo
Diferencias entre indicadores reflectivos y formativos
Valor teórico.- Es el elemento esencial del análisis multivariante, una combinación lineal de
variables con ponderaciones determinadas empíricamente. El analista especifica las variables,
mientras que las ponderaciones se determinan en función de la técnica multivariante seleccionada.
Un valor teórico de n variables ponderadas ( X 1 a X nX n) puede expresarse matemáticamente así:
El resultado es un valor único que representa una combinación de todo el conjunto de variables
que mejor se adaptan al objeto del análisis multivariante específico.
Por ejemplo, en regresiones múltiples, el valor teórico se determina de tal forma que guarde la
mejor correlación con la variable que se está prediciendo, en el análisis discriminante, el valor
teórico se forma de tal manera que produzca resultados para cada observación que diferencien de
forma máxima entre grupos de observaciones, en el análisis factorial, los valores teóricos se
forman para representar mejor las estructuras subyacentes o la dimensionalidad de las variables tal
y como se representan en sus intercorrelaciones.
En cada caso, el valor teórico capta el carácter multivariante del análisis, por tanto, en las
discusiones de cada técnica, el valor teórico es el punto central del análisis, no sólo por su impacto
conjunto para lograr cumplir el objetivo de cada técnica, sino también por la contribución de cada
variable individual al efecto del valor teórico en su conjunto.
Escalas de medición.- Es la forma de evaluar una variable o los valores permitidos para ella, estos
pueden ser métricos (cuantitativos) y no métricos (cualitativos).
Las no métricas.- Representan propiedades discretas, un ejemplo pueden ser las escalas
nominales, que consisten en asignar un número a cada grupo (por ejemplo Mujer = 1,
Hombre = 2). Las escalas ordinales se pueden ordenar y agrupar en función de las
respuestas recibidas, pero dichos valores no se pueden considerar como cuantitativos
(satisfacción del estudiante con las clases de sus profesores del semestre).
Las escalas métricas.- Representan montos o magnitud; entre estas tenemos a las de
intervalo y las de razón. En las escalas de intervalo no esta incluido el cero arbitrario y no
se pueden hacer operaciones entre variables de intervalo como por ejemplo la
temperatura. Las medidas razón son el nivel más alto de precisión al medir y se pueden
realizar todas las operaciones entre variables medidas en esta clase de escalas.
Error de medición.- Es el grado en que las medidas no representan la realidad por múltiples
factores, como por ejemplo, la percepción y disponibilidad para poder responder. Este error afecta
los cálculos al momento de procesar la técnica y para establecer una correlación entre dos
variables esta se ve debilitada por la presencia del error de medición. El error de medición.- Refleja
cierto ruido en la medición de las variables latentes, por lo tanto, se debe asumir que todas las
variables utilizadas en las técnicas multivariadas tienen cierto grado de error de medición. Con ello,
el valor que se obtiene representa tanto el nivel "verdadero" como el ruido. Cuando se utiliza para
calcular correlaciones, el efecto "verdadero" está parcialmente enmascarado por el error de
medición, haciendo que las correlaciones se debiliten y los medios sean menos preciso.
Validación y confiabilidad de los datos.- El objetivo del analista es reducir el error de medición que
se generan por varias fuentes. Al evaluar el grado del error de una medida presente en cualquiera
de ellas, el analista debe abordar dos características importantes de esta medición: primero su
validez y luego su confiabilidad.
La validez de una medición.- Es el grado en que una medida representa con precisión lo
que se supone que es, por ejemplo, si se quiere medir la ganancia de un negocio, no se
debe preguntar acerca del ingreso total. Para garantizar la validez se debe partir de un
conocimiento profundo de lo que se va a medir y luego hacer la medición lo mas correcta y
precisa como sea posible. Sin embargo, la precisión no garantiza la validez de la misma.
En el ejemplo el analista podría definir con precisión el ingreso total del hogar, pero estará
equivocado al medir la ganancia, porque no esta haciendo la pregunta correcta.
La confiabilidad de una medición.- Es el grado en que la variable observada mide el valor
verdadero (es contrario al error de medición). Siempre se deben evaluar las variables que
se están utilizando y, si existen otras medidas alternativas, elegir la de mayor confiabilidad.
La confiabilidad estadística es necesaria para garantizar la validez y precisión del análisis
estadístico, por lo que, los resultados se deben reproducir tantas veces como sea
necesario, esto es indispensable, ya que genera confianza en el análisis estadístico y en
los resultados obtenidos.
La probabilidad tipo 1-β, denominada “potencia del test de inferencia estadística”, la cual es la
probabilidad de rechazar la hipótesis nula cuando debe ser rechazada (probabilidad de que la
inferencia estadística se indique cuando esté presente), el error alfa establece el nivel de
significación estadística aceptable, pero solo el nivel de la potencia estadística indica la
probabilidad de alcanzar el éxito en la búsqueda de las diferencias si en realidad existen.
Ambos tipos de errores (alfa y beta) son inversamente proporcionales, en la medida que el tipo alfa
se hace mas pequeño tendiendo a cero (siendo más restrictivo), el error de tipo beta aumenta
(siendo más permisivo), al disminuir el error de tipo alfa, también se reduce el poder de la prueba
estadística, por tanto, es necesario conseguir un equilibrio entre el nivel de alfa y la potencia
resultante.
Las medidas de datos métricos.- Están constituidas de tal forma que los sujetos pueden ser
identificados por diferencias entre grado o cantidad. Las variables medidas métricamente reflejan
cantidades relativas o grado. Las medidas métricas son las más apropiadas para casos que
involucran cantidad o magnitud, tales como el nivel de satisfacción o la demanda de trabajo.
Escalas de medida no métricas.- Las medidas no métricas pueden tener escalas nominales u
ordinales. La medida con una escala nominal (también conocidas como escalas de categoría)
asigna números que se usan para etiquetar o identificar sujetos u objetos, proporcionan el número
de ocurrencias en cada clase o categoría de la variable que se está estudiando. Por tanto, los
números o símbolos asignados a los objetos no tienen más significado cuantitativo que indicar la
presencia o ausencia del atributo o característica bajo investigación.
Ejemplos de datos con escala nominal pueden ser el sexo, la religión o el partido político de una
persona. Para trabajar con estos datos, el analista puede asignar números a cada categoría
(hombres = 1 y 1 para mujeres = 2). Estos números sólo representan categorías o clases y no
implican cantidades de un atributo o característica.
Las escalas ordinales representan un nivel superior de precisión de la medida. Las variables
pueden ser ordenadas o clasificadas en relación a la cantidad del atributo poseído. Cada subclase
puede ser comparada con otra en términos de una relación de «mayor que» o «menor que». Por
ejemplo, los diferentes niveles de satisfacción del consumidor individual con 3 diferentes productos
(El encuestado puede estar más satisfecho con A que con B y más satisfecho con B que con C).
Los números utilizados en escalas ordinales como éstas no son cuantitativos, dado que indican
sólo posiciones relativas en series ordenadas. No hay medida de cuánta satisfacción recibe el
consumidor en términos absolutos, el analista tampoco conoce la diferencia exacta entre puntos de
la escala de satisfacción.
Escalas de medida métrica.- Las escalas de intervalos y de razón proporcionan el nivel más alto de
medida de precisión. Estas dos escalas tienen unidades constantes de medida, de tal forma que
las diferencias entre dos puntos adyacentes de cualquier parte de la escala son iguales. La única
diferencia real entre las escalas de intervalo y las de razón es que las de intervalo tienen un punto
cero arbitrario, mientras que las escalas de razón tienen un punto de cero absoluto.
Las escalas de intervalo más familiares son las escalas de temperatura Celsius y Fahrenheit,
ambas tienen un punto de cero arbitrario, que no indica una cantidad cero o ausencia de
temperatura, por tanto, no es posible decir que un valor cualquiera situado en un intervalo de la
escala es un múltiplo de cualquier otro punto de la escala. Por ejemplo, si un día se registran 80°F,
no se puede decir que sea dos veces más caluroso que uno de 40°F porque en una escala
diferente como Celsius, el calor no es dos veces mayor (80ºF =26.7ºC y 40ºF =4.4ºC).
Las escalas de razón representan una mejor medida de precisión, dado que poseen las ventajas
de que todas las escalas son proporcionales más un punto de cero absoluto y se permiten todas
las operaciones matemáticas. Las basculas utilizan estas escalas, dado que tienen un punto de
cero absoluto y que pueden ser expresados en términos de múltiplos cuando se relaciona un punto
con otro de la escala; por ejemplo, 100 kilos es dos veces más pesado que 50 kilos.
Es importante entender los diferentes tipos de escalas de medida por dos razones. En primer lugar,
el analista debe identificar la escala de medida de cada variable empleada, de tal forma que no se
estén utilizando datos no métricos como si fueran métricos. En segundo lugar, la escala de medida
es crucial para determinar qué técnica multivariante es la más conveniente para los datos,
considerando tanto las variables dependientes como las independientes.
Error de medida y medidas multivariantes .- El uso de múltiples variables así como la dependencia
de su combinación (el valor teórico) en las técnicas multivariantes también dirige su atención al,
error de medida.
El error de medida.- Es el grado en que los valores observados no son representativos de los
valores «verdaderos». El error de medida tiene múltiples fuentes, que van desde errores en la
entrada de datos a la imprecisión en la medición pasando por la incapacidad de los encuestados a
proporcionar información precisa. Por tanto, se debe asumir que todas las variable usadas en las
técnicas multivariantes tienen algún grado de error de medida. El impacto del error de medida es
añadir «ruido» a las variables medidas u observadas. Por tanto, el valor observado obtenido
representa tanto el nivel «verdadero» como el «ruido». Cuando se calculan correlaciones o medias,
normalmente el efecto «verdadero» está parcialmente camuflado por el error de medida, causando
la debilidad de las correlaciones y la pérdida de precisión de las medias.
El objetivo del analista de reducir el error de medida puede seguir varios caminos. Al valorar el
grado de error de medida presente en cualquier medición, el analista debe enfrentarse tanto con la
validez como con la fiabilidad de la medida.
La validez es el grado en que la medida representa con precisión lo que se supone que representa.
Por ejemplo, si queremos medir la renta discrecional, no preguntaremos por la renta total de las
economías domésticas. Asegurar la validez empieza con un conocimiento profundo de lo que se va
a medir y sólo entonces realizar la medida tan «correcta» y precisa como sea posible. Sin
embargo, la precisión no asegura la validez.
En nuestro ejemplo de la renta, el investigador podría definir muy precisamente el total de la renta
familiar pero no tiene una medida válida de la renta discrecional porque no se ha planteado la
pregunta «correcta».
El analista puede también optar por desarrollar mediciones multivariantes, también conocidas como
escalas sumadas, donde diversas variables se unen en una medida compuesta para representar
un concepto (por ejemplo, una escala de personalidad de entrada múltiple o puntuaciones
sumadas de un producto). El objetivo es evitar usar sólo una única variable para representar un
concepto, y en su lugar utilizar varias variables como indicadores, representando todos ellos
diferentes facetas del concepto para obtener una perspectiva más completa.
El uso de indicadores múltiples permite al investigador llegar a una especificación más precisa de
las respuestas deseadas y no deja la fiabilidad plena a una única respuesta sino en la respuesta
«media» o «típica» de un conjunto de respuestas relacionadas. Por ejemplo, al medir la
satisfacción, uno podría preguntar una única cuestión, «¿cuál es su grado de satisfacción?», y
basar el análisis en una única respuesta. O se podría desarrollar una escala aditiva que combinara
varias respuestas de satisfacción, quizá en diferentes formatos de respuesta y en diferentes áreas
de interés, que contemple la satisfacción total.
La premisa básica es que las respuestas múltiples reflejan con mayor precisión la respuesta
«verdadera» que la respuesta única (se han publicado compilaciones de escalas que proporcionan
al investigador una escala «lista para ser empleada» con una fiabilidad demostrada).
El impacto del error de medida y la escasa fiabilidad no pueden ser observadas directamente, dado
que se encuentran en las variables observadas. El analista debe, por tanto, trabajar siempre para
aumentar la validez y la fiabilidad, lo que al final llevará a una mayor autenticidad de las variables
de interés. Los malos resultados no siempre se deben al error de medida, pero la presencia de este
es garantía de distorsión en las relaciones observadas y hace menos poderosas las técnicas
multivariantes. Reducir el error de medida, aunque implique esfuerzo, tiempo y recursos
adicionales, puede mejorar resultados débiles o marginales, así como fortalecer resultados
probados.
Significación estadística frente a potencia estadística.- Todas las técnicas multivariantes, excepto el
análisis cluster y el análisis multidimensional, se basan en la inferencia estadística de los valores
de una población o la relación entre variables de una muestra escogida aleatoriamente de esa
población. Si se realiza un censo de toda la población, entonces la inferencia estadística no es
necesaria, porque cualquier diferencia o relación, por pequeña que sea, es «verdad» y existe. Pero
rara vez, se realiza un censo; por tanto, el analista tiene que deducir inferencias de una muestra.
Para interpretar las inferencias estadísticas, el investigador debe especificar los niveles aceptables
de error estadístico. El modo de aproximación más común es determinar el nivel de error de Tipo I,
también conocido como alfa (). El error de Tipo I es la probabilidad de rechazar la hipótesis nula
cuando es cierta, o expresado en términos más sencillos, la posibilidad de que la prueba muestre
significación estadística cuando en realidad no está presente (positivo falso).
Especificando un nivel alfa, el investigador fija los márgenes admisibles de error especificando la
probabilidad de concluir que la significación existe cuando en realidad no existe. Al especificar el
nivel de error de Tipo I, el investigador también determina un error asociado, denominado el error
de Tipo II o beta (). El error de Tipo II es la probabilidad de aceptar la hipótesis nula cuando es
realmente falsa. Una probabilidad más interesante es 1−β , denominado la potencia del test de
inferencia estadística. Potencia es la probabilidad de rechazar correctamente la hipótesis nula
cuando debe ser rechazada. Por tanto, la potencia es la probabilidad de que la inferencia
estadística se indique cuando esté presente. La relación de las diferentes probabilidades de error
se muestra a continuación en el hipotético planteamiento de la evaluación de la diferencia entre
dos medias:
Realidad
H 0 :Cierta H 1 : Falsa
1−α β
H 0 : Aceptar Potencia Error Tipo II
Decisión estadística
α 1−β
H 1 : No aceptar Error Tipo I Potencia
2. Alfa (a).- A medida que alfa se vuelve más restrictivo, la potencia decrece. Esto significa que
como el analista reduce la oportunidad de encontrar un efecto incorrecto significativo, la
probabilidad de encontrar correctamente un efecto también disminuye. Las directrices
convencionales sugieren niveles alfa de 0,05 o 0,01. Pero el investigador debe considerar el
impacto de esta decisión sobre la potencia antes de seleccionar el nivel alfa.
3. El tamaño de la muestra.- Para cualquier nivel de alfa dado, el aumento de la muestra siempre
produce una mayor potencia del test estadístico. Pero aumentar el tamaño de la muestra también
puede producir «demasiada» potencia. Por lo tanto, se debe entender que al aumentar el tamaño
de la muestra, se observará que efectos cada vez más y más pequeños serán significativos, hasta
que para muestras muy grandes casi cualquier efecto es significativo. El analista debe tener
presente que el tamaño de la muestra puede afectar a la prueba estadística tanto por hacerla
insensible (para muestras muy pequeñas) o demasiado sensible (para muestras muy grandes).
Las relaciones entre alfa, tamaño de la muestra, efecto tamaño y potencia son bastante
complicadas, pero se pueden encontrar ciertos puntos de partida. Cohén [6] ha examinado la
potencia para la mayor parte de las pruebas de inferencia estadística y ha proporcionado pautas
para los niveles aceptables de potencia, sugiriendo que los estudios deben diseñarse para
conseguir niveles de alfa de al menos 0,05 con niveles de potencia del 80 por ciento. Para
conseguir dichos niveles, deben considerarse simultáneamente los tres factores. Estas
interrelaciones se pueden ilustrar mediante dos ejemplos sencillos. El primero implica la
comprobación de la diferencia entre las puntuaciones medias de dos grupos. Suponiendo que el
efecto tamaño sea entre pequeño (0,02) y moderado (0,5), el analista debe determinar el nivel alfa
y el tamaño de muestra necesario de cada grupo. La Tabla 1.1 ilustra el impacto tanto del tamaño
de la muestra como del nivel alfa sobre la potencia. Como puede verse, la potencia llega a ser
aceptable para tamaños de muestra de 100 o más en situaciones con un efecto tamaño moderado
para ambos niveles de alfa. Pero cuando ocurre un efecto tamaño pequeño, las pruebas
estadísticas tiene poca potencia, incluso con niveles de alfa expandidos a muestras de 200 o más.
Por ejemplo, una muestra de 200 en cada grupo con un alfa de 0,05 todavía tiene un 50 por ciento
de posibilidades de encontrarse diferencias significativas si el efecto tamaño es pequeño. Esto
sugiere que el analista, al anticipar que los efectos van a ser pequeños, debe diseñar el estudio
con muestras mucho mayores y/o niveles de alfa menos restrictivos (0,05 o 0,10).
En el segundo ejemplo, la Figura 1.1 representa gráficamente la potencia para niveles de
significación de 0,01; 0,5 y 0,10 con tamaños de muestra de 20 a 300 por grupo, cuando el efecto
tamaño (0,35) es entre pequeño y moderado. Enfrentado a tales perspectivas, la especificación de
un nivel de significación de un 0,01 requiere una muestra de 200 por grupo para conseguir el nivel
deseado de potencia del 80 por ciento. Pero si se relaja el nivel alfa, se alcanza la potencia del 80
por ciento para muestras de 130 para un nivel alfa 0,05 y muestras de 100 para un nivel de
significación de un 0,10.
Tales análisis permiten tomar decisiones más adecuadas en el estudio, diseño e interpretación de
los resultados. Al planificar la investigación, se debe estimar el efecto tamaño esperado para
seleccionar entonces el tamaño de la muestra y el nivel alfa para conseguir el nivel de potencia
deseado. Además de sus usos para la planificación, el análisis de potencia se utiliza también
después de que el análisis ha terminado para determinar la potencia real conseguida, de tal forma
que los resultados puedan ser correctamente interpretados.
¿Se deben los resultados al efecto tamaño, tamaño muestral o niveles de significación? Los
analistas pueden evaluar cada uno de estos factores por su impacto sobre la signifícatividad o no
significatividad de los resultados. El investigador puede referirse hoy en día a estudios publicados
donde se analizan los detalles concretos de la determinación de la potencia [6] o acudir a varios
programas de ordenador personal que asisten en los estudios de planificación para conseguir la
potencia deseada o calcular la potencia de los resultados reales [2, 3]. En los Capítulos 4 y 6 se
discutirán con más detalle las aplicaciones más comunes del análisis de potencia y las pautas
específicas a seguir cuando se aplica regresión múltiple y el análisis multivariante de la varianza.
Habiendo ya expuesto la extensión de las técnicas multivariantes desde sus orígenes univariantes
o bivariantes, introduciremos ahora brevemente cada método multivariante. A partir de la
introducción de las técnicas, presentamos un esquema de clasificación para ayudar en la selección
de la técnica apropiada respecto de la identificación de los objetivos de investigación (relaciones de
dependencia o independencia) y el tipo de datos (métricos o no métricos).
Simplificación de datos
En el análisis multivariado se utilizan diferentes enfoques tales como la simplificación de la
estructura de datos, el cual es una manera simplificada de representar el universo de estudio,
mediante la transformación (combinación lineal o no lineal) de un conjunto de variables
interdependientes en otro conjunto independiente o en un conjunto de menor dimensión.
Este tipo de análisis permite ubicar las observaciones dentro de grupos o bien concluir que los
individuos están dispersos aleatoriamente en el multiespacio; también pueden agruparse variables.
Un análisis de dependencia puede definirse como aquel en el que una variable o conjunto de
variables es identificado como la variable dependiente y que va a ser explicada por otras variables
conocidas como variables independientes. Como ejemplo de una dependencia técnica tenemos el
análisis de regresión múltiple.
El siguiente esquema muestra las técnicas más importantes de los análisis dependiente e
independiente.
Los diferentes métodos que constituyen el análisis de dependencia pueden ser divididos en dos
tipos según: (1) el número de variables dependientes y (2) el tipo de escalas de medida empleadas
para las variables.
Considerando el número de variables dependientes, puede clasificarse en una variable
dependiente única o en varias variables dependientes, incluso en varias relaciones de
dependencia/independencia.
También puede ser clasificado en función del tipo de escala de la variable: con variables métricas
(numéricas/cuantitativas) o no métricas (cualitativas/categóricas). Si el análisis implica una única
variable dependiente que es métrica, las técnicas apropiadas pueden ser, el análisis de regresión
múltiple y el análisis conjunto.
El análisis conjunto es un caso especial. Se trata de un procedimiento de dependencia que puede
tratar la variable dependiente como métrica o no métrica, en función de las circunstancias.
Por otro lado, si la única variable dependiente es no métrica (categórica), entonces la técnica
apropiada es, el análisis discriminante múltiple, o los modelos de probabilidad lineal.
Cuando el problema implica varias variables dependientes, hay cuatro técnicas estadísticas
apropiadas.
Si las variables dependientes son métricas, se debe decidir en función de las variables
independientes. Cuando las variables independientes son no métricas, debe elegir la técnica
multivariante de análisis de la varianza. Si las variables independientes son métricas, la apropiada
es la correlación canónica.
Si las variables dependientes son no métricas, entonces pueden transformarse a través de una
variable ficticia de código 0 y 1 (la codificación es una manera de transformar datos no métricos en
métricos, mediante la creación de variables ficticias, a las cuales se asignan unos y ceros al sujeto,
dependiendo de si cuenta o no con cierta característica. Por ejemplo, si un sujeto es masculino se le asigna
un 0, si es femenino se le asigna un 1.) y puede utilizarse también el análisis canónico.
Existe una estrecha relación entre las diversas técnicas de dependencia. La Tabla 1.2 define las
técnicas mencionadas en términos de la naturaleza y número de las variables dependientes e
independientes.
Es posible observar en la tabla que la correlación canónica puede considerarse el modelo general
en el cual se basan las otras técnicas multivariantes, dado que sitúa la mínima restricción respecto
al tipo y número de variables tanto de valor teórico dependiente como independiente. Como las
restricciones están basadas en valores teóricos, pueden alcanzarse conclusiones más precisas
apoyándose en la escala específica empleada en la medición de los datos. Tales técnicas
multivariantes van desde el método general del análisis canónico al más especializado método de
modelización de ecuaciones estructurales.
Si se van a analizar las interdependencias entre objetos medidos por datos no métricos, el análisis
de correspondencias es la técnica apropiada.
Finalmente, si el interés está en la estructura de objetos, deberían aplicarse las técnicas de análisis
multidimensional, las cuales se pueden aplicar tanto a datos métricos como no métricos.
En este apartado, se definirá brevemente cada una de las técnicas multivariantes y el objetivo de
su aplicación, tanto del análisis dependiente como del interdependiente.
Regresión múltiple
Método de análisis apropiado cuando el problema del investigador incluye una variable métrica
dependiente que este relacionada con dos o más variables métricas independientes. El objetivo del
análisis de regresión múltiple es predecir el comportamiento de la variable dependiente en
respuesta a cambios en las variables independientes. Por ejemplo, se puede predecir las ventas de
una compañía a partir de información sobre sus gastos en publicidad, el número de vendedores y
el número de tiendas que distribuyen sus productos.
Análisis conjunto
El análisis conjunto es una técnica de dependencia emergente que ha introducido una nueva
sofisticación
en la evaluación de objetos, sean nuevos productos, servicios o ideas. La aplicación más
directa está en productos nuevos o desarrollo de servicios, permitiendo la evaluación de productos
complejos mientras que mantiene un contexto de decisión realista para el encuestado. El analista
de mercado es capaz de evaluar la importancia de atributos así como los niveles de cada atributo
mientras que los consumidores evalúan sólo los perfiles de unos pocos productos, que son
combinaciones
de niveles de producto. Por ejemplo, un concepto de un producto que tiene tres atributos
(precio, calidad y color), cada uno de los cuales a tres niveles (por ejemplo, rojo, amarillo y azul).
En lugar de tener que evaluar todas las 27 combinaciones posibles (3 X 3 X 3), se puede evaluar
un subconjunto (9 o más) por su atractivo para los consumidores, y el investigador sabe no sólo
cuál es la importancia de cada atributo sino también la importancia de cada nivel (el atractivo del
rojo frente al amarillo y frente al azul). Más aún, cuando se completan las evaluaciones del
consumidor,
pueden usarse los resultados del análisis conjunto en simuladores del diseño del producto,
que mostrarán la aceptación del cliente para cualquier número de formulaciones de producto y
ayudar en el diseño del producto óptimo.
Correlación canónica
El análisis de correlación canónica puede verse como una extensión lógica de un análisis de
regresión
múltiple. Recordemos que el análisis de regresión múltiple implica una única variable dependiente
métrica y varias variables métricas independientes. Con el análisis canónico el objetivo
es correlacionar simultáneamente varias variables dependientes métricas y varias variables
métricas
independientes. Mientras que la regresión múltiple implica una única variable dependiente, la
correlación canónica implica múltiples variables dependientes. El principio subyacente es
desarrollar
una combinación lineal de cada conjunto de variables (tanto independientes como dependientes)
para maximizar la correlación entre los dos conjuntos. O dicho de otra forma, el procedimiento
implica
obtener un conjunto de ponderaciones para las variables dependientes e independientes que
proporcione la correlación única máxima entre el conjunto de variables dependientes y el conjunto
de variables independientes.
Análisis cluster
El análisis cluster es una técnica analítica para desarrollar subgrupos significativos de individuos
u objetos. De forma específica, el objetivo es clasificar una muestra de entidades (personas u
objetos) en un número pequeño de grupos mutuamente excluyentes basados en similitudes entre
las entidades. En el análisis cluster, a diferencia del análisis discriminante, los grupos no están
predefinidos.
Por consiguiente, se usa la técnica para identificar los grupos.
Habitualmente, el análisis cluster implica al menos dos etapas. La primera es la medida de alguna
forma de similitud o asociación entre las entidades para determinar cuántos grupos existen
en realidad en la muestra. La segunda etapa es describir las personas o variables para determinar
su composición. Este paso puede llevarse a cabo aplicando el análisis discriminante a los grupos
identificados por la técnica cluster.
Análisis multidimensional
En el análisis multidimensional, el objetivo es transformar los juicios de los consumidores de
similitud
o preferencia (por ejemplo, preferencias por tiendas o marcas comerciales) en distancias
representadas en un espacio m ultidim ensional. Si los objetos A y B son en opinión de los
encuestados más similares que el resto de los pares posibles de objetos, las técnicas de análisis
multidimensional
situarán a los objetos A y B de tal forma que la distancia entre ellos en un espacio
multidimensional es menor que la distancia entre cualquier otro par de objetos. Los mapas
perceptuales
resultantes muestran el posicionamiento relativo entre losobjctos, pero es necesario un
análisis adicional para evaluar qué atributos predicen la posición de cada objeto.
Análisis de correspondencias
Para finalizar, el análisis de correspondencias es una técnica de interdependencia recientemente
desarrollada
que facilita tanto la reducción dimensional de una clasificación de objetos (por ejemplo,
productos, personas, etc.,) sobre un conjunto de atributos y el mapa perceptual de objetos relativos
al estos atributos. Los investigadores se enfrentan constantemente a la necesidad de «cuantificar
datos cualitativos» que encuentran en variables nominales. El análisis de correspondencias
difiere de otras técnicas de interdependencia discutidas antes en su capacidad para acomodar
tanto
datos no métricos como relaciones no lineales.
En su forma más básica, el análisis de correspondencias em plea una tabla de contingencia,
que es la tabulación cruzada de dos variables categóricas. A continuación transform a los datos
no métricos en un nivel métrico y realiza una reducción dimensional (sim ilar al análisis factorial)
y un mapa perceptual (sim ilar al análisis multidimensional). A modo de ejemplo, las preferencias
por una marca de los encuestados pueden ser tabuladas de forma cruzada con variables
demográficas (por ejemplo, género, categorías de renta, ocupación) indicando cuánta gente que
prefiere cada una de las marcas entra dentro de cada categoría de las variables demográficas. A
través del análisis de correspondencias, la asociación o «correspondencia» de marcas y las
características
distintivas de aquellos que prefieren cada marca se muestran en un mapa bi o tridimensional,
tanto de marcas como características de los encuestados. Las marcas percibidas
como similares están localizadas en una cercana proximidad unas de otras. De la misma forma,
las características más distintivas de los encuestados que prefieren cada marca están determ
inadas
tam bién por la proxim idad de las categorías de las variables dem ográficas respecto de la
posición de la marca. El análisis de las correspondencias proporciona una representación m
ultivariante
de la interdependencia de datos no métricos que no es posible realizar con otros
métodos.
Entre los métodos de análisis multivariado para detectar la interdependencia entre variables y
también entre individuos se incluyen el análisis de factores, el análisis por conglomerados o
clusters, el análisis de correlación canónica, el análisis por componentes principales, el análisis de
ordenamiento multidimensional, y algunos métodos no paramétricos. Los métodos para detectar
dependencia comprenden el análisis de regresión multivariado, el análisis de contingencia múltiple
y el análisis discriminante.
2.1.1 Definiciones
Para la interpretación del análisis de componentes principales se necesita un conjunto de
conceptos necesarios entre los cuales se encuentran:
Matriz de datos
Se dice que un conjunto de datos constituye una muestra aleatoria multivariada si cada individuo
ha sido extraído al azar de una población de individuos y en él se han medido u observado una
serie de características. Sean xij la observación de la j-esima variable en el i-ésimo individuo, xi el
vector fila que contiene las observaciones de todas las variables en el i-ésimo individuo y x j el
vector columna que contiene todas las observaciones de la j-ésima variable. Por lo cual se define
una matriz de datos como el arreglo de dimensión n × p que:
x 11 ⋯ ⋯ x1 p
x=x ij =
⋮
⋮
[
xn 1
⋮
⋮
⋮
⋮ ⋮
x ij ⋮
⋯ xnp ]
también puede expresarse como
x1
x=x 1 … … … x p= ⋮
⋮
xp []
La media muestral de la j-ésima variable de una matriz de datos se define por:
n
1
x j= ∑x
n i=1 ij
el vector formado por los x j será el vector promedio
x1
x= ⋮
⋮
[]
xp
n
1
sij = ∑ ( x ¿ ¿ij−x j )2 ¿
n i=1
n
1
sij = ∑ ( x ¿ ¿ij−x j )2 ¿
n i=1
n
1
s jk= ∑ (x ¿ ¿ ij−x j)(x ¿ ¿ ik−x k )¿ ¿
n i=1
j , k =1 ,… … , p
La matriz formada por el arregls de los s jk y los s jj será la matriz de varianzas y covarianzas
s11 ⋯ ⋯ x1 p
S=
[
⋮
⋮
s p1
⋮
⋮
⋮
⋮
x jk
⋯
⋮
⋮
x pp ]
Matriz de Correlación R
A partir de los elementos de la matriz S es posible calcular los elementos de la matriz R , de igual
dimensión que S, y cuyos elementos sean los coeficientes de correlación entre la j−ésima y la
k −ésima variable.
s jk s
r jk = = jk
√ sij s kk s j s k
Los cuales también pueden ser arreglado en una matriz de correlación muestral cuya diagonal
principal estará formada por números uno y será simétrica como la matriz de covarianzas, por ser
r jk =r kj:
1 ⋯ ⋯ r1 p
R= ⋮
[
⋮
r p1
1 ⋮
⋮ 1
⋮ r pk
⋮
⋮
1 ]
La matriz S de covarianza es una manera de expresar la dispersión de los datos alrededor de la
media. Sin embargo, a veces es necesario en ocasiones encontrar un escalar que sintetice esta
dispersión.