0% encontró este documento útil (0 votos)

255 vistas19 páginas

Técnicas de Análisis Multivariante

El documento trata sobre el análisis multivariante. Explica que esta técnica estadística permite analizar e interpretar las relaciones entre múltiples variables de forma simultánea. Se usa ampliamente en diversos campos como la industria, la administración, la investigación y más, para comprender fenómenos complejos. El análisis multivariante ofrece herramientas útiles para la toma de decisiones al considerar más de dos variables.

Cargado por

MiguelLezama

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

255 vistas19 páginas

Técnicas de Análisis Multivariante

Cargado por

MiguelLezama

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

ANALISIS MULTIVARIANTE

Introducción
Las técnicas del análisis multivariante se aplican ampliamente en la industria, administración,
centros de investigación universitario, etc. Tanto los estudiosos del comportamiento, como los
directivos de empresas o los funcionarios de la administración pública, tienen que desarrollar
conocimientos (por lo menos básicos) en las técnicas del análisis multivariante para conseguir una
mejor comprensión de los complejos fenómenos de sus ámbitos de trabajo.

Cualquier profesionista que examina sólo relaciones de dos variables y que evita el análisis
multivariante está ignorando poderosas herramientas que podrían suministrar información
potencialmente útil, para la toma de decisiones, el desarrollo de un producto o en términos
generales el comportamiento de una persona, grupo o variables de estudio.

Según los estadísticos Hardyck y Petrinovich:

“El análisis de los métodos multivariantes predominará en el futuro y dará por resultado cambios
drásticos en el modo en que los investigadores piensan sobre los problemas y en cómo diseñan
sus investigaciones. Esos métodos hacen posible plantear preguntas específicas y precisas de
considerable complejidad en marcos idóneos, lo que posibilita llevar a cabo investigaciones
teóricamente significativas y evaluar los efectos de las variaciones paramétricas ocurridas de forma
natural en el contexto en que normalmente ocurren. De esta forma, se pueden preservar las
correlaciones naturales entre las múltiples influencias sobre el comportamiento y se pueden
estudiar estadísticamente los efectos aislados de esas influencias sin provocar el típico aislamiento
de esos individuos o variable”

Uno de los problemas principales que tienen los analistas es que no siempre pueden utilizar
experimentos caracterizados por 1 o 2 variables de decisión, ya sea por cuestiones de orden
práctico o ético. Esta situación resulta evidente cuando los estudios se realizan en los escenarios
naturales donde se produce la actividad, en los cuales no se pueden prever o controlar
adecuadamente, todas y cada una de las variables que están involucradas en el fenómeno
estudiado.

En la mayor parte de los mercados actuales, los directivos no pueden fiarse de las antiguas
aproximaciones donde se consideraban consumidores homogéneos y caracterizados por un
reducido número de variables demográficas. En su lugar, deben desarrollar estrategias para atraer
a numerosos segmentos de clientes con diversas características demográficas y psicográficas en
un mercado con múltiples restricciones (legales, económicas, competitivas, tecnológicas, etc.).
Sólo a través de las técnicas de análisis multivariante se pueden examinar adecuadamente las
relaciones múltiples de este tipo para llegar a una comprensión de la toma de decisiones más
completa y realista.

Es en este contexto en que la manipulación de las variables no es una estrategia factible o

suficiente para obtener evidencias sólidas que permitan sustentar juicios de causalidad a partir de
la observación de asociaciones entre variables, que el análisis multivariante se presenta como la
herramienta estadística idónea para modelar las múltiples relaciones existentes entre las diferentes
variables involucradas en una determinada investigación.

Análisis Multivariante
El análisis multivariante no es fácil de definir, una de las razones es la interpretación que cada
analista le de al término “multivariante”, por ejemplo, para algunos investigadores multivariante
significa simplemente examinar relaciones entre más de dos variables. Otros usan el término sólo
para problemas en los que se supone que todas las variables múltiples tienen una distribución
normal multivariante
En término generales cualquier análisis de más de dos variables puede ser considerado
aproximadamente como un análisis multivariante, muchas de sus técnicas son extensiones de
análisis univariante (análisis de distribuciones de una sola variable) y de análisis bivariante (análisis
de varianza y regresiones simples), visto como extensión del análisis bivariante que se propone
analizar e interpretar las relaciones entre variables pero mediante la construcción de modelos
matemáticos es posible definir el análisis multivariante de la siguiente manera:

Análisis Multivariante.- Es el conjunto de técnicas estadísticas que tienen como objetivo analizar e
interpretar las relaciones entre distintas variables de manera simultánea, mediante la construcción
de modelos estadísticos complejos que permiten medir la contribución independiente de cada una
de ellas en el sistema de relaciones y, de este modo, describir, explicar, o predecir los fenómenos
que son objeto de interés para la investigación.

Aplicación de análisis multivariante

El desarrollo de los sistemas informáticos abrió la posibilidad de adquirir y procesar un gran
número de datos en todas las disciplinas de las ciencias, alentando el desarrollo y utilización del
análisis estadístico de múltiples variables en todas las áreas del conocimiento.

En las ciencias económicas los métodos estadísticos multivariantes se utilizan para cuantificar el
desarrollo de un país, o determinar las relaciones existentes entre ingresos y gastos de un grupo
familiar, comprender el comportamiento de los consumidores o medir la calidad de productos y
servicios.

En el campo de la ingeniería se emplean para diseñar equipos inteligentes que reconozcan objetos
o caracteres, construir sistemas automatizados que aprendan de manera interactiva con su entorno
y a su vez puedan establecer sistemas de control de proceso productivo para analizar la eficiencia
energética, desarrollar sistemas de inteligencia artificial.

En ciencias de la tierra para la evaluación de los riesgos ambientales y económicos en los cambios
climáticos.

En el campo de las ciencias médicas para implementar procedimientos automáticos de ayuda al

diagnóstico de enfermedades como el caso del cáncer de próstata o de páncreas tratado por
radioterapia mediante un estudio multivariado.

En psicología para nterpretar y correlacionar los resultados de pruebas de aptitudes de pacientes

en psicología.

En el campo de la sociología y antropología para el análisis de encuestas de actitudes, opiniones

sociales, estructura y composición de la población estudio sociocultural sobre la autopercepción,
etc.

En campo de la biología en el estudio y la clasificación de las mieles de las abejas adulteradas

artificialmente.

En general cualquier estudio simultáneo de más de dos variables puede ser analizado mediante
técnicas de análisis multivariante, basándose en los siguientes aspectos:

 Organizar y agrupar todas las variables de un sistema en un conjunto de nuevas variables

obtenidas mediante la transformación de las iniciales, sin una perdida significativa de la
información.
 Identificar la existencia de subconjuntos en los datos.
 Identificar y clasificar nuevas observaciones en grupos ya definidos.
 Relacionar dos o mas conjuntos de variables.
Conceptos básicos
Aunque el análisis multivariante proviene de la estadística univariante y bivariante, la extensión al
dominio multivariante introduce conceptos y cuestiones adicionales, los cuales van desde la
necesidad de un entendimiento conceptual del elemento básico (el valor teórico), hasta las
cuestiones específicas sobre los tipos de escalas de medida utilizadas y los resultados estadísticos
de los test de significación y los intervalos de confianza.

Variables.- Son el conjunto de constructos (objeto conceptual o ideal) que se analizan, estos tienen
ponderaciones (pesos) determinados empíricamente. El analista selecciona las variables, las
ponderaciones son determinadas en función de la técnica seleccionada, según el objetivo del
estudio.

Variables latentes.- Se definen como aquellas que no son directamente observables o medibles, es
decir, no presentan una unidad de medida específica, por lo que cualquier estimación podría
suponer un error asociado.

Variables observables.- Son un conjunto de variables que se utilizan para definir o inferir la variable
latente.

Variables independientes.- Es aquella característica o propiedad que el analista manipula para

estudiar sus efectos sobre algún resultado, también se denominan variables de tratamiento. Una
variable independiente es manipulada en el curso de un experimento a fin de entender los efectos
de tal manipulación sobre otra variable llamada dependiente.

Variables dependientes.- Es la que refleja los resultados de un estudio de investigación, se le

considera como el resultado que podría obedecer al tratamiento experimental de lo que el
investigador modifica o manipula (variable independiente)

Indicadores reflectivos y formativos.- Los analistas utilizan la teoría existente que denominan
constructos y la miden por medio indicadores, estos constructos se relacionan, formando hipótesis;
mientras que los indicadores se vinculan a los constructos, en los cuales se identifican dos tipos:

Indicadores reflectivos (efectos).- Son el reflejo del constructo teórico no visualizado en el

que están ligados, de forma que el constructo da paso a aquello que se observa.
Indicadores formativos (causales).- Es el que establece que los indicadores o medidas dan
lugar al constructo.

Indicativo de:
Característica
Reflectivo Formativo
Los indicadores son El constructo es formado
Causalidad del constructo
causados por el constructo por los indicadores
Todos los indicadores están
No hay requisito de
Relación conceptual entre relacionados
vinculación conceptual
los indicadores conceptualmente porque
entre los indicadores
tienen una causa común
Inventario exhaustivo de
Muestra representativa de
Dominio de los indicadores todos los posibles
los posibles indicadores
indicadores
A priori no colinealidad
Covarianza entre los Colinealidad esperada
esperada entre los
indicadores entre los indicadores
indicadores
Consistencia interna Requerida No requerida
Formas de la validez del
Interna y externa Solo externa
constructo
Diferencias entre indicadores reflectivos y formativos
Valor teórico.- Es el elemento esencial del análisis multivariante, una combinación lineal de
variables con ponderaciones determinadas empíricamente. El analista especifica las variables,
mientras que las ponderaciones se determinan en función de la técnica multivariante seleccionada.
Un valor teórico de n variables ponderadas ( X 1 a X nX n) puede expresarse matemáticamente así:

Valor teórico=w 1 X 1+ w2 X 2 +w 3 X 3 + …+w n X n

Ca
Donde:
X n es la variable observada
w n es la ponderación determinada por la técnica multivariante.

El resultado es un valor único que representa una combinación de todo el conjunto de variables
que mejor se adaptan al objeto del análisis multivariante específico.

Por ejemplo, en regresiones múltiples, el valor teórico se determina de tal forma que guarde la
mejor correlación con la variable que se está prediciendo, en el análisis discriminante, el valor
teórico se forma de tal manera que produzca resultados para cada observación que diferencien de
forma máxima entre grupos de observaciones, en el análisis factorial, los valores teóricos se
forman para representar mejor las estructuras subyacentes o la dimensionalidad de las variables tal
y como se representan en sus intercorrelaciones.

En cada caso, el valor teórico capta el carácter multivariante del análisis, por tanto, en las
discusiones de cada técnica, el valor teórico es el punto central del análisis, no sólo por su impacto
conjunto para lograr cumplir el objetivo de cada técnica, sino también por la contribución de cada
variable individual al efecto del valor teórico en su conjunto.

Escalas de medición.- Es la forma de evaluar una variable o los valores permitidos para ella, estos
pueden ser métricos (cuantitativos) y no métricos (cualitativos).
Las no métricas.- Representan propiedades discretas, un ejemplo pueden ser las escalas
nominales, que consisten en asignar un número a cada grupo (por ejemplo Mujer = 1,
Hombre = 2). Las escalas ordinales se pueden ordenar y agrupar en función de las
respuestas recibidas, pero dichos valores no se pueden considerar como cuantitativos
(satisfacción del estudiante con las clases de sus profesores del semestre).
Las escalas métricas.- Representan montos o magnitud; entre estas tenemos a las de
intervalo y las de razón. En las escalas de intervalo no esta incluido el cero arbitrario y no
se pueden hacer operaciones entre variables de intervalo como por ejemplo la
temperatura. Las medidas razón son el nivel más alto de precisión al medir y se pueden
realizar todas las operaciones entre variables medidas en esta clase de escalas.

Error de medición.- Es el grado en que las medidas no representan la realidad por múltiples
factores, como por ejemplo, la percepción y disponibilidad para poder responder. Este error afecta
los cálculos al momento de procesar la técnica y para establecer una correlación entre dos
variables esta se ve debilitada por la presencia del error de medición. El error de medición.- Refleja
cierto ruido en la medición de las variables latentes, por lo tanto, se debe asumir que todas las
variables utilizadas en las técnicas multivariadas tienen cierto grado de error de medición. Con ello,
el valor que se obtiene representa tanto el nivel "verdadero" como el ruido. Cuando se utiliza para
calcular correlaciones, el efecto "verdadero" está parcialmente enmascarado por el error de
medición, haciendo que las correlaciones se debiliten y los medios sean menos preciso.

Validación y confiabilidad de los datos.- El objetivo del analista es reducir el error de medición que
se generan por varias fuentes. Al evaluar el grado del error de una medida presente en cualquiera
de ellas, el analista debe abordar dos características importantes de esta medición: primero su
validez y luego su confiabilidad.
La validez de una medición.- Es el grado en que una medida representa con precisión lo
que se supone que es, por ejemplo, si se quiere medir la ganancia de un negocio, no se
debe preguntar acerca del ingreso total. Para garantizar la validez se debe partir de un
conocimiento profundo de lo que se va a medir y luego hacer la medición lo mas correcta y
precisa como sea posible. Sin embargo, la precisión no garantiza la validez de la misma.
En el ejemplo el analista podría definir con precisión el ingreso total del hogar, pero estará
equivocado al medir la ganancia, porque no esta haciendo la pregunta correcta.
La confiabilidad de una medición.- Es el grado en que la variable observada mide el valor
verdadero (es contrario al error de medición). Siempre se deben evaluar las variables que
se están utilizando y, si existen otras medidas alternativas, elegir la de mayor confiabilidad.
La confiabilidad estadística es necesaria para garantizar la validez y precisión del análisis
estadístico, por lo que, los resultados se deben reproducir tantas veces como sea
necesario, esto es indispensable, ya que genera confianza en el análisis estadístico y en
los resultados obtenidos.

Significancia estadística versus potencia estadística.- Las técnicas multivariantes están

fundamentadas en la inferencia estadística (a excepción del análisis tipo cluster y el
multidimensional), su interpretación está vinculado a los niveles de error aceptables en la
investigación. Comúnmente se emplea el nivel de error alfa (α) conocido como tipo I, el cual
consiste en rechazar la hipótesis nula cuando ésta es cierta (positivo falso), su ventaja es que el
investigador fija los márgenes admisibles de error especificando la probabilidad de concluir que la
significación existe cuando en realidad no existe, así como también puede determina un error
asociado, denominado el error de tipo II o beta (β) el cual consiste en la probabilidad de aceptar la
hipótesis nula cuando es falsa.

La probabilidad tipo 1-β, denominada “potencia del test de inferencia estadística”, la cual es la
probabilidad de rechazar la hipótesis nula cuando debe ser rechazada (probabilidad de que la
inferencia estadística se indique cuando esté presente), el error alfa establece el nivel de
significación estadística aceptable, pero solo el nivel de la potencia estadística indica la
probabilidad de alcanzar el éxito en la búsqueda de las diferencias si en realidad existen.

Ambos tipos de errores (alfa y beta) son inversamente proporcionales, en la medida que el tipo alfa
se hace mas pequeño tendiendo a cero (siendo más restrictivo), el error de tipo beta aumenta
(siendo más permisivo), al disminuir el error de tipo alfa, también se reduce el poder de la prueba
estadística, por tanto, es necesario conseguir un equilibrio entre el nivel de alfa y la potencia
resultante.

Escalas de medida.- El análisis de los datos implica la separación, identificación y medida de la

variación en un conjunto de variables, tanto entre ellas mismas como entre una variable
dependiente y una o más independientes, el investigador no puede separar o identificar una
variación a menos que pueda ser mesurable. La medida es importante para representar con
precisión el concepto de nuestro interés y es crucial en la selección del método de análisis
multivariante apropiado.

Existen dos tipos básicos de datos: no métricos (cualitativos) y métricos (cuantitativos).

Los datos no métricos.- Son atributos, características o propiedades categóricas que identifican o
describen a un sujeto. Describen diferencias en tipo o clase indicando la presencia o ausencia de
una característica o propiedad. Muchas propiedades son discretas porque tienen una característica
peculiar que excluye todas las demás características. Por ejemplo, si uno es hombre, no puede ser
mujer. No hay cantidad de «género», sólo la condición de ser hombre o mujer. Por el contrario,

Las medidas de datos métricos.- Están constituidas de tal forma que los sujetos pueden ser
identificados por diferencias entre grado o cantidad. Las variables medidas métricamente reflejan
cantidades relativas o grado. Las medidas métricas son las más apropiadas para casos que
involucran cantidad o magnitud, tales como el nivel de satisfacción o la demanda de trabajo.
Escalas de medida no métricas.- Las medidas no métricas pueden tener escalas nominales u
ordinales. La medida con una escala nominal (también conocidas como escalas de categoría)
asigna números que se usan para etiquetar o identificar sujetos u objetos, proporcionan el número
de ocurrencias en cada clase o categoría de la variable que se está estudiando. Por tanto, los
números o símbolos asignados a los objetos no tienen más significado cuantitativo que indicar la
presencia o ausencia del atributo o característica bajo investigación.

Ejemplos de datos con escala nominal pueden ser el sexo, la religión o el partido político de una
persona. Para trabajar con estos datos, el analista puede asignar números a cada categoría
(hombres = 1 y 1 para mujeres = 2). Estos números sólo representan categorías o clases y no
implican cantidades de un atributo o característica.

Las escalas ordinales representan un nivel superior de precisión de la medida. Las variables
pueden ser ordenadas o clasificadas en relación a la cantidad del atributo poseído. Cada subclase
puede ser comparada con otra en términos de una relación de «mayor que» o «menor que». Por
ejemplo, los diferentes niveles de satisfacción del consumidor individual con 3 diferentes productos
(El encuestado puede estar más satisfecho con A que con B y más satisfecho con B que con C).
Los números utilizados en escalas ordinales como éstas no son cuantitativos, dado que indican
sólo posiciones relativas en series ordenadas. No hay medida de cuánta satisfacción recibe el
consumidor en términos absolutos, el analista tampoco conoce la diferencia exacta entre puntos de
la escala de satisfacción.

Escalas de medida métrica.- Las escalas de intervalos y de razón proporcionan el nivel más alto de
medida de precisión. Estas dos escalas tienen unidades constantes de medida, de tal forma que
las diferencias entre dos puntos adyacentes de cualquier parte de la escala son iguales. La única
diferencia real entre las escalas de intervalo y las de razón es que las de intervalo tienen un punto
cero arbitrario, mientras que las escalas de razón tienen un punto de cero absoluto.

Las escalas de intervalo más familiares son las escalas de temperatura Celsius y Fahrenheit,
ambas tienen un punto de cero arbitrario, que no indica una cantidad cero o ausencia de
temperatura, por tanto, no es posible decir que un valor cualquiera situado en un intervalo de la
escala es un múltiplo de cualquier otro punto de la escala. Por ejemplo, si un día se registran 80°F,
no se puede decir que sea dos veces más caluroso que uno de 40°F porque en una escala
diferente como Celsius, el calor no es dos veces mayor (80ºF =26.7ºC y 40ºF =4.4ºC).

Las escalas de razón representan una mejor medida de precisión, dado que poseen las ventajas
de que todas las escalas son proporcionales más un punto de cero absoluto y se permiten todas
las operaciones matemáticas. Las basculas utilizan estas escalas, dado que tienen un punto de
cero absoluto y que pueden ser expresados en términos de múltiplos cuando se relaciona un punto
con otro de la escala; por ejemplo, 100 kilos es dos veces más pesado que 50 kilos.

Es importante entender los diferentes tipos de escalas de medida por dos razones. En primer lugar,
el analista debe identificar la escala de medida de cada variable empleada, de tal forma que no se
estén utilizando datos no métricos como si fueran métricos. En segundo lugar, la escala de medida
es crucial para determinar qué técnica multivariante es la más conveniente para los datos,
considerando tanto las variables dependientes como las independientes.

Error de medida y medidas multivariantes .- El uso de múltiples variables así como la dependencia
de su combinación (el valor teórico) en las técnicas multivariantes también dirige su atención al,
error de medida.

El error de medida.- Es el grado en que los valores observados no son representativos de los
valores «verdaderos». El error de medida tiene múltiples fuentes, que van desde errores en la
entrada de datos a la imprecisión en la medición pasando por la incapacidad de los encuestados a
proporcionar información precisa. Por tanto, se debe asumir que todas las variable usadas en las
técnicas multivariantes tienen algún grado de error de medida. El impacto del error de medida es
añadir «ruido» a las variables medidas u observadas. Por tanto, el valor observado obtenido
representa tanto el nivel «verdadero» como el «ruido». Cuando se calculan correlaciones o medias,
normalmente el efecto «verdadero» está parcialmente camuflado por el error de medida, causando
la debilidad de las correlaciones y la pérdida de precisión de las medias.
El objetivo del analista de reducir el error de medida puede seguir varios caminos. Al valorar el
grado de error de medida presente en cualquier medición, el analista debe enfrentarse tanto con la
validez como con la fiabilidad de la medida.

La validez es el grado en que la medida representa con precisión lo que se supone que representa.
Por ejemplo, si queremos medir la renta discrecional, no preguntaremos por la renta total de las
economías domésticas. Asegurar la validez empieza con un conocimiento profundo de lo que se va
a medir y sólo entonces realizar la medida tan «correcta» y precisa como sea posible. Sin
embargo, la precisión no asegura la validez.

En nuestro ejemplo de la renta, el investigador podría definir muy precisamente el total de la renta
familiar pero no tiene una medida válida de la renta discrecional porque no se ha planteado la
pregunta «correcta».

Si la validez está asegurada, el investigador debe considerar la fiabilidad de las medidas. La

fiabilidad es el grado en que la variable observada mide el valor «verdadero» y está «libre de
error»; por tanto es lo opuesto al error de medida. Si la misma medida se realiza repetidas veces,
por ejemplo, las medidas más fiables mostrarán una mayor consistencia que las medidas menos
fiables. El investigador deberá valorar siempre las variables que están siendo usadas y si se
pueden encontrar medidas alternativas válidas, elegir la variable con la mayor fiabilidad.

El analista puede también optar por desarrollar mediciones multivariantes, también conocidas como
escalas sumadas, donde diversas variables se unen en una medida compuesta para representar
un concepto (por ejemplo, una escala de personalidad de entrada múltiple o puntuaciones
sumadas de un producto). El objetivo es evitar usar sólo una única variable para representar un
concepto, y en su lugar utilizar varias variables como indicadores, representando todos ellos
diferentes facetas del concepto para obtener una perspectiva más completa.

El uso de indicadores múltiples permite al investigador llegar a una especificación más precisa de
las respuestas deseadas y no deja la fiabilidad plena a una única respuesta sino en la respuesta
«media» o «típica» de un conjunto de respuestas relacionadas. Por ejemplo, al medir la
satisfacción, uno podría preguntar una única cuestión, «¿cuál es su grado de satisfacción?», y
basar el análisis en una única respuesta. O se podría desarrollar una escala aditiva que combinara
varias respuestas de satisfacción, quizá en diferentes formatos de respuesta y en diferentes áreas
de interés, que contemple la satisfacción total.

La premisa básica es que las respuestas múltiples reflejan con mayor precisión la respuesta
«verdadera» que la respuesta única (se han publicado compilaciones de escalas que proporcionan
al investigador una escala «lista para ser empleada» con una fiabilidad demostrada).

El impacto del error de medida y la escasa fiabilidad no pueden ser observadas directamente, dado
que se encuentran en las variables observadas. El analista debe, por tanto, trabajar siempre para
aumentar la validez y la fiabilidad, lo que al final llevará a una mayor autenticidad de las variables
de interés. Los malos resultados no siempre se deben al error de medida, pero la presencia de este
es garantía de distorsión en las relaciones observadas y hace menos poderosas las técnicas
multivariantes. Reducir el error de medida, aunque implique esfuerzo, tiempo y recursos
adicionales, puede mejorar resultados débiles o marginales, así como fortalecer resultados
probados.

Significación estadística frente a potencia estadística.- Todas las técnicas multivariantes, excepto el
análisis cluster y el análisis multidimensional, se basan en la inferencia estadística de los valores
de una población o la relación entre variables de una muestra escogida aleatoriamente de esa
población. Si se realiza un censo de toda la población, entonces la inferencia estadística no es
necesaria, porque cualquier diferencia o relación, por pequeña que sea, es «verdad» y existe. Pero
rara vez, se realiza un censo; por tanto, el analista tiene que deducir inferencias de una muestra.

Para interpretar las inferencias estadísticas, el investigador debe especificar los niveles aceptables
de error estadístico. El modo de aproximación más común es determinar el nivel de error de Tipo I,
también conocido como alfa (). El error de Tipo I es la probabilidad de rechazar la hipótesis nula
cuando es cierta, o expresado en términos más sencillos, la posibilidad de que la prueba muestre
significación estadística cuando en realidad no está presente (positivo falso).

Especificando un nivel alfa, el investigador fija los márgenes admisibles de error especificando la
probabilidad de concluir que la significación existe cuando en realidad no existe. Al especificar el
nivel de error de Tipo I, el investigador también determina un error asociado, denominado el error
de Tipo II o beta (). El error de Tipo II es la probabilidad de aceptar la hipótesis nula cuando es
realmente falsa. Una probabilidad más interesante es 1−β , denominado la potencia del test de
inferencia estadística. Potencia es la probabilidad de rechazar correctamente la hipótesis nula
cuando debe ser rechazada. Por tanto, la potencia es la probabilidad de que la inferencia
estadística se indique cuando esté presente. La relación de las diferentes probabilidades de error
se muestra a continuación en el hipotético planteamiento de la evaluación de la diferencia entre
dos medias:

Realidad

H 0 :Cierta H 1 : Falsa
1−α β
H 0 : Aceptar Potencia Error Tipo II
Decisión estadística
α 1−β
H 1 : No aceptar Error Tipo I Potencia

Aunque la especificación alfa establece el nivel de significación estadística aceptable, es el nivel de

potencia el que dicta la probabilidad de «éxito» en la búsqueda de las diferencias si es que
realmente existen. Entonces, ¿por qué no se plantean niveles aceptables tanto de alfa como de
beta? Porque los errores de Tipo I y Tipo II están inversamente relacionados, y a medida que el
error de Tipo I se hace más restrictivo (se acerca a cero), el error de Tipo II aumenta. Al disminuir
el error de Tipo I también se reduce el poder de la prueba estadística. Por tanto, el analista tiene
que conseguir un equilibrio entre el nivel de alfa y la potencia resultante. La potencia no es sólo
una función de alfa. Realmente está determinada por tres factores:

1. Efecto tamaño.- La probabilidad de conseguir significación estadística se basa no sólo en

consideraciones estadísticas sino también en la magnitud real del efecto que nos interesa (por
ejemplo, una diferencia de medias entre dos grupos o la correlación entre variables) en la
población, denominado efecto tamaño, un efecto grande es más probable de encontrar que un
efecto pequeño y por tanto, afecta a la potencia de la prueba estadística. Para evaluar la potencia
de cualquier prueba estadística, el analista debe entender primero el efecto examinado. Los
efectos de tamaño se miden en términos estandarizados para facilitar la comparación. Las
diferencias respecto de la media se determinan en términos de desviaciones estándar, así que un
efecto tamaño de 0,5 indica que la diferencia respecto de la media es la mitad de la desviación
estándar. Para las correlaciones, el efecto tamaño se basa en la correlación efectiva entre las
variables.

2. Alfa (a).- A medida que alfa se vuelve más restrictivo, la potencia decrece. Esto significa que
como el analista reduce la oportunidad de encontrar un efecto incorrecto significativo, la
probabilidad de encontrar correctamente un efecto también disminuye. Las directrices
convencionales sugieren niveles alfa de 0,05 o 0,01. Pero el investigador debe considerar el
impacto de esta decisión sobre la potencia antes de seleccionar el nivel alfa.

3. El tamaño de la muestra.- Para cualquier nivel de alfa dado, el aumento de la muestra siempre
produce una mayor potencia del test estadístico. Pero aumentar el tamaño de la muestra también
puede producir «demasiada» potencia. Por lo tanto, se debe entender que al aumentar el tamaño
de la muestra, se observará que efectos cada vez más y más pequeños serán significativos, hasta
que para muestras muy grandes casi cualquier efecto es significativo. El analista debe tener
presente que el tamaño de la muestra puede afectar a la prueba estadística tanto por hacerla
insensible (para muestras muy pequeñas) o demasiado sensible (para muestras muy grandes).

Las relaciones entre alfa, tamaño de la muestra, efecto tamaño y potencia son bastante
complicadas, pero se pueden encontrar ciertos puntos de partida. Cohén [6] ha examinado la
potencia para la mayor parte de las pruebas de inferencia estadística y ha proporcionado pautas
para los niveles aceptables de potencia, sugiriendo que los estudios deben diseñarse para
conseguir niveles de alfa de al menos 0,05 con niveles de potencia del 80 por ciento. Para
conseguir dichos niveles, deben considerarse simultáneamente los tres factores. Estas
interrelaciones se pueden ilustrar mediante dos ejemplos sencillos. El primero implica la
comprobación de la diferencia entre las puntuaciones medias de dos grupos. Suponiendo que el
efecto tamaño sea entre pequeño (0,02) y moderado (0,5), el analista debe determinar el nivel alfa
y el tamaño de muestra necesario de cada grupo. La Tabla 1.1 ilustra el impacto tanto del tamaño
de la muestra como del nivel alfa sobre la potencia. Como puede verse, la potencia llega a ser
aceptable para tamaños de muestra de 100 o más en situaciones con un efecto tamaño moderado
para ambos niveles de alfa. Pero cuando ocurre un efecto tamaño pequeño, las pruebas
estadísticas tiene poca potencia, incluso con niveles de alfa expandidos a muestras de 200 o más.
Por ejemplo, una muestra de 200 en cada grupo con un alfa de 0,05 todavía tiene un 50 por ciento
de posibilidades de encontrarse diferencias significativas si el efecto tamaño es pequeño. Esto
sugiere que el analista, al anticipar que los efectos van a ser pequeños, debe diseñar el estudio
con muestras mucho mayores y/o niveles de alfa menos restrictivos (0,05 o 0,10).
En el segundo ejemplo, la Figura 1.1 representa gráficamente la potencia para niveles de
significación de 0,01; 0,5 y 0,10 con tamaños de muestra de 20 a 300 por grupo, cuando el efecto
tamaño (0,35) es entre pequeño y moderado. Enfrentado a tales perspectivas, la especificación de
un nivel de significación de un 0,01 requiere una muestra de 200 por grupo para conseguir el nivel
deseado de potencia del 80 por ciento. Pero si se relaja el nivel alfa, se alcanza la potencia del 80
por ciento para muestras de 130 para un nivel alfa 0,05 y muestras de 100 para un nivel de
significación de un 0,10.

Tales análisis permiten tomar decisiones más adecuadas en el estudio, diseño e interpretación de
los resultados. Al planificar la investigación, se debe estimar el efecto tamaño esperado para
seleccionar entonces el tamaño de la muestra y el nivel alfa para conseguir el nivel de potencia
deseado. Además de sus usos para la planificación, el análisis de potencia se utiliza también
después de que el análisis ha terminado para determinar la potencia real conseguida, de tal forma
que los resultados puedan ser correctamente interpretados.

¿Se deben los resultados al efecto tamaño, tamaño muestral o niveles de significación? Los
analistas pueden evaluar cada uno de estos factores por su impacto sobre la signifícatividad o no
significatividad de los resultados. El investigador puede referirse hoy en día a estudios publicados
donde se analizan los detalles concretos de la determinación de la potencia [6] o acudir a varios
programas de ordenador personal que asisten en los estudios de planificación para conseguir la
potencia deseada o calcular la potencia de los resultados reales [2, 3]. En los Capítulos 4 y 6 se
discutirán con más detalle las aplicaciones más comunes del análisis de potencia y las pautas
específicas a seguir cuando se aplica regresión múltiple y el análisis multivariante de la varianza.
Habiendo ya expuesto la extensión de las técnicas multivariantes desde sus orígenes univariantes
o bivariantes, introduciremos ahora brevemente cada método multivariante. A partir de la
introducción de las técnicas, presentamos un esquema de clasificación para ayudar en la selección
de la técnica apropiada respecto de la identificación de los objetivos de investigación (relaciones de
dependencia o independencia) y el tipo de datos (métricos o no métricos).

Simplificación de datos
En el análisis multivariado se utilizan diferentes enfoques tales como la simplificación de la
estructura de datos, el cual es una manera simplificada de representar el universo de estudio,
mediante la transformación (combinación lineal o no lineal) de un conjunto de variables
interdependientes en otro conjunto independiente o en un conjunto de menor dimensión.
Este tipo de análisis permite ubicar las observaciones dentro de grupos o bien concluir que los
individuos están dispersos aleatoriamente en el multiespacio; también pueden agruparse variables.

El objetivo es examinar la interdependencia de las variables, la cual abarca desde la independencia

total hasta la colinealidad cuando una de ellas es combinación lineal de algunas de las otras, o en
términos aún más generales, es una función f (x) cualquiera de las otras.

Análisis de interdependencia y análisis de dependencia.

El análisis multivariante es un conjunto de técnicas de análisis de datos en expansión, dichas
técnicas se dividen en dos grupos: Análisis de interdependencia y análisis de dependencia, la
elección del análisis más conveniente y el método (técnica) de estudio dentro de se ese análisis, se
basa en tres juicios que el analista debe hacer sobre el objeto a investigar y la naturaleza de los
datos:

1. ¿Pueden dividirse las variables en dependientes o independientes basándose la clasificación en

alguna teoría?
2. Si puede hacerse, ¿cuántas de estas variables son tratadas como dependientes en un análisis
simple?
3. ¿Cómo son las variables medidas?

La selección de la técnica multivariante apropiada depende de estas tres cuestiones previas. La

respuesta a la primer pregunta indica si se utiliza un análisis de dependencia o interdependencia.

Un análisis de dependencia puede definirse como aquel en el que una variable o conjunto de
variables es identificado como la variable dependiente y que va a ser explicada por otras variables
conocidas como variables independientes. Como ejemplo de una dependencia técnica tenemos el
análisis de regresión múltiple.

Un análisis de interdependencia es aquel en que ninguna variable o grupo de variables es definido

como independiente o dependiente. Más bien, el procedimiento implica el análisis de todas las
variables del conjunto simultáneamente. El análisis factorial es un ejemplo de un análisis de
interdependencia

El siguiente esquema muestra las técnicas más importantes de los análisis dependiente e
independiente.

Los diferentes métodos que constituyen el análisis de dependencia pueden ser divididos en dos
tipos según: (1) el número de variables dependientes y (2) el tipo de escalas de medida empleadas
para las variables.
Considerando el número de variables dependientes, puede clasificarse en una variable
dependiente única o en varias variables dependientes, incluso en varias relaciones de
dependencia/independencia.

También puede ser clasificado en función del tipo de escala de la variable: con variables métricas
(numéricas/cuantitativas) o no métricas (cualitativas/categóricas). Si el análisis implica una única
variable dependiente que es métrica, las técnicas apropiadas pueden ser, el análisis de regresión
múltiple y el análisis conjunto.
El análisis conjunto es un caso especial. Se trata de un procedimiento de dependencia que puede
tratar la variable dependiente como métrica o no métrica, en función de las circunstancias.
Por otro lado, si la única variable dependiente es no métrica (categórica), entonces la técnica
apropiada es, el análisis discriminante múltiple, o los modelos de probabilidad lineal.

Cuando el problema implica varias variables dependientes, hay cuatro técnicas estadísticas
apropiadas.
Si las variables dependientes son métricas, se debe decidir en función de las variables
independientes. Cuando las variables independientes son no métricas, debe elegir la técnica
multivariante de análisis de la varianza. Si las variables independientes son métricas, la apropiada
es la correlación canónica.

Si las variables dependientes son no métricas, entonces pueden transformarse a través de una
variable ficticia de código 0 y 1 (la codificación es una manera de transformar datos no métricos en
métricos, mediante la creación de variables ficticias, a las cuales se asignan unos y ceros al sujeto,
dependiendo de si cuenta o no con cierta característica. Por ejemplo, si un sujeto es masculino se le asigna
un 0, si es femenino se le asigna un 1.) y puede utilizarse también el análisis canónico.

Finalmente, si se postula un conjunto de relaciones de variables dependientes/independientes,

entonces el modelo de ecuaciones estructurales es el apropiado.

Existe una estrecha relación entre las diversas técnicas de dependencia. La Tabla 1.2 define las
técnicas mencionadas en términos de la naturaleza y número de las variables dependientes e
independientes.

Es posible observar en la tabla que la correlación canónica puede considerarse el modelo general
en el cual se basan las otras técnicas multivariantes, dado que sitúa la mínima restricción respecto
al tipo y número de variables tanto de valor teórico dependiente como independiente. Como las
restricciones están basadas en valores teóricos, pueden alcanzarse conclusiones más precisas
apoyándose en la escala específica empleada en la medición de los datos. Tales técnicas
multivariantes van desde el método general del análisis canónico al más especializado método de
modelización de ecuaciones estructurales.

En el análisis de interdependencia las variables no pueden ser clasificadas como dependientes o

independientes. En vez de esto, todas las variables son analizadas simultáneamente en un
esfuerzo por encontrar una estructura subyacente para el conjunto total de variables o sujetos.
Si se está analizando la estructura de las variables, entonces el análisis factorial es la técnica
apropiada.
Si los casos o los encuestados se van a agrupar para representar una estructura, entonces
seleccionaremos el análisis cluster.

Si se van a analizar las interdependencias entre objetos medidos por datos no métricos, el análisis
de correspondencias es la técnica apropiada.

Finalmente, si el interés está en la estructura de objetos, deberían aplicarse las técnicas de análisis
multidimensional, las cuales se pueden aplicar tanto a datos métricos como no métricos.

Generalmente, el análisis factorial y el análisis cluster se consideran análisis de interdependencia

métricos. Sin embargo, los datos no métricos pueden ser transformados a través de una variable
ficticia codificada para usarlos con dichas técnicas.

En este apartado, se definirá brevemente cada una de las técnicas multivariantes y el objetivo de
su aplicación, tanto del análisis dependiente como del interdependiente.

Los componentes principales y análisis de factor común

El análisis factorial (incluye variaciones tales como el análisis de componentes y el análisis factorial
común), es un enfoque estadístico que se puede utilizar para estudiar las interrelaciones entre un
gran número de variables y explicar estas variables en términos de sus dimensiones subyacentes
comunes (factores). El objetivo es hallar una forma de concentrar la información almacenada en las
variables originales, en un conjunto más pequeño de variables circunstanciales (factores) con una
pérdida mínima de información. Al proporcionar una estimación empírica dentro de la distribución
de las variables consideradas, el análisis factorial, se convierte en una base objetiva para la
creación de escalas aditivas

Regresión múltiple
Método de análisis apropiado cuando el problema del investigador incluye una variable métrica
dependiente que este relacionada con dos o más variables métricas independientes. El objetivo del
análisis de regresión múltiple es predecir el comportamiento de la variable dependiente en
respuesta a cambios en las variables independientes. Por ejemplo, se puede predecir las ventas de
una compañía a partir de información sobre sus gastos en publicidad, el número de vendedores y
el número de tiendas que distribuyen sus productos.

Análisis discriminante múltiple

Si la única variable dependiente es dicotómica (es decir, comprador-no comprador) o
multidicotómica
(es decir, alto-medio-bajo) y por tanto no métrica, la técnica multivariante apropiada es un
análisis discriminante múltiple (MDA). Como con la regresión múltiple, las variables independientes
se supone que son métricas. El análisis discriminante es útil en situaciones donde la muestra total
puede dividirse en grupos basándose en una variable dependiente caracterizada por varias clases
conocidas. Los objetivos primarios del análisis discriminante múltiple son entender las diferencias
de los grupos y predecir la verosimilitud de que una entidad (persona u objeto) pertenezca a una
clase o grupo particular basándose en varias variables métricas independientes. Por ejemplo, el
análisis
discriminante puede usarse para distinguir innovadores de no innovadores de acuerdo a sus
perfiles demográficos y psicográficos. Otras aplicaciones incluyen la distinción entre usuarios
habituales u ocasionales de un producto, compradores de marcas de ámbito nacional o restringido
y el riesgo de crédito bueno del riesgo de crédito malo. Incluso la Agencia Tributaria utiliza un
análisis discriminante para comparar las declaraciones seleccionadas con las devoluciones
compuestas
hipotéticas del contribuyente normal (para distintos niveles de renta) con el fin de identificar
las devoluciones y áreas más prometedoras para la auditoría.

Análisis multivariante de la varianza y covarianza

El análisis multivariante de la varianza (MANOVA) es una técnica estadística que puede ser usada
simultáneamente para explorar las relaciones entre diversas categorías de variables
independientes
(usualmente denominadas como tratamientos) y dos o más variables métricas dependientes.
Como tal, representa una extensión del análisis univariante de la varianza (ANOVA).
El análisis multivariante de la covarianza (MANCOVA) puede usarse en conjunción con M ANOVA
para eliminar (después del experimento) el efecto de cualquier variable independiente no
controlada sobre las variables dependientes. El procedimiento es similar al que se encuentra en
la correlación parcial bivariante. MANOVA es útil cuando el investigador diseña una situación
experimental (manipulación de varias variables de tratamiento no m étricas) para comprobar
hipótesis concernientes a la varianza de respuestas de grupos sobre dos o más variables métricas
dependientes.

Análisis conjunto
El análisis conjunto es una técnica de dependencia emergente que ha introducido una nueva
sofisticación
en la evaluación de objetos, sean nuevos productos, servicios o ideas. La aplicación más
directa está en productos nuevos o desarrollo de servicios, permitiendo la evaluación de productos
complejos mientras que mantiene un contexto de decisión realista para el encuestado. El analista
de mercado es capaz de evaluar la importancia de atributos así como los niveles de cada atributo
mientras que los consumidores evalúan sólo los perfiles de unos pocos productos, que son
combinaciones
de niveles de producto. Por ejemplo, un concepto de un producto que tiene tres atributos
(precio, calidad y color), cada uno de los cuales a tres niveles (por ejemplo, rojo, amarillo y azul).
En lugar de tener que evaluar todas las 27 combinaciones posibles (3 X 3 X 3), se puede evaluar
un subconjunto (9 o más) por su atractivo para los consumidores, y el investigador sabe no sólo
cuál es la importancia de cada atributo sino también la importancia de cada nivel (el atractivo del
rojo frente al amarillo y frente al azul). Más aún, cuando se completan las evaluaciones del
consumidor,
pueden usarse los resultados del análisis conjunto en simuladores del diseño del producto,
que mostrarán la aceptación del cliente para cualquier número de formulaciones de producto y
ayudar en el diseño del producto óptimo.
Correlación canónica
El análisis de correlación canónica puede verse como una extensión lógica de un análisis de
regresión
múltiple. Recordemos que el análisis de regresión múltiple implica una única variable dependiente
métrica y varias variables métricas independientes. Con el análisis canónico el objetivo
es correlacionar simultáneamente varias variables dependientes métricas y varias variables
métricas
independientes. Mientras que la regresión múltiple implica una única variable dependiente, la
correlación canónica implica múltiples variables dependientes. El principio subyacente es
desarrollar
una combinación lineal de cada conjunto de variables (tanto independientes como dependientes)
para maximizar la correlación entre los dos conjuntos. O dicho de otra forma, el procedimiento
implica
obtener un conjunto de ponderaciones para las variables dependientes e independientes que
proporcione la correlación única máxima entre el conjunto de variables dependientes y el conjunto
de variables independientes.

Análisis cluster
El análisis cluster es una técnica analítica para desarrollar subgrupos significativos de individuos
u objetos. De forma específica, el objetivo es clasificar una muestra de entidades (personas u
objetos) en un número pequeño de grupos mutuamente excluyentes basados en similitudes entre
las entidades. En el análisis cluster, a diferencia del análisis discriminante, los grupos no están
predefinidos.
Por consiguiente, se usa la técnica para identificar los grupos.
Habitualmente, el análisis cluster implica al menos dos etapas. La primera es la medida de alguna
forma de similitud o asociación entre las entidades para determinar cuántos grupos existen
en realidad en la muestra. La segunda etapa es describir las personas o variables para determinar
su composición. Este paso puede llevarse a cabo aplicando el análisis discriminante a los grupos
identificados por la técnica cluster.
Análisis multidimensional
En el análisis multidimensional, el objetivo es transformar los juicios de los consumidores de
similitud
o preferencia (por ejemplo, preferencias por tiendas o marcas comerciales) en distancias
representadas en un espacio m ultidim ensional. Si los objetos A y B son en opinión de los
encuestados más similares que el resto de los pares posibles de objetos, las técnicas de análisis
multidimensional
situarán a los objetos A y B de tal forma que la distancia entre ellos en un espacio
multidimensional es menor que la distancia entre cualquier otro par de objetos. Los mapas
perceptuales
resultantes muestran el posicionamiento relativo entre losobjctos, pero es necesario un
análisis adicional para evaluar qué atributos predicen la posición de cada objeto.
Análisis de correspondencias
Para finalizar, el análisis de correspondencias es una técnica de interdependencia recientemente
desarrollada
que facilita tanto la reducción dimensional de una clasificación de objetos (por ejemplo,
productos, personas, etc.,) sobre un conjunto de atributos y el mapa perceptual de objetos relativos
al estos atributos. Los investigadores se enfrentan constantemente a la necesidad de «cuantificar
datos cualitativos» que encuentran en variables nominales. El análisis de correspondencias
difiere de otras técnicas de interdependencia discutidas antes en su capacidad para acomodar
tanto
datos no métricos como relaciones no lineales.
En su forma más básica, el análisis de correspondencias em plea una tabla de contingencia,
que es la tabulación cruzada de dos variables categóricas. A continuación transform a los datos
no métricos en un nivel métrico y realiza una reducción dimensional (sim ilar al análisis factorial)
y un mapa perceptual (sim ilar al análisis multidimensional). A modo de ejemplo, las preferencias
por una marca de los encuestados pueden ser tabuladas de forma cruzada con variables
demográficas (por ejemplo, género, categorías de renta, ocupación) indicando cuánta gente que
prefiere cada una de las marcas entra dentro de cada categoría de las variables demográficas. A
través del análisis de correspondencias, la asociación o «correspondencia» de marcas y las
características
distintivas de aquellos que prefieren cada marca se muestran en un mapa bi o tridimensional,
tanto de marcas como características de los encuestados. Las marcas percibidas
como similares están localizadas en una cercana proximidad unas de otras. De la misma forma,
las características más distintivas de los encuestados que prefieren cada marca están determ
inadas
tam bién por la proxim idad de las categorías de las variables dem ográficas respecto de la
posición de la marca. El análisis de las correspondencias proporciona una representación m
ultivariante
de la interdependencia de datos no métricos que no es posible realizar con otros
métodos.

Modelos de probabilidad lineal

Los modelos de probabilidad lineal, a menudo llamados análisis logit, consisten en una
combinación
de regresión múltiple y análisis de discriminante múltiple. Esta técnica es similar al análisis
de regresión múltiple en que una o más variables independientes se usan para predecir una única
variable dependiente. Lo que distingue un modelo de probabilidad lineal de la regresión múltiple
es que la variable dependiente es no métrica, como en el análisis discriminante. La escala no
métrica
de la variable dependiente requiere diferencias en el método de estimación y supuestos sobre
el tipo de distribución subyacente, siendo en la mayoría de sus otras facetas similar a la regresión
múltiple. Por tanto, una vez que la variable dependiente está especificada correctamente y se
emplea
la técnica de estimación apropiada, se usan igualmente los supuestos básicos considerados en
la regresión múltiple. Los modelos de probabilidad lineal se distinguen del análisis discriminante
en que acomodan todos los tipos de variables independientes (métricas y no métricas) y no
requieren
el supuesto de normalidad multivariante. Sin embargo, en muchos casos, particularmente con más
de dos niveles de la variable dependiente, el análisis discriminante es la técnica más apropiada.
Modelos de ecuaciones estructurales
El modelo de ecuaciones estructurales, a menudo denominado simplemente como L1SREL (el
nombre
de uno de los paquetes informáticos más populares), es una técnica que permite separar las
relaciones
para cada conjunto de variables dependientes. En su acepción más simple, el modelo de
ecuaciones estructurales proporciona la técnica de estimación más adecuada y eficiente para
series
de estimaciones de ecuaciones simultáneas mediante regresiones múltiples. Se caracteriza por
dos componentes básicos: (1) el modelo estructural y (2) el modelo de medida. El modelo
estructural
es el modelo «guía», que relaciona variables independientes y variables dependientes. En tales
situaciones, la teoría, antes que la experiencia u otras directrices, permitirá al investigador
distinguir qué variables independientes predicen cada variable dependiente. Los modelos
previamente
discutidos que incluyen múltiples variables dependientes — análisis multivariante de la varianza
y correlación canónica— no son apropiados en esta situación, dado que permiten sólo una
única relación entre variables dependientes e independientes.
El modelo de medida perm ite al investigador usar varias variables (indicadores), para una
única variable dependiente o independiente. Por ejemplo, la variable dependiente puede ser un
concepto representado por una escala aditiva, tal como el amor propio. En el modelo de m edida
el investigador puede evaluar la contribución de cada ítem de la escala así como incorporar
cómo la escala mide el concepto (fiabilidad) en la estimación de las variables dependientes
e independientes. Este procedim iento es sim ilar al desarrollo del análisis factorial (discutido
en una sección posterior) de los ítem s de la escala y utiliza las cargas factoriales en la regresión.

Otras técnicas multivaríantes emergentes

El uso generalizado de las herramientas informáticas ayudó a iniciar la era del análisis m
ultivariante
tal y como lo conocemos hoy, con un número de técnicas especializadas que se pueden aplicar
a una gama amplia de situaciones. No obstante, ahora nos encontramos al principio de una era
en la cual el análisis multivariante incorpora nuevos enfoques para identificar y representar las
relaciones multivaríantes. Un área de desarrollo en el análisis multivariante es la búsqueda de
datos y las redes neuronales. La búsqueda de datos es el intento de cuantificar las relaciones
entre grandes cantidades de información con una especificación previa minima de la naturaleza
de las relaciones. Una técnica que se usa muchas veces junto con la búsqueda de datos son las
redes
neuronales, una técnica de análisis flexible que es capaz de llevar a cabo una identificación
de relaciones (parecida a la regresión múltiple o al análisis discriminante) o la reducción de
datos y el análisis estructural (semejante al análisis factorial o cluster). Las redes neuronales son
diferentes a las técnicas multivariantes más tradicionales citadas previamente tanto en la
formulación
del modelo como en los tipos de relaciones más complejos que se pueden formular. Otra
área que incluye un distanciamiento de la teoría estadística inferencial tradicional es el desarrollo
de la técnica de la muestra repetida o «arranque». Esta técnica elimina la necesidad de cumplir
determinados supuestos estadísticos (como la normalidad), mediante el uso del ordenador para
replicar una «muestra repetida» de la muestra original, con el reemplazo y la generación de una
estimación empírica de la distribución muestral. Se puede encontrar un resumen de estas nuevas
técnicas en el Capitulo 12.

Entre los métodos de análisis multivariado para detectar la interdependencia entre variables y
también entre individuos se incluyen el análisis de factores, el análisis por conglomerados o
clusters, el análisis de correlación canónica, el análisis por componentes principales, el análisis de
ordenamiento multidimensional, y algunos métodos no paramétricos. Los métodos para detectar
dependencia comprenden el análisis de regresión multivariado, el análisis de contingencia múltiple
y el análisis discriminante.

El método de análisis de componentes principales es uno de los más difundidos, permite la

estructuración de un conjunto de datos multivariados obtenidos de una población.

2.1.1 Definiciones
Para la interpretación del análisis de componentes principales se necesita un conjunto de
conceptos necesarios entre los cuales se encuentran:
Matriz de datos
Se dice que un conjunto de datos constituye una muestra aleatoria multivariada si cada individuo
ha sido extraído al azar de una población de individuos y en él se han medido u observado una
serie de características. Sean xij la observación de la j-esima variable en el i-ésimo individuo, xi el
vector fila que contiene las observaciones de todas las variables en el i-ésimo individuo y x j el
vector columna que contiene todas las observaciones de la j-ésima variable. Por lo cual se define
una matriz de datos como el arreglo de dimensión n × p que:

x 11 ⋯ ⋯ x1 p
x=x ij =
⋮
⋮
[
xn 1
⋮
⋮
⋮
⋮ ⋮
x ij ⋮
⋯ xnp ]
también puede expresarse como
x1
x=x 1 … … … x p= ⋮
⋮
xp []
La media muestral de la j-ésima variable de una matriz de datos se define por:
n
1
x j= ∑x
n i=1 ij
el vector formado por los x j será el vector promedio
x1
x= ⋮
⋮
[]
xp

La varianza muestral de la j-ésima variable se define por:

n
1
sij = ∑ ( x ¿ ¿ij−x j )2 ¿
n i=1

Matriz de varianzas y covarianzas S

Dada una matriz de datos, la varianza muestral de la j-ésima variable se define por:

n
1
sij = ∑ ( x ¿ ¿ij−x j )2 ¿
n i=1

Y la covarianza entre la j-ésima y la k-ésima variable se define por:

n
1
s jk= ∑ (x ¿ ¿ ij−x j)(x ¿ ¿ ik−x k )¿ ¿
n i=1

j , k =1 ,… … , p
La matriz formada por el arregls de los s jk y los s jj será la matriz de varianzas y covarianzas

s11 ⋯ ⋯ x1 p
S=
[
⋮
⋮
s p1
⋮
⋮
⋮
⋮
x jk
⋯
⋮
⋮
x pp ]
Matriz de Correlación R
A partir de los elementos de la matriz S es posible calcular los elementos de la matriz R , de igual
dimensión que S, y cuyos elementos sean los coeficientes de correlación entre la j−ésima y la
k −ésima variable.

s jk s
r jk = = jk
√ sij s kk s j s k

Los cuales también pueden ser arreglado en una matriz de correlación muestral cuya diagonal
principal estará formada por números uno y será simétrica como la matriz de covarianzas, por ser
r jk =r kj:

1 ⋯ ⋯ r1 p
R= ⋮
[
⋮
r p1
1 ⋮
⋮ 1
⋮ r pk
⋮
⋮
1 ]
La matriz S de covarianza es una manera de expresar la dispersión de los datos alrededor de la
media. Sin embargo, a veces es necesario en ocasiones encontrar un escalar que sintetice esta
dispersión.

También podría gustarte

Analisis Multivariante
100% (1)
Analisis Multivariante
24 páginas
Análisis Multivariante: Claves y Aplicaciones
Aún no hay calificaciones
Análisis Multivariante: Claves y Aplicaciones
3 páginas
Análisis Multivariante - Joseph F. H Air
Aún no hay calificaciones
Análisis Multivariante - Joseph F. H Air
80 páginas
Introducción al Análisis Multivariante
Aún no hay calificaciones
Introducción al Análisis Multivariante
24 páginas
Introducción al Análisis Multivariante
Aún no hay calificaciones
Introducción al Análisis Multivariante
15 páginas
Analisis Multivariante
0% (1)
Analisis Multivariante
30 páginas
1 Introduccion
Aún no hay calificaciones
1 Introduccion
23 páginas
Técnicas y Aplicaciones del Análisis Multivariante
Aún no hay calificaciones
Técnicas y Aplicaciones del Análisis Multivariante
33 páginas
Análisis Multivariante: Definición y Conceptos Básicos
Aún no hay calificaciones
Análisis Multivariante: Definición y Conceptos Básicos
28 páginas
Métodos Multivariantes en Estadística
Aún no hay calificaciones
Métodos Multivariantes en Estadística
55 páginas
Técnicas Multivariantes
Aún no hay calificaciones
Técnicas Multivariantes
36 páginas
Unmsm em S01
Aún no hay calificaciones
Unmsm em S01
35 páginas
Estadistica Aplicada Al Mercado 07 Jun 2024
Aún no hay calificaciones
Estadistica Aplicada Al Mercado 07 Jun 2024
5 páginas
República Bolivariana de Venezuel7
Aún no hay calificaciones
República Bolivariana de Venezuel7
9 páginas
Análisis Multivariante en Investigación
Aún no hay calificaciones
Análisis Multivariante en Investigación
26 páginas
Introducción al Análisis Multivariante
Aún no hay calificaciones
Introducción al Análisis Multivariante
14 páginas
Análisis Multivariante en Estadística
Aún no hay calificaciones
Análisis Multivariante en Estadística
43 páginas
Analisis Multiv
Aún no hay calificaciones
Analisis Multiv
10 páginas
Introducción al Análisis Multivariante
Aún no hay calificaciones
Introducción al Análisis Multivariante
41 páginas
Introducción al Análisis Multivariante
Aún no hay calificaciones
Introducción al Análisis Multivariante
9 páginas
Introducción Al Análisis Multivariado y Lbd2
Aún no hay calificaciones
Introducción Al Análisis Multivariado y Lbd2
39 páginas
Introducción al Análisis Multivariable
Aún no hay calificaciones
Introducción al Análisis Multivariable
5 páginas
Técnicas Multivariantes: Uso y Análisis
Aún no hay calificaciones
Técnicas Multivariantes: Uso y Análisis
10 páginas
Teoria Completa Primer Mitad
Aún no hay calificaciones
Teoria Completa Primer Mitad
43 páginas
Análisis Multivariante: Métodos y Validación
Aún no hay calificaciones
Análisis Multivariante: Métodos y Validación
11 páginas
Análisis Univariado y Multivariado FINAL
Aún no hay calificaciones
Análisis Univariado y Multivariado FINAL
3 páginas
Análisis Multivariable
Aún no hay calificaciones
Análisis Multivariable
56 páginas
Introducción al Análisis Multivariante
Aún no hay calificaciones
Introducción al Análisis Multivariante
14 páginas
Fundamentos de Las Técnicas Multivariantes
Aún no hay calificaciones
Fundamentos de Las Técnicas Multivariantes
143 páginas
Guía de Análisis Multivariante
Aún no hay calificaciones
Guía de Análisis Multivariante
10 páginas
Introducción al Análisis Multivariante
Aún no hay calificaciones
Introducción al Análisis Multivariante
14 páginas
Introducción
Aún no hay calificaciones
Introducción
12 páginas
Análisis Multivariable en Marketing
Aún no hay calificaciones
Análisis Multivariable en Marketing
31 páginas
Introducion A Las Funciones Bivariantes
Aún no hay calificaciones
Introducion A Las Funciones Bivariantes
4 páginas
Introducción al Análisis Multivariante
Aún no hay calificaciones
Introducción al Análisis Multivariante
40 páginas
Introducción al Análisis Multivariante
50% (2)
Introducción al Análisis Multivariante
291 páginas
Métodos Multivariantes en Investigación
Aún no hay calificaciones
Métodos Multivariantes en Investigación
10 páginas
Técnicas de Análisis Multivariable en Mercados
Aún no hay calificaciones
Técnicas de Análisis Multivariable en Mercados
16 páginas
Fundamentos del Análisis Multivariante
Aún no hay calificaciones
Fundamentos del Análisis Multivariante
234 páginas
Fundamentos del Análisis Multivariante
Aún no hay calificaciones
Fundamentos del Análisis Multivariante
204 páginas
Métodos Multivariados en Análisis de Datos
Aún no hay calificaciones
Métodos Multivariados en Análisis de Datos
1 página
Técnicas Multivariadas en Psicología
Aún no hay calificaciones
Técnicas Multivariadas en Psicología
64 páginas
Analisi Multivariado-AF y ACP
Aún no hay calificaciones
Analisi Multivariado-AF y ACP
69 páginas
Guía Completa del Análisis Multivariado
Aún no hay calificaciones
Guía Completa del Análisis Multivariado
53 páginas
Analisis Multivariado
Aún no hay calificaciones
Analisis Multivariado
12 páginas
Apuntes Unidad I Analisis Multivariado
Aún no hay calificaciones
Apuntes Unidad I Analisis Multivariado
12 páginas
Libro Analisis Multivariante
Aún no hay calificaciones
Libro Analisis Multivariante
215 páginas
Análisis Multivariable en Investigación de Mercado
Aún no hay calificaciones
Análisis Multivariable en Investigación de Mercado
15 páginas
Analisis Multivariante Definicion Objetivos Tipos Variables - 2
Aún no hay calificaciones
Analisis Multivariante Definicion Objetivos Tipos Variables - 2
13 páginas
Métodos Multivariantes en Análisis de Datos
Aún no hay calificaciones
Métodos Multivariantes en Análisis de Datos
4 páginas
Técnicas de Análisis Multivariante
Aún no hay calificaciones
Técnicas de Análisis Multivariante
1 página
Niveles de Medición de Variables
Aún no hay calificaciones
Niveles de Medición de Variables
17 páginas
Técnicas Estadísticas en Economía
Aún no hay calificaciones
Técnicas Estadísticas en Economía
3 páginas
Analisis Multivariante
Aún no hay calificaciones
Analisis Multivariante
2 páginas
Texto - 1 PARTE - 2020 PDF
Aún no hay calificaciones
Texto - 1 PARTE - 2020 PDF
52 páginas
Técnicas Multivariantes en Marketing
Aún no hay calificaciones
Técnicas Multivariantes en Marketing
6 páginas
Introducción al Análisis Multivariado
Aún no hay calificaciones
Introducción al Análisis Multivariado
52 páginas
Multi Varia Dos
Aún no hay calificaciones
Multi Varia Dos
7 páginas
Ejercicios-CM-Larson-Novena Edición-2010
Aún no hay calificaciones
Ejercicios-CM-Larson-Novena Edición-2010
1 página
Derivadas y Series Complejas en Cálculo
Aún no hay calificaciones
Derivadas y Series Complejas en Cálculo
23 páginas
Aplicaciones de Las Derivadas
Aún no hay calificaciones
Aplicaciones de Las Derivadas
5 páginas
Diagrama de Dispersion
Aún no hay calificaciones
Diagrama de Dispersion
8 páginas
Unidad 2 MTC MV y MP (2018 - 01 - 01 23 - 17 - 33 Utc)
Aún no hay calificaciones
Unidad 2 MTC MV y MP (2018 - 01 - 01 23 - 17 - 33 Utc)
12 páginas
Medidas de Dispersión Estadística
Aún no hay calificaciones
Medidas de Dispersión Estadística
29 páginas
Método de Sección Dorada en Optimización
Aún no hay calificaciones
Método de Sección Dorada en Optimización
5 páginas
Apuntes MAT 150 y Practicos 1,2,3
Aún no hay calificaciones
Apuntes MAT 150 y Practicos 1,2,3
41 páginas
Propiedades y Derivadas de Funciones
Aún no hay calificaciones
Propiedades y Derivadas de Funciones
4 páginas
Ejercicios Resueltos de Integrales Multiples
Aún no hay calificaciones
Ejercicios Resueltos de Integrales Multiples
27 páginas
MATLAB para Modelado de Sistemas Discretos
Aún no hay calificaciones
MATLAB para Modelado de Sistemas Discretos
9 páginas
Análisis Estadístico: Factorial y Correspondencias
Aún no hay calificaciones
Análisis Estadístico: Factorial y Correspondencias
71 páginas
Lectura 8 - Química 9a Ed - Chang - McGraw-Hill-Int Equilibrio Qco
Aún no hay calificaciones
Lectura 8 - Química 9a Ed - Chang - McGraw-Hill-Int Equilibrio Qco
18 páginas
Método del Trapecio en Integración Numérica
0% (1)
Método del Trapecio en Integración Numérica
3 páginas
Derivación Implícita en Ingeniería
Aún no hay calificaciones
Derivación Implícita en Ingeniería
15 páginas
Que Es La Estadística
Aún no hay calificaciones
Que Es La Estadística
3 páginas
Actividad 1 - Funciones PDF
Aún no hay calificaciones
Actividad 1 - Funciones PDF
14 páginas
Análisis Gráfico de Experimentos
67% (3)
Análisis Gráfico de Experimentos
12 páginas
Continuidad y Discontinuidad en Funciones
Aún no hay calificaciones
Continuidad y Discontinuidad en Funciones
15 páginas
Análisis de Errores en Física
75% (4)
Análisis de Errores en Física
21 páginas
Análisis de Continuidad y Derivadas en Funciones
Aún no hay calificaciones
Análisis de Continuidad y Derivadas en Funciones
4 páginas
Transformada Z: Definición y Propiedades
Aún no hay calificaciones
Transformada Z: Definición y Propiedades
43 páginas
Dualidad y Métodos Convexos en Programación
Aún no hay calificaciones
Dualidad y Métodos Convexos en Programación
18 páginas
Titulación de Ácidos Fuertes Con Bases Fuertes y Viceversa
Aún no hay calificaciones
Titulación de Ácidos Fuertes Con Bases Fuertes y Viceversa
10 páginas
Evaluación de Recuperación de Cartera 2018
Aún no hay calificaciones
Evaluación de Recuperación de Cartera 2018
111 páginas
Ejercicios Resuelto de Derivadas
100% (1)
Ejercicios Resuelto de Derivadas
21 páginas
Examen Métodos Numéricos UNSA 2021
Aún no hay calificaciones
Examen Métodos Numéricos UNSA 2021
5 páginas
Ejercicios de Sintonización PID
50% (2)
Ejercicios de Sintonización PID
23 páginas
Transformada Fourier en Imágenes Digitales
Aún no hay calificaciones
Transformada Fourier en Imágenes Digitales
7 páginas