Analisis Multivariado
Analisis Multivariado
MULTIVARIADO
Javier Bech Vertti
Análisis Multivariado
ISBN 978-607-8652-68-6
PRÓLOGO
3
_________________________________Cuaderno de trabajo de: Análisis Multivariado. PRÓLOGO
financieros, comerciales y administrativos, demostrando capacidad para
analizar e interpretar resultados numéricos estadísticos en contextos
específicos.
4
_________________________________Cuaderno de trabajo de: Análisis Multivariado. PRÓLOGO
Uso de calculadora y software estadístico: Para trabajar con el presente
“Cuaderno de trabajo: Análisis Multivariado”, el estudiante debe usar
calculadora y algún software estadístico. En cuanto al uso de la
calculadora, se tomó como referencia la calculadora Casio fx.82MS, El uso
de un software estadístico como Excel y/o Minitab, entre otros, reduce de
gran manera el tiempo de cálculo y la probabilidad de cometer errores en los
cálculos aritméticos, sin embargo se deben comprender primero los pasos del
proceso. Por lo mismo es muy importante que primero se resuelva el
ejercicio en forma manual y posteriormente se utilice un software para
comparar los resultados. Es importante mencionar que pueden existir
diferencias en las respuestas debido a la cantidad de dígitos que se
utilizan en los cálculos manuales. Dado que en algunos contenidos se utiliza
álgebra matricial, se sugiere utilizar en general aproximaciones de al
menos 5 dígitos.
5
_________________________________Cuaderno de trabajo de: Análisis Multivariado. PRÓLOGO
Finalmente… el viejo refrán que dice que “La práctica hace al maestro”
tiende a ser mas cierto de lo que muchas veces pensamos. La práctica, y no la
genética, es lo que hace al maestro. Y es la perseverancia, a lo largo del
tiempo, lo que verdaderamente saca adelante a los triunfadores, por eso este
“Cuaderno de Trabajo: ANÁLISIS MULTIVARIADO” se ha elaborado
con la finalidad de que el estudiante ejercite los procedimientos que se
sugieren a lo largo del curso de “Análisis Multivariado”, pensando que
entre más se practique, mucho mayor será la comprensión que se tenga de
ellos. Este material pude ser de estudio independiente o combinado con las
instrucciones del docente en caso de que se opte por utilizarlo como guía de
estudio. Se recomienda utilizarlo como material de apoyo, para reforzar
conocimientos, para autoevaluarse, o como preparación para la
evaluación presencial. Lo importante es que le sirva al estudiante para
que identifique cuáles son los temas que necesita reforzar y para darse
cuenta de los logros que ha alcanzado. Espero que sea de
utilidad.
6
_______________________________Cuaderno de trabajo de: Análisis Multivariado. PROYECTO
PROYECTO DE
JUBILACIÓN 2019
ARQ. Y M. EN ADMÓN. JAVIER
BECH VERTTI
P.1 PROBLEMÁTICA Y
NECESIDADES.
Por lo que hace a los profesores, también se ha observado que eligen como
apoyo algún texto base, que puede no apegarse completamente al
programa de la materia y complementan con otros textos los temas
faltantes para la elaboración de apuntes y trabajos, con lo que dejan
puntos del programa parcialmente cubiertos o sin cubrir además de la
falta de uniformidad en la nomenclatura al utilizar varios textos lo que
crea conflicto en los alumnos que por alguna razón, deben repetir el curso.
P.2 JUSTIFICACIÓN
DEL PROYECTO
a) General:
b) Específicos:
P.5 OBSERVACIONES
GENERALES
P.6 AGRADECIMIENTOS
A IMELDA, mi esposa, por la paciencia y apoyo A ANGÉLICA, mi hija, por la ardua labor de
tan grande que ha tenido siempre conmigo y en transcribir el presente trabajo de la forma
particular, durante el desarrollo de este trabajo. manuscrita a la forma digital.
CONTENIDO
_______________________________________________________
CAPÍTULO
Capítulo 1. Introducción al Análisis Multivariante …………………….…………………………………………… 22
Objetivo 1.1 …………………………………………………………………………………………..……………………….. 22
Antecedentes………………………………………………………………………………………………………………………… 22
Introducción al análisis multivariante………………………………………………………………………………………. 23
Conceptos Básicos. Análisis Multivariante………………………………………………..………………………………. 23
Objetivo 1.2………………………………………………………………………………………..…………………………….. 27
Antecedentes………………………………………………………………………….………………………….………………… 27
1.2.1. Valor teórico. Escalas de medición y su relación con las técnicas
multivariantes………………………………………………………………………………………………………..…………. 27
Conceptos básicos. Valor Teórico…………………………………………………..………………………………………. 28
1.2.2. Base de Datos. Formato de Encuesta sobre Bienes Raíces. Código para la
computadora. Construcción de la Base de datos “BIENES1”…………………………………………... 32
Conceptos Básicos. Base de Datos………………………………………………………………………………..………… 32
1.2.2.1. Ejemplo Ilustrativo en Minitab 17. Construcción de la Base de datos “BIENES1”……………… 40
Objetivo 1.3……………………………………………………………………………………………………….…….……….. 44
Antecedentes………………………………………………………………………………………………………..……………… 45
1.3.1. Análisis Previo de los datos multivariantes. Examen gráfico de los datos
multivariantes. Datos Ausentes. Casos Atípicos………………………………………………………………. 45
Conceptos Básicos. Examen gráfico de los datos multivariantes. Datos Ausentes. Datos ó Casos
Atípicos………………………………………………………………………………………………………………………………… 45
1.3.1.1. Ejemplo Ilustrativo. Datos Atípicos. Diagrama de Caja y Brazos Simple………..………………… 57
1.3.1.1 Actividad de Aprendizaje. Datos Atípicos. Diagrama de Caja y Brazos Simple…………………… 60
1.3.1.1 Ejercicio de Autoevaluación. Datos Atípicos. Diagrama de Caja y Brazos Simple………..…….. 61
1.3.1.1 Ejercicios de Refuerzo. Datos Atípicos. Diagrama de Caja y Brazos Simple………………………. 62
1.3.1.1.1 Ejercicios de Refuerzo. Datos Atípicos. Diagrama de caja y Brazos Simple……….… 62
1.3.1.1.2 Ejercicios de Refuerzo. Datos Atípicos. Diagrama de Caja y Brazos Simple………… 62
1.3.1.1.3 Ejercicios de Refuerzo. Datos Atípicos. Diagrama de Caja y Brazos Simple…..……. 63
Darling………………………………………………………………………………………………………………………………. 94
1.3.2.1 Actividad de Aprendizaje en Minitab 17. Verificación de Supuestos. Prueba de Normalidad.
Prueba de Anderson Darling………………………………………………………………………………………………… 98
1.3.2.1 Ejercicio de Autoevaluación en Minitab 17. Verificación de Supuestos. Prueba de
Normalidad. Prueba de Anderson Darling………………………………………………………………………………. 99
1.3.2.1 Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de Normalidad.
Prueba de Anderson Darling…………………………………………………………………………………………………. 99
1.3.2.1.1. Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Normalidad. Prueba de Anderson Darling………………………………………………………………………………. 99
1.3.2.1.2. Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Normalidad. Prueba de Anderson Darling………………………………………………………………………………. 100
1.3.2.1.3. Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Normalidad. Prueba de Anderson Darling………………………………………………………………………………. 100
1.3.2.2. P.H. Ejemplo Ilustrativo en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Levene. Transformaciones. Etiquetado de Gráficos…………………… 100
1.3.2.2 Actividad de Aprendizaje en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Levene. Transformaciones. Etiquetado de Gráficos…………………… 100
1.3.2.2 Ejercicio de Autoevaluación en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Levene. Transformaciones. Etiquetado de Gráficos…………………… 117
1.3.2.2 Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Levene. Transformaciones. Etiquetado de Gráficos…………………… 118
1.3.2.2.1. Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Levene. Transformaciones. Etiquetado de
Gráficos……………………………………………………………………………………………………………………………… 119
1.3.2.2.2. Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Levene. Transformaciones. Etiquetado de
Gráficos……………………………………………………………………………………………………………………………… 119
1.3.2.2.3. Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Levene. Transformaciones. Etiquetado de
Gráficos……………………………………………………………………………………………………………………………… 120
1.3.2.3. P.H. Ejemplo Ilustrativo en Minitab 17. Prueba de Homocedasticidad. Prueba de
Barlett……………………………………………………………………………………………………………………………….. 121
1.3.2.3 Actividad de Aprendizaje en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Barlett……………………………………………………………………………………. 128
1.3.2.3 Ejercicio de Autoevaluación en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Barlett……………………………………………………………………………………. 128
1.3.2.3 Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Barlett……………………………………………………………………………………. 129
1.3.2.3.1. Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Barlett……………………………………………………………………………………. 129
1.3.2.3.2. Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Barlett……………………………………………………………………………………. 129
1.3.2.3.3. Ejercicios de Refuerzo en Minitab 17. Verificación de Supuestos. Prueba de
Homocedasticidad. Prueba de Barlett……………………………………………………………………………………. 130
Objetivo 1.4 Sistema de Ecuaciones Lineales…………………………………………………................. 130
Antecedentes………………………………………………………………………………………………………………………… 130
DE REDUCCIÓN
Capítulo 2. Métodos de Reducción..………………………………………..……………………………………… 155
Objetivo 2.1 Componentes Prtincipales, Factor Análisis…………………………………..…………… 155
Antecedentes…………………………………………………………………………………………………………………..…. 155
2.1.1. Factor, Carga de Factor, Porcentaje de variación explicada, Comunalidad…………………..…… 155
Conceptos Básicos. Análisis de Factores………………………………………………………………………………. 155
1.3.1.1 Actividad de Aprendizaje. Datos Atípicos. Diagrama de Caja y Brazos Simple………………… 520
1.3.1.2 Actividad de Aprendizaje en Minitab 17. Datos Atípicos……………………………………………….. 523
1.3.1.3 Actividad de Aprendizaje en Minitab 17 . Datos Atípicos. Un Nivel de Factor………………… 525
1.3.1.4 Actividad de Aprendizaje en Minitab 17. Datos Atípicos. Diagrama de Caja y Brazos
Simple……………………………………………………………………………………………………………………………….. 530
1.3.1.5 Actividad de Aprendizaje en Minitab 17. Datos Atípicos. Diagrama de Caja y Brazos
533
Múltiple………………………………………………………………………………………………………………………………
1.3.2.1 Actividad de Aprendizaje en Minitab 17. Verificación de Supuestos. Prueba de Normalidad.
540
Prueba de Anderson Darling…………………………………………………………………………………………………
1.3.2.2 Actividad de Aprendizaje en Minitab 17. Verificación de Supuestos. Prueba de
543
Homocedasticidad. Prueba de Levene. Transformaciones. Etiquetado de Gráficos……………………
1.3.2.3 Actividad de Aprendizaje en Minitab 17. Verificación de Supuestos. Prueba de
558
Homocedasticidad. Prueba de Barlett…………………………………………………………………………………….
1.4.1.1 Actividad de Aprendizaje. Resolución de un Sistema Lineal de Ecuaciones mediante el
Método de matriz Inversa…………………………………………………………………………………………………….
564
1.4.1.2 Actividad de Aprendizaje en Excel. Resolución de un Sistema Lineal de Ecuaciones
mediante el Método de matriz Inversa……………………………………………………………………………………..
566
1.3.1.1 Ejercicio de Autoevaluación. Datos Atípicos. Diagrama de Caja y Brazos Simple………………..
574
1.3.1.2 Ejercicio de Autoevaluación en Minitab 17. Datos Atípicos………………………………………………
578
1.3.1.3 Ejercicio de Autoevaluación en Minitab 17. Datos Atípicos. Un Nivel de Factor………….........
1.3.1.4 Ejercicio de Autoevaluación en Minitab 17. Datos Atípicos. Diagrama de Caja y Brazos
Simple………………………………………………………………………………………………………………………..………..
580
1.3.1.5 Ejercicio de Autoevaluación en Minitab 17. Datos Atípicos. Diagrama de Caja y Brazos
Múltiple…………………………………………………………………………………………………………………………………
584
1.3.2.1 Ejercicio de Autoevaluación en Minitab 17. Verificación de Supuestos. Prueba de
587
Normalidad. Prueba de Anderson Darling…………………………………………………………………..…………….
1.3.2.2 Ejercicio de Autoevaluación en Minitab 17. Verificación de Supuestos. Prueba de
593
Homocedasticidad. Prueba de Levene. Transformaciones. Etiquetado de Gráficos……………………..…
1.3.2.3 Ejercicio de Autoevaluación en Minitab 17. Verificación de Supuestos. Prueba de
596
Homocedasticidad. Prueba de Barlett……………………………………………………………………………………….
1.4.1.1 Ejercicio de Autoevaluación. Resolución de un Sistema Lineal de Ecuaciones mediante el
610
Método de matriz Inversa……………………………………………………………………………………………………….
615
1.4.1.2 Ejercicio de Autoevaluación en Excel. Resolución de un Sistema Lineal de Ecuaciones
618
mediante el Método de matriz Inversa……………………………………………………………………………………..
625
1.3.1.1.1 Ejercicios de Refuerzo. Datos Atípicos. Diagrama de caja y Brazos Simple…………………..…
629
1.3.1.1.2 Ejercicios de Refuerzo. Datos Atípicos. Diagrama de Caja y Brazos Simple……………….……
632
1.3.1.1.3 Ejercicios de Refuerzo. Datos Atípicos. Diagrama de Caja y Brazos Simple……….………..….
635
1.3.1.2.1 Ejercicios de Refuerzo en Minitab 17. Datos Atípicos……………………………….…………………..
637
1.3.1.2.2 Ejercicios de Refuerzo en Minitab 17. Datos Atípicos………………………………….………………..
638
1.3.1.2.3 Ejercicios de Refuerzo en Minitab 17. Datos Atípicos…………………………….……………………..
641
1.3.1.3.1. Ejercicios de Refuerzo en Minitab 17. Datos Atípicos. Un Nivel de Factor……………………..
DE REDUCCIÓN
2.1.1.1. Actividad de Aprendizaje. Factor Análisis…………………………………………………………………… 775
2.2.1.1. Actividad de Aprendizaje. Análisis de Conglomerados. Matriz de distancia……………………. 780
2.2.1.2. Actividad de aprendizaje. Análisis de Conglomerados- Matriz de Similitud……………..……… 805
2.1.1.1. Ejercicio de Autoevaluación. Factor Análisis……………………………………………………..……….. 824
2.2.1.1. Ejercicio de Autoevaluación. Análisis de Conglomerados. Matriz de distancia………………… 828
2.2.1.2. Ejercicio de autoevaluación. Análisis de Conglomerados. Matriz de similitud.………………... 856
2.1.1.1.1. Ejercicios de Refuerzo. Factor Análisis……………………………………………………………..…….. 874
2.1.1.1.2. Ejercicios de Refuerzo. Factor Análisis……………………………………………………..…………….. 876
2.1.1.1.3. Ejercicios de Refuerzo. Factor Análisis………………………………………………..………………….. 878
2.2.1.1.1. Ejercicio de refuerzo. Análisis de Conglomerados. Matriz de distancia………………..……… 882
2.2.1.1.2. Ejercicio de refuerzo. Análisis de Conglomerados. Matriz de distancia……………….………. 908
2.2.1.2.1. Ejercicio de refuerzo. Análisis de Conglomerados. Matriz de similitud………………..………. 936
2.2.1.2.2. Ejercicio de refuerzo. Análisis de Conglomerados. Matriz de similitud…………………….….. 949
2.2.1.2.3. Ejercicio de refuerzo. Análisis de Conglomerados. Matriz de similitud………………….…….. 966
Autoevaluación con reactivos de Falso ó Verdadero………………………………………….………….. 983
Autoevaluación con reactivos de Opción Múltiple……………………………………………….………… 983
1.1.1
INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE .
3.- Todos los métodos estadísticos que analizan simultáneamente medidas múltiples
de cada individuo u objeto sometido a investigación.3
1
Jorge de la Garza García (1995) Análisis de la información Mercadológica a través de la estadística multivariante.
Ed. Alambra Mexicana.
2
Manuel Salvador Figueras. Introducción al Analisis Multivariante
3
Hair, Anderson, Tatham y Black (1999) Análisis Multivarriante. Prentice Hall
a su modelo. variables.
· La ecuación predice Ejemplo: Analizar como están relacionadas el tiempo dedicado al trabajo y
nuevas observaciones el ocio de una persona con su nivel de ingresos, su edad y su nivel de educación.
dados valores predictores
específicos. Casos particulares de él son el coeficiente de correlación y el coeficiente de
determinación; la diferencia es que éstos se refieren a las relaciones de variables de
Utilice el Análisis “una a una” y de “ una a muchas”, respectivamente y en la correlación canónica se
discriminante para busca la relación de “muchas a muchas”.
clasificar las observaciones
en dos o más grupos si 2.- Métodos de interdependencia ó estructurales:
usted tiene una muestra
con grupos conocidos. El Estos métodos no distinguen entre variables dependientes e independientes y su
Análisis discriminante objetivo principal es resumir información. Consiste en identificar que variables están
también se puede utilizar relacionadas, como lo están y porqué.
para investigar en que
manera las variables Ejemplo: Describir el comportamiento del mercado con un menor número
contribuyen a la separación
de variables.
de grupos.
En estas técnicas, todas las variables se manejan como independientes,
ANCOVA o análisis de pues a diferencia de las técnicas dependientes, no trata de buscar relaciones de
covarianza es una
causa-efecto entre las variables, sino que busca algo común entre ellas para unirlas
extensión del análisis de
varianza (ANOVA) que
y así resumir la información que se tiene.
permite modelar y realizar
ajustes para las variables Algunas de estas técnicas son las siguientes:
de entrada que se
midieron, pero que no se 2.1. Análisis de componentes principales o de factor común.
aleatorizaron o controlaron
en el experimento. Conocida como análisis de factores, se utiliza para analizar las relaciones
ANCOVA prueba si los entre un gran número de variables métricas y así explicarlas solamente por medio
factores tienen un efecto de factores (también llamados atributos, características ó dimensiones), los cuales
después de eliminar la describen al grupo.
varianza debido a las
covarianzas. Ejemplo:
datos. Sin embargo, el que este último comprueba si en realidad segmentados correctamente en el
énfasis en el análisis agrupamiento.
factorial es la identificación
de los "factores"
La diferencia de esta técnica con el análisis de factores consiste en que se trata
subyacentes que pudieran
explicar las dimensiones
de agrupar a objetos ó individuos con base en sus actitudes o comportamientos
asociadas con una comunes, es decir, se busca agrupar a las personas según sus respuestas que
variabilidad grande de los demuestren comportamientos comunes y no trata de agrupar variables como el
datos. análisis de factores. El de agrupamiento tiene como objetivo clasificar una muestra
de entidades en grupos mutuamente excluyentes con base en la similitud de dichas
Se utiliza el Análsiis de entidades.
conglomerados o Cluster
Analisis para clasificar las Por otra parte, a diferencia del análisis discriminante, en el de agrupamiento los
observaciones en grupos grupos no se encuentran predefinidos, sino que se busca identificarlos.
cuando los grupos se
desconocen inicialmente. El análisis de agrupamiento generalmente involucra dos etapas. En la primera se
busca medir la similitud o asociación entre las entidades, para determinar en
Este procedimiento utiliza cuantos grupos se hará la clasificación. En una segunda etapa se trata de definir el
un método jerárquico
perfil de las personas; esto se puede hacer aplicando el discriminante a los grupos
aglomerativo que comienza
con todas las
identificados en el agrupamiento.
observaciones separadas,
cada una de ellas Ejemplo: Clasificar grupos de alimentos (pescados, carnes, vegetales y leche)
formando su propio en función de sus valores nutritivos.
conglomerado. En el
primer paso, las dos
observaciones más
cercanas entre sí se unen. BIBLIOGRAFIA:
En el siguiente paso, una
tercera observación se une 1. Hair, Anderson, Tatham y Black (1999) Análisis Multivariante. Prentice
a las dos primeras u otras
Hall
dos observaciones se unen
para formar un
2. Jorge de la Garza García (1995) Análisis de la información
conglomerado diferente. Mercadológica a través de la estadística multivariante. Ed. Alhambra
Este proceso continuará Mexicana.
hasta que todos los 3. Kinner, C.T. y Taylor (1993) Investigación de mercados. Mc Graw hill,
conglomerados se unan en México.
un solo conglomerado; sin
embargo, este
conglomerado individual no
es útil para propósitos de
clasificación Por lo tanto,
usted debe decidir cuántos
grupos son lógicos para
sus datos y clasificarlos
adecuadamente.
multivariante.
El valor teórico.
Aunque el
Donde Xn es la variable observada y wn es la ponderación determinada por la
análisis multivariante tiene técnica multivariante.
sus raíces en la estadística
univariante y bivariante, la El resultado es un valor único que indica una combinación de todo el conjunto de
extensión al variables que mejor se adaptan al objeto del análisis multivariante específico. En
dominio multivariante
introduce conceptos y
regresiones múltiples, el valor teórico se determina de tal forma que guarde la
cuestiones adicionales, que mejor correlación con la variable que se está prediciendo. En el análisis
van desde el “valor discriminante, el valor teórico se forma de tal manera que produzca resultados
teórico” hasta las escalas de para cada observación que diferencien de forma máxima entre grupos de
medida utilizadas, los errores
de medición, los resultados observaciones y en el análisis factorial, los valores teóricos se forman para
estadísticos representar mejor las estructuras subyacentes o la dimensionalidad de las
de las pruebas de variables tal y como se representan en sus intercorrelaciones.
significación y los
intervalos de confianza. La
El valor teórico capta el carácter multivariante del análisis por lo que es el punto
utilización de un modelo
multivariante conlleva la central del análisis ya que se debe entender no solo su impacto conjunto para
elaboración de un plan de lograr el objetivo de cada técnica, sino también la contribución de cada variable
investigación bien definido separada al efecto del valor teórico en su conjunto.
que incluye los
objetivos analíticos en
Escalas de medida.
términos conceptuales, la
selección de la técnica, la
evaluación de los La medida es importante para representar con precisión el concepto de interés y
supuestos básicos de dicha es vital en la selección del método de análisis multivariante apropiado. El análisis
técnica, la estimación del de los datos trae consigo la separación, identificación y medida de la variación en
modelo y su interpretación,
un conjunto de variables, tanto entre ellas mismas como entre una variable
para finalizar con
la aplicación de las técnicas dependiente y una o más variables independientes por lo tanto se requiere
de validación para entender cómo se miden las variables para determinar qué técnicas multivariantes
determinar la estabilidad de pueden aplicarse a las investigaciones.
los resultados obtenidos
Existen dos tipos de variables:
Como posible clasificación, Variables cualitativas o no métricas. Estas variables describen o identifican
según el grado de
a un objeto o individuo tomando un atributo, una característica o propiedad
información que contienen
categórica, es decir no numérica.
unas variables, se pueden
dividir a éstas en: (i)
Estas variables se pueden medir con base en dos tipos de escalas de
Variables Nominales:Sólo
___Montana
Los métodos estadísticos Variables cuantitativas o métricas. Estas variables identifican a un objeto o
multivariados se pueden individuo en forma cuantitativa o numérica, pues se puede decir que es diferente
seleccionar o clasificar
teniendo en cuenta varios
de otro en cantidad o grado.
aspectos
pero todos ellos deben Estas variables se pueden medir con las siguientes escalas de medición:
incluir: a) la estructura de la
matriz de datos, b) el 1.- Intervalo. A diferencia de la escala ordinal, permite diferenciar a un
objetivo perseguido, y c) objeto o persona de otra en cantidad o grado, indicando que al pasar de un valor
la naturaleza de esos datos
a otro de la escala, el atributo está cambiando en la misma proporción. En la
(Dagnelie, 1981).
escala de intervalo, el cero no es absoluto, no significa “ ausencia de algo “.
a) Según la estructura de Las escalas de intervalo más familiares son las escalas de temperatura
la matriz de datos, los Celsius y Fahrenheit. Ambas tienen un punto de cero arbitrario, pero ese cero no
métodos pueden indica una cantidad cero o ausencia de temperatura, dado que podemos registrar
clasificarse según sean las
variables o los individuos de temperaturas por debajo del punto cero de esa escala.
la matriz de datos de base.
La estructura se refiere a si 2.- Razón. Esta escala es muy similar a la de intervalo, con la diferencia
las variables o
los individuos son de que el cero sí tiene un significado absoluto de “ausencia de”. Por lo tanto, no
diferentes, o si pertenecen se tiene que establecer un significado para cada número y la escala es comparable
a un grupo o a más entre sí, ya que el cero es absoluto.
grupos de variables o de
individuos:
- sin ninguna
estructura en particular,
(análisis de componentes
Por ejemplo:
principales y análisis
factorial; conglomerados) Estatura ____
- una estructura
entre variables, (métodos Clasificación de las técnicas del análisis multivariante .4
de regresión múltiple ó
análisis de correlación Existen muy diversas técnicas multivariantes para analizar información
canónica)
mercadológica. Para llegar a clasificar una técnica y así saber cuál es factible para
- una estructura
entre individuos, (análisis ser utilizada, se deben considerar los siguientes aspectos:
discriminante)
- ambas estructuras 1.- Primero, debe verificarse si, de acuerdo con la naturaleza de la
(análisis de correspondencias investigación, el conjunto de variables puede ser dividido en independientes y
múltiples)
dependientes.
4
Jorge de la Garza García (1995) Análisis de la información Mercadológica a través de la estadística multivariante.
Ed. Alambra Mexicana.
Correspondencias (Simple y
Múltiple) No
¿Algunas variables dependen de
Si
• En el caso de los otras?
métodos inferenciales:
En este caso, siempre Métodos de
interdependencia
Métodos de
dependencia
Escala
multidimensional
métrica Analisis de varianza Correlación
Regresión múltiple
y covarianza canónica
Análisis
discriminante
BIBLIOGRAFIA:
CONCEPTOS BÁSICOS Una BASE DE DATOS es una colección de información organizada de forma que
un programa de ordenador pueda seleccionar rápidamente los fragmentos de
BASE DE DATOS. datos que necesite. Una base de datos es un sistema de archivos electrónico.
1.2.2.
Las bases de datos tradicionales se organizan por campos, registros y archivos.
Un campo es una pieza única de información; un registro es un sistema
completo de campos; y un archivo es una colección de registros. Por ejemplo,
una guía de teléfono es análoga a un archivo. Contiene una lista de registros,
cada uno de los cuales consiste en tres campos: nombre, dirección, y número de
teléfono.
A veces se utiliza DB, de database en inglés, para referirse a las bases de
datosActualmente, y debido al desarrollo tecnológico de campos como
la informática y la electrónica, la mayoría de las bases de datos están en formato
digital, siendo este un componente electrónico, por tanto se ha desarrollado y se
ofrece un amplio rango de soluciones al problema del almacenamiento de datos.
Una base de datos es un
conjunto de datos Las bases de datos se utilizan primordialmente para almacenar datos históricos o
pertenecientes a un mismo actuales que posteriormente se pueden utilizar para estudiar el comportamiento
contexto y almacenados de un conjunto de datos a través del tiempo, realizar proyecciones, tomar
sistemáticamente para su decisiones y realizar análisis de datos para inteligencia empresarial o de tipo
posterior uso. En este científico en investigaciones.
sentido; una biblioteca
puede considerarse una base Entre las principales características de los sistemas de base de datos podemos
de datos compuesta en su mencionar:
mayoría por documentos y
textos impresos en papel e • Independencia lógica y física de los datos.
indexados para su consulta. • Redundancia mínima.
• Acceso concurrente por parte de múltiples usuarios.
• Integridad de los datos.
• Consultas complejas optimizadas.
• Seguridad de acceso y auditoría.
• Respaldo y recuperación.
• Acceso a través de lenguajes de programación estándar.
• Tablas
• Campos
• Registros
• Lenguaje
CODIGO (Por favor, INSERTE en los espacios correspondientes el número ó valor apropiado)
________________________________________________________________________________
OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
51 300 5.18 4 3.5 6 15 4762 2 1 3 2 2 1 1 1 0 1 1 1 1 51
52 185 7 1 1 8 28 2700 1 2 4 2 2 1 1 0 0 1 1 1 1 52
53 200 7.5 4 2 6 36 3606 1 3 2 2 2 1 1 0 1 1 0 1 1 53
54 172 6 3 1 7 35 2752 1 1 4 2 2 1 1 0 0 1 0 1 1 54
55 230 7.2 3 2.5 7 31 3400 1 1 5 2 2 1 1 0 0 1 1 1 1 55
56 235 5 3 1.5 7 34 3148 1 1 1 2 2 1 1 0 0 0 1 1 1 56
57 186 6 5 2 7 30 3344 1 3 3 2 2 1 1 0 0 1 0 1 1 57
58 200 9.9 3 1.5 8 30 3871 1 2 5 2 2 1 1 0 0 1 1 1 1 58
59 190 6 4 1.5 7 44 3300 1 1 1 2 2 1 1 0 0 1 1 1 1 59
60 140 6 3 1 5 38 2450 1 3 1 2 2 1 0 0 0 0 0 1 1 60
61 180 7.2 3 1 8 40 1900 0 1 4 2 3 1 1 0 0 1 0 0 0 61
62 213 7 4 2 6 35 3600 0 1 4 2 2 1 1 0 0 1 1 1 1 62
63 115 18.9 3 1 10 16 2400 0 2 4 2 2 1 1 0 0 0 0 1 1 63
64 200 10.9 5 2 6 28 2540 1 2 4 2 2 1 1 0 0 1 1 0 0 64
65 153 6.18 4 1 8 39 2158 0 3 1 2 2 1 1 0 1 1 0 1 1 65
66 180 9.1 4 1.5 6 33 2853 1 3 2 2 2 1 1 0 1 1 0 1 1 66
67 163 6 4 1 6 38 2160 0 3 1 2 2 1 1 0 1 0 0 1 0 67
68 160 6.5 3 1 6 33 2500 1 3 4 2 2 1 0 0 1 1 0 0 0 68
69 175 6 4 1 6 38 2594 2 1 1 2 2 1 1 0 0 1 1 0 0 69
70 170 5 3 2 6 41 2300 1 1 1 2 3 1 1 0 0 1 1 1 1 70
71 155 6 4 1 6 35 2436 1 3 1 2 2 1 1 0 0 1 0 0 1 71
72 163 8.4 4 1 6 37 2400 1 3 2 2 2 1 1 0 1 1 0 0 1 72
73 160 6 4 2 7 38 2500 1 3 4 2 2 1 1 0 1 1 0 1 1 73
74 175 6 5 2 7 36 3024 1 3 1 2 2 1 1 0 0 1 1 1 1 74
75 177 6.42 4 2 9 39 3100 0 3 4 2 2 2 1 0 1 1 0 1 1 75
76 190 31.5 5 2 6 31 4200 0 2 5 2 2 1 1 0 0 1 1 1 1 76
77 158 6 4 1 7 35 1900 0 3 1 2 2 1 1 0 0 1 0 0 0 77
78 179 6 3 1 7 37 2950 2 3 2 2 2 1 1 0 1 1 0 1 1 78
79 215 7 4 2 7 35 3860 1 1 1 2 1 1 1 0 0 1 1 0 0 79
80 190 8.25 3 2 8 31 3600 0 2 4 2 2 1 1 0 0 1 1 1 1 80
81 170 11.8 4 2 7 34 3500 2 3 3 2 2 1 1 1 0 1 0 1 1 81
82 230 7 3 1.5 10 28 3500 1 1 5 1 1 1 1 0 0 1 1 1 1 82
83 185 16 5 1.5 8 38 3200 2 3 2 2 2 2 1 0 1 1 0 1 1 83
84 230 10 4 1.5 6 61 3638 2 2 3 2 2 1 1 0 1 1 1 0 0 84
85 180 7.2 3 2 8 14 1582 1 1 1 2 2 1 1 0 0 1 1 1 1 85
86 200 10.3 4 1.5 7 37 4079 1 3 3 2 2 1 1 0 1 1 0 1 1 86
87 180 11 4 1 8 40 2500 1 3 1 2 2 2 1 0 0 1 0 1 1 87
88 190 6 4 2 6 38 2890 0 3 1 2 2 1 1 0 0 1 0 1 1 88
89 225 6.86 3 2 5 30 3000 0 1 4 2 2 1 1 0 1 1 1 1 0 89
90 155 6.48 3 1 6 35 2483 1 1 4 2 1 1 1 0 0 0 0 0 1 90
91 179 7 4 1 8 37 2800 1 1 2 2 2 1 1 0 1 0 0 1 1 91
92 218 6 4 2 7 37 3460 0 3 2 2 2 3 1 0 1 1 0 1 1 92
93 173 10.6 4 2 6 36 2634 1 3 1 2 2 1 1 0 0 1 0 1 1 93
94 183 6 3 2 7 39 2708 1 2 4 2 2 2 1 0 0 1 1 1 1 94
95 215 7.7 4 1 6 31 2989 1 2 5 1 1 2 1 0 0 1 1 1 1 95
96 159 7.5 3 1 7 55 1814 1 2 4 2 2 1 0 0 0 1 0 1 1 96
97 195 7.75 3 1.5 6 34 3175 1 1 5 2 2 1 1 0 0 1 1 1 1 97
98 180 6.95 3 2 6 32 2800 1 2 4 2 2 2 1 0 0 1 1 1 1 98
99 161 6 4 1.5 6 36 2400 1 3 4 2 2 1 1 0 1 1 0 1 1 99
OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
101 175 6 4 1 7 34 2500 1 2 1 2 2 1 1 0 0 1 1 1 1 101
102 225 6 3 2 10 33 3701 0 1 5 2 2 1 1 0 0 1 1 1 1 102
103 100 12 7 1 8 21 1775 0 2 4 2 2 1 1 0 0 1 1 1 1 103
104 165 6 4 1.5 6 36 2640 0 3 4 2 2 2 1 0 1 0 0 1 1 104
105 173 8 4 1.5 7 36 2700 1 3 4 2 1 1 1 0 1 1 0 1 1 105
106 175 10 4 2 7 34 3000 1 2 1 2 2 1 1 0 0 1 1 1 1 106
107 176 6 3 1.5 8 31 3276 0 3 1 2 2 1 1 0 0 1 0 1 1 107
108 198 6.3 4 1 7 34 3454 1 1 1 2 2 1 1 0 0 1 1 1 1 108
109 190 5 4 2 10 38 2386 1 2 1 2 2 1 1 0 0 1 1 1 1 109
110 185 28.1 6 2 8 44 4000 1 3 3 2 3 1 0 0 1 0 1 0 1 110
111 195 7.75 4 2.5 8 22 3000 1 1 4 2 2 1 1 0 0 1 1 1 1 111
112 224 6 4 2 7 37 3200 2 3 2 2 2 3 1 0 1 1 0 1 1 112
113 190 7 4 2 7 35 3465 1 1 1 2 1 1 1 0 0 1 1 1 1 113
114 245 6 3 1.5 10 30 3900 1 1 5 2 2 1 1 1 0 1 1 0 0 114
115 207 11.7 3 2 9 28 4200 1 1 5 2 1 1 1 0 0 1 1 0 0 115
116 210 6.9 4 1.5 8 24 3500 1 2 5 2 2 2 1 0 0 1 1 0 0 116
117 170 8 4 1 7 35 3000 2 3 4 2 2 1 1 0 1 1 0 0 0 117
118 185 9.01 3 1.5 6 25 2400 1 2 4 2 2 1 1 0 1 0 1 1 1 118
119 170 6 3 2 6 39 3040 2 3 4 2 2 2 1 0 1 1 0 1 1 119
120 199 10 3 2 7 38 3512 2 1 1 2 3 2 1 0 1 1 1 1 1 120
121 175 6 3 2 6 39 2800 1 3 1 2 2 1 1 0 0 1 0 1 1 121
122 190 3.55 4 2 7 35 2300 0 1 1 2 1 1 1 0 0 1 1 0 0 122
123 153 7.2 4 1 7 39 2513 1 3 1 2 2 1 0 0 0 1 0 1 1 123
124 190 5 3 1.5 7 85 1481 1 2 3 2 2 1 1 0 0 1 0 1 1 124
125 170 7.5 4 2 7 35 3616 1 3 1 2 1 1 0 0 0 1 1 1 1 125
126 180 7 4 2.5 6 32 2500 0 2 1 2 2 1 1 0 0 1 1 1 1 126
127 165 6 3 1.5 7 39 2100 0 3 1 2 2 1 1 0 0 1 0 0 0 127
128 193 6 4 2 7 35 3000 0 3 3 2 2 1 1 0 0 1 0 1 1 128
129 170 6 4 2 7 38 2500 0 3 2 2 2 1 1 0 1 1 0 1 1 129
130 188 11.1 4 2 6 36 4089 1 3 1 2 3 1 1 0 0 1 0 1 1 130
131 167 8.2 4 1 9 39 2225 0 3 4 2 2 1 1 0 1 0 0 1 1 131
132 298 12.2 5 2.5 8 24 5200 1 1 3 2 2 1 1 0 0 1 1 1 0 132
133 178 6 4 2 6 36 3250 1 3 4 2 2 3 1 0 1 1 0 1 1 133
134 160 7.8 3 1 7 20 3300 1 2 4 2 2 1 1 0 0 1 1 1 1 134
135 229 7 3 2 7 35 4100 1 1 3 1 2 1 1 0 0 1 0 0 0 135
136 215 7.5 4 2 8 35 3100 1 1 1 2 1 1 1 0 0 1 1 0 0 136
137 180 6 5 2 6 19 3500 0 3 4 2 2 1 1 0 1 1 0 1 1 137
138 190 6.78 4 2 6 39 2500 1 1 1 2 3 1 1 0 0 1 1 1 1 138
139 151 6 3 1 8 37 2074 0 3 1 2 2 1 1 0 0 1 0 1 1 139
140 240 6.48 4 2.5 9 16 4909 2 3 3 2 2 1 1 1 1 0 1 1 1 140
141 290 10.5 4 2.5 9 29 5000 2 1 5 2 2 1 1 0 1 1 1 0 0 141
142 305 12.1 3 2 7 46 3640 0 2 2 2 2 1 1 1 1 1 1 1 0 142
143 190 7 3 1.5 11 28 2948 1 2 5 1 1 2 1 0 0 1 1 1 1 143
144 310 7.32 4 2.5 9 32 3717 1 1 5 2 2 1 1 0 0 1 1 1 1 144
145 220 7 3 1.5 7 30 3200 1 2 5 1 2 1 1 0 0 1 1 0 0 145
146 160 7.85 4 2 6 28 2850 0 3 3 2 2 1 1 0 0 1 0 0 0 146
EJEMPLO Para crear una base de datos en MINITAB17, accede a MINITAB VERSIÓN
ILUSTRATIVO 17. Cuando aparezca la pantalla da un clic en la opción Archivo de la barra menú
y selecciona Nuevo. Aparecerá la ventana Nuevo. Selecciona la opción
INTEGRAL EN
Proyecto Minitab y Aceptar
MINITAB 17.
1.2.2.1. CREACIÓN DE
UNA BASE DE
DATOS
Tipos de archivo de
Minitab que contienen
datos Procede a editar la base de datos de la siguiente manera:
Dos de los tipos de archivos Coloca los nombres de las variables debajo de cada número de variable conforme
principales que usted al código para la computadora de la encuesta:
utilizará contienen datos:
· Proyectos – contienen
hojas de trabajo, junto
con la salida de la
ventana Sesión y gráficas
· Hojas de trabajo –
puede utilizar Archivo > Abrir En la ventana de cuadro que aparece escribe la pregunta tal como viene en el
hoja de trabajo para abrir cuestionario precodificado.
una o más hojas de trabajo
de ese proyecto para
agregar a su proyecto actual.
Repite el procedimiento anterior con todas las variables. Una vez terminado de
completar la información en todas las variables, introduce en cada celda el valor
correspondiente.
se pueden evitar al seguir estos análisis previos cada vez que se aplique una
técnica multivariada evitando cometer errores serios.
· Por opción
predeterminada, una gráfica
de puntos tiene muchas más
secciones que un
histograma.
Histograma de VALOR
· Cada punto representa 100 98
95
una observación (o un
número pequeño de
observaciones).
80
Frecuencia
60
comparar grupos de datos.
40
22
20 14
2 2
0
0
80 120 160 200 240 280 320
VALOR
38 2 222222222223333333
20 2 4444
16 2 666677
10 2 88899999
2 3 01
300
250
VALOR
200
150
100
Cuando los puntos se organizan a lo largo de una línea recta, tendremos una
relación lineal de correlación. Un conjunto de puntos curveados puede indicar una
relación no lineal, que se puede tratar de varias formas. También puede suceder
que no existan patrones tratándose de puntos aparentemente aleatorios, en este
caso no existe relación.
El método que se utiliza para esta tarea es el grafico de caja y brazos múltiple.
Los límites superior e inferior de la caja marcan los cuartiles superior e inferior de
la distribución de los datos, es decir la longitud de la caja es la distancia entre el
primer y el tercer cuartil conocida como el Rango intercuartílico (RIQ) y contiene el
50% de los datos centrales de la distribución. La línea dentro de la caja representa
la posición de la mediana y conforme a si ésta cae cerca del final de la caja, se
indica la presencia de la asimetría o de sesgo hacia alguno de los lados. Las líneas
que se extienden desde la caja (llamadas bigotes o brazos) representan la
distancia entre la mayor y la menor de las observaciones que están a menos de un
cuartil de la caja. Los casos atípicos son observaciones que se sitúan entre 1.5 y
3.0 RIQ fuera de la caja.
Las opciones de
VALOR
100
Otros tipos de procesos de datos ausentes tiene que ver con el encuestado, que
no desea contestar tal pregunta. El investigador debe preveer estos problemas e
intentar minimizarlos en el diseño de la investigación y en los niveles de
recolección de los datos.
Las aproximaciones o soluciones que tratan los datos ausentes pueden clasificarse
en tres categorías basadas en la aleatoriedad de los procesos de datos ausentes,
La aproximación más sencilla y directa para tratar con datos ausentes es incluir
sólo aquellas observaciones con datos completos. Este método está incluido en
casi todo el software estadístico y es el método por defecto en muchos programas.
No obstante, este método sólo es recomendable cuando los valores ausentes se
presentan en forma aleatoria y no forman un patrón, ya que podrían sesgarse los
resultados. Incluso aunque fueran aleatorios los datos ausentes, podía la muestra
resultante quedar reducida a una muestra inadecuada por su tamaño para los
propósitos del análisis.
Otra solución simple para los datos ausentes es suprimir el caso(s) y/o variable(s)
que peor se comporta(n) respecto a los datos ausentes. El investigador determina
la extensión de los datos ausentes sobre cada caso y variable, y entonces suprime
los casos y variables que excedan el nivel especificado. Cuando se presenta un
patrón de datos ausentes puede ser una solución viable este método. Si una
variable, que no sea la variable dependiente tiene valores ausentes y es una
candidata de eliminación, el investigador debe asegurarse de que existan variables
alternativas, que se espera que estén altamente correlacionadas, para representar
a la variable original.
c. Métodos de imputación.
Una tercera forma para tratar con datos ausentes, es usar alguno de los muchos
métodos de imputación. La imputación es el proceso de estimación de valores
ausentes basado en valores de otras variables y/o casos de la muestra. La
finalidad es emplear relaciones conocidas que puedan identificarse en los valores
válidos de la muestra que ayuden a estimar valores ausentes. El investigador debe
considerar el uso de la imputación en cada instancia, dados sus potenciales
impactos sobre el análisis.
luego vuelve probar, surgen de un error de procedimiento, tales como la captura de datos o un error en
arriesga eliminar valores que la codificación que puede, en algunos casos, evitarse con un adecuado filtro de
no son en realidad atípicos.
datos. La segunda es la observación que ocurre como consecuencia de un
acontecimiento extraordinario y existe una aplicación por la unidad de la
observación y el investigador debe decidir si es representativo de la muestra y
debe ser retenido en el análisis o si hay que suprimirlo. La tercera categoría
comprende las observaciones extraordinarias para las que el investigador no tiene
explicación y, a menos que el investigador crea que representan un segmento
válido de la población, deben ser eliminados. La cuarta y última contiene las
observaciones que se sitúan fuera del rango ordinario de valores de cada variable,
pero que son únicos en su combinación de valores entre las variables. En este
caso el atípico no es un miembro válido de la población.
Por opción predeterminada, A menudo es más fácil identificar gráficamente los valores atípicos, identificando
el bigote o brazo inferior en
dichos valores en gráficas de cajas, al etiquetar las observaciones que son por
Minitab se extiende hasta el
valor más bajo dentro del menos 1.5 veces el rango intercuartílico (RIQ) (Q3-Q1) desde el borde de la caja.
límite inferior.
300
250
VALOR
200
150
100
La Distancia de Mahalanobis
es la distancia entre un
punto de datos y el
centroide de un espacio
multivariado (media
general). Utilice la distancia
de Mahalanobis en Análisis
de componentes principales
para identificar valores
atípicos. Es un método
multivariado más poderoso
para detectar valores
atípicos que el
procedimiento de examinar
una variable a la vez,
porque toma en cuenta las
diferentes escalas entre
variables y las correlaciones
entre éstas.
porque la observación posee Análisis de componentes principales para identificar valores atípicos. Es un método
1) un residuo grande y un multivariado más poderoso para detectar valores atípicos que el procedimiento de
apalancamiento moderado, examinar una variable a la vez, porque toma en cuenta las diferentes escalas entre
2) un apalancamiento
variables y las correlaciones entre éstas.
grande y un residuo
moderado o 3) un residuo y
un apalancamiento grandes.
Algunos estadísticos
recomiendan comparar D
con la distribución F (p, n-
p). Si D es mayor que el
valor F en el percentil 50,
entonces D es considerado
extremo y se debe
examinar. Otros estadísticos
recomiendan comparar las
estadísticas D entre sí,
identificando valores que
sean extremadamente
grandes en relación con los
demás valores. Una sencilla
manera de comparar los
valores D consiste en
graficarlos utilizando
graficas de series de tiempo,
donde el eje x representa
las observaciones, no un
índice ni un período de
tiempo.
EJEMPLO Una agencia de Bienes Raíces desea examinar el VALOR general de las casas
ILUSTRATIVO que forman su cartera de ventas. Las casas se encuentran ubicadas en diferentes
orientaciones de la ciudad. Se levanta en principio una encuesta que más
1.3.1.1 adelante se llamará “BIENES1” a 30 de ellas que incluyen 21 preguntas entre
DATOS ATÍPICOS. ellas el VALOR de las mismas. Cree una gráfica de caja y brazos para examinar
DIAGRAMA DE CAJA la distribución de los valores de las misma y revisar la posibilidad de
encontrar valores atípicos que pudieran influir negativamente en el estudio que
Y BRAZOS SIMPLE se pretende realizar más adelante.
#$%&
P(Q1)= 1 = 7.75
'
VALOR
225
200
175
150
ACTIVIDAD DE Una agencia de Bienes Raíces desea examinar el VALOR de las casas ubicadas
APRENDIZAJE en la zona NORTE que forman su cartera de ventas. Se levanta en principio una
encuesta que más adelante se llamará “BIENES1” a 30 de ellas ubicadas en la
1.3.1.1 zona NORTE que incluyen 21 preguntas entre ellas el VALOR de las mismas.
DATOS ATÍPICOS. Cree una gráfica de caja y brazos para examinar la distribución de los
DIAGRAMA DE valores de las misma y revisar la posibilidad de encontrar valores atípicos
que pudieran influir negativamente en el estudio que se pretende realizar más
CAJA Y BRAZOS adelante ordenando los datos en forma ascendente ya sea en forma manual o
SIMPLE. mediante un diagrama de tallo y hojas, presente el resumen de cinco números,
construya el esquema de vallas correspondiente y el diagrama de caja y brazos
con su debida interpretación.
AUTOEVALUACIÓN
1.3.1.1 Una agencia de Bienes Raíces desea examinar el VALOR de las casas ubicadas
en la zona SUR que forman su cartera de ventas. Se levanta en principio una
DATOS ATÍPICOS. encuesta que más adelante se llamará “BIENES1” a 30 de ellas ubicadas en la
DIAGRAMA DE zona SUR que incluyen 21 preguntas entre ellas el VALOR de las mismas. Cree
CAJA Y BRAZOS una gráfica de caja y brazos para examinar la distribución de los valores de
las misma y revisar la posibilidad de encontrar valores atípicos que pudieran
SIMPLE. influir negativamente en el estudio que se pretende realizar más adelante
ordenando los datos en forma ascendente ya sea en forma manual o mediante
un diagrama de tallo y hojas, presente el resumen de cinco números, construya
el esquema de vallas correspondiente y el diagrama de caja y brazos con su
debida interpretación.
EJERCICIOS DE 1.3.1.1.1 Una agencia de Bienes Raíces desea examinar el IMPUESTO de las
REFUERZO casas ubicadas en la zona SUR que forman su cartera de ventas. Se levanta en
1.3.1.1 principio una encuesta que más adelante se llamará “BIENES1” a 30 de ellas
ubicadas en la zona SUR que incluyen 21 preguntas entre ellas el IMPUESTO
DATOS ATÍPICOS. de las mismas. Cree una gráfica de caja y brazos para examinar la distribución
DIAGRAMA DE de los valores de las misma y revisar la posibilidad de encontrar valores
CAJA Y BRAZOS atípicos que pudieran influir negativamente en el estudio que se pretende
realizar más adelante ordenando los datos en forma ascendente ya sea en forma
SIMPLE. manual o mediante un diagrama de tallo y hojas, presente el resumen de cinco
números, construya el esquema de vallas correspondiente y el diagrama de caja
y brazos con su debida interpretación.
32 28 35 30 61 34
60 27 30 16 39 21
27 28 39 28 31 34
35 35 30 31 55 38
30 14 28 31 32 24
EJEMPLO Se reciben datos sobre una encuesta realizada a 233 casas para realizar
diferentes estudios sobre ella. Nota que el valor más pequeño o más grande de
ILUSTRATIVO los datos de la variable VALOR parecen inusualmente pequeño o grande. Antes
1.3.1.2. de analizar los datos con mayor profundidad y aplicar alguna técnica multivariada,
INTEGRAL EN se desea utilizar la Prueba de valores atípicos de Minitab para determinar si el
valor más pequeño o el más grande se puede considerar como valor atípico.
MINITAB 17. DATOS
ATÍPICOS 1 Abra la base de datos que creó “BIENES1”. Elija Estadísticas >
Estadísticas básicas > Prueba de valor atípico.
desviaciones estándar menos más que la media. El valor p indica que, si todos los
valores pertenecen en realidad a la misma población normalmente distribuida,
entonces la probabilidad de obtener un valor mínimo así de pequeño o un valor
máximo así de grande es 0.112. Este valor p es mayor que el nivel de significancia
que se eligió, de modo que no se puede rechazar la hipótesis nula y concluir que
el valor más pequeño ó el más grande no es un valor atípico.
ACTIVIDAD DE Se reciben datos sobre una encuesta realizada a 233 casas para realizar
APRENDIZAJE EN diferentes estudios sobre ella. Nota que el valor más pequeño o más grande de
los datos de la variable TAMAÑO DEL LOTE parecen inusualmente pequeño o
MINITAB 17 grande. Antes de analizar los datos con mayor profundidad y aplicar alguna
1.3.1.2 técnica multivariada, se desea utilizar la Prueba de valores atípicos de Minitab
DATOS ATÍPICOS para determinar si el valor más pequeño o el más grande se puede considerar
como valor atípico. Utilice el paquete Minitab para resolver esta
Actividad de Aprendizaje.
AUTOEVALUACIÓN Se reciben datos sobre una encuesta realizada a 233 casas para realizar
1.3.1.2 diferentes estudios sobre ella. Nota que el valor más pequeño o más grande de
los datos de la variable ANTIGÜEDAD DE LAS CASAS parecen inusualmente
DATOS ATÍPICOS pequeño o grande. Antes de analizar los datos con mayor profundidad y aplicar
alguna técnica multivariada, se desea utilizar la Prueba de valores atípicos de
Minitab para determinar si el valor más pequeño o el más grande se puede
considerar como valor atípico. Utilice el paquete Minitab para resolver esta
Autoevaluación.
EJERCICIOS DE 1.3.1.2.1. Se reciben datos sobre una encuesta realizada a 233 casas para
REFUERZO realizar diferentes estudios sobre ella. Nota que el valor más pequeño o más
1.3.1.2 grande de los datos de la variable NÚMERO DE RECÁMARAS parecen
inusualmente pequeño o grande. Antes de analizar los datos con mayor
DATOS ATÍPICOS profundidad y aplicar alguna técnica multivariada, se desea utilizar la Prueba de
valores atípicos de Minitab para determinar si el valor más pequeño o el más
grande se puede considerar como valor atípico. Utilice el paquete Minitab
para resolver este Ejercicio de Refuerzo.
1.3.1.2.2. Se reciben datos sobre una encuesta realizada a 233 casas para
realizar diferentes estudios sobre ella. Nota que el valor más pequeño o más
grande de los datos de la variable NÚMERO DE BAÑOS parecen inusualmente
pequeño o grande. Antes de analizar los datos con mayor profundidad y aplicar
alguna técnica multivariada, se desea utilizar la Prueba de valores atípicos de
Minitab para determinar si el valor más pequeño o el más grande se puede
considerar como valor atípico. Utilice el paquete Minitab para resolver este
Ejercicio de Refuerzo.
1.3.1.2.3. Se reciben datos sobre una encuesta realizada a 233 casas para
realizar diferentes estudios sobre ella. Nota que el valor más pequeño o más
grande de los datos de la variable IMPUESTOS ANUALES parecen
inusualmente pequeño o grande. Antes de analizar los datos con mayor
profundidad y aplicar alguna técnica multivariada, se desea utilizar la Prueba de
valores atípicos de Minitab para determinar si el valor más pequeño o el más
grande se puede considerar como valor atípico. Utilice el paquete Minitab
para resolver este Ejercicio de Refuerzo.
EJEMPLO Se reciben datos sobre una encuesta realizada a las casas ubicadas en la zona
ESTE de la base de datos “BIENES 1” para realizar diferentes estudios sobre
ILUSTRATIVO ella. Nota que el valor más pequeño o más grande de los datos de la variable
INTEGRAL EN VALOR en esta zona ESTE parecen inusualmente pequeño o grande. Antes de
MINITAB 17. DATOS analizar los datos con mayor profundidad y aplicar alguna técnica multivariada, se
desea utilizar la Prueba de valores atípicos de Minitab para determinar si el
ATÍPICOS PARA UN NIVEL
valor más pequeño o el más grande se puede considerar como valor atípico. Este
DE UN FACTOR. ejemplo se debe resolver en dos pasos:
SUBCONJUNTO DE
HOJA DE TRABAJO. 1. Crear un subconjunto de hoja de trabajo
2. Realizar la Prueba de valores atípicos de Minitab
Nota importante:
Minitab Crea un subconjunto de hoja nueva que incluye las casas ubicadas en la
zona ESTE
Método
Prueba de Grubbs
Valor atípico
Valor
Variable Fila atípico
VALOR 65 239.9
Es importante aclarar que hay que ubicar dicho caso en la base de datos
“BIENES1” original por si es el caso en que haya que eliminirlo para
depurar dicha base de datos.
ACTIVIDAD DE Se reciben datos sobre una encuesta realizada a las casas ubicadas en la zona
APRENDIZAJE SUR de la base de datos “BIENES 1” para realizar diferentes estudios sobre
ella. Nota que el valor más pequeño o más grande de los datos de la variable
1.3.1.3 VALOR en esta zona SUR parecen inusualmente pequeño o grande. Antes de
DATOS ATÍPICOS PARA analizar los datos con mayor profundidad y aplicar alguna técnica multivariada,
UN NIVEL DE UN se desea utilizar la Prueba de valores atípicos de Minitab para determinar si
FACTOR. el valor más pequeño o el más grande se puede considerar como valor atípico.
SUBCONJUNTO DE
HOJA DE TRABAJO a) Crear un subconjunto de hoja de trabajo.
b) Realizar la Prueba de valores atípicos de Minitab
AUTOEVALUACIÓN Se reciben datos sobre una encuesta realizada a las casas ubicadas en la zona
1.3.1.3 NORTE de la base de datos “BIENES 1” para realizar diferentes estudios sobre
ella. Nota que el valor más pequeño o más grande de los datos de la variable
DATOS ATÍPICOS PARA VALOR en esta zona NORTE parecen inusualmente pequeño o grande. Antes
UN NIVEL DE UN de analizar los datos con mayor profundidad y aplicar alguna técnica
FACTOR. multivariada, se desea utilizar la Prueba de valores atípicos de Minitab para
SUBCONJUNTO DE determinar si el valor más pequeño o el más grande se puede considerar como
HOJA DE TRABAJO valor atípico.
EJERCICIOS DE 1.3.1.3.1 Se reciben datos sobre una encuesta realizada a las casas con estilo
REFUERZO MODERNO de la base de datos “BIENES 1” para realizar diferentes estudios
sobre ella. Nota que el valor más pequeño o más grande de los datos de la
1.3.1.3 variable VALOR en las casas con estilo MODERNO parecen inusualmente
DATOS ATÍPICOS PARA pequeño o grande. Antes de analizar los datos con mayor profundidad y aplicar
UN NIVEL DE UN alguna técnica multivariada, se desea utilizar la Prueba de valores atípicos
de Minitab para determinar si el valor más pequeño o el más grande se puede
FACTOR. considerar como valor atípico.
SUBCONJUNTO DE
HOJA DE TRABAJO a) Crear un subconjunto de hoja de trabajo.
b) Realizar la Prueba de valores atípicos de Minitab
1.3.1.3.2 Se reciben datos sobre una encuesta realizada a las casas con estilo
HACIENDA de la base de datos “BIENES 1” para realizar diferentes estudios
sobre ella. Nota que el valor más pequeño o más grande de los datos de la
variable VALOR en las casas con estilo HACIENDA parecen inusualmente
pequeño o grande. Antes de analizar los datos con mayor profundidad y aplicar
alguna técnica multivariada, se desea utilizar la Prueba de valores atípicos
de Minitab para determinar si el valor más pequeño o el más grande se puede
considerar como valor atípico.
NOTA:
a) Crear un subconjunto de hoja de trabajo.
El uso de un software
estadístico como Excel o b) Realizar la Prueba de valores atípicos de Minitab
Minitab, entre otros, reduce
de gran manera el tiempo de Utilice el paquete Minitab para resolver este Ejercicio de Refuerzo.
cálculo y la probabilidad de
cometer errores en los
cálculos aritméticos, sin 1.3.1.3.3 Se reciben datos sobre una encuesta realizada a las casas con estilo
embargo se deben
comprender primero los
GRANJA de la base de datos “BIENES 1” para realizar diferentes estudios
pasos del proceso. Por lo sobre ella. Nota que el valor más pequeño o más grande de los datos de la
mismo es muy importante variable VALOR en las casas con estilo GRANJA parecen inusualmente
que primero resuelva el pequeño o grande. Antes de analizar los datos con mayor profundidad y aplicar
ejercicio en forma manual
y posteriormente utilice alguna técnica multivariada, se desea utilizar la Prueba de valores atípicos
un software para de Minitab para determinar si el valor más pequeño o el más grande se puede
comparar sus resultados. considerar como valor atípico.
Es importante mencionar que
pueden existir diferencias
en las respuestas debido a la a) Crear un subconjunto de hoja de trabajo.
cantidad de dígitos que se b) Realizar la Prueba de valores atípicos de Minitab
utilizan en los cálculos
manuales. Se sugiere
utilizar aproximaciones Utilice el paquete Minitab para resolver este Ejercicio de Refuerzo.
de 5 dígitos.
EJEMPLO Una agencia de Bienes Raíces desea examinar el VALOR general de las casas
ILUSTRATIVO que forman su cartera de ventas. Las casas se encuentran ubicadas en diferentes
orientaciones de la ciudad. De la base de datos “BIENES1” se eligió una muestra
INTEGRAL EN
aleatorioa de 30 de ellas que incluyen 21 preguntas entre ellas el VALOR de las
MINITAB 17. DATOS mismas. Cree una gráfica de caja y brazos para examinar la distribución de los
ATÍPICOS. valores de la misma y revisar la posibilidad de encontrar valores atípicos que
DIAGRAMA DE pudieran influir negativamente en el estudio que se pretende realizar más
CAJA Y BRAZOS adelante.
Por opción predeterminada, Utilice el paquete Minitab para resolver esta Autoevaluación.
en Minitab, la Valla Externa
Inferior se extiende hasta el Para introducir los datos agrega una hoja de trabajo vacía al proyecto actual:
valor más bajo dentro del
límite inferior.
1 Elija Archivo > Nuevo.
Límite inferior = Q1- 3.0 (Q3
- Q1) 2 Seleccione Hoja de trabajo de Minitab y haga clic en Aceptar.
Por opción
predeterminada,en Minitab,
la parte superior de la caja
es el tercer cuartil (Q3) -
75% de los valores de datos
son menores que o iguales a
este valor.
275
250
VALOR
225
200
175
150
Estos valores ó datos ó casos atípicos deben ser estudiados con detalle para ver el
tratamiento que se le van a dar en estudios subsecuentes ya que es posible que
provoquen un sesgo rompiendo algunos supuestos entre ellos el de Normalidad (la
posición de la mediana, a la izquierda de la caja sugiere un sesgo hacia la derecha
producto tal vez de los valores o casos atípicos.
ACTIVIDAD DE Una agencia de Bienes Raíces desea examinar el VALOR de las casas ubicadas
APRENDIZAJE en la zona NORTE que forman su cartera de ventas. De la base de datos
“BIENES1” se eligieron aleatoriamente a 30 de ellas ubicadas en la zona
1.3.1.4 NORTE que incluyen 21 preguntas entre ellas el VALOR de las mismas. Cree
DATOS ATÍPICOS. una gráfica de caja y brazos para examinar la distribución de los valores de
DIAGRAMA DE las misma y revisar la posibilidad de encontrar valores atípicos que pudieran
CAJA Y BRAZOS influir negativamente en el estudio que se pretende realizar más adelante.
SIMPLE
Los datos se muestran a continuación:
AUTOEVALUACIÓN Una agencia de Bienes Raíces desea examinar el VALOR de las casas ubicadas
1.3.1.4 en la zona SUR que forman su cartera de ventas. Se levanta en principio una
encuesta que más adelante se llamará “BIENES1” a 30 de ellas ubicadas en la
DATOS ATÍPICOS. zona SUR que incluyen 21 preguntas entre ellas el VALOR de las mismas. Cree
DIAGRAMA DE CAJA una gráfica de caja y brazos para examinar la distribución de los valores de
Y BRAZOS SIMPLE las misma y revisar la posibilidad de encontrar valores atípicos que pudieran
influir negativamente en el estudio que se pretende realizar más adelante.
EJERCICIOS DE 1.3.1.4.1 Una agencia de Bienes Raíces desea examinar el IMPUESTO de las
REFUERZO casas ubicadas en la zona SUR que forman su cartera de ventas. De la base de
1.3.1.4 datos “BIENES1” se seleccionan aleatoriamente a 30 de ellas ubicadas en la
zona SUR que incluyen 21 preguntas entre ellas el IMPUESTO de las mismas.
DATOS ATÍPICOS. Cree una gráfica de caja y brazos para examinar la distribución de los
DIAGRAMA DE valores de las misma y revisar la posibilidad de encontrar valores atípicos
CAJA Y BRAZOS que pudieran influir negativamente en el estudio que se pretende realizar más
SIMPLE. adelante.
embargo se deben
comprender primero los
pasos del proceso. Por lo
mismo es muy importante
que primero resuelva el Los datos se muestran a continuación:
ejercicio en forma manual
y posteriormente utilice
un software para
30 33 30 34 41 35
comparar sus resultados. 35 38 30 44 35 37
Es importante mencionar que
pueden existir diferencias
35 37 15 40 28 34
en las respuestas debido a la 24 35 35 35 14 25
cantidad de dígitos que se 22 31 31 38 30 33
utilizan en los cálculos
manuales. Se sugiere
utilizar aproximaciones Utilice el paquete Minitab para resolver este Ejercicio de Refuerzo
de 5 dígitos.
32 28 35 30 61 34
60 27 30 16 39 21
27 28 39 28 31 34
35 35 30 31 55 38
30 14 28 31 32 24
EJEMPLO Se reciben datos sobre una encuesta “BIENES1” realizada a 233 casas para
realizar diferentes estudios sobre ella. Antes de analizar los datos con mayor
ILUSTRATIVO profundidad y aplicar alguna técnica multivariada, se desea identificar la posible
1.3.1.5. existencia de valores atípicos que pudieran influenciar negativamente el estudio.
INTEGRAL EN Para su identificación se desea utilizar diagramas de caja múltiples que incluyan
las variables VALOR, ANTIGÜEDAD E IMPUESTOS en los 3 niveles de la
MINITAB 17. DATOS UBICACIÓN DE LAS CASAS.
ATÍPICOS.
DIAGRAMA DE Nota importante: Como las variables VALOR, ANTIGÜEDAD E
IMPUESTOS están medidas en diferentes escalas primero se deben
CAJA Y BRAZOS estandarizar las variables de la siguiente manera:
MÚLTIPLE
1 Abra la base de datos que creó “BIENES1”. Elija Calc > Estandarizar.
Datos
2
-2
-4
r1 1 1 r1 1 1 r1 1 1
lo t ig es
to lo t ig es
to lo t ig es
to
Va An pu Va An pu Va An p u
Im Im Im
UBICACIO 1 2 3
· En general en todos los niveles de UBICACIÓN de las casas las tres variables
muestran valores atípicos que hay que estudiar con excepción de Valor1 e
Impuestos1 en la parte inferior de la zona NORTE, Impuestos1 en ambas
partes de la zona SUR y Valor1 e Impuestos1 en la parte inferior de la zona
ESTE.
Para obtener información precisa de Q1, mediana, Q3, rango intercuartil, bigotes
o brazos y N, coloque el cursor sobre cualquier parte de la gráfica de caja. Para
ver el valor del eje Y y el número de fila de un valor atípico, coloque el cursor
sobre el valor atípico.
4
Datos
-2
-4
r1 1 1 r1 1 1 r1 1 1
lo t ig to lo t ig to lo t ig to
Va An es Va An es Va An es
pu pu pu
Im Im Im
UBICACION E
RT
R TE
SU ES
NO
4
Datos
-2
-4
r1 1 1 r1 1 1 r1 1 1
lo t ig to lo t ig to lo t ig to
Va An ues Va An u es Va An ues
p p p
Im Im Im
UBICACIÌ N E
RT
R TE
SU ES
NO
ACTIVIDAD DE Se reciben datos sobre una encuesta “BIENES1” realizada a 233 casas para
APRENDIZAJE realizar diferentes estudios sobre ella. Antes de analizar los datos con mayor
profundidad y aplicar alguna técnica multivariada, se desea identificar la posible
1.3.1.5 existencia de valores atípicos que pudieran influenciar negativamente el estudio.
DATOS ATÍPICOS . Para su identificación se desea utilizar diagramas de caja múltiples que incluyan
DIAGRAMA DE las variables VALOR, ANTIGÜEDAD E IMPUESTOS de las casas con estilo
CAJA Y BRAZOS MODERNO en los 3 niveles de la UBICACIÓN DE LAS CASAS.
MÚLTIPLE
Utilice el paquete Minitab para resolver esta Actividad de Aprendizaje.
AUTOEVALUACIÓN Se reciben datos sobre una encuesta “BIENES1” realizada a 233 casas para
1.3.1.5 realizar diferentes estudios sobre ella. Antes de analizar los datos con mayor
profundidad y aplicar alguna técnica multivariada, se desea identificar la posible
DATOS ATÍPICOS. existencia de valores atípicos que pudieran influenciar negativamente el estudio.
DIAGRAMA DE CAJA Para su identificación se desea utilizar diagramas de caja múltiples que incluyan
las variables VALOR, ANTIGÜEDAD E IMPUESTOS de las casas CON AIRE
Y BRAZOS MÚLTIPLE ACONDICIONADO en los 3 niveles de la UBICACIÓN DE LAS CASAS.
EJERCICIOS DE 1.3.1.5.1 Se reciben datos sobre una encuesta “BIENES1” realizada a 233
REFUERZO casas para realizar diferentes estudios sobre ella. Antes de analizar los datos con
1.3.1.5 mayor profundidad y aplicar alguna técnica multivariada, se desea identificar la
posible existencia de valores atípicos que pudieran influenciar negativamente el
DATOS ATÍPICOS. estudio. Para su identificación se desea utilizar diagramas de caja múltiples que
DIAGRAMA DE incluyan las variables VALOR, ANTIGÜEDAD E IMPUESTOS de las casas SIN
CAJA Y BRAZOS SÓTANO en los 3 niveles de la UBICACIÓN DE LAS CASAS.
MÚLTIPLE.
Utilice el paquete Minitab para resolver este Ejercicio de Refuerzo.Nota
importante: Primero hay que crear un subconjunto de hoja de trabajo con
las caas que no tienen SOTANO y después, como las variables VALOR,
ANTIGÜEDAD E IMPUESTOS están medidas en diferentes escalas se deben
estandarizar las variables.
El uso de un software Utilice el paquete Minitab para resolver este Ejercicio de Refuerzo.Nota
estadístico como Excel o
importante: Primero hay que crear un subconjunto de hoja de trabajo con
Minitab, entre otros, reduce
de gran manera el tiempo de las casas que no tienen CHIMENEA y después, como las variables VALOR,
cálculo y la probabilidad de
cometer errores en los ANTIGÜEDAD E IMPUESTOS están medidas en diferentes escalas se deben
cálculos aritméticos, sin
embargo se deben
estandarizar las variables.
comprender primero los
pasos del proceso. Por lo 1.3.1.5.3 Se reciben datos sobre una encuesta “BIENES1” realizada a 233
mismo es muy importante
que primero resuelva el casas para realizar diferentes estudios sobre ella. Antes de analizar los datos con
ejercicio en forma manual mayor profundidad y aplicar alguna técnica multivariada, se desea identificar la
y posteriormente utilice posible existencia de valores atípicos que pudieran influenciar negativamente el
un software para
estudio. Para su identificación se desea utilizar diagramas de caja múltiples que
comparar sus resultados.
Es importante mencionar que incluyan las variables VALOR, ANTIGÜEDAD E IMPUESTOS de las casas SIN
pueden existir diferencias TINA DE HIDROMASAJE en los 3 niveles de la UBICACIÓN DE LAS CASAS.
en las respuestas debido a la
cantidad de dígitos que se
utilizan en los cálculos Utilice el paquete Minitab para resolver este Ejercicio de Refuerzo.Nota
manuales. Se sugiere importante: Primero hay que crear un subconjunto de hoja de trabajo con
utilizar aproximaciones las casas que no tienen TINA DE HIDROMASAJE y después, como las
de 5 dígitos. variables VALOR, ANTIGÜEDAD E IMPUESTOS están medidas en diferentes
escalas se deben estandarizar las variables.
variables a analizar y por lo tanto, debe cumplir los mismos supuestos que las
variables individuales.
La prueba de normalidad es una
prueba de hipótesis para 1. NORMALIDAD:
determinar si la población de la
cual extrajo su muestra es no En el análisis multivariado, el supuesto fundamental es la normalidad de los
normal. Muchos procedimientos datos, en referencia al perfil de la distribución de los datos para una única
estadísticos dependen de la
normalidad de la población, de variable métrica y su correspondencia con una distribución normal. Si la
modo que recurrir a una prueba variación con respecto a la normal es amplia, todas las pruebas estadísticas
de normalidad para determinar si resultantes no son válidas, dado que se requiere normalidad para el uso de
se rechaza este supuesto pudiera
los estadísticos t y F. La normalidad multivariante, es decir la combinación de
ser un paso importante en su
análisis. La hipótesis nula para dos o más variables, implica que las variables individuales sean normales en
una prueba de normalidad un sentido univariado y que sus combinaciones también sean normales. La
establece que la población es normalidad multivariante es más difícil de probar aunque existen varias
normal. La hipótesis alternativa
establece que la población es no pruebas para situaciones en las que la técnica multivariada se ve
normal. Para determinar si los particularmente afectada por una violación de los supuestos.
datos de su muestra provienen de
una población no normal, usted Análisis gráfico de la normalidad:
puede elegir en general entre tres
pruebas: La prueba más simple para diagnosticar la normalidad es una comprobación
visual del histograma que compare los valores de los datos observados con
La prueba de Anderson-Darling
es una prueba que compara la
una distribución aproximada de la distribución normal. Aunque este método
función de distribución acumulada es simple, también es problemático para muestras pequeñas, donde la
empírica de los datos de su construcción de un histograma puede distorsionar la representación visual de
muestra con la distribución tal forma que el análisis sea inútil. Una forma de mayor confianza es el
esperada si los datos son
normales. Si esta diferencia gráfico de distribución normal que compara la distribución acumulada de
observada es suficientemente los valores reales de los datos con la distribución acumulada de una
grande, la prueba rechazará la distribución normal. La distribución normal sigue una línea recta en diagonal.
hipótesis nula de normalidad en la
Si una distribución es normal, la línea que representa a la distribución real de
población.
los datos sigue de cerca de la diagonal.
70
60
50
40
30
20
10
5
0.1
0 1000 2000 3000 4000 5000 6000 7000
IMPUESTO
La prueba de normalidad de Pueden utilizarse pruebas estadísticas para evaluar la normalidad. Una de
Ryan-Joiber es una prueba que ellas es simple y es una regla basada en el valor de la asimetría. El valor
evalúa la normalidad calculando la
correlación entre sus datos y las
estadístico (z) se calcula como:
puntuaciones normales de sus
datos. Si el coeficiente de 𝑠𝑖𝑚𝑒𝑡𝑟í𝑎
𝑍6789,:í+ =
correlación se encuentra cerca de
1, es probable que la población
D6
𝑛
sea normal. La estadística de
Ryan-Joiner evalúa la solidez de Donde n es el tamaño de la muestra.
esta correlación; si se encuentra
por debajo del valor crítico
Un valor “z” que también puede ser calculado para el valor de la curtósis es:
apropiado, usted rechazará la
hipótesis nula de normalidad en la
población. Esta prueba es similar
𝑐𝑢𝑟𝑡ó𝑠𝑖𝑠
𝑍GH:,ó676 =
a la prueba de normalidad de
D24
Shapiro-Wilk. 𝑛
La prueba de normalidad de Si el valor calculado de “z” excede un valor crítico, entonces la distribución
Kolmogorov-Smirnov es una real de los datos no es normal. Un valor calculado que exceda ± 2.58, indica
prueba que compara la función de
distribución acumulada empírica
que podemos rechazar el supuesto sobre la normalidad de la distribución con
de los datos de su muestra con la un nivel de significancia de 0.01. Otro valor crítico habitualmente utilizado es
distribución esperada si los datos ± 1.96, que corresponde a un nivel de significancia de 0.05.
son normales. Si esta diferencia
observada es suficientemente Hay pruebas estadísticas que se encuentran en los programas
grande, la prueba rechazará la
hipótesis nula de normalidad en la
computacionales. Los dos más comunes son las pruebas de Shapiro-Wilks y
población. una modificación de la prueba de Kolmogorov-Smornov. Cada uno determina
el nivel de significancia para las diferencias respecto a una distribución
Si el valor p de esta prueba es normal. Estas pruebas son poco útiles para muestras pequeñas (menores de
menor que su nivel a elegido,
30) y muy sensibles para grandes muestras (mayores a 1000 observaciones),
usted puede rechazar su hipótesis
nula y concluir que la población es por lo que el investigador debe siempre utilizar tanto los gráficos como
no normal. cualquier comprobación estadística para evaluar el grado de desviación de la
normalidad.
Estadístico de Anderson-Darling
La prueba de Anderson-Darling
es una prueba que compara la Mide si los datos siguen una distribución particular. Mientras mejor se ajusta
función de distribución acumulada la distribución a los datos, menor será este estadístico. Utilice el estadístico
empírica de los datos de su
muestra con la distribución de Anderson-Darling para comparar el ajuste de varias distribuciones, para
esperada si los datos son ver cuál es el mejor, o para probar si una muestra de datos proviene de una
normales. Si esta diferencia población con una distribución específica. Por ejemplo, puede utilizar el
observada es suficientemente
estadístico Anderson-Darling para elegir entre la distribución de Weibull y la
grande, la prueba rechazará la
hipótesis nula de normalidad en la normal, para un análisis de datos de confiabilidad o para probar si los datos
población. cumplen con el supuesto de normalidad de una prueba t.
3. LINEALIDAD:
cuadrada o inversa. Hay numerosos procedimientos para conseguir la linealidad entre dos
variables, sin embargo, las más simples incluyen la aplicación de la raíz
cuadrada, el logaritmo y la inversa. Se prueban cada una de las
transformaciones hasta conseguir la linealidad o bien, crear una nueva
variable, denominada polinómica, que represente la parte no lineal de la
relación.
referencia horizontal intersecta el ajuste de la línea a los datos, y marca esta línea
con el valor de datos estimado.
En los valores de Y: Elija esta opción para ingresar valores de escala Y para
colocar las líneas de percentiles. Ingrese valores entre 0 y 100 cuando los
porcentajes se utilicen como el tipo de escala Y, o 0 a 1 cuando la probabilidad es
el tipo de escala Y.
En los valores de datos: Elija esta opción para ingresar valores de datos para
colocar líneas de percentiles.
Ryan-Joiner: Elija esta opción para realizar una prueba de Ryan-Joiner , que es
similar a la prueba de Shapiro-Wilk . La prueba de Ryan-Joiner es una prueba
basada en correlaciones.
H0: los datos siguen una distribución normal vs. H1: los datos no siguen una
distribución normal
La salida gráfica es una gráfica de probabilidades normales versus los datos. Los
datos se alejan de la línea ajustada de una manera más evidente en los extremos,
o colas de la distribución. El valor p de la prueba de Anderson-Darling indica que,
en niveles p menores a 0.005, hay evidencia de que los datos no siguen una
distribución normal.
Para las distribuciones no normales, las dos formas más comunes son las
distribuciones “planas” y las distribuciones asimétricas. Para la distribución plana,
las transformaciones más comunes son la inversa (es decir, 1/Y o 1/X). Las
distribuciones asimétricas, pueden ser transformadas empleando la raíz cuadrada,
logaritmos o incluso la inversa de la variable. Las distribuciones asimétricas
negativas se transforman de forma más efectiva usando la raíz cuadrada, mientras
que por lo regular, el logaritmo funciona mejor para la asimetría positiva.
Nota: Etiquete la gráfica dando doble clic en VALOR para que aparezca la
ventana Editar etiqueta de eje y en la parte inferior donde dice Texto escriba
VALOR DE LAS CASAS DE “BIENES1”. Haga clic en Aceptar.
NOTA:
El uso de un software
1.3.2.1.3 Se midió el VALOR de las casas con estilo GRANJA en la base de
estadístico como Excel o datos “BIENES1” que se construyó con anterioridad.
Minitab, entre otros, reduce
de gran manera el tiempo de
cálculo y la probabilidad de
Utilizando el paquete Minitab se desea determinar si estos datos siguen una
cometer errores en los distribución normal, de modo que utiliza una Prueba de normalidad de Anderson
cálculos aritméticos, sin Darling, creando primero un subconjunto de hoja de trabajo para las casas con
embargo se deben estilo GRANJA e interprete los resultados y etiquetando correctamente todas
comprender primero los
pasos del proceso. Por lo
las gráficas.
mismo es muy importante
que primero resuelva el
ejercicio en forma manual
y posteriormente utilice
un software para
comparar sus resultados.
Es importante mencionar que
pueden existir diferencias
en las respuestas debido a la
cantidad de dígitos que se
utilizan en los cálculos
manuales. Se sugiere
utilizar aproximaciones
de 5 dígitos.
(H1: s21 / s22 > 1), o de dos Usted pretende diseñar un experimento para evaluar el valor de 233 casas de
colas (H1: s21 / s22 ≠ 1). De diferentes estilos. Usted mide el VALOR de las casas de la base de datos
forma opcional, las
relaciones de prueba “BIENES 1” que se construyó con anterioridad en cada una de las casas con
diferentes de 1 (igualdad) se ESTILO diferente. Como usted desea probar la igualdad de las medias y evaluar
pueden especificar. las diferencias de las medias, utiliza el procedimiento ANOVA de un factor (datos
apilados) con comparaciones múltiples. Por lo general, usted escogería un método
de comparación múltiple apropiado para sus datos. Sin embargo, aquí se
seleccionan dos métodos para demostrar las capacidades de Minitab
para probar primeramente que se cumpla el supuesto de igualdad de
varianzas (Homocedasticidad).
Método
ESTILO N Desv.Est. IC
1 97 21.7286 (17.7196, 27.371)
2 15 43.7908 (17.5418, 131.983)
3 23 43.1440 (29.0550, 72.145)
4 60 23.4876 (15.1276, 38.104)
5 38 36.4499 (28.1542, 50.621)
Pruebas
Estadística
Método de prueba Valor p
Comparaciones múltiples — 0.004
Levene 5.48 0.000
Comparaciones múltiples
1 Valor p 0.004
Prueba de Levene
Valor p 0.000
2
ESTILO
10 20 30 40 50 60 70 80 90 100
Para el ejemplo para evaluar el VALOR de las casas con base en el ESTILO de
las mismas, los valores de p de 0.000 es menor que la opción razonable de alfa,
así que se puede rechazar la hipótesis nula de que las varianzas no son iguales
ó de que al menos una es diferente. Es decir, estos datos no proveen evidencia
suficiente para afirmar que las poblaciones tienen varianzas iguales.
Para las distribuciones no normales, las dos formas más comunes son las
distribuciones “planas” y las distribuciones asimétricas. Para la distribución plana,
las transformaciones más comunes son la inversa (es decir, 1/Y o 1/X). Las
distribuciones asimétricas, pueden ser transformadas empleando la raíz
cuadrada, logaritmos o incluso la inversa de la variable. Las distribuciones
asimétricas negativas se transforman de forma más efectiva usando la raíz
cuadrada, mientras que por lo regular, el logaritmo funciona mejor para la
asimetría positiva
Método
ESTILO N Desv.Est. IC
1 97 0.0283202 (0.0237186, 0.034737)
2 15 0.0472208 (0.0204493, 0.131647)
3 23 0.0467954 (0.0333582, 0.073924)
4 60 0.0323497 (0.0202691, 0.053947)
5 38 0.0388919 (0.0309284, 0.052462)
Pruebas
Estadística
Método de prueba Valor p
Comparaciones múltiples — 0.008
Levene 3.08 0.017
Comparaciones múltiples
MODERNO
Valor p 0.008
Prueba de Levene
Valor p 0.017
HACIENDA
ESTILO COLONIAL
GRANJA
DESNIVELES
Método
ESTILO N Desv.Est. IC
1 97 0.0080457 (0.0068001, 0.0097793)
2 15 0.0124099 (0.0055708, 0.0333766)
3 23 0.0123215 (0.0089739, 0.0190515)
4 60 0.0095517 (0.0057398, 0.0166080)
5 38 0.0101533 (0.0081479, 0.0135723)
Pruebas
Estadística
Método de prueba Valor p
Comparaciones múltiples — 0.014
Levene 2.14 0.077
Comparaciones múltiples
MODERNO
Valor p 0.014
Prueba de Levene
Valor p 0.077
HACIENDA
ESTILO
COLONIAL
GRANJA
DESNIVELES
casas con base en el ESTILO de las mismas, los valores de p de 0.077 es mayor
que la opción razonable de alfa, así que NO se puede rechazar la hipótesis nula
de que las varianzas son iguales. Es decir, estos datos proveen evidencia
suficiente para afirmar que las poblaciones tienen varianzas iguales.
Método
ESTILO N Desv.Est. IC
1 97 0.0128313 (0.0107809, 0.0156884)
2 15 0.0208416 (0.0091331, 0.0574205)
3 23 0.0206678 (0.0148427, 0.0324086)
4 60 0.0148313 (0.0091792, 0.0250387)
5 38 0.0171300 (0.0136672, 0.0230313)
Pruebas
Estadística
Método de prueba Valor p
Comparaciones múltiples — 0.010
Levene 2.75 0.029
Comparaciones múltiples
MODERNO
Valor p 0.010
Prueba de Levene
Valor p 0.029
HACIENDA
ESTILO COLONIAL
GRANJA
DESNIVELES
1 Haga doble clic en el número 1 del eje vertical de la gráfica que dice
ESTILO para que Minitab despliegue la ventana Editar Escala.
Comparaciones múltiples
MODERNO Valor p 0.004
Prueba de Levene
Valor p 0.000
HACIENDA
ESTILO
COLONIAL
GRANJA
DESNIVELES
10 20 30 40 50 60 70 80 90 100
ACTIVIDAD DE Usted pretende diseñar un experimento para evaluar el valor de 233 casas de
APRENDIZAJE EN diferentes estilos. Usted mide el VALOR de las casas de la base de datos
“BIENES 1” que se construyó con anterioridad en cada una de las casas con
MINITAB 17 UBICACIÓN diferente. Como usted desea probar la igualdad de las medias y
1.3.2.2 evaluar las diferencias de las medias, utiliza el procedimiento ANOVA de un
factor (datos apilados) con comparaciones múltiples. Por lo general, usted
PRUEBA DE escogería un método de comparación múltiple apropiado para sus datos. Sin
HOMOCEDASTICI embargo, aquí se seleccionan dos métodos para demostrar las
DAD. PRUEBA DE capacidades de Minitab para probar primeramente que se cumpla el
LEVENE. supuesto de igualdad de varianzas (Homocedasticidad).
TRANSFORMA-
Antes de realizar el análisis de varianza, usted verifica la suposición de que la
CIONES. varianza es igual utilizando la Prueba de igualdad de varianzas suponiendo que
ETIQUETADO DE los datos provienen de distribuciones continuas, pero no necesariamente
normales (Prueba de Levene):
GRÁFICOS.
Utilice el paquete Minitab para resolver esta Actividad de Aprendizaje
de Igualdad de Varianzas e interprete su resultado, realice las
Transformaciones de Raíz Cuadrada, Inversa y Logaritmo decimal
repitiendo las pruebas Levene para cada transformación e interprete
los resultados y etiquete debidamente todos los gráficos de
presentación.
presentación.
Entre las capacidades para ANOVA que puede realizar Minitab figuran
procedimientos para ajustar modelos ANOVA a datos recolectados en diseños de
diversa naturaleza, para ajustar modelos MANOVA a diseños con respuestas
múltiples, para ajustar modelos ANOM (análisis de medias), y gráficas para probar
la igualdad de las varianzas, para gráficas de intervalos de confianza y gráficas de
efectos principales e interacciones.
que las varianzas son iguales Realice la prueba de igualdad de varianzas suponiendo que los datos
en todos los grupos o provienen de distribuciones normales (Prueba de Barlett) utilizando el paquete
muestras. La prueba de de cómputo Minitab:
Bartlett se puede utilizar
para verificar esa suposición.
Antes de realizar el análisis de varianza, usted verifica la suposición de que la
La prueba de Bartlett es
varianza es igual utilizando la Prueba de igualdad de varianzas.
sensible a las desviaciones
de la normalidad. Es decir, si
las muestras provienen de 1 Abra la base de datos que creó “BIENES1”
distribuciones no normales,
entonces la prueba de
Bartlett puede ser 2 Elija Estadísticas > ANOVA > Prueba de varianzas iguales.
simplemente para probar la
no normalidad. La Prueba de 3 En Respuesta, ingrese VALOR
Levene y la de Bonett son
alternativas a la prueba de
Bartlett que son menos 4 En Factores, ingrese ESTILO
sensibles a las desviaciones
de la normalidad.1 5 En el botón Opciones active la casilla que dice: Utilice la prueba
basándose en la distribución normal. Haga clic en Aceptar y nuevamente
Aceptar
Método
ESTILO N Desv.Est. IC
1 97 21.7286 (18.2938, 26.5988)
2 15 43.7908 (29.2780, 81.1710)
3 23 43.1440 (30.9337, 68.8346)
4 60 23.4876 (18.9420, 30.5957)
5 38 36.4499 (27.9595, 51.4287)
Pruebas
Estadística
Método de prueba Valor p
Bartlett 37.48 0.000
2
ESTILO
10 20 30 40 50 60 70 80
Intervalos de confianza de Bonferroni de 95% para Desv.Est.
Para el ejemplo para evaluar el VALOR de las casas con base en el ESTILO de
las mismas, los valores de p de 0.000 es menor que la opción razonable de alfa,
así que se puede rechazar la hipótesis nula de que las varianzas no son iguales
ó de que al menos una es diferente. Es decir, estos datos no proveen evidencia
suficiente para afirmar que las poblaciones tienen varianzas iguales.
Para las distribuciones no normales, las dos formas más comunes son las
distribuciones “planas” y las distribuciones asimétricas. Para la distribución plana,
las transformaciones más comunes son la inversa (es decir, 1/Y o 1/X). Las
distribuciones asimétricas, pueden ser transformadas empleando la raíz cuadrada,
logaritmos o incluso la inversa de la variable. Las distribuciones asimétricas
negativas se transforman de forma más efectiva usando la raíz cuadrada, mientras
que por lo regular, el logaritmo funciona mejor para la asimetría positiva.
1 Haga doble clic en el número 1 del eje vertical de la gráfica que dice
ESTILO para que Minitab despliegue la ventana Editar Escala.
HACIENDA
ESTILO
COLONIAL
GRANJA
DESNIVELES
10 20 30 40 50 60 70 80
Intervalos de confianza de Bonferroni de 95% para Desv.Est.
ACTIVIDAD DE Usted diseña un experimento para evaluar el valor de 233 casas de diferentes
APRENDIZAJE estilos. Usted mide el VALOR de las casas de la base de datos “BIENES1” que
se construyó en el ejemplo anterior en cada una de las casas con base en la
1.3.2.3 UBICACIÓN de las casas. Como usted desea probar la igualdad de las medias
PRUEBA DE y evaluar las diferencias de las medias, utiliza el procedimiento ANOVA de un
HOMOCEDASTICI factor (datos apilados) con comparaciones múltiples. Por lo general, usted
DAD. PRUEBA DE escogería un método de comparación múltiple apropiado para sus datos.
BARLETT
Realice la prueba de igualdad de varianzas suponiendo que los datos
provienen de distribuciones normales (Prueba de Barlett) utilizando el paquete
de cómputo Minitab.
AUTOEVALUACIÓN Usted diseña un experimento para evaluar el valor de 233 casas de diferentes
1.3.2.3 estilos. Usted mide el VALOR de las casas de la base de datos “BIENES1” que
se construyó en el ejemplo anterior en cada una de las casas con respecto al
PRUEBA DE tipo de ALBERCA ubicada en la propiedad. Como usted desea probar la
HOMOCEDASTICI igualdad de las medias y evaluar las diferencias de las medias, utiliza el
DAD. PRUEBA DE procedimiento ANOVA de un factor (datos apilados) con comparaciones
BARLETT múltiples. Por lo general, usted escogería un método de comparación múltiple
apropiado para sus datos.
EJERCICIOS DE 1.3.2.3.1 Usted diseña un experimento para evaluar el valor de 233 casas de
REFUERZO diferentes estilos. Usted mide el IMPUESTO de las casas de la base de datos
1.3.2.3 “BIENES1” que se construyó en el ejemplo anterior en cada una de las casas
con ESTILO diferente. Como usted desea probar la igualdad de las medias y
PRUEBA DE evaluar las diferencias de las medias, utiliza el procedimiento ANOVA de un
HOMOCEDASTICI factor (datos apilados) con comparaciones múltiples. Por lo general, usted
DAD. PRUEBA DE escogería un método de comparación múltiple apropiado para sus datos.
BARLETT
Realice la prueba de igualdad de varianzas suponiendo que los datos
provienen de distribuciones normales (Prueba de Barlett) utilizando el paquete
de cómputo Minitab:
EJEMPLO: El sistema:
Paso 3.OBTENER
Paso 4. OBTENER LA MATRIZ
LA
DE COFACTORES DE LA
TRANSPUESTA
TRANSPUESTA: A´
DE A=A´
Paso 7.
SOLUCIÓN
2 3 −4
|𝐴| = w1 −1 3 w=+2 x−1 3 x-3x1 3 x + (−4) x1 −1x =
5 −1 2 −1 2 5
2 5 −1
2 3 −4
1 −1 3
|𝐴| = ~~2 5 −1~~ = (2*-1*-1)+ (1*5*-4)+ (2*3*3)- (2*-1*-4)- (2*5*-3)- (1*3*-
2 3 −4
1 −1 3
1)=-35≠0
2 1 2
AT=A’= ` 3 −1 5 e
−4 3 −1
𝟏
Paso 5. Calcular la inversa de la matriz A’= |𝑨| α A’
−4
⎡ ‹14 17 − 5 Œ ∗ ` 8 e⎤
⎢ 35 35 35 ⎥
⎢ 9 ⎥
−4 ⎥ −56/35 +136/35 −45/35
⎢ 7 6 10
‹−
⎢ 35 − Œ ∗ ` 8 e⎥ = ` 28/35 −48/35 +90/35e
35 35 28/35 +32/35 +45/35
⎢ 9 ⎥
⎢ 7 4 5 −4 ⎥
⎢ ‹− Œ ∗ ` 8 e⎥
⎣ 35 35 35
9 ⎦
35/35 1 𝑥
= ` 70/35 e = `2e = k𝑦o
105/35 3 𝑧
2x + 3y – 4z = -4
x - y + 3z = 8
2x + 5y - z = 9
A x X = K (**)
Donde:
A= Matriz de coeficientes
X= Incógnitas
K= Términos independientes
Si ambos miembros de (**) los multiplicamos por A-1, matriz inversa de A,
obtenemos:
A-1 x ( A x X)= A-1 x K o sea (A-1 x A) x X = A-1 x K y como, por definición, A-1 x
A = Au=1, se tiene:
1(X)= A-1K, que es X= A-1 x K
X=1
Y=2
Z=3
La única condición que debe darse para resolver este tipo de sistemas con
Excel es que debe haber el mismo número de variables que de ecuaciones. El
ejemplo anterior utiliza dos variables y dos ecuaciones. Tener tres ecuaciones
significaría que deben existir también tres variables.
Los pasos que debes seguir para resolver sistemas de ecuaciones con Excel es
el siguiente:
1.
9x – 2y + 12z =20
6x + 4y - 3z = 3
3x + 2y – 3z = -1
2x – y + 3z = 14
2y – z + 3x = 24
2z – x + 3y = 10
______________________________________________________
EN CADA UNO DE LOS REACTIVOS, CONTESTE CON UNA F SI CONSIDERA QUE LA AFIRMACIÓN ES
FALSA Y CON UNA V SI CONSIDERA QUE LA AFIRMACIÓN ES VERDADERA.
5. El método de transformación de los datos se usa para tratar los datos ausentes.
( )
( )
10. La prueba de Barlett se utiliza para probar la normalidad de una distribución de datos.
( )
11. Si se sustituyen los valores ausentes en una base de datos por un único valor derivado
de fuentes externas, la imputación fue por sustitución de caso.
( )
12. Para distribución de variables no normales planas, la trasformación mas común para
conseguir normalidad y homocedasticidad es la raíz cuadrada.
( )
13. Para conseguir la linealidad entre dos variables, la transformación que se aplica es la
inversa.
( )
14. Si se sustituyen valores ausentes en una base de datos por un único valor derivado de
fuentes externas, la imputación fue por la media.
( )
15. En muestras pequeñas (de 80 incluso menos), las pautas sugeridas identifican como
atípicos aquellos casos con valores estándar entre 1.96 y 2.58.
( )
18. Si se sustituyen los valores ausentes en una base de datos por un único valor derivado
de fuentes externas, la imputación fue por sustitución por valor constante.
( )
19. En muestras grandes (mayores de 80) para identificar los casos atípicos, las pautas
sugieren que el umbral estandarizado se sitúe entre 3 y 4.
( )
20. Para distribución de variables no normales planas, la transformación mas usual para
21. En muestras pequeñas (de 80 incluso menos), las pautas sugeridas identifican como
atípicos aquellos casos con valores estándar de 2.58 ó superiores.
( )
22. Si los datos provienen de distribuciones continuas, con distribuciones normales, la mejor
prueba para checarla homocedasticidad es la prueba de Shapiro-Wilks.
( )
25. Si los datos provienen de distribuciones continuas, con distribuciones normales, la mejor
prueba para checar la homocedasticidad es la prueba de Barlett.
( )
c) Método de impugnación
2.- Cuando en una base de datos se tiene datos ausentes, la imputación es el proceso de estimación de
variables y/o casos de la muestra. Si se sustituyen los valores ausentes por una variable cuyo valor medio se
calcula sobre todas las respuestas, la imputación fue por:
a) Sustitución de caso.
3.- Si se sustituyen los valores ausentes en una base de datos por un único valor derivado de fuentes
externas, la imputación fue por:
a) Sustitución de caso.
4.- Si se predicen valores ausentes de una variable basándose en su relación con las otras variables del
conjunto de datos, la imputación fue:
a) Sustitución de caso.
5.- Pueden identificarse los casos atípicos desde un enfoque univariado seleccionando como casos atípicos
aquellos casos que caigan fuera de los rangos de la distribución. En muestras pequeñas (de 80 incluso
menos) las pautas sugeridas identifican como atípicos aquellos casos con valores estándar de:
a) 1.96
b) 2.58 ó superiores
d) entre 3 y 4
6.- Pueden identificarse los casos atípicos desde un enfoque univariado seleccionando como casos atípicos
aquellos casos que caigan fuera de los rangos de la distribución. En muestras grandes (mayores de 80) las
pautas sugieren que el umbral de estandarizado se sitúe entre:
b) entre 2.58 y 3
d) entre 3 y 4
7.- Las siguientes pruebas sirven para probar la normalidad de una distribución de datos excepto:
a) Shapiro-Wilks
b) Kolmogorov-Smirnov
c) Anderson Darling
d) Barlett
8.- Las siguientes pruebas sirven para probar la homocedasticidad de varianzas de una variable para
diferentes grupos excepto:
a) Barlett
b) Prueba F
c) Levene
d) Anderson Darling
9.- Si los datos provienen de distribuciones continuas, pero no necesariamente distribuciones normales, la
mejor prueba para checar la homocedasticidad es:
a) Levene
b) Barlett
c) Shapiro-Wilks
d) Anderson Darling
10.- Si los datos provienen de distribuciones continuas, con distribuciones normales, la mejor prueba para
checar la homocedasticidad es:
a) Levene
b) Barlett
c) Shapiro-Wilks
d) Anderson Darling
11.- Para las distribuciones de variables no normales planas, la transformación más común para conseguir
normalidad y homocedasticidad es:
a) La inversa
b) La raíz cuadrada
c) El logaritmo decimal
d) El logaritmo natural
12.- Para las distribuciones de variables no normales asimétricas negativas, la transformación más común
para conseguir normalidad y homocedasticidad es:
a) La inversa
b) La raíz cuadrada
c) El logaritmo decimal
d) El logaritmo natural
13.- Para las distribuciones de variables no normales asimétricas positivas, la transformación más común para
conseguir normalidad y homocedasticidad es:
a) La inversa
b) La raíz cuadrada
c) El logaritmo decimal
d) El logaritmo natural
14.- Las siguientes transformaciones se aplican para conseguir la linealidad entre dos variables excepto:
a) La inversa
b) La raíz cuadrada
c) El logaritmo decimal
d) El logaritmo natural
CONCEPTOS BÁSICOS El análisis por factores (FA: factor analysis) es una técnica que se emplea
ANALISIS DE frecuentemente para crear nuevas variables que resumen toda la información de
la que podría disponerse en las variables originales. Por ejemplo, considere una
FACTORES vez más la realización de exámenes de lectura, ortografía y ciencias a estudiantes
del tercer año de primaria, en los que cada uno de los estudiantes puede obtener
calificaciones altas, regulares o bajas en las cuatro áreas. Se esto ocurre en
realidad, entonces se podría decir que estos resultados se están explicando por
alguna característica o factor subyacente que es común a las cuatro pruebas. En
este ejemplo, podría resultar razonable suponer que unan característica
subyacente de ese tipo es la “inteligencia global”.
El análisis por factores también se usa para estudiar las relaciones que podrían
· Componentes principales Una ventaja que parece tener el FA sobre el PCA, cuando se están creando
ayuda a comprender la nuevas variables es que, generalmente, las nuevas variables creadas por el FA
estructura de covarianza en son mucho más fáciles de interpretar que las creadas por el PCA. Si un
las variables originales y/o a investigador desea crear un conjunto más pequeño de nuevas variables que se
crear un número menor de pueden interpretar y que resuman la mayoría de la información existente en las
variables utilizando esta variables medidas, entonces el FA debe considerarse seriamente.
estructura.
Se considere una técnica estructural cuyo objetivo básico es el de resumir
· Análisis factorial, como los información donde sus variables son cuantitativas ò métricas y la mayoría de ellas
componentes principales, deben estar medidas en escala de intervalo ò de razón.
resume la estructura de
covarianza de datos en un
Esta técnica analiza las relaciones entre un gran número de variables y trata de
número más pequeño de
dimensiones. El énfasis en el explicarlas por medio de un concepto (atributos, características o dimensiones)
análisis factorial es la que las agrupe. Es decir, condensa la información de las variables originales
identificación de los "factores" mediante características comunes a dichas variables y que las representan
subyacentes que podrían lógicamente. Los factores obtenidos pueden utilizarse como variables en análisis
explicar las dimensiones posteriores, facilitando el manejo de la información ya condensada.
asociadas con una gran
variabilidad en los datos. El análisis de factores no es una técnica exacta, sino a base de prueba y error y
teniendo guías (criterios) que nos llevan hacia donde esta la respuesta.
Factor
Donde:
i: número de factor
j: número de individuo o encuesta
k: número de variable
En esta ecuación las A representan la importancia que tiene cada variable, con
respecto a la característica obtenida.
Carga de factor
Este término es el que se la da a la relación que llegan a tener cada una de las
variables con cada uno de los factores. Es una medida de correlación entre una
variable y un factor.
Eigenvalor
Se usa este término para denominar a la variación que cada uno de los factores
logra explicar del conjunto de variables.
Para calcular el Eigenvalor, cada carga se eleva al cuadrado y se suma para cada
factor.
Comunalidad
1. Identificar el problema
El objetivo del análisis factorial 2. Generar la matriz de correlación
es hallar un número pequeño 3. Seleccionar el modelo de factores que mejor convenga; puede ser de
de factores, o de variables no componentes principales o factor común.
observables, que explique la 4. Seleccionar un criterio para determinar qué características deberán
mayor parte de la variabilidad presentarse en los factores, ortogonal u oblicuo.
de datos y aun así tenga 5. Obtener una matriz de factores no rotada
sentido contextual. Es 6. Obtener una matriz de factores rotada.
deseable que se decida 7. Obtener los puntajes de los factores encontrados (opcional).
cuántos factores desea utilizar
y hallar las cargas que tengan
más sentido para sus datos.
Identificar el problema
Donde:
de cada variable explicada por cuando mucho 40% y cuando menos 5% de información.
los factores que pueden ser
de especial utilidad para Cabe señalar que cada factor que se agrega a la solución en la matriz no rotada
comparar los ajustes. Se
explica en una cantidad menor al conjunto de variables, puesto que cada uno
puede decidir agregar un
factor si contribuye al ajuste
que se agrega tiene menor variación por explicar.
de ciertas variables. Se puede
tratar también con el método Es en este paso donde se señala en forma inicial o tentativa el número de
de extracción de máxima factores en que quedaràn agrupadas las variables pero no se agrupan ni
verosimilitud. concluyen las características que se obtienen.
Una vez que se haya Esta matriz permite definir no solo el número de factores sino la agrupación de
seleccionado el número de las variables en dichos factores, procurando obtener así una solución final lógica.
factores, probablemente usted
se querrá probar con Mediante este proceso se ajustan los ejes coordenados o ejes factor en la
diferentes rotaciones. Johnson dirección en que giran las manecillas del reloj con el fin de obtener una solución
y Wichern sugieren la rotación mas sencilla y con mayor significado teórico, es decir, hacer que una de las
varimax. Un resultado similar
cargas de la variable sea lo mas alta posible para que se identifique
de diferentes métodos puede
dar crédito a la solución que perfectamente con un solo factor, mientras que sus demás cargas sean bajas de
se escogió. En este punto se manera que su relación con otros factores se pierda.
pudiera interpretar los
factores utilizando su En el proceso de rotar los factores se redistribuyen las cargas cambiando el valor
conocimiento de los datos. de los Eigenvalue para cada factor sin que la variación explicada total y las
comunalidades cambien, a menos que se eliminen o agreguen factores por lo que
al rotar no se explica más o se pierde información solo se redistribuyen las
cargas.
Al rotar los factores se trata de que las variables queden en un solo eje y que se
agrupen las variables bajo una sola característica, lo que daría la mejor solución.
Como este proceso es complejo para llevarlo a cabo manualmente se han creado
paquetes computacionales que realizan rápidamente la rotación de factores, sin
embargo hay que especificarles el criterio que deberá usar para realizar la
rotación de factores y que en general es el criterio Varimax, mediante el cual se
trata de identificar a un grupo de variables con un solo factor, es decir, simplifica
por columna, buscando la máxima simplificación al generar tantos unos y ceros
como sea posible en la matriz.
Una vez generada la matriz rotada, será necesario identificar en ella las cargas
significativas que indiquen con qué factor se han identificado cada una de las
variables, lo cual depende del tamaño de la muestra y el nivel de significancia
manejado en la investigación, por lo que es necesario conocer el tamaño de la
muestra ya que a medida que la muestra es mas grande existe mayor
credibilidad o confianza en la información y se puede por lo tanto fijar limites
cada vez menores en la carga del factor para considerarla significativa.
Cabe mencionar que a estos criterios se les puede dar continuidad, es decir, si no
se cumple el criterio de la prioridad uno, se pasarà al criterio de la prioridad dos,
y así sucesivamente, considerando el tamaño de la muestra y el nivel de
significancia especificado en la investigación.
Por otro lado, si existe alguna variable que no tenga carga significativa, es decir,
que no se haya identificado con ningún factor, puede deberse a que esa variable
tenga una variación específica muy alta y es muy particular por lo que en ese
caso existen dos posibles acciones:
- Se deja la solución tal cual, sin agrupar a esa variable y así se realiza
el análisis.
- Se elimina la variable del banco de datos y se vuelve a correr de
nuevo la solución.
Casa X1 X2 X3 X4 X5 X6 X7 X8 X9
No.
1 6.00 3 1.0 6 45 1600 0 1 2
2 7.00 3 1.5 10 28 3500 1 5 1
3 7.00 4 2.0 6 35 3600 0 4 2
4 7.00 3 2.0 7 35 4100 1 3 1
5 6.00 3 2.0 9 32 4400 2 5 2
6 7.75 4 2.5 8 22 3000 1 4 2
7 6.00 2 1.0 6 38 2400 1 1 2
8 10.32 3 2.5 6 26 5400 2 5 2
9 7.20 4 2.0 7 30 3600 1 1 2
10 9.41 3 1.5 8 24 2900 1 4 1
11 6.00 3 1.0 7 31 2900 1 5 1
12 7.50 4 2.0 8 35 3100 1 1 2
13 10.50 4 2.5 9 29 5000 2 5 2
14 6.00 3 2.5 6 30 4058 2 5 2
15 6.00 3 1.0 7 35 2752 1 4 2
16 7.20 4 1.0 7 30 2900 1 1 2
17 7.20 3 1.0 8 40 1900 0 4 2
18 6.00 5 2.5 6 32 4000 1 5 2
19 10.00 3 2.0 7 38 3512 2 1 2
20 10.80 4 1.0 8 36 3100 0 1 2
Casa X10 X11 X12 X13 X14 X15 X16 X17 X18
No.
1 2 1 1 0 0 1 1 1 1
2 1 1 1 0 0 1 1 1 1
3 2 1 1 0 0 1 1 1 1
4 2 1 1 0 0 1 0 0 0
5 2 1 1 1 1 1 1 1 1
6 2 1 1 0 0 1 1 1 1
7 2 1 1 0 0 1 1 1 1
8 2 1 1 0 0 1 1 0 0
9 2 1 1 0 0 1 1 0 0
10 1 1 1 0 0 0 1 1 1
11 1 1 1 0 0 1 1 1 0
12 1 1 1 0 0 1 1 0 0
13 2 1 1 0 1 1 1 0 0
14 2 1 1 0 0 1 1 1 1
15 2 1 1 0 0 1 0 1 1
16 2 1 0 0 0 1 1 0 0
17 3 1 1 0 0 1 0 0 0
18 2 3 1 0 0 1 1 1 1
19 3 2 1 0 1 1 1 1 1
20 2 1 1 0 1 1 0 1 1
Respuesta al inciso a.
factores y se reduce su X16 -0.325 0.157 -0.115 0.115 -0.062 -0.115 1.000
selección a cuántos factores X17 -0.136 0.231 0.313 0.168 0.105 -0.168 0.157 1.000
se utilizarán. Una gráfica de X18 0.038 0.257 0.281 0.187 0.153 -0.187 0.102 0.899 1.000
sedimentación puede ser útil
aquí para evaluar visualmente A partir de la matriz de correlación, se puede identificar que las variables con
la importancia de los factores. mayor relación son la 8 con la 18 es decir X8= Estilo arquitectónico y X18= Tina
Una vez que se haya reducido de hidromasaje, con una correlación de 0.899, mientras las que tienen menor
esta selección, se examina los
relación son la 2 con la 8 o sea X2= Número de recámaras con X8= Estilo
ajustes de los diferentes
arquitectónico, con una correlación de 0.000. Sin embargo, a partir de la matriz
análisis factorial. Los valores
de comunalidad y la de correlación, es muy difícil encontrar a las variables afines que se puedan
proporción de la variabilidad agrupar en factores y resumir así la información. Se necesita verificar entonces la
de cada variable explicada por matriz de factores no rotada que proporcione mayor información por lo que se
los factores que pueden ser corrió un análisis de factores y se obtuvo la siguiente matriz:
de especial utilidad para
comparar los ajustes. Se Cargas de factores no rotados :
puede decidir agregar un
factor si contribuye al ajuste Variable Factor Factor Factor Factor Factor Factor Factor Factor Factor
de ciertas variables. Se puede 1 2 3 4 5 6 7 8 9
tratar también con el método X1 0.385 -0.210 0.258 -0.405 -0.645 -0.102 0.304 -0.053 -0.065
de extracción de máxima X2 0.275 -0.368 0.154 0.392 -0.463 0.140 - -0.089 -0.033
verosimilitud. 0.582
X3 0.821 -0.247 -0.091 0.303 0.008 -0.194 0.023 -0.175 -0.063
X4 0.314 0.301 0.127 -0.639 -0.132 0.157 - -0.084 0.055
0.436
X5 -0.727 -0.398 -0.240 -0.176 0.125 -0.122 0.029 -0.079 0.326
X6 0.891 -0.199 0.056 -0.007 0.122 -0.162 0.042 0.028 0.037
X7 0.779 -0.087 -0.087 -0.072 0.297 0.112 0.374 0.154 0.136
X8 0.569 0.360 -0.174 0.082 0.259 -0.368 - 0.233 -0.224
0.282
X9 -0.050 -0.794 -0.217 0.081 0.029 0.216 0.037 -0.215 -0.368
X10 -0.160 -0.772 -0.216 -0.166 0.040 -0.185 0.156 0.304 -0.215
X11 0.175 -0.331 -0.422 0.462 -0.312 -0.086 - 0.360 0.416
0.152
X12 0.138 0.173 -0.453 -0.140 -0.027 -0.676 0.033 -0.444 0.119
X13 0.304 0.004 -0.407 -0.438 0.437 0.358 - 0.073 0.002
0.238
X14 0.341 -0.383 -0.317 -0.685 -0.245 0.167 - -0.002 0.169
0.013
X15 -0.095 -0.629 -0.043 0.043 0.466 -0.069 - -0.226 0.090
0.297
X16 0.430 0.137 -0.135 0.440 0.062 0.538 0.267 -0.294 0.164
X17 -0.139 0.383 -0.846 0.079 -0.159 0.092 - 0.002 -0.063
0.001
X18 -0.108 0.212 -0.868 0.041 -0.248 0.112 0.034 -0.007 -0.217
Eigenvalue 3.7604 2.7844 2.4448 1.9917 1.4936 1.2985 1.111 0.7414 0.6717
% Var 0.209 0.155 0.136 0.111 0.083 0.072 0.062 0.041 0.037
Variable Factor Factor Factor Factor Factor Factor Factor Factor Factor
10 11 12 13 14 15 16 17 18
X1 0.090 0.047 0.130 -0.015 -0.003 0.122 -0.083 0.021 0.003
X2 -0.075 0.103 0.005 0.012 -0.034 -0.100 0.016 0.040 0.007
X3 -0.123 -0.052 -0.167 -0.161 0.054 -0.087 -0.090 -0.026 -0.008
X4 0.067 -0.348 -0.093 -0.004 0.092 0.033 0.019 0.006 -0.012
X5 -0.108 0.050 0.118 -0.020 0.214 -0.067 -0.037 0.024 -0.006
X6 0.072 0.288 -0.011 -0.057 0.106 0.081 0.097 0.007 -0.014
X7 0.114 -0.090 -0.147 0.195 -0.002 -0.092 -0.017 0.037 0.006
X8 0.055 -0.071 0.324 0.055 0.073 -0.034 -0.026 -0.003 0.007
X9 -0.106 -0.067 0.048 0.247 0.050 0.042 0.008 -0.015 -0.010
X10 -0.060 -0.229 0.023 -0.200 -0.074 -0.025 0.048 0.021 -0.002
X11 -0.55 -0.119 -0.016 0.083 -0.015 0.117 -0.009 -0.019 -0.002
X12 -0.181 -0.073 -0.006 0.068 -0.100 0.022 0.041 0.011 0.005
X13 -0.356 0.150 -0.004 -0.047 -0.077 0.097 -0.049 0.012 0.003
X14 0.085 0.099 0.104 0.005 -0.047 -0.138 0.031 -0.041 0.008
X15 0.458 -0.005 -0.013 -0.049 -0.056 0.075 -0.033 0.001 0.008
X16 -0.022 -0.181 0.240 -0.121 0.003 0.021 0.032 0.005 0.003
X17 0.227 0.083 0.041 -0.002 -0.098 -0.049 -0.029 0.016 -0.027
X18 0.106 0.026 -0.16 -0.059 0.151 0.046 0.019 0.003 0.022
Eigenvalue 0.5236 0.3840 0.2932 0.2063 0.1371 0.1101 0.0382 0.0080 0.0020
% Var 0.0290 0.021 0.016 0.011 0.008 0.006 0.002 0.000 0.000
Esta matriz no rotada muestra las cargas de factor que, como ya se mencionó,
indican la relación de cada variable con cada factor .
Aquí la mejor solución en cuanto al número de factores sería un factor que
agrupara a las diez y ocho variables. Todas tendrían algo en común entre sí,
mientras que la peor solución serían diez y ocho factores, lo cual representaría
que las variables no tuvieron nada en común y no se podría resumir nada la
información.
Tanto por el criterio de la raíz latente como por el porcentaje de variación
explicada acumulada, se tiene como solución inicial siete factores, ya que el
Eigenvalue de los siete primeros es mayor a 1 y el porcentaje de variación
explicada acumulada está entre 60 % y 95%, es de 82.70%
En este problema de diez y ocho variables la varianza ó variación máxima que se
podría obtener, se tiene que F1 explica 3.7604, el F2 explica 2.7844, el F3 explica
2.4448, el F4 explica 1.9917, el F5 explica 1.4936, el F6 explica 1.2985 y el F7
explica 1.1111 de acuerdo con su Eigenvalue. El total de la variación es de
13.862 (total de los Eigenvalue de los 7 factores y se pierde 4.138 ( 18 – 13.862)
de información.
Respuesta al inciso b.
Rotación
Una vez se ha determinado el número de factores para la solución inicial se trata
Una vez que se haya
de agrupar a las variables en esos siete factores, lo cual se determina analizando
seleccionado el número de
la matriz de factores rotada, que es la siguiente:
factores, probablemente usted
se querrá probar con
diferentes rotaciones. Johnson Cargas de factores rotados y comunalidades
y Wichern sugieren la rotación
varimax. Un resultado similar
de diferentes métodos puede Variable Factor Factor Factor Factor Factor Factor Factor Comunalidad
dar crédito a la solución que 1 2 3 4 5 6 7
se escogió. En este punto se X1 0.117 0.020 0.174 0.057 - -0.087 -0.053 0.943
pudiera interpretar los 0.931
X2 0.078 -0.036 0.129 0.026 -0.063 - 0.144 0.962
factores utilizando su
0.955
conocimiento de los datos. X3 0.853 -0.072 0.019 -0.077 -0.062 -0.338 -0.130 0.874
X4 -0.034 0.385 0.134 0.783 -0.219 -0.066 -0.113 0.846
X5 - - -0.095 -0.077 0.107 0.197 -0.130 0.807
0.583 0.620
X6 0.865 -0.026 0.204 0.160 -0.146 -0.140 -0.145 0.879
X7 0.865 -0.055 0.010 0.159 -0.108 0.246 0.132 0.867
X8 0.532 0.354 -0.065 0.180 0.305 -0.089 -0.477 0.772
X9 0.072 - -0.046 -0.005 -0.038 -0.215 0.259 0.735
0.783
X10 -0.024 - 0.023 -0.53 -0.179 0.016 -0.136 0.756
0.837
X1= Tamaño del lote se identifica con el F5 con una carga de 0.931
X2= Número de recámaras se identifica con el F6 con una carga de 0.955
X3= Número de baños se identifica con el F1 con una carga de 0.853
X4= Número de habitaciones se identifica con el F4 con una carga de 0.783
X5= Antigüedad de la casa se identifica con el F1 y el F2 con unas cargas de
0.583 y 0.620
X6= Impuestos anuales se identifica con el F1 con una carga de 0.865
X7= Tipo de estacionamiento interior se identifica con el F1 con una carga de
0.865
X8= Estilo arquitectónico se identifica con el F1 con una carga de 0.532
X9= Tipo de combustible para la calefacción se identifica con el F2 con una carga
de 0.783
X10= Tipo de sistema para la calefacción se identifica con el F2 con una carga de
0.837
X11= Tipo de alberca se identifica con el F6 con una carga de 0.573
X12= Cocina con antecomedor se identifica con el F7 con una carga de 0.758
X13= Aire acondicionado se identifica con el F4 con una carga de 0.765
X14= Chimenea se identifica con el F4 y el F5 con unas cargas de 0.641 y
0.551
X15= Drenaje municipal se identifica con el F2 con una carga de 0.662
En caso de que alguna variable tuviera carga significativa con dos o más
factores, se debe analizar en la matriz de correlación con cuales variables tiene
mayor relación. En este caso X5= Antigüedad de la casa se identifica con el F1
y el F2 con unas cargas de 0.583 y 0.620, X14= Chimenea se identifica con el
F4 y el F5 con unas cargas de 0.641 y 0.551 y X16= Sótano se identifica con
el F1 y el F7 con unas cargas de 0.526 y 0.599; entonces se debe checar la
correlación con todas las combinaciones que se pueden hacer con la variable X5=
Antigüedad, X14= Chimenea y X16= Sótano y las que forman con el F1 y F2, con
el F4 y F5 y F1 y F7 respectivamente:
Respuesta al inciso c.
Los valores de comunalidad y
la proporción de la variabilidad El porcentaje de varianza, que es el porcentaje de variación explicada con
de cada variable explicada por respecto a la máxima variación que se podría tener, se obtiene, por ejemplo para
los factores que pueden ser F1 dividiendo 3.7604/18, lo que es igual a 0.209 o 20.9 %. El Factor que ha
de especial utilidad para explicado más al conjunto de variables es el 1, y después el 2 y así
comparar los ajustes. Se sucesivamente lo cual es lógico pues cada factor adicional explica menor
puede decidir agregar un cantidad, ya que cada vez queda menos por explicar, en este caso, por ejemplo,
factor si contribuye al ajuste
queda por explicar 4.138 de variación; si se agregan los 11 factores que faltan,
de ciertas variables. Se puede
tratar también con el método ya cada uno explicaría muy poco y no convendría. El porcentaje de variación
de extracción de máxima explicada acumulada total es de 0.827 o de 82.70 % de un máximo por explicar
verosimilitud. de 100%.
Respuesta al inciso d.
ACTIVIDAD DE
APRENDIZAJE El Director de mercadotecnia de una compañía de Bienes Raíces desea conocer
2.1.1.1 cuales dimensiones o indicadores básicos influyen al momento de pronosticar el
FACTOR ANÁLISIS valor de una casa o vivienda unifamiliar al momento en que un potencial cliente
desea ya sea comprar o vender su casa con el objeto de brindar un servicio
confiable y rápido. Para llevar a cabo la investigación dividió la Ciudad en tres
grandes zonas: NORTE, SUR Y ESTE. En cada zona se aplicó una encuesta a 20
Casa No. X10 X11 X12 X13 X14 X15 X16 X17
1 2 1 1 0 0 1 1 1
2 2 1 1 0 0 0 1 1
3 1 1 1 0 1 1 0 1
4 2 1 1 0 1 0 1 1
5 2 1 1 0 0 1 1 0
6 2 1 0 0 0 1 1 0
7 2 1 1 0 1 1 1 0
8 2 1 1 0 0 0 1 0
9 2 1 1 0 0 1 1 1
10 2 1 1 0 0 1 1 1
11 2 1 1 0 0 1 1 1
12 2 1 1 1 0 1 1 1
13 2 1 0 0 1 1 1 0
14 2 1 1 1 1 1 1 1
15 2 2 1 0 0 1 1 0
16 1 1 1 0 1 1 1 0
17 1 2 1 0 0 0 1 0
18 1 2 1 1 1 1 1 0
19 2 1 1 1 0 1 1 1
20 2 1 1 0 0 1 1 1
EJEMPLO
ILUSTRATIVO
INTEGRAL EN
El Director de mercadotecnia de una compañía de Bienes Raíces desea conocer
MINITAB 17. cuales dimensiones o indicadores básicos influyen al momento de pronosticar el
2.1.1.1. FACTOR valor de una casa o vivienda unifamiliar al momento en que un potencial cliente
ANÁLISIS. desea ya sea comprar o vender su casa con el objeto de brindar un servicio
confiable y rápido. Para llevar a cabo la investigación dividió la Ciudad en tres
grandes zonas: NORTE, SUR Y ESTE. En cada zona se aplicó una encuesta a 20
propietarios de casas unifamiliares. El cuestionario estaba conformado por 20
variables que se consideraba podían formar parte de dichos indicadores X1=
Tamaño del lote y X2= Número de recámaras, , X3= Número de baños, X4=
Número de habitaciones y X5= Antigüedad de la casa, X6= Impuestos anuales,
X7= Tipo de estacionamiento interior, X8= Estilo arquitectónico, X9= Tipo de
combustible para la calefacción, X10= Tipo de sistema para la calefaccción, X11=
Tipo de alberca, X12= Cocina con antecomedor y X13= Aire acondicionado, X14=
Chimenea, X15= Drenaje municipal X16= Sótano, X17= Cocina integral, X18= Tina
de hidromasaje.
Casa X1 X2 X3 X4 X5 X6 X7 X8 X9
No.
1 6.00 3 1.0 6 45 1600 0 1 2
2 7.00 3 1.5 10 28 3500 1 5 1
3 7.00 4 2.0 6 35 3600 0 4 2
4 7.00 3 2.0 7 35 4100 1 3 1
5 6.00 3 2.0 9 32 4400 2 5 2
6 7.75 4 2.5 8 22 3000 1 4 2
7 6.00 2 1.0 6 38 2400 1 1 2
8 10.32 3 2.5 6 26 5400 2 5 2
9 7.20 4 2.0 7 30 3600 1 1 2
10 9.41 3 1.5 8 24 2900 1 4 1
11 6.00 3 1.0 7 31 2900 1 5 1
12 7.50 4 2.0 8 35 3100 1 1 2
13 10.50 4 2.5 9 29 5000 2 5 2
14 6.00 3 2.5 6 30 4058 2 5 2
15 6.00 3 1.0 7 35 2752 1 4 2
16 7.20 4 1.0 7 30 2900 1 1 2
17 7.20 3 1.0 8 40 1900 0 4 2
18 6.00 5 2.5 6 32 4000 1 5 2
19 10.00 3 2.0 7 38 3512 2 1 2
20 10.80 4 1.0 8 36 3100 0 1 2
Casa X10 X11 X12 X13 X14 X15 X16 X17 X18
No.
1 2 1 1 0 0 1 1 1 1
2 1 1 1 0 0 1 1 1 1
3 2 1 1 0 0 1 1 1 1
4 2 1 1 0 0 1 0 0 0
5 2 1 1 1 1 1 1 1 1
6 2 1 1 0 0 1 1 1 1
7 2 1 1 0 0 1 1 1 1
8 2 1 1 0 0 1 1 0 0
9 2 1 1 0 0 1 1 0 0
10 1 1 1 0 0 0 1 1 1
11 1 1 1 0 0 1 1 1 0
12 1 1 1 0 0 1 1 0 0
13 2 1 1 0 1 1 1 0 0
14 2 1 1 0 0 1 1 1 1
15 2 1 1 0 0 1 0 1 1
16 2 1 0 0 0 1 1 0 0
17 3 1 1 0 0 1 0 0 0
18 2 3 1 0 0 1 1 1 1
19 3 2 1 0 1 1 1 1 1
20 2 1 1 0 1 1 0 1 1
Respuesta al inciso a)
Cuando el número de observaciones es extenso y/o existen muchas
variables, los cálculos manuales son tediosos. Existen muchos paquetes de
software que pueden mostrar los resultados entre ellos Minitab.
Hay tres maneras en las que usted puede llevar un análisis factorial en Minitab. La
manera habitual, descrita a continuación, es ingresar columnas que contengan sus
variables de medición.
Análisis factorial: X1, X2, X3, X4, X5, X6, X7, X8, X9, X10, X11, X12,
X13, X14, X15, X16, X17, X18
Cargas de factores no rotados :
Variabl Factor Factor Factor Factor Factor Factor Factor Factor Factor
e 1 2 3 4 5 6 7 8 9
X1 0.385 -0.210 0.258 -0.405 -0.645 -0.102 0.304 -0.053 -0.065
X2 0.275 -0.368 0.154 0.392 -0.463 0.140 -0.582 -0.089 -0.033
X3 0.821 -0.247 -0.091 0.303 0.008 -0.194 0.023 -0.175 -0.063
X4 0.314 0.301 0.127 -0.639 -0.132 0.157 -0.436 -0.084 0.055
X5 -0.727 -0.398 -0.240 -0.176 0.125 -0.122 0.029 -0.079 0.326
X6 0.891 -0.199 0.056 -0.007 0.122 -0.162 0.042 0.028 0.037
X7 0.779 -0.087 -0.087 -0.072 0.297 0.112 0.374 0.154 0.136
X8 0.569 0.360 -0.174 0.082 0.259 -0.368 -0.282 0.233 -0.224
X9 -0.050 -0.794 -0.217 0.081 0.029 0.216 0.037 -0.215 -0.368
X10 -0.160 -0.772 -0.216 -0.166 0.040 -0.185 0.156 0.304 -0.215
X11 0.175 -0.331 -0.422 0.462 -0.312 -0.086 -0.152 0.360 0.416
X12 0.138 0.173 -0.453 -0.140 -0.027 -0.676 0.033 -0.444 0.119
X13 0.304 0.004 -0.407 -0.438 0.437 0.358 -0.238 0.073 0.002
X14 0.341 -0.383 -0.317 -0.685 -0.245 0.167 -0.013 -0.002 0.169
X15 -0.095 -0.629 -0.043 0.043 0.466 -0.069 -0.297 -0.226 0.090
X16 0.430 0.137 -0.135 0.440 0.062 0.538 0.267 -0.294 0.164
X17 -0.139 0.383 -0.846 0.079 -0.159 0.092 -0.001 0.002 -0.063
X18 -0.108 0.212 -0.868 0.041 -0.248 0.112 0.034 -0.007 -0.217
Eigenva 3.7604 2.7844 2.4448 1.9917 1.4936 1.2985 1.111 0.7414 0.6717
lue
% Var 0.209 0.155 0.136 0.111 0.083 0.072 0.062 0.041 0.037
Variabl Factor Factor Factor Factor Factor Factor Factor Factor Factor
e 10 11 12 13 14 15 16 17 18
X1 0.090 0.047 0.130 -0.015 -0.003 0.122 -0.083 0.021 0.003
X2 -0.075 0.103 0.005 0.012 -0.034 -0.100 0.016 0.040 0.007
X3 -0.123 -0.052 -0.167 -0.161 0.054 -0.087 -0.090 -0.026 -0.008
X4 0.067 -0.348 -0.093 -0.004 0.092 0.033 0.019 0.006 -0.012
X5 -0.108 0.050 0.118 -0.020 0.214 -0.067 -0.037 0.024 -0.006
X6 0.072 0.288 -0.011 -0.057 0.106 0.081 0.097 0.007 -0.014
X7 0.114 -0.090 -0.147 0.195 -0.002 -0.092 -0.017 0.037 0.006
X8 0.055 -0.071 0.324 0.055 0.073 -0.034 -0.026 -0.003 0.007
X9 -0.106 -0.067 0.048 0.247 0.050 0.042 0.008 -0.015 -0.010
X10 -0.060 -0.229 0.023 -0.200 -0.074 -0.025 0.048 0.021 -0.002
X11 -0.55 -0.119 -0.016 0.083 -0.015 0.117 -0.009 -0.019 -0.002
X12 -0.181 -0.073 -0.006 0.068 -0.100 0.022 0.041 0.011 0.005
Número de factores X13 -0.356 0.150 -0.004 -0.047 -0.077 0.097 -0.049 0.012 0.003
X14 0.085 0.099 0.104 0.005 -0.047 -0.138 0.031 -0.041 0.008
La selección del número de X15 0.458 -0.005 -0.013 -0.049 -0.056 0.075 -0.033 0.001 0.008
factores se basa con X16 -0.022 -0.181 0.240 -0.121 0.003 0.021 0.032 0.005 0.003
frecuencia en la proporción
X17 0.227 0.083 0.041 -0.002 -0.098 -0.049 -0.029 0.016 -0.027
de varianza explicada por los
factores, el conocimiento del X18 0.106 0.026 -0.16 -0.059 0.151 0.046 0.019 0.003 0.022
tema y la sensatez de la Eigenva 0.5236 0.3840 0.2932 0.2063 0.1371 0.1101 0.0382 0.0080 0.0020
solución. Inicialmente, se lue
trata de utilizar el método de % Var 0.0290 0.021 0.016 0.011 0.008 0.006 0.002 0.000 0.000
extracción de los
componentes principales
especificando el número de Esta matriz no rotada muestra las cargas de factor que, como ya se mencionó,
componentes igual al indican la relación de cada variable con cada factor .
número de variables. Se Aquí la mejor solución en cuanto al número de factores sería un factor que
examina la proporción de la agrupara a las diez y ocho variables. Todas tendrían algo en común entre sí,
variabilidad explicada por mientras que la peor solución serian diez y ocho factores, lo cual representaría
diferentes factores y se que las variables no tuvieron nada en común y no se podría resumir nada la
reduce su selección a información.
cuántos factores se
utilizarán. Una gráfica de
Tanto por el criterio de la raíz latente como por el porcentaje de variación
sedimentación puede ser útil
aquí para evaluar explicada acumulada, se tiene como solución inicial siete factores, ya que
visualmente la importancia el Eigenvalue de los siete primeros es mayor a 1 y el porcentaje de variación
de los factores. Una vez que explicada acumulada está entre 60 % y 95%, es de 82.70%
se haya reducido esta En este problema de diez y ocho variables la varianza ó variación máxima que se
selección, se examina los podría obtener, se tiene que F1 explica 3.7604, el F2 explica 2.7844, el F3 explica
ajustes de los diferentes 2.4448, el F4 explica 1.9917, el F5 explica 1.4936, el F6 explica 1.2985 y el F7
análisis factorial. Los valores explica 1.1111 de acuerdo con su Eigenvalue. El total de la variación es de 13.862
de comunalidad y la (total de los Eigenvalue de los 7 factores y se pierde 4.138 ( 18 – 13.862) de
proporción de la variabilidad
información.
de cada variable explicada
por los factores que pueden
ser de especial utilidad para Respuesta al inciso b)
comparar los ajustes. Se
puede decidir agregar un Para generar la matriz de correlación elija Estadísticas > Estadísticas
factor si contribuye al ajuste básicas > correlación
de ciertas variables. Se
puede tratar también con el
método de extracción de Aparece el siguiente cuadro de Diálogo:
máxima verosimilitud.
Desactive las casilla Presentar los valores de p (quitar la palomita) y haga clic
en Aceptar.
Matriz de correlación:
Correlación: X1, X2, X3, X4, X5, X6, X7, X8, X9, X10, X11, X12, X13, X14, X15, X16, X17, X18
X1 X2 X3 X4 X5 X6 X7 X8 X9
X1 1.000
X2 0.164 1.000
X3 0.220 0.401 1.000
X4 0.267 0.040 -0.025 1.000
X5 -0.260 -0.242 -0.497 -0.308 1.000
X6 0.371 0.230 0.777 0.091 -0.514 1.000
X7 0.194 -0.158 0.593 0.111 -0.462 0.713 1.000
X8 -0.107 0.000 0.403 0.215 -0.505 0.481 0.335 1.000
X9 0.058 0.302 0.187 -0.306 0.281 0.022 0.037 -0.289 1.000
Para generar la matriz rotada elija Estadísticas > Análisis Multivariado >
Análisis factorial
Para determinar en cual factor se agrupará cada variable debe analizarse la matriz
rotada, buscando las cargas significativas. Al identificar las cargas significativas,
no importa el signo que tengan, sino la magnitud de la relación, el signo negativo
solo expresa una relación inversa. En principio se buscan cargas mayores a 0.50
utilizando la Prioridad 1, en caso de que una variable no tuviera una carga mayor
a 0.5 se aplicarían las prioridades 2, 3 o 4, según sea el caso, de los criterios de
cargas significativas en toda la matriz rotada. En este ejemplo se tiene:
X1= Tamaño del lote se identifica con el F5 con una carga de 0.931
X2= Número de recámaras se identifica con el F6 con una carga de 0.955
X3= Número de baños se identifica con el F1 con una carga de 0.853
X4= Número de habitaciones se identifica con el F4 con una carga de 0.783
X5= Antigüedad de la casa se identifica con el F1 y el F2 con unas cargas de
0.583 y 0.620
X6= Impuestos anuales se identifica con el F1 con una carga de 0.865
X7= Tipo de estacionamiento interior se identifica con el F1 con una carga de
0.865
X8= Estilo arquitectónico se identifica con el F1 con una carga de 0.532
X9= Tipo de combustible para la calefacción se identifica con el F2 con una carga
de 0.783
X10= Tipo de sistema para la calefacción se identifica con el F2 con una carga de
0.837
X11= Tipo de alberca se identifica con el F6 con una carga de 0.573
X12= Cocina con antecomedor se identifica con el F7 con una carga de 0.758
X13= Aire acondicionado se identifica con el F4 con una carga de 0.765
X14= Chimenea se identifica con el F4 y el F5 con unas cargas de 0.641 y 0.551
X15= Drenaje municipal se identifica con el F2 con una carga de 0.662
X16= Sótano se identifica con el F1 y el F7 con unas cargas de 0.526 y 0.599
X17= Cocina integral se identifica con el F3 con una carga de 0.932
X18= Tina de hidromasaje se identifica con el F3 con una carga de 0.933
En caso de que alguna variable tuviera carga significativa con dos o más
factores, se debe analizar en la matriz de correlación con cuales variables tiene
mayor relación. En este caso X5= Antigüedad de la casa se identifica con el F1
y el F2 con unas cargas de 0.583 y 0.620, X14= Chimenea se identifica con el
F4 y el F5 con unas cargas de 0.641 y 0.551 y X16= Sótano se identifica con
el F1 y el F7 con unas cargas de 0.526 y 0.599; entonces se debe checar la
correlación con todas las combinaciones que se pueden hacer con la variable X5=
Antigüedad, X14= Chimenea y X16= Sótano y las que forman con el F1 y F2, con
el F4 y F5 y F1 y F7 respectivamente:
Respuesta al inciso c)
Análisis factorial: X1, X2, X3, X4, X5, X6, X7, X8, X9, X10, X11, X12,
X13, X14, X15, X16, X17, X18
Respuesta al inciso d)
Análisis factorial: X1, X2, X3, X4, X5, X6, X7, X8, X9, X10, X11, X12,
X13, X14, X15, X16, X17, X18
Cargas de factores rotados y comunalidades
Rotación Varimax
Variable Factor 1 Factor 2 Factor 3 Factor 4 Factor 5 Factor 6 Factor 7 Comuna
lidad
X1 0.117 0.020 0.174 0.057 -0.931 -0.087 -0.053 0.943
X2 0.078 -0.036 0.129 0.026 -0.063 -0.955 0.144 0.962
X3 0.853 -0.072 0.019 -0.077 -0.062 -0.338 -0.130 0.874
X4 -0.034 0.385 0.134 0.783 -0.219 -0.066 -0.113 0.846
X5 -0.583 -0.620 -0.095 -0.077 0.107 0.197 -0.130 0.807
X6 0.865 -0.026 0.204 0.160 -0.146 -0.140 -0.145 0.879
X7 0.865 -0.055 0.010 0.159 -0.108 0.246 0.132 0.867
X8 0.532 0.354 -0.065 0.180 0.305 -0.089 -0.477 0.772
X9 0.072 -0.783 -0.046 -0.005 -0.038 -0.215 0.259 0.735
X10 -0.024 -0.837 0.023 -0.53 -0.179 0.016 -0.136 0.756
X11 0.214 -0.267 -0.394 -0.232 -0.001 -0.573 -0.066 0.659
X12 0.169 0.014 -0.332 -0.045 -0.058 0.121 -0.758 0.733
X13 0.262 -0.152 -0.214 0.765 0.248 0.188 0.080 0.825
X14 0.167 -0.381 -0.175 0.641 -0.551 -0.013 -0.042 0.920
X15 0.035 -0.662 0.268 0.124 0.408 -0.141 -0.071 0.719
X16 0.526 0.190 -0.285 -0.115 0.110 -0.039 0.599 0.779
X17 -0.103 0.114 -0.932 0.060 0.127 0.041 -0.096 0.922
X18 -0.079 -0.029 -0.933 0.069 -0.000 -0.019 -0.067 0.886
Eigenval 3.3582 2.7105 2.3551 1.8038 1.6571 1.6134 1.3862 14.8844
ue
% Var 0.187 0.151 0.131 0.100 0.092 0.090 0.077 0.827
EJERCICIOS DE
REFUERZO 2.1.1.1.1 Se tiene la siguiente matriz de factores no rotada:
2.1.1.1
FACTOR ANÁLISIS Variable Factor 1 Factor 2 Factor 3 Factor 4
A 0.67 0.49 -0.41 -0.35
B 0.55 0.58 0.45 -0.39
C 0.45 0.39 0.31 0.33
D 0.53 0.41 0.36 0.25
E 0.70 0.35 -0.29 0.28
F 0.65 0.48 0.45 0.32
F1 F2
X1 0.8386 -0.2196
X2 -0.7387 -0.5203
X3 0.5242 0.6748
X4 0.5849 0.3674
F1 F2
X1 0.8050 0.3215
X2 0.9033 -0.0202
X3 -0.0208 0.8541
X4 -0.2523 0.6430
Persona X1 X2 X3 X4
1 21 26 7 8
2 22 16 11 7
3 16 28 11 7
4 17 30 9 13
5 12 26 12 7
6 25 10 18 14
7 18 21 14 16
8 15 17 5 11
9 14 23 13 8
10 18 20 10 5
11 14 29 14 11
12 15 23 16 7
13 25 21 14 12
14 15 20 3 10
Bajo este criterio se tendría como atención central agrupar aquellas personas u
objetos con menores distancias entre si (lo mas parecido). Para cuantificar la
distancia entre las personas u objetos se utiliza la siguiente formula de la
medida de distancia:
1/ 2
é r 2ù
dij =
êå (X ik - X jk ) ú
ë k =1 û
Donde:
dij : es la distancia de los perfiles de los objetos i y j .
Xik : representa la característica k medida en el objeto i .
Xjk : representa la característica k medida en el objeto j.
r : es el número de características utilizadas para evaluar lo
parecido.
Para realizar el análisis de agrupamiento los datos de las variables deben estar
estandarizadas, si son métricas, es decir, eliminar sus unidades de manera que
se encuentren todas en términos de z. Para lograrlo es necesario aplicar la
siguiente formula:
x-µ
Z=
s
Existen ocho coeficientes que permiten medir la similitud entre un objeto y otro
que permiten evaluar el hecho de que se presente o no cierto atributo en ambas
personas u objetos o solamente en uno de ellos de la siguiente manera:
Objeto i Total
Objeto j 1 0
1 a b
0 c d
Total p
Donde:
Coeficientes de similitud:
a+d
p
2. Se da importancia a la presencia y ausencia de las características en
ambas personas u objetos, duplicándolas:
2(a + d )
2(a + b) + b + c
3. Se da importancia a las diferencias de la característica en las
personas u objetos, duplicándola:
a+d
a + d + 2(b + c)
4. Se calcula la proporción de las presencias en ambos, con respecto a
todas las características:
a
p
5. Se determina la presencia de la característica en ambos, con
respecto a a,b y c , ya que la ausencia en d no se puede evaluar:
a
a+b+c
6. Se evalúa solo la presencia al doble, sin poder evaluar la ausencia
en ambos:
2a
2a + b + c
7. Se determina solo las diferencias en ellos al doble, sin poder evaluar
la ausencia en ambos:
a
a + 2(b + c)
8. Se evalúa cuantas características se encuentran presentes en ambas
personas u objetos con respecto a las diferencias en ellos; es decir,
se mide la relación de iguales a diferentes:
a
b+c
final.
Tipos de criterios de eslabonamiento
Se recomienda probar con
varios métodos de
eslabonamiento y comparar Un eslabonamiento consiste en volver a establecer el grado de parecido de un
los resultados. Dependiendo nuevo grupo con el resto de los elementos que no habìan sido agrupados y
de las características de los
existen básicamente tres formas o criterios para medir ese grado de parecido.
datos, algunos métodos
pueden proveer "mejores"
resultados que otros.
Nota: Por cuestiones de la terminología que se va a utilizar suponga que se
· Con el eslabonamiento utilizan los elementos u,v y w de los cuales ya se unieron (uv) y se pretende
simple, o del "vecino más evaluar su parecido con w.
cercano", la distancia entre
dos conglomerados es la
distancia mínima entre una 1. Eslabonamiento simple:
observación en un
conglomerado y una Este criterio asume que al momento de fusionarse dos personas u
observación en el otro
objetos, prevalecen las características de aquel elemento cuya distancia
conglomerado. El
eslabonamiento simple es
sea la mínima o, bien cuya similitud sea la máxima (mas parecido):
una opción apropiada
cuando los conglomerados MIN { duw,dvw} MAX {Suw,Svw}
están claramente separados.
Cuando las observaciones Este criterio supone que los elementos son tan parecidos como antes de
están cerca entre sí, el fusionarse.
eslabonamiento simple
tiende a identificar
conglomerados largos
2. Eslabonamiento completo:
similares a cadenas que
pueden tener una separación
relativamente grande entre
observaciones en cualquier Este criterio considera que cuando dos elementos se unen, el grado de
extremo de la cadena. · parecido de ese grupo a un tercer elemento va a estar dado por la
máxima distancia o la mínima de las similitudes (menos parecido):
· Con el eslabonamiento
completo, o "del vecino más MAX { duw,dvw} MIN {Suw,Svw}
lejano", la distancia entre
dos conglomerados es la Este criterio supone que el nuevo grupo comparado con otro elemento
distancia máxima entre una no agrupado es tan diferente como los elementos antes de agruparse.
observación en un
conglomerado y una
observación en el otro
conglomerado. Este método
3. Eslabonamiento promedio:
garantiza que todas las
observaciones en un Este criterio asume que al unirse dos elementos y formar un grupo, las
conglomerado se encuentren características de ellos con respecto a un tercero estarán dadas por el promedio
dentro de una distancia de las que originalmente poseían, lo cual puede representarse de la siguiente
máxima y tiende a producir manera:
conglomerados con
diámetros similares. Los d(uv)w=(duw+dvw)/2 S(uv)w=(Suw+Svw)/2
resultados pueden ser
sensibles a valores atípicos.
· Con el eslabonamiento
promedio, la distancia entre
dos conglomerados es la
distancia media entre una Pasos para llevar a cabo un agrupamiento jerárquico aglomerativo:
observación en un
conglomerado y una
1- Se necesita contar con la información en forma de matriz de
observación en el otro
conglomerado. En vista de
distancia o similitud.
que los métodos de
eslabonamiento simple o 2- Se comienza con n grupos, cada uno de ellos formado por un
completos agrupan elemento. Con base en la información manejada en la matriz de
conglomerados sobre la base distancia o similitud se seleccionara a la pareja de elementos más
de distancias entre pares parecida para formar un grupo.
individuales, el
eslabonamiento promedio
utiliza una medida de
3- Una vez ya fusionados los elementos y formado el grupo o
ubicación más central.
conglomerado, se aplica alguno de los criterios de eslabonamiento
para evaluar lo parecido que es este grupo con respecto a los demás
elementos sin unirse.
conjuntos o un Nivel de distancia muy alta, lo que indicaría es que en realidad los elementos que quedan
similitud para cortar el en cada grupo no son muy similares.
dendrograma.Se examinan
los conglomerados
resultantes en la partición
final para observar si la
agrupación parece lógica. La
observación de
dendrogramas para
determinar diferentes
agrupaciones finales puede
ayudar a decidir cuáles de
ellas tienen más sentido para
los datos.
EJEMPLO
ILUSTRATIVO
Con el fin de incrementar el confort de las diferentes piezas para vestir, los
2.2.1.1 industriales de la confección desean desarrollar un sistema de patronaje y tallas
ANÁLISIS DE flexibles, pero con medidas reales del cuerpo de los hombres mexicanos,
CONGLOMERADOS. experimentado de mejor manera con la elongación de músculos y la elasticidad
MATRIZ DE de alguna fibras . El estudio antropométrico contempló 3 indicadores útiles para
DISTANCIA. diseñar y fabricar piezas de vestir, la estatura, el peso y la cintura de cinco
personas del género FEMENINO cuyos resultados se presentan a continuación:
Desviación
estándar 0.06 15.11 1.59
Estandarización de variables
Antes que nada hay que se deben estandarizar las variables, es decir, eliminar el
efecto de las unidades y hacerlas comparables, de manera que todas estén en
términos de “Z” mediante la siguiente expresión:
𝑥 − 𝑥̅
𝑍=
𝑠
1.52 − 1.58 57.12 − 67.63 84.10 − 85.33
𝑍&& = = −1.00 𝑍&" = = −.70 𝑍&# = = −.77
. 06 15.11 1.59
:
0.5
𝑑7• = `‘(𝑥7’ − 𝑥•’ )" e
s“&
0.5
𝑑&," = [(−1.00 − 1.50)" + (−.70 − .61)" + (−.77 − .55)" ] = 3.12
0.5
𝑑&,# = [(−1.00 − (−0.67))" + (−.70 − 0.00)" + (−.77 − (−.07))" ] = 1.04
0.5
𝑑&,' = [(−1.00 − (−0.33))" + (−.70 − (−1.21))" + (−.77 − (−1.09))" ] = .90
0.5
𝑑&,1 = [(−1.00 − .83)" + (−.70 − 1.30)" + (−.77 − 1.38)" ] = 3.46
0.5
𝑑",# = [(1.50 − (−0.67))" + (.61 − 0.00)" + (.55 − (−07))" ] = 2.34
0.5
𝑑",' = [(1.50 − (−0.33))" + (.61 − (−1.21))" + (.55 − (−1.09))" ] = 3.06
0.5
𝑑",1 = [(1.50 − .83)" + (.61 − 1.30)" + (.55 − 1.38)" ] = 1.27
0.5
𝑑#,' = [(−0.67 − (−0.33))" + (0.00 − (−1.21))" + (−.07 − (−1.09))" ] = 1.62
0.5
𝑑#,1 = [(−0.67 − .83)" + (0.00 − 1.30)" + (−.07 − 1.38)" ] = 2.46
0.5
𝑑',1 = [(−0.33 − .83)" + (−1.21 − 1.30)" + (−1.09 − 1.38)" ] = 3.71
1 2 3 4 5
Como esta matriz es una matriz espejo, es decir la matriz superior es igual a la
matriz inferior y la diagonal contiene ceros ya que la distancia que hay al
comparar una persona consigo misma es nula, sólo será necesario utilizar la
información de la matriz inferior como se muestra a continuación:
1 2 3 4 5
1 0
2 3.12 0
3 1.04 2.34 0
Métodos de
eslabonamiento 4 0.90 3.06 1.62 0
· Con el eslabonamiento
simple, o del "vecino más
cercano", la distancia entre
dos conglomerados es la
Paso 1. Agrupar
1 2 3 4 5
1 0
2 3.12 0
3 1.04 2.34 0
1 2 3 4 5
1 0
2 3.12 0
3 1.04 2.34 0
(1,4) 2 3 5
(1,4) 0
2 0
3 0
5 0
Paso 2. Eslabonar
con 1 es de 3.12
La distancia 2 la menor es 3.06
con 4 es de 3.06
La
(1,4) 2 3 5
(1,4) 0
2 3.06 0
3 0
5 0
con 1 es de 1.04
La distancia 3 la menor es 1.04
con 4 es de 1.62
La
(1,4) 2 3 5
(1,4) 0
2 3.06 0
3 1.04 0
5 0
con 1 es de 3.46
La distancia 5 la menor es 3.46
con 4 es de 3.70
La
(1,4) 2 3 5
(1,4) 0
2 3.06 0
3 1.04 0
5 3.46 0
Los valores faltantes de la matriz se llenan con los mismos datos de la matriz
original.
(1,4) 2 3 5
(1,4) 0
2 3.06 0
3 1.04 2.34 0
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado, que en este caso sería la persona 3 que se
eslabonaría al conglomerado formado por las personas (1,4) con la distancia
menor de 1.04 como se muestra a continuación:
(1,4) 2 3 5
(1,4) 0
2 3.06 0
3 1.04 2.34 0
(1,4,3) 0
2 0
5 0
Paso 2. Eslabonar
(1,4,3) 0
2 2.34 0
5 0
(1,4,3) 2 5
(1,4,3) 0
2 2.34 0
5 2.46 0
Los valores faltantes de la matriz se llenan con los mismos datos de la matriz
original.
(1,4,3) 2 5
(1,4,3) 0
2 2.34 0
5 2.46 1.27 0
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado, que en este caso serían las personas 2 y 5 para
formar un nuevo conglomerado con la distancia menor de 1.27 como se muestra
a continuación:
(1,4,3) 2 5
(1,4,3) 0
2 2.34 0
5 2.46 1.27 0
(1,4,3) (2,5)
(1,4,3) 0
(2,5) 0
Paso 2. Eslabonar
con 2 es de 2.34
La distancia 1,4,3 la menor es 2.34
con 5 es de 2.46
La
(1,4,3) (2,5)
(1,4,3) 0
(2,5) 2.34 0
Tabla de eslabonamiento
Dendograma
El dendrograma completo
(diagrama de árbol) es una El dendograma es un gráfico formado por rectángulos que unen a los elementos
representación gráfica de la agrupados en el eje horizontal y su altura en el eje vertical indica el valor de
conformación en amalgama distancia a la cual se unieron dichos elementos.
de observaciones o variables
en un solo conglomerado. Es importante señalar que en el dendograma no deben cruzarse las líneas que
Cortar el dendrograma es indican los eslabonamientos para lo cual es conveniente construirlo conforme a
similar a trazar una línea a lo
los elementos que forman cada conglomerado en nuestro caso el conglomerado
largo del dendrograma para
especificar la agrupación 1 está formado por las personas (1,4,3) y el conglomerado 2 por las personas
final. (2,5).
2.22
Distancia de eslabonamiento
1.48
0.74
0.00
1 4 3 2 5
Personas del género FEMENINO
Elaboró: M. en Admón. Javier Bech Vertti
¿Cómo se sabe dónde cortar
el dendrograma? Primero
convendría que se ejecute
un análisis del conglomerado
sin especificar la partición Numero de conglomerados a dejar como solución
final. Se examinen los
resultados de los niveles de ¿Cómo saber dónde cortar el dendograma?. Debido a que la definición de una
similitud y de distancia y en agrupación útil depende por completo de su situación particular, debe
el dendrograma. El nivel de
similitud en cualquier paso especificar los criterios para colocar la partición final. Puede definir la colocación
es el porcentaje de la basándose en el número de grupos que desee obtener o por el nivel de distancia
distancia mínima en el paso, que requiere dentro de los conglomerados. Examine los niveles de distancia en
en relación con la distancia
los resultados de la tabla de eslabonamiento resumen y en el dendograma. La
máxima entre observaciones
dentro de los datos. El
distancia de eslabonamiento en cualquier etapa es el valor de la distancia
patrón de cómo los valores mínima en la etapa, en relación con la distancia máxima entre observaciones
de similitud o de distancia dentro de los datos. El patrón de cómo los valores de distancia cambian de paso
cambian de paso a paso a paso puede ayudar a elegir la agrupación final. El paso donde los valores
puede ayudar a elegir la cambian de manera abrupta podría identificar un buen punto para cortar el
agrupación final. El paso dendograma, si esto tiene sentido para sus datos. En este caso entre la etapa 3
donde los valores cambian y 4 los valores de distancia cambian abruptamente de 1.27 a 2.34 cuando se
de manera abrupta podría unen ambos grupos, por lo tanto, la solución más factible parece ser la de 2
identificar un buen punto
conglomerados (1,4,3) y (2,5).
para cortar el dendrograma,
si esto tiene sentido para sus
datos
1 2 3 4 5
1 0
2 3.12 0
3 1.04 2.34 0
1 2 3 4 5
1 0
2 3.12 0
3 1.04 2.34 0
(1,4) 2 3 5
(1,4) 0
2 0
3 0
5 0
Paso 2. Eslabonar
con 1 es de 3.12
La distancia 2 la mayor es 3.12
con 4 es de 3.06
La
(1,4) 2 3 5
(1,4) 0
2 3.12 0
3 0
5 0
con 1 es de 1.04
La distancia 3 la mayor es 1.62
con 4 es de 1.62
La
(1,4) 2 3 5
(1,4) 0
2 3.12 0
3 1.62 0
5 0
con 1 es de 3.46
La distancia 5 la menor es 3.71
con 4 es de 3.71
La
(1,4) 2 3 5
(1,4) 0
2 3.12 0
3 1.62 0
5 3.71 0
Los valores faltantes de la matriz se llenan con los mismos datos de la matriz
original.
(1,4) 2 3 5
(1,4) 0
2 3.12 0
3 1.62 2.34 0
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado. En este caso se forma un nuevo conglomerado con
las personas 2 y 5 con una distancia de 1.27 como se muestra a continuación:
(1,4) 2 3 5
(1,4) 0
2 3.12 0
3 1.62 2.34 0
(1,4) (2,5) 3
(1,4) 0
(2,5) 0
3 0
Paso 2. Eslabonar
con 2 es de 3.11
La distancia 1,4 la mayor es 3.71
con 5 es de 3.71
La
(1,4) (2,5) 3
(1,4) 0
(2,5) 3.71 0
3 0
con 1 es de 0.90
La distancia 3 la mayor es 1.62
con 4 es de 1.62
La
(1,4) (2,5) 3
(1,4) 0
(2,5) 3.71 0
3 1.62 0
con 2 es de 2.34
La distancia 3 la mayor es 2.46
con 5 es de 2.46
La
(1,4) (2,5) 3
(1,4) 0
(2,5) 3.71 0
3 1.62 2.46 0
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona a un
conglomerado ya formado, que en este caso sería la persona 3 que se
eslabonaría al conglomerado formado por las personas (1,4) con la distancia
menor de 1.62 como se muestra a continuación:
(1,4) (2,5) 3
(1,4) 0
(2,5) 3.71 0
3 1.62 2.46 0
(1,4,3) (2,5)
(1,4,3) 0
(2,5) 0
Paso 2. Eslabonar
(1,4,3) (2,5)
(1,4,3) 0
(2,5) 3.71 0
Tabla de eslabonamiento
Número Número de
de Nivel de Nivel de Grupos Nuevo obs. en el
Paso grupos semejanzal distancia incorporados grupo grupo nuevo
1 4 76.3492 0.87219 1 4 1 2
2 3 66.1312 1.24900 2 5 2 2
3 2 56.2472 1.61350 1 3 1 3
4 1 0.0000 3.68777 1 2 1 5
Dendograma
especificar la agrupación
final.
2.46
1.23
1 2 3 4 5
1 0
2 3.12 0
3 1.04 2.34 0
1 2 3 4 5
1 0
2 3.12 0
3 1.04 2.34 0
El nuevo cluster (1,4) se pone en primer lugar dentro de la nueva matriz, cuyas
dimensiones ahora son reducidas de 5 x 5 a 4 x 4, como se muestra a
continuación:
(1,4) 2 3 5
(1,4) 0
2 0
3 0
5 0
Paso 2. Eslabonar
con 1 es de 3.12
La distancia 2 el promedio es 3.09
con 4 es de 3.06
La
(1,4) 2 3 5
(1,4) 0
2 3.09 0
3 0
5 0
con 1 es de 1.04
La distancia 3 el promedio es 1.33
con 4 es de 1.62
La
(1,4) 2 3 5
(1,4) 0
2 3.09 0
3 1.33 0
5 0
con 1 es de 3.46
La distancia 5 el promedio es 3.58
con 4 es de 3.71
La
(1,4) 2 3 5
(1,4) 0
2 3.09 0
3 1.33 0
5 3.58 0
Los valores faltantes de la matriz se llenan con los mismos datos de la matriz
original.
(1,4) 2 3 5
(1,4) 0
2 3.09 0
3 1.33 2.34 0
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado. En este caso se forma un nuevo conglomerado con
las personas 2 y 5 a una distancia menor de 1.27 como se muestra a
continuación:
(1,4) 2 3 5
(1,4) 0
2 3.09 0
3 1.33 2.34 0
(1,4) (2,5) 3
(1,4) 0
(2,5) 0
3 0
Paso 2. Eslabonar
con 2 es de 3.09
La distancia 1,4 El promedio es 3.34
con 5 es de 3.58
La
(1,4) (2,5) 3
(1,4) 0
(2,5) 3.34 0
3 0
con 1 es de 1.04
La distancia 3 El promedio es 1.33
con 4 es de 1.62
La
(1,4) (2,5) 3
(1,4) 0
(2,5) 3.34 0
3 1.33 0
con 2 es de 2.34
La distancia 3 El promedio es 2.40
con 5 es de 2.46
La
(1,4) (2,5) 3
(1,4) 0
(2,5) 3.34 0
3 1.33 2.40 0
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado, que en este caso sería la persona 3 para eslabonarse
al conglomerado formado por las personas (1,4) con la distancia menor de 1.33
como se muestra a continuación:
(1,4) (2,5) 3
(1,4) 0
(2,5) 3.34 0
3 1.33 2.40 0
(1,4,3) (2,5)
(1,4,3) 0
(2,5) 0
Paso 2. Eslabonar
con 2 es de 3.12.
La distancia 1 19
con 5 es de 3.46
con 2 es de 3.06
La distancia 4 El promedio es 3.02
con 5 es de 3.71
La
con 2 es de 2.34
La distancia 3
con 5 es de 2.46
(1,4,3) (2,5)
(1,4,3) 0
(2,5) 3.02 0
Tabla de eslabonamiento
Número Número de
de Nivel de Nivel de Grupos Nuevo obs. en el
Paso grupos semejanzal distancia incorporados grupo grupo nuevo
1 4 76.3492 0.87219 1 4 1 2
2 3 66.1312 1.24900 2 5 2 2
3 2 64.0314 1.32644 1 3 1 3
4 1 19.8532 2.95563 1 2 1 5
Dendograma
(2,5).
El dendrograma completo
(diagrama de árbol) es una
representación gráfica de la Ejemplo Ilustrativo 1. Dendograma de datos antropométricos
conformación en amalgama Eslabonamiento Promedio
de observaciones o variables
en un solo conglomerado.
2.96
Cortar el dendrograma es
Distancia de eslabonamiento
similar a trazar una línea a lo
largo del dendrograma para
especificar la agrupación
final. 1.97
0.99
0.00
1 4 3 2 5
Personas del género FEMENINO
Elaboró: M. en Admón. Javier Bech Vertti
Para el conglomerado 1:
Para el conglomerado 2:
Los resultados del conglomerado 1 nos indican que las mujeres de este grupo
son más bajitas, más delgadas y de menor cintura que las mujeres del
conglomerados 2, por lo que un posible nombre para el conglomerado 1 podría
ser “talla pequeña” y para el conglomerado 2 “talla grande”
ACTIVIDAD DE
APRENDIZAJE Con el fin de incrementar el confort de las diferentes piezas para vestir, los
industriales de la confección desean desarrollar un sistema de patronaje y tallas
2.2.1.1
flexibles, pero con medidas reales del cuerpo de los hombres mexicanos,
ANÁLISIS DE experimentado de mejor manera con la elongación de músculos y la elasticidad
CONGLOMERADOS. de alguna fibras . El estudio antropométrico contempló 3 indicadores útiles para
MEDIDA DE diseñar y fabricar piezas de vestir, la estatura, el peso y la cintura de cinco
DISTANCIA. personas del género MASCULINO cuyos resultados se presentan a
continuación:
Desviación
estándar 0.12 16.16 2.08
AUTOEVALUACIÓN
2.2.1.1 Suponga que se desea segmentar a los clientes de un supermercado con base a la
ANÁLISIS DE actitud que tienen cuando salen de compras. De acuerdo a una investigación
CONGLOMERADO previa, se identificaron tres variables de actitud y se pidió a los cinco
entrevistados que expresaran su grado de acuerdo con tres afirmaciones en una
S. MATRIZ DE escala de siete puntos en la cual 1 significa en desacuerdo y 7 significa de
DISTANCIA acuerdo.
Si los resultados para cada una de las afirmaciones se considera que son
variables, se tienen tres, las cuales se representarán con V1, V2 y V3; por otra
parte, las respuestas de cada uno de los entrevistados constituyen los cinco
casos, que se representarán con C1, C2,…,C5. Los valores de las variables para
ENTREVISTA VARIABLE
DO V1 V2 V3
C1 1 2 1
C2 5 7 5
C3 2 1 1
C4 7 7 5
C5 3 2 2
Promedio: 3.6 3.8 2.8
Desviación 2.41 2.95 2.049
estándar
EJEMPLO
ILUSTRATIVO Con el fin de incrementar el confort de las diferentes piezas para vestir, los
industriales de la confección desean desarrollar un sistema de patronaje y tallas
INTEGRAL EN
flexibles, pero con medidas reales del cuerpo de los hombres mexicanos,
MINITAB 17. experimentado de mejor manera con la elongación de músculos y la elasticidad de
ANÁLISIS DE alguna fibras. El estudio antropométrico contempló 3 indicadores útiles para
CONGLOMERADOS. diseñar y fabricar piezas de vestir, la estatura, el peso y la cintura de cinco
MEDIDA DE personas del género FEMENINO cuyos resultados se presentan a continuación:
DISTANCIA
Persona Altura (mts.) Peso (Kg.) Cintura (cms)
Desviación
estándar 0.06 15.11 1.59
En Matriz de distancia o variables, ingrese las tres variables dando doble click
sobre cada una de ellas o seleccione las tres y oprima el botón Seleccionar.
Nota: Esta opción permite convertir todas las variables a una escala común al
sustraer las medias y dividir entre la desviación estándar antes del cálculo de la
matriz de distancia sobretodo si las variables están en unidades diferentes y usted
desea minimizar el efecto de las diferencias de escala.
Esto indica que tal vez dos conglomerados son razonablemente suficientes para la
partición o solución final. Si esta agrupación tiene sentido intuitivo para los datos,
entonces es probable que sea una elección apropiada.
Dendrograma
2.22
Distancia de eslabonamiento
1.48
0.74
0.00
1 4 3 2 5
Personas del género FEMENINO
Elaboró: M. en Admón. Javier Bech Vertti
Partición final
Número de conglomerados: 2
Dentro de la Distancia
suma de promedio Distancia
Número de cuadrados del desde el máxima desde
observaciones conglomerado centroide centroide
Conglomerado1 3 1.48147 0.665049 0.856782
Conglomerado2 2 0.78000 0.624502 0.624502
Cuando usted especifica la partición o solución final, Minitab muestra entre otras
una tabla adicional que resume cada conglomerado según el número de
observaciones, en este caso el primer conglomerado está formado por tres
mujeres (1,4 y 3) y el segundo conglomerado por las mujeres (2 y 5)
Dendrograma
2.22
Distancia de eslabonamiento
1.48
0.74
0.00
1 4 3 2 5
Personas del género FEMENINO
Elaboró: M. en Admón. Javier Bech Vertti
En Matriz de distancia o variables, ingrese las tres variables dando doble click
sobre cada una de ellas o seleccione las tres y oprima el botón Seleccionar.
Número Número de
de Nivel de Nivel de Grupos Nuevo obs. en el
Paso grupos semejanzal distancia incorporados grupo grupo nuevo
1 4 76.3492 0.87219 1 4 1 2
2 3 66.1312 1.24900 2 5 2 2
3 2 56.2472 1.61350 1 3 1 3
4 1 0.0000 3.68777 1 2 1 5
Esto indica que tal vez dos conglomerados son razonablemente suficientes para la
partición o solución final. Si esta agrupación tiene sentido intuitivo para los datos,
entonces es probable que sea una elección apropiada.
Dendrograma
3.69
Distancia de eslabonamiento
2.46
1.23
0.00
1 4 3 2 5
Personas del género FEMENINO
Elaboró: M. en Admón. Javier Bech Vertti
Número Número de
de Nivel de Nivel de Grupos Nuevo obs. en el
Paso grupos semejanzal distancia incorporados grupo grupo nuevo
1 4 76.3492 0.87219 1 4 1 2
2 3 66.1312 1.24900 2 5 2 2
3 2 56.2472 1.61350 1 3 1 3
4 1 0.0000 3.68777 1 2 1 5
Partición final
Número de grupos: 2
Dentro de Distancia
la suma de promedio Distancia
Número de cuadrados desde el máxima desde
observaciones del grupo centroide centroide
Grupo1 3 1.48147 0.665049 0.856782
Grupo2 2 0.78000 0.624502 0.624502
Cuando usted especifica la partición o solución final, Minitab muestra entre otras
una tabla adicional que resume cada conglomerado según el número de
observaciones, en este caso el primer conglomerado está formado por tres
mujeres (1,4 y 3) y el segundo conglomerado por las mujeres (2 y 5)
Dendrograma
3.69
Distancia de eslabonamiento
2.46
1.23
0.00
1 4 3 2 5
Personas del género FEMENINO
Elaboró: M. en Admón. Javier Bech Vertti
En Matriz de distancia o variables, ingrese las tres variables dando doble click
sobre cada una de ellas o seleccione las tres y oprima el botón Seleccionar.
Número Número de
de Nivel de Nivel de Grupos Nuevo obs. en el
Paso grupos semejanzal distancia incorporados grupo grupo nuevo
1 4 76.3492 0.87219 1 4 1 2
2 3 66.1312 1.24900 2 5 2 2
3 2 64.0314 1.32644 1 3 1 3
4 1 19.8532 2.95563 1 2 1 5
Esto indica que tal vez dos conglomerados son razonablemente suficientes para la
partición o solución final. Si esta agrupación tiene sentido intuitivo para los datos,
entonces es probable que sea una elección apropiada.
Dendrograma
2.96
Distancia de eslabonamiento
1.97
0.99
0.00
1 4 3 2 5
Personas del género FEMENINO
Elaboró: M. en Admón. Javier Bech Vertti
Número Número de
de Nivel de Nivel de Grupos Nuevo obs. en el
Paso grupos semejanzal distancia incorporados grupo grupo nuevo
1 4 76.3492 0.87219 1 4 1 2
2 3 66.1312 1.24900 2 5 2 2
3 2 64.0314 1.32644 1 3 1 3
4 1 19.8532 2.95563 1 2 1 5
Partición final
Número de grupos: 2
Dentro de Distancia
la suma de promedio Distancia
Número de cuadrados desde el máxima desde
observaciones del grupo centroide centroide
Grupo1 3 1.48147 0.665049 0.856782
Grupo2 2 0.78000 0.624502 0.624502
Cuando usted especifica la partición o solución final, Minitab muestra entre otras
una tabla adicional que resume cada conglomerado según el número de
observaciones, en este caso el primer conglomerado está formado por tres
mujeres (1,4 y 3) y el segundo conglomerado por las mujeres (2 y 5)
Dendrograma
2.96
Distancia de eslabonamiento
1.97
0.99
0.00
1 4 3 2 5
Personas del género FEMENINO
Elaboró: M. en Admón. Javier Bech Vertti
EJERCICIOS DE
REFUERZO 2.1.1.1.1. Los alumnos de mercadotecnia tienen que hacer una investigación
2.2.1.1 acerca de si trae mejores resultados el trabajo entre dos personas juntas con un
parecido en algún aspecto (en este caso calificación) que otras diferentes en tal
ANÁLISIS DE aspecto.
CONGLOMERADOS.
MEDIDA DE Persona Calificación No. 1 Calificación No. 2
DISTANCIA 1 5.5 4.9
2 9.6 6.3
3 8.1 9.8
4 3.8 7.3
5 8.6 7.0
EJEMPLO
ILUSTRATIVO Con el fin de incrementar el confort de las diferentes piezas para vestir, los
industriales de la confección desean desarrollar un sistema de patronaje y tallas
2.2.1.2 flexibles, pero con medidas reales del cuerpo de las mujeres mexicanas,
ANÁLISIS DE experimentado de mejor manera con la elongación de músculos y la elasticidad
CONGLOMERADOS. de alguna fibras . Para ser más precisos en ciertos resultados, el estudio
MATRIZ DE antropométrico sustituyó el indicador de cintura por el de busto contemplando
SIMILITUD. igualmente 3 indicadores útiles para diseñar y fabricar piezas de vestir, la
estatura, el peso y el busto de cinco personas del género FEMENINO cuyos
resultados se presentan a continuación:
1+1
𝑆&.# = = 2/3
3
Y así sucesivamente, se obtienen las medidas de similitud para todas las parejas
que se pretende comparar obteniendo los siguientes resultados:
2+1 3
0+0 1+0 1+0 𝑆1./ = =
𝑆&." = =0 𝑆".# = = 1/3 𝑆#.1 = = 1/3 3 3
3 3 3 =1
2+1 0+1
0+0 𝑆"./ = = 3/3 𝑆'.1 = = 1/3
𝑆&.1 = =0 3 3
3
Como esta matriz es una matriz espejo, es decir la matriz superior es igual a la
matriz inferior y la diagonal contiene 1´s ya que la similitud máxima que hay al
comparar una persona consigo es de uno, sólo será necesario utilizar la
información de la matriz inferior como se muestra a continuación:
1 2 3 4 5 6 7
1 1
2 0 1
3 2/3 1/3 1
4 2/3 1/3 1/3 1
5 0 1 1/3 1/3 1
6 0 1 1/3 1/3 1 1
7 2/3 1/3 1/3 1/3 1/3 1/3 1
1 2 3 4 5 6 7
1 1
2 0 1
3 2/3 1/3 1
4 2/3 1/3 1/3 1
5 0 1 1/3 1/3 1
6 0 1 1/3 1/3 1 1
7 2/3 1/3 1/3 1/3 1/3 1/3 1
1 2 3 4 5 6 7
1 1
2 0 1
3 2/3 1/3 1
4 2/3 1/3 1/3 1
5 0 1 1/3 1/3 1
6 0 1 1/3 1/3 1 1
7 2/3 1/3 1/3 1/3 1/3 1/3 1
Resolución al inciso b)
1 2 3 4 5 6 7
1 1
2 0 1
3 2/3 1/3 1
4 2/3 1/3 1/3 1
5 0 1 1/3 1/3 1
6 0 1 1/3 1/3 1 1
7 2/3 1/3 1/3 1/3 1/3 1/3 1
1 2 3 4 5 6 7
1 1
2 0 1
3 2/3 1/3 1
4 2/3 1/3 1/3 1
5 0 1 1/3 1/3 1
6 0 1 1/3 1/3 1 1
7 2/3 1/3 1/3 1/3 1/3 1/3 1
(5,6) 1 2 3 4 7
(5,6) 1
1 1
2 1
3 1
4 1
7 1
Paso 2. Eslabonar
Como se eligió el criterio de vinculación o eslabonamiento simple o del vecino
más cercano, al momento de eslabonar se debe tener cuidado de elegir la
similitud más grande, es decir se compara al nuevo conglomerado (5,6) con el
resto de las personas; al comparar (5,6) con la persona 1 se debe verificar en la
matriz anterior las similitudes entre la persona 1 con la 5 que es 0 y la de la
persona 1 con la 6 que es 0, eligiendo entonces la mayor similitud de las dos
personas que en este caso es 0. Lo anterior se puede resumir con el siguiente
diagrama de flujo:
con 5 es de 0
La similitud 1 la mayor es 0
con 6 es de 0
La
(5,6) 1 2 3 4 7
(5,6) 1
1 0 1
2 1
3 1
4 1
7 1
con 5 es de 1
La similitud 2 la mayor es 1
con 6 es de 1
La
(5,6) 1 2 3 4 7
(5,6) 1
1 0 1
2 1 1
3 1
4 1
7 1
con 5 es de 1/3
La similitud 3 la mayor es 1/3
con 6 es de 1/3
La
con 5 es de 1/3
La similitud 4 la mayor es 1/3
con 6 es de 1/3
La
con 5 es de 1/3
La similitud 7 la mayor es 1/3
con 6 es de 1/3
La
(5,6) 1 2 3 4 7
(5,6) 1
1 0 1
2 1 1
3 1/3 1
4 1/3 1
7 1/3 1
Los valores faltantes de la matriz se llenan con los mismos datos de la matriz
original:
(5,6) 1 2 3 4 7
(5,6) 1
1 0 1
2 1 0 1
3 1/3 2/3 1/3 1
4 1/3 2/3 1/3 1/3 1
7 1/3 2/3 1/3 1/3 1/3 1
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado, que en este caso sería la persona 2 que se
eslabonaría al conglomerado formado por las personas (5,6) con la similitud
(5,6) 1 2 3 4 7
(5,6) 1
1 0 1
2 1 0 1
3 1/3 2/3 1/3 1
4 1/3 2/3 1/3 1/3 1
7 1/3 2/3 1/3 1/3 1/3 1
(5,6,2) 1 3 4 7
(5,6,2) 1
1 1
3 1
4 1
7 1
Paso 2. Eslabonar
con 5,6 es de 0
La similitud 1 la mayor es 0
con 2 es de 0
La
(5,6,2) 1 3 4 7
(5,6,2) 1
1 0 1
3
4 1
7 1
persona 3 con la persona 2 con una similitud de 1/3 eligiendo la similitud mayor
de ambas comparaciones que es 1/3. Lo anterior se puede resumir con el
siguiente diagrama de flujo:
(5,6,2) 1 3 4 7
(5,6,2) 1
1 0 1
3 1/3 1
4 1/3 1
7 1/3 1
Los valores faltantes de la matriz se llenan con los mismos datos de la matriz
original:
(5,6,2) 1 3 4 7
(5,6,2) 1
1 0 1
3 1/3 2/3 1
4 1/3 2/3 1/3 1
7 1/3 2/3 1/3 1/3 1
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado. En este caso se forma un nuevo conglomerado con
las personas 1 y 3 o con las personas 1 con 7. Como ambos grupos tienen la
misma similitud de 2/3 se podría seleccionar cualquiera de los 2. Suponga que
se eligió a la persona 1 y 7 como se muestra a continuación:
(5,6,2) 1 3 4 7
(5,6,2) 1
1 0 1
3 1/3 2/3 1
4 1/3 2/3 1/3 1
7 1/3 2/3 1/3 1/3 1
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 1
3 1
4 1
Paso 2. Eslabonar
con 1 es de 0
La similitud 5,6,2 la mayor es 1/3
con 7 es de 1/3
La
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 1/3 1
3 1
4 1
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 1/3 1
3 1/3 1
4 1/3 1
con 1 es de 2/3
La similitud 3 la mayor es 2/3
con 7 es de 1/3
La
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 1/3 1
3 1/3 2/3 1
4 1/3 2/3 1
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 1/3 1
3 1/3 2/3 1
4 1/3 2/3 1/3 1
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado, como es el caso de la persona 3 o 4 que se
eslabonan al conglomerado formado por las personas (1,7) con la similitud más
grande de 2/3. Se puede elegir cualquiera de las dos personas, se elegirá a la
persona 4 como se muestra a continuación:
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 1/3 1
3 1/3 2/3 1
4 1/3 2/3 1/3 1
(5,6,2) (1,7,4) 3
(5,6,2) 1
(1,7,4) 1
3 1
Paso 2. Eslabonar
(5,6,2) (1,7,4) 3
(5,6,2) 1
(1,7,4) 1/3 1
3 1
(5,6,2) (1,7,4) 3
(5,6,2) 1
(1,7,4) 1/3 1
3 1/3 1
(5,6,2) (1,7,4) 3
(5,6,2) 1
(1,7,4) 1/3 1
3 1/3 2/3 1
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado, como es el caso de la persona 3 que se puede
eslabonar a cualquiera de los dos conglomerados (5,6,2) o ( 1,7,3) con la
similitud más grande de 1/3. Se elige el conglomerado formado por las
personas(1,7,4) como se muestra a continuación:
(5,6,2) (1,7,4) 3
(5,6,2) 1
(1,7,4) 1/3 1
3 1/3 1/3 1
(1,7,4,
(5,6,2)
3)
(5,6,2) 1
(1,7,4,
1
3)
Paso 2. Eslabonar
(1,7,3,
(2,5,6)
4)
(2,5,6) 1
(1,7,3,
1/3 1
4)
Tabla de eslabonamiento
uno, es decir como tenemos siete personas menos uno nos dan seis etapas. La
segunda columna nos muestra la reducción de la matriz principal que era de 7 x
7 y que en la primera etapa quedó reducida a una matriz de 6 x 6 y así
sucesivamente. La tercera columna nos muestra el valor de la similitud a la que
se eslabonaron las dos primeras personas presentadas en la columna 5 que en
este caso fueron la 5 y la 6 y en la séptima columna nos señala la formación del
primer conglomerado. En la etapa 2 se incorporó la persona 2 al primer
conglomerado formado por las personas 5 y 6 como se muestra en la columna 3
a una similitud de 1 o 100%. En la etapa 3 se forma un nuevo conglomerado
como se aprecia en la columna 5 formado por las personas 1 y 7 a una similitud
de 2/3 ó 66.667%. En la etapa 4 se incorporó la persona 4 al segundo
conglomerado formado por las personas 1 y 7 como se muestra en la columna 3
a una similitud de 2/3 ó 66.667%. En la etapa 5 se incorporó la persona 3 al
sugundo conglomerado formado por las personas 1,7 y 3 como se muestra en la
columna 3 a una similitud de 2/3 ó 66.667% y finalmente en la etapa 6 se
eslabonaron ambos conglomerados a una similitud final de 1/3 ó 33.333%.
Minitab presenta la misma información en una tabla semejante haciendo
hincapié que debido a se tomaron fracciones para desarrollar el problema los
resultados de Minitab pueden variar sensiblemente.
Número Número de
de Nivel de Nivel de Grupos Nuevo obs. En el
Paso grupos semejanzal distancia incorporados grupo grupo nuevo
1 6 100.000 0 5 6 5 2
2 5 100.000 0 2 5 2 3
3 4 66.667 1 1 7 1 2
4 3 66.667 1 1 4 1 3
5 2 66.667 1 1 3 1 4
6 1 33.333 2 1 2 1 7
Dendograma
33.33
Nivel de similitud
55.56
77.78
100.00
1 7 4 3 2 5 6
Personas del género FEMENINO
Elaboró: M. en Admón.: Javier Bech Vertti
1 2 3 4 5 6 7
1 1
2 0 1
3 2/3 1/3 1
4 2/3 1/3 1/3 1
5 0 1 1/3 1/3 1
6 0 1 1/3 1/3 1 1
7 2/3 1/3 1/3 1/3 1/3 1/3 1
1 2 3 4 5 6 7
1 1
2 0 1
3 2/3 1/3 1
4 2/3 1/3 1/3 1
5 0 1 1/3 1/3 1
6 0 1 1/3 1/3 1 1
7 2/3 1/3 1/3 1/3 1/3 1/3 1
Paso 2. Eslabonar
Como se eligió el criterio de vinculación o eslabonamiento completo o del vecino
más lejano, al momento de eslabonar se debe tener cuidado de elegir la
con 5 es de 1
La similitud 2 la menor es 1
con 6 es de 1
La
El valor eslabonado se coloca en la matriz reducida:
(5,6) 1 2 3 4 7
(5,6) 1
1 0 1
2 1 1
3 1
4 1
7 1
con 5 es de 1/3
La similitud 3 la menor es 1/3
con 6 es de 1/3
La
con 5 es de 1/3
La similitud 4 la menor es 1/3
con 6 es de 1/3
La
con 5 es de 1/3
La similitud 7 la menor es 1/3
con 6 es de 1/3
La
(5,6) 1 2 3 4 7
(5,6) 1
1 0 1
2 1 1
3 1/3 1
4 1/3 1
7 1/3 1
Los valores faltantes de la matriz se llenan con los mismos datos de la matriz
original:
(5,6) 1 2 3 4 7
(5,6) 1
1 0 1
2 1 0 1
3 1/3 2/3 1/3 1
4 1/3 2/3 1/3 1/3 1
7 1/3 2/3 1/3 1/3 1/3 1
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado, que en este caso sería la persona 2 que se
eslabonaría al conglomerado formado por las personas (5,6) con la similitud
mayor que en este caso es de 1 como se muestra a continuación:
(5,6) 1 2 3 4 7
(5,6) 1
1 0 1
2 1 0 1
3 1/3 2/3 1/3 1
4 1/3 2/3 1/3 1/3 1
7 1/3 2/3 1/3 1/3 1/3 1
Paso 2. Eslabonar
con 5,6 es de 0
La similitud 1 la mayor es 0
con 2 es de 0
La
(5,6,2) 1 3 4 7
(5,6,2) 1
1 0 1
3
4 1
7 1
(5,6,2) 1 3 4 7
(5,6,2) 1
1 0 1
3 1/3 1
4 1/3 1
7 1/3 1
Los valores faltantes de la matriz se llenan con los mismos datos de la matriz
original:
(5,6,2) 1 3 4 7
(5,6,2) 1
1 0 1
3 1/3 2/3 1
4 1/3 2/3 1/3 1
7 1/3 2/3 1/3 1/3 1
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado. En este caso se forma un nuevo conglomerado con
las personas 1 y 3 o con las personas 1 con 7. Como ambos grupos tienen la
misma similitud de 2/3 se podría seleccionar cualquiera de los 2. Suponga que
se eligió a la persona 1 y 7 como se muestra a continuación:
(5,6,2) 1 3 4 7
(5,6,2) 1
1 0 1
3 1/3 2/3 1
4 1/3 2/3 1/3 1
7 1/3 2/3 1/3 1/3 1
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 1
3 1
4 1
Paso 2. Eslabonar
con 1 es de 0
La similitud 5,6,2 la menor es 0
con 7 es de 1/3
La
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 0 1
3 1
4 1
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 0 1
3 1/3 1
4 1/3 1
con 1 es de 2/3
La similitud 3 la menor es 1/3
con 7 es de 1/3
La
con 1 es de 2/3
La similitud 4 la mayor es 1/3
con 7 es de 1/3
La
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 0 1
3 1/3 1/3 1
4 1/3 1/3 1
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 0 1
3 1/3 1/3 1
4 1/3 1/3 1/3 1
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado, como es el caso de las personas 3 o 4 que pueden
formar un nuevo conglomerado con una similitud más grande de 1/3 o se
pueden eslabonar al conglomerado formado por las personas (1,7) con la
similitud más grande de 1/3 o al conglomerado formado por las personas (5,6,2)
con la similitud más grande de 1/3. Como se puede elegir cualquiera de las tres
opciones, se elegirá en este caso formar un nuevo conglomerado como se
muestra a continuación:
(5,6,2) (1,7) 3 4
(5,6,2) 1
(1,7) 0 1
3 1/3 1/3 1
4 1/3 1/3 1/3 1
(3,4
(5,6,2) (1,7)
)
(5,6,2) 1
(1,7) 1
(3,4) 1
Paso 2. Eslabonar
con 1 es de 0
La similitud 5,6,2 la menor es 0
con 7 es de 1/3
La
(3,4
(5,6,2) (1,7)
)
(5,6,2) 1
(1,7) 0 1
(3,4) 1
con 3 es de 1/3
La similitud 5,6,2 la menor es 1/3
con 4 es de 1/3
La
(3,4
(5,6,2) (1,7)
)
(5,6,2) 1
(1,7) 0 1
(3,4) 1/3 1
con 3 es de 1/3
La similitud 1,7 la menor es 1/3
con 4 es de 1/3
La
(3,4
(5,6,2) (1,7)
)
(5,6,2) 1
(1,7) 0 1
(3,4) 1/3 1/3 1
Paso 1. Agrupar
Una vez llena la matriz se repiten los dos pasos de agrupar y eslabonar ya
sea para formar un nuevo conglomerado o para eslabonar una persona al
conglomerado ya formado, como en este caso el conglomerado (3,4) se puede
eslabonar a cualquiera de los dos conglomerados (5,6,2) o (1,7) con la similitud
más grande de 1/3, se elige el conglomerado formado por las personas(5,6,2)
como se muestra a continuación:
(3,4
(5,6,2) (1,7)
)
(5,6,2) 1
(1,7) 0 1
(3,4) 1/3 1/3 1
(5,6,2,
(1,7)
3,4)
(5,6,2,
1
3,4)
(1,7) 1
Paso 2. Eslabonar
con 5,6,2 es de 0
La similitud 1,7 la menor es 0
con 3,4 es de 1/3
La
(5,6,2,
(1,7)
3,4)
(5,6,2,
1
3,4)
(1,7) 0 1
Tabla de eslabonamiento
Número Número de
de Nivel de Nivel de Grupos Nuevo obs. en el
Paso grupos semejanzal distancia incorporados grupo grupo nuevo
1 6 100.000 0 5 6 5 2
2 5 100.000 0 2 5 2 3
3 4 66.667 1 1 7 1 2
4 3 33.333 2 3 4 3 2
5 2 33.333 2 2 3 2 5
6 1 0.000 3 1 2 1 7
Dendograma
0.00
Nivel de Similitud
33.33
66.67
100.00
1 7 2 5 6 3 4
Personas del género FEMENINO
Elaboró: M. en Admón. Javier Bech Vertti
1 2 3 4 5 6 7
1 1
2 0 1
3 2/3 1/3 1
4 2/3 1/3 1/3 1
5 0 1 1/3 1/3 1
6 0 1 1/3 1/3 1 1
7 2/3 1/3 1/3 1/3 1/3 1/3 1