Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
Modelación de procesos mediante álgebra lineal
Reporte final: situación problema
Head teacher: Gibrán Sayeg
Luis Fernando Nava Jiménez A01736764
Pablo Didier Aguirre Luna A01737026
Alvaro Didier Robles Antonio A01736972
Luis Enrique Atzin Guevara A01736973
H. Puebla de Zaragoza a 17 de agosto de 2023
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
Indicadores clave de desempeño
Un Indicador Clave de Desempeño, ampliamente conocido como KPI, es una herramienta
fundamental en la gestión y evaluación del rendimiento en diversos ámbitos. Su principal
función es medir y cuantificar el progreso hacia el logro de metas y objetivos específicos. En
el entorno empresarial, los KPIs son esenciales para evaluar el éxito de una empresa, ya que
proporcionan datos concretos sobre el rendimiento financiero, la eficiencia operativa, la
satisfacción del cliente y otros aspectos cruciales.
En el contexto de álgebra lineal, los conceptos análogos a los KPIs se consideran como
"indicadores clave del desempeño". Estos indicadores proporcionan información crucial
sobre la estructura y el comportamiento de las matrices y los sistemas lineales. Por ejemplo,
determinar la invertibilidad de una matriz puede considerarse un indicador clave del
desempeño, ya que revela si un sistema de ecuaciones lineales tiene una solución única.
Cuando los estudiantes y profesionales de álgebra lineal aplican estos conceptos, pueden
evaluar con éxito las propiedades y las implicaciones de las transformaciones lineales y las
operaciones matriciales en relación con los objetivos específicos de sus problemas. De esta
manera, los "indicadores clave del desempeño" en álgebra lineal ayudan a medir y evaluar
cómo se comportan los elementos matriciales en función de los objetivos y metas
particulares, permitiendo un análisis más profundo y una comprensión más completa de las
estructuras y relaciones matemáticas en juego.
Reducción de dimensiones
Reducción de dimensiones (análisis de datos)
En álgebra lineal, la reducción de dimensiones implica encontrar representaciones más
compactas y significativas de datos en espacios de menor dimensión. Esto se logra mediante
técnicas como la búsqueda de subespacios, proyecciones, descomposición en valores
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
singulares y análisis de componentes principales como lo son los subespacios, un subespacio
es un conjunto de vectores que pertenecen a un espacio vectorial más grande. En la
reducción de dimensiones, a menudo se busca encontrar subespacios de menor dimensión
que sean significativos para la representación de los datos. Por ejemplo, en el Análisis de
Componentes Principales (PCA), se buscan subespacios que capturen la mayor varianza de
los datos originales.
La proyección de un vector en un subespacio es la representación de ese vector en el
subespacio. La proyección puede utilizarse para reducir la dimensión, ya que permite
representar los datos en un espacio de menor dimensión al considerar sólo ciertos
componentes del vector original.
La SVD también es una técnica que descompone una matriz en tres componentes: una
matriz de vectores izquierdos singulares, una matriz diagonal de valores singulares y una
matriz de vectores derechos singulares. Esta descomposición puede utilizarse para reducir la
dimensión de los datos al seleccionar un número menor de valores singulares y sus
correspondientes vectores singulares, mientras que para la reducción de dimensiones se
ocupan las bases ortonormales, que son un conjunto de vectores linealmente
independientes y normalizados (de longitud unitaria) que forman una base para un espacio
vectorial. Al trabajar con bases ortonormales, es posible representar vectores en términos
de un conjunto más pequeño de componentes, lo que lleva a una reducción de dimensiones.
Por otro lado la PCA es una técnica que busca transformar los datos originales en un nuevo
conjunto de componentes principales, que son combinaciones lineales de las características
originales. Estas nuevas dimensiones se ordenan en función de la cantidad de varianza que
explican, lo que permite reducir la dimensión mientras se retiene la mayor cantidad posible
de información.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
A menudo, los conjuntos de datos contienen muchas características o dimensiones, lo que
puede llevar a problemas de maldición de la dimensionalidad y hacer que los algoritmos de
clasificación sean menos eficaces o más propensos al sobreajuste. La reducción de
dimensiones implica la transformación del conjunto de datos original en un conjunto de
datos de menor dimensión mientras se intenta conservar la información importante. Esto
puede ayudar a mejorar la clasificación, ya que se reducen las redundancias y el ruido en los
datos, lo que hace que los modelos de clasificación sean más eficientes y efectivos. Cómo
sucede con nuestra matriz de análisis de datos, que al tener más de 200 valores será más
viable que hagamos una reducción de dimensiones, y que al codificarlos nuestros resultados
salgan más precisos y menos conglomerados y redundantes.
Componentes principales
El estudio de vectores y matrices es la médula del álgebra lineal. El estudio de vectores
comenzó esencialmente con el trabajo del matemático irlandés sir William Hamilton
(1805-1865).
Su deseo de encontrar una forma de representar un cierto tipo de objetos en el
plano y el espacio lo llevó a descubrir lo que él llamó cuaterniones. Esta noción condujo al
desarrollo de lo que ahora se conoce como vectores.
“Vector renglón de n componentes: Un vector de n componentes se define como un
conjunto ordenado de n números escritos de la siguiente manera:
(x1, x2, . . . , xn)
Vector columna de n componentes: Un vector columna de n componentes es un conjunto
ordenado de n números escritos.
Símbolo Rn: Se usa el símbolo Rn para denotar al conjunto de todos los vectores de
dimensión n,.
Símbolo Cn: De manera similar, se usa el símbolo Cn para denotar al conjunto de todos los
vectores de dimensión n.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
Matriz: Una matriz A de m × n es un arreglo rectangular de mn números dispuestos en m
renglones y n columnas”
Grossman, S., & Flores, J. J. (n.d.).P 48-53
Además, en el análisis de componentes principales, se pueden encontrar nuevas
dimensiones o ejes en el espacio de características original que se crean mediante
combinaciones lineales de las características originales. Las componentes principales se
ordenan de tal manera que la primera componente principal captura la mayor varianza
posible en los datos, la segunda componente principal captura la siguiente mayor varianza
no explicada por la primera, y así sucesivamente. Las componentes principales son
ortogonales entre sí, lo que significa que son perpendiculares en el nuevo sistema de
coordenadas, están diseñadas para capturar la varianza en los datos. La primera
componente principal captura la máxima varianza posible, y las siguientes componentes
principales capturan las variabilidades restantes en orden decreciente. Al utilizar un número
menor de componentes principales en comparación con las características originales, es
posible reducir la dimensión de los datos manteniendo la mayor parte de su información
significativa.
El proceso de obtención de las componentes principales implica realizar una transformación
lineal en los datos originales. Esta transformación se realiza mediante vectores propios y
valores propios de la matriz de covarianza o matriz de correlación de los datos. Los valores
propios representan la cantidad de varianza capturada por cada componente principal. Un
objetivo común del análisis de componentes principales es seleccionar un número reducido
de componentes principales que capturen una alta proporción de la variabilidad total en los
datos. Esto permite simplificar la interpretación y visualización de los datos sin perder
información importante. ¿Cómo se relaciona con nuestra situación problema, es decir con la
clasificación de variables? La transformación de los datos en los componentes principales a
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
menudo tiene como objetivo maximizar la varianza de los datos en las nuevas dimensiones.
Esto significa que los primeros componentes principales capturan la mayor parte de la
variabilidad en los datos originales. Cuando se utiliza en el contexto de clasificación, esta
técnica puede ayudar a aumentar la separabilidad entre las clases, lo que hace que sea más
fácil para los algoritmos de clasificación distinguir entre diferentes categorías o clases.
Los componentes principales también se pueden utilizar para visualizar datos de alta
dimensión en un espacio de menor dimensión. Esto puede ser útil para la clasificación, ya
que permite observar cómo se agrupan o dispersan las muestras de diferentes clases en el
espacio de los componentes principales. Una visualización clara puede ayudar a los analistas
y los modelos de clasificación a comprender mejor la estructura de los datos y tomar
decisiones más informadas.
Valores y vectores propios
Los valores y vectores característicos también se denominan valores y vectores propios o
eigenvalores y eigenvectores; el término alemán eigen significa “propio”.
Los valores propios son escalares que representan cómo la matriz escalar los vectores
propios, que son los vectores que solo cambian en magnitud pero no en dirección después
de aplicar la matriz. Los valores propios y vectores propios son útiles en diversas áreas, como
análisis de sistemas dinámicos, procesamiento de imágenes y muchas otras aplicaciones
matemáticas y científicas.
Los valores propios y los vectores propios son conceptos fundamentales que se aplican
principalmente a las matrices cuadradas. De los cuales:
Valor Propio (Eigenvalue): Sea valor propio de una matriz cuadrada A es un número λ
tal que existe un vector no nulo v que, al ser multiplicado por A, da como resultado
un múltiplo del mismo vector v:
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
Av = λv
Grossman, S., & Flores, J. J. (n.d.).
En otras palabras, cuando se multiplica la matriz A por el vector propio v, el resultado es
simplemente una versión escalada del vector original. El valor propio λ es el factor de escala.
Los valores propios son esenciales porque ayudan a comprender cómo una matriz afecta la
dirección y la magnitud de ciertos vectores.
Al aplicar PCA para reducir la dimensionalidad de los datos, es posible que puedas mejorar la
eficiencia de los algoritmos de clasificación. La reducción de dimensiones con PCA puede
ayudar a eliminar características redundantes o ruido en los datos, lo que simplifica el
problema de clasificación. Además, al retener sólo los componentes principales más
relevantes (es decir, aquellos con valores propios significativos), puedes concentrarte en las
dimensiones más informativas y eliminar la información menos relevante para la tarea de
clasificación. Tal y como se demostrará más adelante, en el desarrollo de nuestro código.
Conclusión del marco teórico
La importancia de matrices y vectores radica en su capacidad para revelar información
esencial sobre transformaciones lineales y sistemas dinámicos, así como en su aplicabilidad
en una amplia gama de disciplinas y problemas. En ingeniería, las matrices y vectores
propios son cruciales para el análisis de sistemas y estructuras. Ayudan a comprender cómo
ciertos sistemas responderán a diferentes entradas y condiciones iniciales, lo que es esencial
para diseñar y optimizar sistemas complejos. En el ámbito de la física, son fundamentales
para describir propiedades físicas cuánticas, como el momento angular y las simetrías.
Además, en la ciencia de datos y el aprendizaje automático, las técnicas basadas en valores y
vectores propios, como el Análisis de Componentes Principales, permite reducir la
dimensionalidad de los datos y encontrar patrones subyacentes en conjuntos masivos de
información.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
La importancia de matrices y vectores se extiende más allá de estas áreas específicas. Son
herramientas cruciales para entender sistemas complejos y para simplificar problemas, lo
que facilita la toma de decisiones y el análisis. Su utilidad radica en su capacidad para extraer
información clave, identificar tendencias y proporcionar una base sólida para la
modelización y resolución de problemas en diversas disciplinas. En última instancia, la
comprensión de matrices y vectores propios enriquece nuestro conocimiento y habilidades,
permitiéndonos abordar con éxito una amplia gama de desafíos en el mundo moderno.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
Avance 2. Matriz de covarianzas
Preguntas detonadoras:
1) ¿Cómo generar una combinación lineal entre varios indicadores? En general, ¿qué es
una combinación lineal?
Una combinación lineal es una operación matemática que implica la multiplicación de un
conjunto de valores por coeficientes y luego sumar los resultados. En el contexto de los
indicadores, una combinación lineal implica tomar varios indicadores y multiplicar cada uno
por un coeficiente específico y luego sumar los resultados. Esto se hace para crear una
nueva variable que es una combinación ponderada de los indicadores originales.
La fórmula general para una combinación lineal de indicadores se vería así:
C = a1 * I1 + a2 * I2 + a3 * I3 + ... + an * In
Donde:
C es la nueva variable o indicador resultante de la combinación lineal.
a1, a2, a3, ..., an son los coeficientes que ponderan cada indicador respectivo.
I1, I2, I3, ..., In son los indicadores originales.
Los coeficientes a1, a2, a3, ..., an son importantes porque determinan el peso relativo de
cada indicador en la combinación lineal. Estos coeficientes pueden ser positivos o negativos,
lo que significa que un coeficiente positivo aumentará la contribución de un indicador al
resultado final, mientras que un coeficiente negativo la reducirá.
Las combinaciones lineales se utilizan en una variedad de campos, incluyendo estadísticas,
análisis de datos, finanzas, aprendizaje automático y más. Pueden ser útiles para crear
nuevos indicadores que capturen de manera efectiva la información contenida en los
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
indicadores originales o para ajustar la importancia relativa de los indicadores en un modelo
o análisis particular. La elección de los coeficientes depende de los objetivos y del contexto
específico de la aplicación.
2) ¿Cómo ubicar la combinación lineal donde ocurre la mayor variabilidad de los datos?
Para ubicar la combinación lineal que capture la mayor variabilidad de los datos, puedes
utilizar una técnica llamada Análisis de Componentes Principales (PCA, por sus siglas en
inglés). El PCA es una técnica estadística que se utiliza para transformar un conjunto de
datos en una nueva combinación lineal de sus variables originales, conocidas como
componentes principales. Estos componentes principales se eligen de manera que capturen
la mayor variabilidad de los datos.
Aquí hay una descripción general de cómo llevar a cabo el PCA y encontrar la combinación
lineal que capture la mayor variabilidad:
● Estandarizar los datos: Comienza por estandarizar tus datos si es necesario. Esto
implica restar la media y dividir por la desviación estándar de cada variable para que
todas tengan la misma escala. Esto es importante para asegurarte de que las
variables con magnitudes diferentes no dominen el análisis.
● Calcular la matriz de covarianza: Calcula la matriz de covarianza de tus datos
estandarizados. La matriz de covarianza muestra cómo las variables se relacionan
entre sí y es esencial para el PCA.
● Calcular los autovectores y autovalores: Los autovectores y autovalores son los
componentes principales del PCA. Los autovalores indican la cantidad de variabilidad
explicada por cada componente principal, y los autovectores representan la dirección
de cada componente en el espacio de datos original. Puedes calcularlos a partir de la
matriz de covarianza.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
● Ordenar los componentes principales: Ordena los autovalores de mayor a menor. Los
componentes principales se ordenan en función de la cantidad de variabilidad que
explican. El primer componente principal (el que tiene el autovalor más grande)
captura la mayor variabilidad, el segundo captura la siguiente mayor variabilidad, y
así sucesivamente.
● Seleccionar la combinación lineal deseada: Puedes elegir una o varias de las primeras
componentes principales para formar tu combinación lineal. Si deseas capturar la
mayor variabilidad, selecciona las primeras componentes principales, ya que explican
la mayor parte de la variabilidad en tus datos.
● Construir la combinación lineal: La combinación lineal se construye multiplicando
cada variable original por su coeficiente correspondiente en la componente principal
seleccionada y sumando estos productos. La fórmula general para la combinación
lineal sería:
● Combinación Lineal = Coeficiente1 * Variable1 + Coeficiente2 * Variable2 + ...
● Interpretación: La combinación lineal resultante te permitirá describir tus datos en
términos de las variables originales de manera más compacta, ya que captura la
mayor variabilidad. Puedes utilizar esta combinación lineal en análisis posteriores o
para visualizar tus datos de una manera más reducida.
El PCA es una técnica poderosa para reducir la dimensionalidad de los datos mientras se
conserva la mayor cantidad de información posible en las primeras componentes
principales, lo que te permite identificar patrones y tendencias importantes en tus datos.
3) ¿Cómo convertir los datos originales (dimensión alta) a un espacio representable
(dimensión baja)? ¿Cómo calcular el error en esta representación?
La conversión de datos de alta dimensión a un espacio de baja dimensión es un proceso
fundamental en el análisis de datos, especialmente en técnicas como la reducción de
dimensionalidad. Hay varias técnicas para lograr esto, y aquí mencionaré dos de las más
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
comunes: Análisis de Componentes Principales (PCA) y T-distributed Stochastic Neighbor
Embedding (t-SNE).
Para convertir datos de alta dimensión a una dimensión más baja tendremos que usar PCA
(Análisis de componentes principales), la cual es una técnica de reducción de
dimensionalidad. Esto nos generará una representación en un espacio de baja dimensión. Es
necesario procesar los datos lo que significa que es necesario una estandarización, el
manejo de valores atípicos y en caso que haya datos faltantes, una gestión. Posteriormente
podemos calcular el error de reconstrucción comparando los datos originales con los datos
reconstruidos en el espacio de alta dimensión. La métrica comúnmente utilizada es el error
cuadrático medio entre los datos originales y los datos reconstruidos.
En caso que el error de representación sea demasiado alto será necesario ajustar
parámetros o cambiar de técnica de reducción de dimensionalidad, por ejemplo usar
T-distributed Stochastic Neighbor Embedding (t-SNE), la cual es una técnica no lineal que se
utiliza principalmente para la visualización de datos de alta dimensión en un espacio
bidimensional o tridimensional. Debemos recalcar que la elección de la métrica de error y la
interpretación de la calidad de la representación pueden variar según el contexto. En
algunos casos, un pequeño error de reconstrucción es permisible, mientras que en otros no
lo es.
Además de las métricas mencionadas previamente, existen otras métricas específicas para
evaluar la calidad de la representación en reducción de dimensionalidad. Algunas de estas
métricas incluyen la relación señal-ruido (SNR), la inercia explicada y la dispersión
intra/intergrupo. Estas métricas pueden proporcionar una comprensión más profunda de
cómo se conservan las relaciones entre los puntos en la representación de baja dimensión.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
Para evaluar de manera más robusta la calidad de la representación, puedes utilizar técnicas
de validación cruzada. Esto implica dividir tus datos en conjuntos de entrenamiento y prueba
múltiples y calcular el error de reconstrucción o métricas de calidad en cada iteración. La
validación cruzada puede ayudarte a determinar si la reducción de dimensionalidad es
generalizable a diferentes subconjuntos de datos.
Si la reducción de dimensionalidad se utiliza como un paso previo para un modelo de
aprendizaje automático, como la clasificación o la regresión, puedes evaluar el rendimiento
general del modelo en lugar de evaluar solo la representación de baja dimensión. Esto
puede proporcionar una evaluación más completa de la utilidad de la reducción de
dimensionalidad en la tarea específica.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
Introducción al uso de códigos:
Dado un conjunto de datos subdivididos en diferentes secciones (variables) es posible
determinar elementos como gráficos de sedimentación y dispersión, para ello requerimos
considerar los siguientes conceptos:
𝐼 = 𝑀𝑎𝑡𝑟𝑖𝑧 𝑖𝑑𝑒𝑛𝑡𝑖𝑑𝑎𝑑
𝑛 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠
𝐽 = 𝑀𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑢𝑛𝑜
𝐼 = 𝑀𝑎𝑡𝑟𝑖𝑧 𝑖𝑑𝑒𝑛𝑡𝑖𝑑𝑎𝑑
𝐻 = 𝑀𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑐𝑒𝑛𝑡𝑟𝑎𝑑𝑜𝑠
𝑆 = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎
1) A partir de la matriz de datos, se genera la matriz de datos centrados.
Con ello podemos comenzar a aplicar funciones en Matlab como se muestran a
continuación y sabiendo que:
𝐼 = 𝑒𝑦𝑒(𝑛)
𝐽 = 𝑜𝑛𝑒𝑠(𝑛)
𝑛 = 200
𝐻 = 𝐼 − 1/𝑛 * 𝐽
𝑋𝑛 = 𝐻 * (𝑚𝑎1034𝑑𝑎𝑡𝑜𝑠𝑠𝑖𝑡𝑝𝑟𝑏3𝐷1)
pasos realizados:
1. M= ”ma1034datossitprb3D1” : Esta línea de código asigna la matriz,
“ma1034datossitprb3D1” a la variable M. Esto implica que M contendrá los
datos almacenados en ”ma1034datossitprb3D1".
2. I = eye(200);: Aquí se crea una matriz identidad de 200x200 y se almacena en
la variable I.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
3. n = 200;: Se establece la variable n con el valor 200
4. J = ones(200);: Se crea una matriz de 200x200 compuesta completamente de
unos y se almacena en la variable J.
5. H = I-(1/n)*(J);: Se realiza una operación de matriz en esta línea, donde se
resta el producto de la matriz identidad I y (1/n) multiplicado por la matriz J a
la variable H. Esto estará calculando una matriz que se utiliza en operaciones
posteriores.
6. Xn=H*(ma1034datossitprb3D1);: Aquí se realiza una multiplicación de
matrices entre H y “ma1034datossitprb3D1”, y el resultado se almacena en la
variable Xn. Esta operación se relaciona a nuestra transformación de datos.
7. s=(1/200)*(Xn)'*Xn;: Finalmente, se calcula s, que es una matriz resultante de
multiplicar la transpuesta de Xn por sí misma, escalada por (1/200). Con esto
tenemos nuestro cálculo de covarianza.
Con ello obtenemos la matriz de datos centrados que al multiplicarla por el conjunto de
datos obtenemos los elementos necesarios para determinar la varianza y covarianza.
2) Genera la matriz S de varianzas y covarianzas.
Aplicando:
𝑆 = (1/𝑛) * 𝑋𝑛’ * 𝑋𝑛 = (1/200)𝑋𝑛’ * 𝑋𝑛
Obtenemos una matriz de 3*3 donde:
𝑠 =
8. 8107 2. 2844 2. 8878
2. 2844 3. 9184 0. 8364
2. 8878 0. 8364 1. 9196
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
* Es importante señalar que esta es una manera manual de determinar la varianza y
covarianza del conjunto de datos, sin embargo, también es posible determinarla
usando la función:
𝑆 = 𝑐𝑜𝑣(𝑚𝑎1034𝑑𝑎𝑡𝑜𝑠𝑠𝑖𝑡𝑝𝑟𝑏3𝐷1)
La variación de estos resultados en comparación con el primer proceso es muy baja,
menor al 1%
3) Determina los valores y vectores propios de la matriz S.
Una vez calculada la varianza, pueden determinarse los valores propios de lo función
que tomarán el valor de “LAMBDA” para hallar el vector propio, usando:
𝐴𝑠𝑖𝑔𝑛𝑎𝑟 𝑣𝑎𝑙𝑜𝑟 𝑎 𝑙𝑎𝑚𝑏𝑑𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑡𝑒 "𝑠𝑦𝑚 𝑙𝑎𝑚𝑏𝑑𝑎"
Entonces determinar los valores propios utilizando la fórmula:
𝑑𝑒𝑡(𝑠 − (𝑙𝑎𝑚𝑏𝑑𝑎 * 𝐼)
*Cabe resaltar que para este punto trabajamos con matrices de 3*3, tras
haber obtenido la varianza por lo que la matriz identidad I dada por 𝑒𝑦𝑒(𝑛) ahora
será de 3, de esta forma:
𝑝 = 𝑑𝑒𝑡(𝑠 − (𝑙𝑎𝑚𝑏𝑑𝑎 * 𝑒𝑦𝑒(3)))
𝑠𝑜𝑙𝑣𝑒(𝑝 == 0, 𝑙𝑎𝑚𝑏𝑑𝑎)
𝑅 = 𝑒𝑖𝑔(𝑠)
con ello encontramos como valores propios:
0. 8738
3. 0649
10. 7836
De igual forma podemos hallar estos factores utilizando el proceso de diagonalización en la
fórmula [𝑉, 𝐷] = 𝑒𝑖𝑔(𝑠) Resultando en:
𝐷 =
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
0. 8738 0 0
0 3. 0649 0
0 0 10. 7836
4) Localiza el mayor de los valores propios y el vector propio asociado.
Tras el paso anterior puede analizarse e identificarse el mayor de los valores
10. 7836
y siendo los vectores asociados según D a λ1; λ2 𝑦 λ3
Realizado este proceso podemos comenzar con la aplicación total de funciones para hallar
los diversos indicadores y gráficos.
El propósito de este código es el cálculo de una matriz de dispersión o covarianza.
Aquí está una explicación más detallada de lo que se está haciendo:
- syms lambda y p=det(s-(lambda*eye(3))): Estas líneas definen una variable simbólica
lambda y calculan la ecuación característica para la matriz s. La ecuación
característica se obtiene al calcular el determinante de la matriz s - lambda * eye(3),
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
donde eye(3) representa una matriz identidad 3x3. Esto se hace para encontrar los
valores propios de s. Luego, solve(p==0, lambda) resuelve la ecuación característica
para encontrar los valores propios.
- R=eig(s): Aquí, se utiliza la función eig para calcular directamente los valores propios
de la matriz s y se almacenan en la variable R.
- [V,D]=eig(s): Esta línea calcula tanto los vectores propios (V) como los valores propios
(D) de la matriz s utilizando la función eig.
- plot(R): Esta línea crea un gráfico de los valores propios (espectro) y muestra cómo se
distribuyen los valores propios en un gráfico.
- figure(1) y title("Gráfico de sedimentación"): Estas líneas crean una figura con el
título "Gráfico de sedimentación" para el gráfico de valores propios.
- porc = R./sum(R)*100;: Se calcula el porcentaje de cada valor propio con respecto al
total de los valores propios.
- datostransf=ma1034datossitprb3D1*V(:,[3,2]);: Se realiza una transformación de los
datos originales ma1034datossitprb3D1 multiplicando por los dos últimos vectores
propios (V(:,[3,2])). Esto puede verse como una proyección de los datos originales en
el espacio de los dos últimos componentes principales
- Figure(2) y title("Componentes principales"): Estas líneas crean una segunda figura
con el título "Componentes principales" para visualizar la proyección de los datos en
el espacio de los dos últimos componentes principales.
De esta ejecución se despliega lo siguiente:
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
El gráfico de sedimentación es una función continua de las rectas y=-7.68011x+18.40981 con
intervalo de [1, 2] seguido de la función y=-2.18018x+7.40995 con intervalo [2, 3].
Primera función (y = -7.68011x + 18.40981) en el intervalo [1, 2]: Esto sugiere que en el
intervalo [1, 2], los datos exhiben una fuerte relación lineal negativa entre los componentes
principales. En otras palabras, los datos tienden a dispersarse en una dirección específica en
el espacio de los componentes principales durante este intervalo.
Segunda función (y = -2.18018x + 7.40995) en el intervalo [2, 3]: En este intervalo [2, 3], los
datos muestran otra relación lineal negativa, pero esta vez es menos pronunciada que en el
intervalo anterior. Esto podría indicar que la dispersión de los datos en el espacio de los
componentes principales cambia en este intervalo y se vuelve menos pronunciada en
comparación con el intervalo anterior.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
En general, estas funciones lineales representan cómo los datos se dispersan y cambian en el
espacio de los componentes principales a medida que avanzan a lo largo del eje X. Las
pendientes y las intersecciones de estas funciones proporcionan información sobre la
dirección y la magnitud de la variabilidad de los datos en diferentes intervalos. Este tipo de
análisis puede ser útil para comprender cómo se estructuran y se agrupan los datos en el
espacio de componentes principales y puede ayudar a identificar patrones o tendencias
específicas en los datos.
Por otro lado nuestro gráfico de componentes principales arrojó lo siguiente:
El hecho de que la mayoría de los puntos se concentren en un área específica en el espacio
de los componentes principales (en el rango aproximado de -1 a 3 en el eje X y de -4 a 6 en
el eje Y) sugiere que existe una alta densidad de datos en esa región. Esto podría indicar una
estructura o una agrupación de datos en esas coordenadas de los componentes principales.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
Puntos Extremos: Los puntos más bajos y más altos en el gráfico de componentes principales
son de interés. El punto más bajo representa una ubicación donde los datos tienen los
valores más bajos en ambos componentes principales, lo que podría indicar una región
atípica o poco común en tus datos. El punto más alto, por otro lado, indica una ubicación
donde los datos tienen valores extremadamente altos en ambos componentes principales,
lo que también podría ser una región de interés o una característica destacada en los datos.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
Interpretación de resultados
Recordemos la matriz diagonal de valores propios de un análisis de componentes principales
(PCA), se puede calcular el porcentaje de variabilidad capturada directamente a partir de
estos valores propios. El porcentaje de variabilidad capturada para cada componente
principal se calcula dividiendo cada valor propio por la suma total de todos los valores
propios.
𝑠 =
8. 8107 2. 2844 2. 8878
2. 2844 3. 9184 0. 8364
2. 8878 0. 8364 1. 9196
y sus valores propios…
0. 8738
3. 0649
10. 7836
Ocupamos el siguiente código, evidentemente con los respectivos datos [0.8738, 3.0649,
10.7836];
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
- %Definir la matriz diagonal de valores propios eigenvalues = [0.8738, 3.0649,
10.7836]; En esta línea, definimos una matriz eigenvalues que representa los valores
propios resultantes de un análisis de componentes principales.
- % Calcular el porcentaje de variabilidad capturada para cada componente
total_variability = sum(eigenvalues); % Suma de todos los valores propios. Aquí
calculamos la suma total de todos los valores propios en la variable total_variability.
Esta suma representa la variabilidad total en los datos originales.
- % Calcular el porcentaje de variabilidad capturada para cada
componentepercent_variability = (eigenvalues / total_variability) * 100; En estas
líneas, calculamos el porcentaje de variabilidad capturada para cada componente
principal. Dividimos cada valor propio en la matriz eigenvalues por la suma total
total_variability y luego multiplicamos el resultado por 100 para obtener el
porcentaje.
- % Mostrar los resultados disp('Porcentaje de variabilidad capturada para cada
componente:'); disp(percent_variability); Estas líneas muestran los resultados en la
consola de MATLAB. Mostramos el porcentaje de variabilidad capturada para cada
componente principal utilizando la función disp.
De esto obtenemos estos resultados…
Con esto podemos interpretar que el primer componente principal (el que corresponde al
valor propio más grande) captura aproximadamente el 5.94% de la variabilidad total en los
datos. El segundo componente principal captura aproximadamente el 20.82% de la
variabilidad total. El tercer componente principal (el que corresponde al valor propio más
pequeño) captura aproximadamente el 73.25% de la variabilidad total, Y QUE EL TERCER
INDICADOR DE LA TABLA ES EL QUE MÁS PESO TIENE.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
Conclusión
Hemos tenido la oportunidad de explorar conceptos fundamentales en estadísticas y análisis
de datos que son esenciales para comprender la variabilidad en conjuntos de datos y
mejorar la toma de decisiones. Comenzamos con el porcentaje de variabilidad capturada,
una medida crucial en el mundo de la estadística y el análisis de datos. Esta medida es
fundamental porque nos proporciona información sobre cuánta variación en un conjunto de
datos es explicada por un modelo estadístico o un conjunto de variables. Su importancia
radica en la evaluación de la bondad de ajuste de un modelo. Un alto porcentaje de
variabilidad capturada sugiere que el modelo es efectivo para explicar y predecir datos,
mientras que un bajo porcentaje puede indicar la necesidad de un modelo más complejo o
la búsqueda de variables adicionales que expliquen la variación.
Luego, nos adentramos en el análisis de componentes principales (PCA), una técnica
ampliamente utilizada para reducir la dimensionalidad de los datos y encontrar patrones
subyacentes. Descubrimos que los vectores propios desempeñan un papel crucial en PCA, ya
que representan las direcciones en las que los datos tienen la máxima variabilidad. Tener
una base de vectores propios ortogonales simplifica significativamente el análisis, facilitando
la interpretación de las relaciones entre variables y ayudando a identificar las dimensiones
más importantes en los datos. Esta herramienta es valiosa en campos tan diversos como la
investigación científica, el análisis financiero, la biología, la ingeniería y más.
Finalmente, comprendí cómo calcular el porcentaje de variabilidad capturada a partir de una
matriz diagonal de valores propios. Este cálculo es esencial en PCA para determinar la
importancia relativa de cada componente principal en la explicación de la variación en los
datos. Los resultados específicos que obtuve [5.9352, 20.8181, 73.2467] revelaron que la
mayoría de la variabilidad en los datos se encuentra en el tercer componente principal,
seguido por el segundo y el primero.
Tecnológico de Monterrey Campus Puebla
Avance 1. Investigación inicial
Álgebra lineal
En conjunto, estas exploraciones han enriquecido mi comprensión de la estadística y el
análisis de datos, proporcionando herramientas esenciales para evaluar la calidad de los
modelos y entender la variabilidad en los datos. Estos conceptos y técnicas tienen
aplicaciones cotidianas en una amplia gama de campos, desde la toma de decisiones
empresariales y la investigación científica hasta el análisis de datos de salud y la
optimización de sistemas. El conocimiento de estas herramientas puede ser invaluable para
aquellos que buscan extraer información significativa de los datos y tomar decisiones
informadas en su vida y trabajo diarios.