0% encontró este documento útil (0 votos)
60 vistas12 páginas

Proyecto Final Modelos

El proyecto investiga el uso de técnicas de aprendizaje automático para clasificar tumores de mama como benignos o malignos, utilizando la base de datos 'Breast Cancer Wisconsin (Diagnostic)'. Se desarrollaron varios modelos, destacando Random Forest por su alta precisión del 95.16%, y se concluye que estos modelos pueden mejorar la detección temprana del cáncer en áreas con recursos médicos limitados. Además, se realizó un análisis de la importancia de características que identificó variables clave para la clasificación, como el perímetro y el área del tumor.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
60 vistas12 páginas

Proyecto Final Modelos

El proyecto investiga el uso de técnicas de aprendizaje automático para clasificar tumores de mama como benignos o malignos, utilizando la base de datos 'Breast Cancer Wisconsin (Diagnostic)'. Se desarrollaron varios modelos, destacando Random Forest por su alta precisión del 95.16%, y se concluye que estos modelos pueden mejorar la detección temprana del cáncer en áreas con recursos médicos limitados. Además, se realizó un análisis de la importancia de características que identificó variables clave para la clasificación, como el perímetro y el área del tumor.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Proyecto Final Modelos Computacionales

Ana Sofia Castro Lopera, Natalia Mora Prado, Zuleygy Danitsa Morales Acosta, Laura Ramirez
Agudelo
Universidad Autónoma de Manizales, Área de Ingeniería,
Colombia
[Link]@[Link]
[Link]@[Link]
[Link]@[Link]
[Link]@[Link]

Resumen: El cáncer de mama es uno determinantes en la clasificación. Estos


de los cánceres más diagnosticados en mujeres hallazgos podrían servir como base para
y una de las principales causas de muerte sistemas automatizados de detección temprana,
oncológica a nivel mundial. Este proyecto especialmente en regiones con recursos
explora el uso de técnicas avanzadas de médicos limitados.
aprendizaje automático para clasificar tumores
mamarios como benignos o malignos, Palabras claves: Cáncer de mama, aprendizaje
utilizando la base de datos "Breast Cancer automático, clasificación, Random Forest,
Wisconsin (Diagnostic)". Se desarrollaron SVM, regresión, diagnóstico automatizado.
diversos modelos supervisados, como Random
Forest, SVM, Árbol de Decisión, Redes I. INTRODUCCIÓN
Neuronales y técnicas de regresión como
Regresión Polinomial y Regresión de Soporte El cáncer de mama es el tipo de cáncer más
Vectorial. El preprocesamiento incluyó la diagnosticado en mujeres a nivel mundial y una
normalización, selección de características y de las principales causas de muerte por
balanceo de clases para garantizar datos de alta enfermedades oncológicas. Según la
calidad y mejorar la capacidad predictiva de los Organización Mundial de la Salud (OMS), en
modelos. 2022 se diagnosticaron aproximadamente 2,3
millones de casos nuevos de cáncer de mama en
Los resultados muestran que Random mujeres, con 685.000 muertes relacionadas con
Forest fue el modelo más robusto, logrando una esta enfermedad [1]. La incidencia y mortalidad
precisión del 95.16% ± 2.66 y un F1-score del del cáncer de mama varían significativamente
95.17% ± 2.63 en validación cruzada, entre países, siendo más altas en regiones con
superando a otros métodos. Por su parte, la Red recursos limitados debido a la falta de acceso a
Neuronal presentó un desempeño sólido en programas de detección temprana y
validación cruzada, pero mostró una caída en el tratamientos avanzados. La detección precoz es
conjunto de prueba, indicando un posible esencial para mejorar las tasas de supervivencia
sobreajuste. La regresión de soporte vectorial y y reducir las complicaciones asociadas con
polinomial destacaron en términos de tratamientos más invasivos.
generalización en datos complejos.
Tradicionalmente, el diagnóstico del cáncer de
Se concluye que los modelos basados mama se basa en exámenes físicos, estudios de
en árboles y SVM son ideales para tareas de imagen como mamografías, ecografías y
clasificación médica, mientras que el análisis de resonancias magnéticas, además de biopsias.
la importancia de características destacó Sin embargo, este proceso puede ser subjetivo y
variables como el perímetro, radio y área como depende en gran medida de la experiencia del
médico, lo que subraya la necesidad de médicos limitados. La combinación de
herramientas complementarias que apoyen el herramientas analíticas y conocimiento médico
diagnóstico. En este contexto, el análisis de tiene el potencial de transformar la forma en
datos mediante técnicas de aprendizaje que se detectan y tratan las enfermedades
automático ofrece una solución innovadora, oncológicas.
permitiendo analizar grandes volúmenes de
información, identificar patrones ocultos y
proporcionar predicciones rápidas y precisas. II. METODOLOGÍA

La base de datos "Breast Cancer Wisconsin El objetivo principal de este proyecto es


(Diagnostic)", desarrollada por Wolberg y desarrollar una metodología computacional
Mangasarian, es ampliamente utilizada en para la clasificación de tumores de mama en
investigaciones sobre diagnóstico automatizado benignos o malignos, utilizando la base de
del cáncer de mama. Este conjunto de datos datos Breast Cancer Wisconsin (Diagnostic).
incluye información obtenida de imágenes Este proceso se llevó a cabo en Google Colab,
digitalizadas de aspiraciones con aguja fina de una plataforma en línea que permite la
masas mamarias, codificada en 30 programación y ejecución de código Python de
características numéricas que describen forma gratuita. La metodología combina
propiedades físicas y morfológicas de los técnicas de preprocesamiento de datos,
tumores, como tamaño, textura, perímetro, área importancia de características y modelos de
y propiedades fractales. Cada muestra está aprendizaje automático para desarrollar un
etiquetada como maligna o benigna, lo que sistema de predicción bueno. Este enfoque no
facilita el entrenamiento y evaluación de solo optimiza la clasificación de los tumores,
modelos predictivos supervisados [2]. sino que también mejora la interpretabilidad y
la comprensión de los factores determinantes en
El objetivo de este proyecto es explorar el la detección del cáncer de mama.
potencial de esta base de datos en el desarrollo
de modelos predictivos basados en técnicas La base de datos utilizada en este proyecto se
avanzadas de aprendizaje automático. denomina Breast Cancer Wisconsin
Algoritmos como árboles de decisión, bosques (Diagnostic). Esta base contiene información
aleatorios y máquinas de soporte vectorial han clínica recopilada a partir de imágenes digitales
demostrado ser eficaces en tareas de de biopsias de mama y se ha utilizado
clasificación médica. Este trabajo busca ampliamente en proyectos de investigación para
comparar su desempeño en la predicción de entrenar modelos de clasificación supervisada.
tumores mamarios y evaluar la importancia de La base de datos se compone de un total de 569
las características individuales en la muestras y 32 atributos, de los cuales uno es un
clasificación, proporcionando información identificador (ID) que se eliminó por no aportar
sobre qué variables son más relevantes para valor predictivo, uno corresponde a la variable
diferenciar entre tumores benignos y malignos. objetivo o etiqueta de clasificación (Diagnosis)
y los 30 restantes son características
Además de demostrar la viabilidad técnica de cuantitativas que describen propiedades físicas
estos modelos, este informe pretende destacar de los tumores, tales como tamaño, textura,
su aplicabilidad práctica en entornos clínicos. perímetro, área, suavidad, compacidad,
Los resultados obtenidos podrían servir como concavidad, simetría y dimensión fractal. Cada
base para el diseño de sistemas automatizados una de estas características se calcula en tres
de apoyo al diagnóstico, integrados en versiones: promedio (mean), error estándar (se)
programas de detección temprana de cáncer de y valor máximo (worst). La variable objetivo
mama, especialmente en regiones con recursos
“Diagnosis” se codifica en dos clases: B Se entrenaron diversos modelos de aprendizaje
(Benigno) y M (Maligno). automático para evaluar su rendimiento. Los
modelos utilizados fueron: Random Forest
El preprocesamiento es una etapa esencial para Classifier, configurado con 500 árboles de
la preparación de la base de datos antes de su decisión para reducir la varianza, asegurando un
análisis y clasificación. En este proyecto, se equilibrio entre sesgo y varianza; Decision Tree
llevaron a cabo las siguientes actividades: la Classifier, que permite crear un modelo
base de datos se cargó desde un archivo CSV interpretable que permita visualizar la lógica de
mediante la función pd.read_csv() y se creó un decisión de cada nodo; y Gradient Boosting
DataFrame para almacenar los datos, Classifier, un modelo de Gradient Boosting que
permitiendo su manipulación y análisis. Se reduce errores de predicción mediante la
eliminó la columna de ID, ya que no aportaba combinación secuencial de árboles de decisión.
información útil para la clasificación. Se
verificó la presencia de valores nulos y, en caso Para evaluar el rendimiento de los modelos, se
de encontrarlos, se reemplazaron con la media utilizaron las siguientes métricas: Precisión
de la columna correspondiente. La variable (accuracy), que mide el porcentaje de
Diagnosis se codificó numéricamente, predicciones correctas; matriz de confusión,
asignando 0 para Benigno (B) y 1 para Maligno que analiza los verdaderos positivos (TP),
(M). Posteriormente, se normalizaron las verdaderos negativos (TN), falsos positivos
características usando la función (FP) y falsos negativos (FN); y Precision,
StandardScaler() para asegurar que las variables Recall y F1-score, que se calcularon para
tuvieran una media de 0 y una desviación obtener una evaluación más completa de la
estándar de 1. Esto permite que el modelo de clasificación.
aprendizaje automático no se vea afectado por
diferencias de escala entre las variables. Se utilizó la técnica SHAP (SHapley Additive
Finalmente, la base de datos se dividió en un Explanations) para interpretar la contribución
80% para entrenamiento y 20% para prueba, de cada característica en la predicción. SHAP
usando la función train_test_split() de permite comprender la importancia de cada
scikit-learn. Se utilizó la opción de variable y su impacto en la clasificación de un
stratify=True para mantener la proporción de tumor como benigno o maligno.
las clases en ambos conjuntos.

Para mejorar la eficiencia de los modelos de III. RESULTADOS Y DISCUSIONES


clasificación y reducir el ruido de los datos, se
aplicó una técnica de selección de En esta sección presentamos el análisis
características. Se utilizó la función detallado de los hallazgos obtenidos a partir de
SelectFromModel con un modelo de Random la aplicación de diferentes modelos de
Forest. Este método permite seleccionar solo las clasificación para la detección de tumores de
variables más relevantes, eliminando aquellas mama. Este análisis se basa en la interpretación
con menor influencia en la predicción. Los de la información obtenida en cada una de las
pasos realizados fueron: se entrenó un Random etapas del proceso, comenzando con un estudio
Forest Classifier para calcular la importancia de descriptivo de las características del conjunto
cada característica; se estableció un umbral para de datos, seguido por la evaluación de la
eliminar las características con menor importancia de las variables y, finalmente, la
importancia; y se seleccionaron solo las comparación del desempeño de los modelos de
variables con mayor relevancia para la aprendizaje automático.
predicción de la clase (B o M).
El principal objetivo de esta sección es (TN), falsos positivos (FP) y falsos negativos
evidenciar la eficacia de los modelos utilizados (FN), proporcionando una visión más completa
(Random Forest, Árboles de Decisión, Gradient de la eficacia de la clasificación.
Boosting y Redes Neuronales) para la
clasificación de tumores en benignos o Finalmente, esta sección discute la relevancia
malignos, utilizando métricas de evaluación de los resultados obtenidos, analizando los
como la precisión, el recall, el F1-score y la posibles errores de clasificación, la robustez de
matriz de confusión. Estos indicadores permiten los modelos y la implicación de las
evaluar la capacidad de predicción de los características más importantes. Se destaca la
modelos y su potencial aplicación en entornos aplicabilidad del enfoque propuesto en
clínicos. contextos reales, como la detección temprana
del cáncer de mama, y se proporciona una base
Para garantizar la validez de los resultados, se para futuras mejoras en la metodología y la
realizaron varias etapas de procesamiento, que implementación de sistemas predictivos para la
incluyeron la limpieza de datos, la salud.
normalización y la selección de características Para eso se debe tener en cuenta los diferentes
clave. Estas etapas permitieron optimizar el modelos que se utilizaron y la selección de de
rendimiento de los modelos, reduciendo el características para conocer la clasificación de
riesgo de sobreajuste y mejorando la los tumores.
interpretabilidad de los resultados.
1. Importancia de características
En primer lugar, se presenta un análisis
exploratorio de los datos, donde se incluyen Se evaluó la importancia de las características
visualizaciones de histogramas, diagramas de para identificar las variables más relevantes en
cajas (boxplots) y un mapa de calor de la la predicción de la clase objetivo. Utilizando el
correlación. Estos gráficos permiten observar la atributo feature_importances_ del modelo, se
distribución de las características, la relación determinó el grado de contribución de cada
entre ellas y la presencia de posibles valores característica en la reducción de la impureza del
atípicos. modelo.

Posteriormente, se muestra la importancia de


las características calculadas mediante el
modelo de Random Forest, que identifica las
variables más relevantes para la clasificación.
Este análisis proporciona una perspectiva clara
de los factores que más influyen en la
predicción del cáncer de mama, destacando la
dimensión fractal, la concavidad y la textura
como las características más significativas.
Figura 1. Importancia de características

En cuanto al desempeño de los modelos, se La Figura 1 muestra la importancia de cada


analiza el rendimiento de cada uno, destacando característica utilizada en el modelo de
la capacidad de Random Forest para clasificar clasificación. Se observa que la característica
correctamente la mayoría de los casos, con una Perímetro promedio es la que más contribuye al
precisión del 97.37%, superando a los otros modelo con una importancia del 30%. Las
métodos. Para cada modelo, se incluye una características Radio promedio (25%) y Área
matriz de confusión que detalla los valores de promedio (20%) también tienen una alta
verdaderos positivos (TP), verdaderos negativos
influencia en el modelo, lo que muestra que
estas tres características son las más relevantes
para predecir la clase objetivo.

El preprocesamiento de los datos incluyó la


normalización y la eliminación de valores nulos
para garantizar la calidad de los datos antes del
entrenamiento de los modelos. Se utilizaron
técnicas como la estandarización con
StandardScaler, que transforma los datos para
que tengan media 0 y varianza 1, asegurando
que todas las características están en la misma
escala. Además, se verificó la presencia de
Figura 2. Histograma
valores nulos utilizando [Link]().sum(),
permitiendo identificar y tratar posibles valores Se generaron gráficos de histograma para cada
faltantes. En cuanto a los datos estadísticos, se característica como se observa en la Figura 2,
realizaron cálculos de medidas de facilitando la identificación de patrones
centralización (media, mediana) y dispersión relevantes. Estas gráficas muestran claramente
(desviación estándar) para comprender la la concentración de los valores de cada variable
distribución de las características, facilitando la en intervalos específicos. De forma
identificación de outliers o anomalías. Este complementaria, se emplearon gráficos de
proceso asegura la calidad y consistencia de los densidad para observar la forma continua de la
datos antes de aplicar cualquier modelo distribución.
predictivo.

Para analizar la distribución de las 3. Mapa de Calor de la Correlación de


características, se tendrá en cuenta los métodos Variables
a utilizar y sus respectivos resultados como los
histogramas, los mapas de calor y el diagrama El mapa de calor de la correlación se utilizó
de cajas para evaluar la relación entre las características
del conjunto de datos. La correlación mide la
2. Distribuciones de las Variables fuerza y la dirección de la relación lineal entre
(Histogramas y Gráficos de Densidad) dos variables, con valores que oscilan entre -1 y
1 como se puede ver en la Figura 3.
Para comprender la forma en que las variables
están distribuidas, se generaron histogramas y
gráficos de densidad para cada una de las
características. Estas visualizaciones permiten
observar la simetría, la presencia de sesgos y la
concentración de los datos en ciertos intervalos.
Figura 3. Mapa de calor

● Se observó una fuerte correlación


positiva entre las características
derivadas de la misma propiedad, como
el área, el perímetro y el radio del
tumor, lo que sugiere que estas
variables miden conceptos similares.
● Se encontraron correlaciones superiores
a 0.85 entre variables como el
perímetro promedio y el área máxima,
indicando una posible redundancia
entre ellas.
● La correlación negativa fue
prácticamente inexistente, lo que
sugiere que la mayoría de las Figura 4. Diagrama de cajas
características están positivamente
relacionadas entre sí. Como se puede observar en la Figura 4 se
identificaron valores atípicos en algunas
Se optó por conservar las variables más características, como el área y el perímetro, las
importantes, seleccionadas con base en la cuales presentaron puntos extremos alejados de
técnica SelectFromModel. La selección de la mediana. Las características con
características se justifica mediante la distribuciones asimétricas evidenciaron una
eliminación de aquellas con alta correlación mayor cantidad de outliers, especialmente en la
para reducir la dimensionalidad y evitar la concavidad y la dimensión fractal, lo que se
multicolinealidad. asocia con la asimetría observada en los
La representación del mapa de calor permite histogramas.
visualizar las correlaciones de forma sencilla,
destacando las relaciones fuertes con colores Debido a la relevancia clínica de estos casos, se
más intensos. decidió no eliminar los outliers, ya que pueden
representar casos reales y significativos en la
4. Diagramas de Cajas para Identificar clasificación de tumores. Este enfoque
Outliers proporciona una visión integral de la calidad de
los datos y permite realizar ajustes esenciales
Los diagramas de cajas se utilizan para antes de entrenar los modelos de clasificación.
identificar outliers (valores atípicos) en las
características del conjunto de datos. Estos 5. Balanceo de datos
gráficos muestran la mediana, los cuartiles y los
El balanceo de los datos se realizó para abordar
valores extremos de cada variable,
el problema de la desproporción entre las clases
proporcionando una visión clara de la
de la variable objetivo. Este proceso es crucial
dispersión de los datos.
cuando una clase está significativamente
sobrerrepresentada en comparación con la otra,
lo que puede causar que los modelos de
clasificación tengan un sesgo hacia la clase
mayoritaria. Para equilibrar las clases, se
pueden usar técnicas como submuestreo
(undersampling), sobremuestreo (oversampling)
o el uso de métodos avanzados como SMOTE
como se puede observar en la Figura 6. Este exhaustiva en un rango de valores definidos.
balanceo permite que el modelo aprenda de Los hiperparámetros clave evaluados
forma equitativa de ambas clases, mejorando la incluyeron el número de árboles (n_estimators),
precisión y la capacidad de generalización del la profundidad máxima (max_depth), el número
modelo. mínimo de muestras necesarias para dividir un
nodo (min_samples_split) y el número mínimo
de muestras por hoja (min_samples_leaf). Se
Figura 6 Distribución de clases SMOTE aplicó una validación cruzada como se observa
en los resultados de la Figura 8 este evaluó la
6. PCA precisión promedio de cada combinación,
seleccionando la configuración con mejor
Se aplicó PCA (Análisis de Componentes desempeño. Este enfoque garantizó la
Principales) para reducir la dimensionalidad del generalización del modelo y evitó el
conjunto de datos, seleccionando los sobreajuste, asegurando la obtención de un
componentes principales que explican al menos modelo robusto y preciso.
el 96% de la varianza total. Este proceso
permitió proyectar las características originales
en un espacio de menor dimensión, preservando
la mayor parte de la información relevante y Figura 8. Validación cruzada media
reduciendo la redundancia entre las variables.
9. Clasificación
Además, se utilizó PCA + Scaler para escalar
los datos antes de aplicar PCA, asegurando que En esta clasificación se implementa un proceso
todas las características tuvieran la misma completo de clasificación supervisada
escala (media 0 y varianza 1). Esto es utilizando cinco modelos: Árbol de Decisión,
fundamental, ya que PCA se basa en la varianza KNN, Random Forest, Extra Trees y SVM.
de los datos, y si las variables están en Primero, se divide el conjunto de datos en
diferentes escalas, las de mayor magnitud entrenamiento (80%) y prueba (20%) de forma
dominarán el análisis. Esta combinación mejora estratificada. Luego, se escalan las
la eficacia del PCA y garantiza una mejor características mediante StandardScaler para
proyección de los componentes. normalizar los valores y asegurar la correcta
convergencia de los modelos. Cada modelo se
entrena y evalúa utilizando una validación
cruzada de 5 pliegues (K-Fold), calculando las
métricas de precisión, recall, F1-score y
exactitud (accuracy). Además, se evalúa cada
Figura 7. Resultados del PCA + Scaler modelo en el conjunto de pruebas para medir su
capacidad de generalización. Finalmente, se
MODELOS DE CARACTERIZACIÓN Y muestra la matriz de confusión para visualizar
REGRESIÓN SUPERVISADA los aciertos y errores de predicción y se
presenta un reporte de clasificación con el
8. GridSearch rendimiento del modelo en cada clase. Este
enfoque permite comparar los modelos y
El proceso de GridSearch se utilizó para seleccionar el que ofrece mayor precisión y
optimizar los hiperparámetros de los modelos generalización.
de clasificación. Este proceso consistió en
buscar la mejor combinación de
hiperparámetros mediante una búsqueda
Figura 9. Resultados de Árbol de decisión

Figura 12. Resultados de Extra tress

Figura [Link] de KNN

Figura 13. Resultados de confusión SVM

En las Figuras 9, 10 , 11, 12 y 13 , se pueden


observar las gráficas de las diferentes matrices
de confusión y los respectivos reportes de
clasificación. Estas visualizaciones permiten
identificar el rendimiento de cada uno de los
modelos de clasificación utilizados, destacando
tanto los aciertos como los errores en la
predicción de las clases.

Las matrices de confusión muestran la cantidad


de predicciones correctas (valores en la
diagonal principal) y los errores de clasificación
Figura 11. Resultados de Random forest (falsos positivos y falsos negativos) para cada
modelo. Por otro lado, los reportes de
clasificación presentan métricas clave como la
precisión, el recall y el F1-score para cada
clase, permitiendo evaluar el equilibrio entre las
predicciones correctas y los errores cometidos.
Estas métricas permiten comparar de forma 11.1 Regresión Múltiple
objetiva el desempeño de los modelos,
facilitando la selección del modelo más La Regresión Múltiple se utilizó para modelar
eficiente y preciso para la tarea de clasificación la relación entre múltiples características
planteada. independientes y la variable dependiente. Este
enfoque supone una relación lineal entre las
10. Red neuronal variables, y los resultados mostrados en la
Figura 15 un desempeño bueno en escenarios
La red neuronal implementada mostró un donde los datos presentan relaciones directas.
desempeño sólido durante la validación Sin embargo, su capacidad para manejar
cruzada, alcanzando una precisión promedio patrones complejos fue limitada, reflejándose
del 91.87% y un F1-score de 91.92%, lo que en un R² = 0.7271 que es relativamente bajo y
indica un buen equilibrio entre precisión y un error promedio elevado en el conjunto de
recall en los datos de entrenamiento. Sin prueba. Esto indica que la regresión múltiple
embargo, en el conjunto de prueba, el puede ser insuficiente cuando hay interacciones
rendimiento disminuyó significativamente, con no lineales entre las variables.
una precisión del 68.60% y un F1-score de
57.19%, acompañado de una alta variabilidad 11.2 Regresión Polinomial
en las métricas (desviaciones estándar
elevadas). Esto sugiere que la red puede estar La Regresión Polinomial extendió la regresión
experimentando sobreajuste (overfitting), lineal al incluir términos polinómicos de mayor
habiendo aprendido patrones específicos del grado, permitiendo capturar relaciones no
conjunto de entrenamiento que no generalizan lineales entre las características y la variable
bien a datos nuevos. Además, la baja precisión objetivo. Este modelo mostró un sobreajuste en
en el conjunto de prueba (49.99%) indica una comparación con la regresión múltiple, con un
alta tasa de falsos positivos, mientras que el R² = - 32.1005 lo que refleja la importancia de
recall más elevado (68.60%) refleja una un diseño cuidadoso y un tamaño adecuado de
moderada capacidad para identificar dataset.
correctamente los casos positivos asi como se
puede observar en la figura 14. Para mejorar el
modelo, sería recomendable aplicar técnicas de
11.3 Regresión de Soporte Vectorial
regularización, ajustar la arquitectura de la red
o aumentar la cantidad y diversidad de datos de
La Regresión de Soporte Vectorial (SVM),
entrenamiento.
basada en el principio de los márgenes, buscó
ajustar un hiperplano que minimizará el error
dentro de un margen tolerable. Este modelo fue
especialmente efectivo para manejar datos con
patrones complejos y no lineales. Con el uso de
kernels, como el radial basis function (RBF), la
SVM logró un R² = 0.8496 alto y errores
moderados, mostrando una buena capacidad de
generalización. No obstante, su rendimiento
depende mucho de la correcta selección de
Figura 14. Matriz cruzada y Métricas del conjunto hiper parámetros, como C y epsilon.

11. Regresiones 11.4 Regresión con Árbol de Decisión


La Regresión con Árbol de Decisión dividió los cruzada y en el conjunto de pruebas. En
datos en regiones basadas en valores de las términos generales, el Random Forest fue el
características, utilizando una estructura modelo más robusto, con la mayor precisión
jerárquica de reglas. Este modelo destacó por su (95.16% ± 2.66) y F1-score (95.17% ± 2.63) en
interpretabilidad y capacidad para manejar validación cruzada, así como el mejor
relaciones no lineales. Aunque logró un buen desempeño en el conjunto de prueba (94.70% ±
ajuste en los datos de entrenamiento, los 3.34 de precisión).
resultados en el conjunto de prueba reflejaron
cierta tendencia al sobreajuste, con un R² = El SVM también tuvo un desempeño
0.7760 moderado y una variabilidad notable en competitivo, alcanzando un F1-score de 92.88%
los errores. Es útil cuando se prioriza la ± 3.61 en validación y una precisión de 91.08%
interpretabilidad, pero puede ser limitado en ± 3.21 en prueba, aunque ligeramente inferior a
datos complejos. Random Forest. Los modelos más simples,
como KNN y Árbol de Decisión, mostraron
11.5 Regresión KNN resultados aceptables, pero con una mayor
variabilidad y desempeño algo inferior en
La Regresión K-Nearest Neighbors (KNN) prueba. Por último, la Red Neuronal, aunque
predijo valores en función de los vecinos más mostró consistencia en validación cruzada, tuvo
cercanos en el espacio de características. En el una caída significativa en el conjunto de
Colab, este modelo mostró un buen desempeño prueba, con una precisión de 62.54% ± 20.01 y
en datasets donde las relaciones entre variables un F1-score de 59.44% ± 15.28, posiblemente
eran locales y no lineales, logrando un R² = indicando sobreajuste.
0.8462 razonable y errores no tan grandes. Sin
embargo, el rendimiento del modelo disminuyó
en presencia de alta dimensionalidad o datos
ruidosos, ya que depende de la métrica de
distancia y el número de vecinos seleccionados
(k). Es un enfoque simple pero efectivo en Figura 15. Tabla de resultados
datasets pequeños y bien estructurados.

En general, las técnicas de regresión evaluadas


mostraron fortalezas específicas según la
naturaleza de los datos. La Regresión Múltiple
fue adecuada para relaciones lineales, mientras Figura 16. Tabla de Resultado
que SVM destacó en patrones no lineales,
logrando mejores resultados generales. Por su
Link del proyecto final:
parte, la Regresión con Árbol de Decisión y
[Link]
KNN ofrecieron flexibilidad para relaciones no
zhh-0JAeIFLCkryzI9CMZ8EMNqrs?usp=shari
lineales, aunque con limitaciones en datos
ng
ruidosos o de alta dimensionalidad.

12. Tabla de Resultados y Discusión IV. COMPARACIÓN DE TUMOR


BENIGNO Y TUMOR MALIGNO
Finalmente los resultados comparativos de los
modelos de clasificación muestra el desempeño
Para realizar esta comparación, se presentará
de cinco modelos: KNN, Árbol de Decisión,
una imagen de cada tipo de tumor y se
SVM, Random Forest y Red Neuronal,
destacarán las diferencias clave entre ellos.
evaluados mediante métricas de validación
forma regular y redonda, y por presentar bordes
bien definidos y lisos. Estas características
hacen que los tumores benignos tengan un
comportamiento menos agresivo y sean más
fáciles de identificar.

En contraste, los tumores malignos suelen ser


más grandes, con una forma irregular y
asimétrica, lo que los hace más complejos de
Figura 17. Comparación de tumores. delimitar. Además, sus bordes suelen ser
rugosos y poco definidos, lo que refleja su
capacidad para invadir tejidos circundantes.

● Cáncer Benigno Estas diferencias están directamente


relacionadas con las características clave de la
Los tumores benignos presentan varias base de datos, como radius_mean,
características distintivas que permiten concavity_mean y compactness_mean, que
diferenciarlos de los malignos. En general, los presentan valores más pronunciados en los
tumores benignos son de tamaño pequeño, tumores malignos. Este análisis resulta
tienen una forma regular y una superficie lisa. fundamental para comprender la lógica detrás
Estas características se reflejan en los de la clasificación automática de tumores,
parámetros de la base de datos, donde se facilitando la detección temprana y la toma de
observa que el radio medio (radius_mean) es decisiones clínicas adecuadas.
bajo, la concavidad media (concavity_mean)
también es baja y la compacidad media
(compactness_mean) presenta valores V. CONCLUSIONES
reducidos.
● Los resultados obtenidos evidencian
● Cáncer Maligno que los modelos de clasificación
supervisada, en particular Random
Por otro lado, los tumores malignos suelen ser Forest y SVM, fueron los más efectivos
más grandes, con una forma irregular y una para la predicción de tumores
superficie rugosa. Estas diferencias son mamarios. Random Forest se destacó
evidentes en los indicadores de la base de datos, como el modelo más robusto,
donde se observa que el radio medio alcanzando una precisión del 95.16% y
(radius_mean) es alto, la concavidad media un F1-score del 95.17%, superando a
(concavity_mean) presenta valores elevados y otros modelos, incluyendo Árbol de
la compacidad media (compactness_mean) Decisión, Redes Neuronales y KNN.
también muestra un aumento significativo. Por otro lado, la Red Neuronal mostró
un buen desempeño durante la
Diferencias Clave validación cruzada, pero experimentó
una caída en el conjunto de prueba, lo
Las diferencias entre los tumores benignos y
que sugiere un posible problema de
malignos se manifiestan en tres aspectos
sobreajuste (overfitting). Los modelos
principales: el tamaño, la forma y la textura de
de SVM y Extra Trees también
los tumores.
presentaron un rendimiento
competitivo, destacándose por su
En el caso de los tumores benignos, se
capacidad de generalización. En cuanto
destacan por ser de menor tamaño, con una
a las técnicas de regresión, la Regresión
de Soporte Vectorial (SVM) logró una
buena capacidad para modelar
relaciones no lineales, mientras que la
Regresión Múltiple fue limitada en su
precisión debido a la linealidad
inherente de su enfoque.
● El análisis de la importancia de las
características reveló que las más
relevantes para la clasificación de
tumores mamarios fueron el perímetro,
el radio y el área de las muestras, lo que
coincide con hallazgos previos en la
literatura. Estas características
desempeñaron un papel fundamental en
la diferenciación entre tumores
benignos y malignos, facilitando la
interpretación de los modelos. La
combinación de técnicas de aprendizaje
automático y análisis de características
permitió identificar los patrones más
significativos en los datos, lo que puede
contribuir al desarrollo de sistemas
automatizados de apoyo al diagnóstico.
Estos sistemas podrían integrarse en
entornos clínicos, especialmente en
regiones con recursos médicos
limitados, proporcionando una
herramienta de detección temprana que
optimice el tiempo y la precisión de los
diagnósticos.

VI. REFERENCIAS

[1] Organización Mundial de la Salud, "Breast


cancer," 2022. [Online]. Available:
[Link]
east-cancer. [Accessed: Dec. 2024].

[2] University of California, Irvine, "Breast Cancer


Wisconsin (Diagnostic) Data Set," [Online].
Available:
[Link]
cer%2Bwisconsin%2B%28diagnostic%29.
[Accessed: Dec. 2024].

También podría gustarte