0% encontró este documento útil (0 votos)
252 vistas21 páginas

Tarea 3 Algoritmos de Aprendizaje. Emel Pedrozo

El documento explora el aprendizaje supervisado en inteligencia artificial, enfocándose en modelos como Regresión Lineal, Regresión Logística y Árboles de Decisión. Se detallan objetivos específicos, definiciones clave, y se incluye un análisis de datos, preprocesamiento y evaluación de modelos. Además, se presentan resultados y métricas de rendimiento para cada modelo aplicado a diferentes conjuntos de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
252 vistas21 páginas

Tarea 3 Algoritmos de Aprendizaje. Emel Pedrozo

El documento explora el aprendizaje supervisado en inteligencia artificial, enfocándose en modelos como Regresión Lineal, Regresión Logística y Árboles de Decisión. Se detallan objetivos específicos, definiciones clave, y se incluye un análisis de datos, preprocesamiento y evaluación de modelos. Además, se presentan resultados y métricas de rendimiento para cada modelo aplicado a diferentes conjuntos de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Tarea 3 Algoritmos de Aprendizaje Supervisado

Autor:

Emel De Jesús Pedrozo Vásquez

Tutor:

Breyner Alexander Parra

Curso:

Análisis de Datos.

Código: 202016908A

Grupo: 2

Universidad Nacional Abierta y a Distancia – UNAD

Escuela De Ciencias Básicas Tecnología e Ingeniería – ECBTI

Programa:

Ingeniería de Sistemas

Año: 2024
Introducción

Al realizar la presente actividad puedo analizar que el aprendizaje

supervisado es una rama fundamental en el campo de la inteligencia

artificial y el análisis de datos, que permite a los algoritmos aprender

patrones a partir de datos etiquetados. En esta actividad, nos

enfocaremos en explorar diferentes modelos de aprendizaje supervisado,

comprendiendo sus definiciones y aplicaciones en el análisis de los

dataset. Además, abordaremos los conceptos clave asociados con el

preprocesamiento de datos y la evaluación de modelos predictivos,

fundamental para entender el proceso de construcción y validación de

estos modelos.

2
Objetivos

General

Explorar y comprender los diferentes modelos de aprendizaje

supervisado, así como los conceptos y técnicas asociados con el

preprocesamiento de datos y la evaluación de modelos predictivos.

Específicos

o Elaborar un cuadro sinóptico detallado que abarque los diferentes

modelos de aprendizaje supervisado, incluyendo su definición, casos

de uso, ventajas y desventajas.

o Diseñar modelos predictivos de Regresión Lineal, Regresión Logística y

Árboles de Decisión utilizando conjuntos de datos específicos.

o Realizar un análisis exploratorio de datos, preprocesamiento de datos,

selección de características, entrenamiento de modelos y evaluación de

desempeño para cada uno de los modelos diseñados.

o Interpretar y documentar adecuadamente los resultados obtenidos,

utilizando métricas de evaluación de modelos y gráficos apropiados

para una mejor comprensión de los resultados.

3
 Elaborar un cuadro sinóptico sobre los diferentes modelos de
Aprendizaje Supervisado que incluya definición, casos de uso, ventajas
y desventajas.

Link del cuadro sinóptico:


[Link]
DQ/edit?
utm_content=DAGUV1m9QJ0&utm_campaign=designshare&utm_medium
=link2&utm_source=sharebutton

 Elaborar un listado con las siguientes definiciones: Datos de Train,


Datos de Validation y Test, GridSearchCV, One Hot Encoding, Matriz de
confusión, Precision, Accuracy, Specifiticy, Recall, F1 Score, curva
ROC, R cuadrado.
Datos de Train: Son los datos que se utilizan para entrenar un modelo
de machine learning. El modelo ajusta sus parámetros a partir de estos
datos, aprendiendo patrones subyacentes.

4
Datos de Validation: Estos datos se utilizan para evaluar el modelo
durante el proceso de entrenamiento y ajustar hiperparámetros. La
validación asegura que el modelo no esté sobreajustando los datos de
entrenamiento.

Datos de Test: Son un conjunto independiente de datos utilizados para


evaluar el rendimiento final del modelo. Estos datos no se han visto
durante el entrenamiento ni la validación, proporcionando una estimación
realista de cómo el modelo generaliza a datos nuevos.

GridSearchCV: Es una técnica utilizada para encontrar la mejor


combinación de hiperparámetros para un modelo. Busca de manera
exhaustiva en un espacio definido de parámetros utilizando validación
cruzada para seleccionar la configuración que maximice el rendimiento del
modelo.

One Hot Encoding: Es una técnica de preprocesamiento de datos


categóricos, en la cual se transforman las variables categóricas en
vectores binarios. Cada categoría única se convierte en una columna
nueva y se asigna un valor de 1 en la columna correspondiente y 0 en las
demás.

Matriz de Confusión: Es una tabla que se utiliza para evaluar el


rendimiento de un modelo de clasificación. La matriz muestra la relación
entre las predicciones reales y las predicciones hechas por el modelo,
separando los valores correctamente clasificados de los errores.
 Verdaderos Positivos (VP): Casos correctamente clasificados como
positivos.
 Falsos Positivos (FP): casos incorrectamente clasificados como
positivos.
 Verdaderos Negativos (VN): casos correctamente clasificados como
negativos.

5
 Falsos Negativos (FN): casos incorrectamente clasificados como
negativos.

Precision: Es una métrica que mide la exactitud de las predicciones


positivas del modelo. Se calcula como la proporción de verdaderos
positivos sobre todos los casos que el modelo predijo como positivos.
VP
Precision=
VP+ FP
Accuracy: Es la proporción de predicciones correctas (tanto positivas
como negativas) sobre el total de casos. Es una métrica global del
rendimiento del modelo.
VP+ VN
Accuracy=
VP+VN + FP+ FN
Specificity: Es la proporción de verdaderos negativos correctamente
identificados por el modelo. Mide qué tan bien el modelo evita clasificar
erróneamente los casos negativos como positivos.
VN
Specificity=
VN + FP
Recall: Es la proporción de verdaderos positivos correctamente
identificados por el modelo, también conocido como sensibilidad. Mide qué
tan bien el modelo detecta casos positivos.
VP
Recall=
VP+ FN
F1 Score: Es la media armónica entre la precisión (precision) y el recall.
Es útil cuando hay un desequilibrio entre clases, ya que considera tanto
los falsos positivos como los falsos negativos.
Precision x Recall
F 1 Score=2 x
Precision+ Recall

Curva ROC: Es una gráfica que muestra la relación entre la Tasa de


Verdaderos Positivos (Recall) y la Tasa de Falsos Positivos a diferentes
umbrales de decisión del modelo. La curva ROC permite evaluar la
capacidad del modelo para distinguir entre clases.

6
R cuadrado: Es una métrica utilizada en modelos de regresión que indica
qué proporción de la variabilidad en la variable dependiente puede ser
explicada por el modelo. Un valor de R2 cercano a 1 indica que el modelo
explica bien los datos.
2
2 Σ ( yi− ^y i )
R =1−
Σ( yi− y)2

Término Definición
Datos utilizados para entrenar el modelo, permitiéndole aprender patrones
Datos de Train
subyacentes.

Datos utilizados para ajustar hiperparámetros y prevenir el sobreajuste


Datos de Validation
(overfitting).

Datos de Test Datos independientes utilizados para evaluar el rendimiento final del modelo.

Técnica para encontrar la mejor combinación de hiperparámetros usando


GridSearchCV
validación cruzada (crossvalidation).

One Hot Encoding Transformación de variables categóricas en vectores binarios, donde cada
categoría es representada por una columna.

Tabla que muestra la relación entre las predicciones reales y las predicciones
Matriz de Confusión del modelo.

Proporción de verdaderos positivos sobre todos los casos predichos como


positivos.
Precision (Precisión) VP
Precision=
VP+ FP
Proporción de predicciones correctas sobre el total de casos.
Accuracy (Exactitud)
VP+ VN
Accuracy=
VP+VN + FP+ FN
Proporción de verdaderos negativos correctamente identificados.
VN
Specificity=
Specificity VN + FP
(Especificidad)
Proporción de verdaderos positivos correctamente identificados.
VP
Recall=
Recall (Sensibilidad) VP+ FN
F1 Score Media armónica entre precisión y recall.
F1 Score ( Precision x Recall )
F 1 Score=2 x
Precision+ Recall
Curva ROC
Gráfica que muestra la relación entre la tasa de verdaderos positivos
(Recall) y la tasa de falsos positivos a diferentes umbrales.

R cuadrado ( R2)
Métrica de regresión que indica qué proporción de la variabilidad de la
variable dependiente puede ser explicada por el modelo.

7
 El lenguaje a utilizar es Python, el cual se trabajará mediante Jupyter
notebooks, para esto es necesario instalar Anaconda, que es una
distribución libre y abierta de los lenguajes Python y R, utilizada en
ciencia de datos, y aprendizaje automático.
Descargar los datasets: Realizar el registro en la plataforma Kaggle desde
[Link] botón “Register”

Se descargaron los datasets sugeridos

Imagen 1. Anexos sugeridos

Con los datasets anteriores diseñar los modelos predictivos de Regresión


Lineal, Regresión Logística y Árboles de decisión. Para cada algoritmo
realizar los siguientes pasos:
1. Realizar un análisis exploratorio de los datos para identificar relaciones
entre variables, valores atípicos, tendencias, etc.
2. Preprocesar los datos limpiándolos, tratando valores faltantes y
transformándolos según sea necesario.
3. Seleccionar las características más relevantes para entrenar el modelo
utilizando selección de características.
4. Dividir el dataset en Train y Test para evaluar correctamente el modelo
5. Entrenar el modelo configurando los diferentes hiperparámetros.
6. Evaluar el desempeño del modelo en el conjunto de Test con métricas
como precisión, recall, F1-score, etc.
7. Realizar las diferentes gráficas que permitan visualizar los resultados
del modelo.
8. Interpretar, analizar y documentar los resultados obtenidos.
9. Crear una cuenta en GitHub y cargar los códigos de los modelos
diseñados [Link]

8
Interpretación de los resultados
Interpretar, analizar y documentar los resultados obtenidos.

 Regresión lineal:
Dataset Vehicle
En el análisis de los resultados, se logra identificar los puntos claves que
permite la regresión lineal, como la relación entre la variable dependiente
y las variables independientes, en este caso, se identificó el “selling_price
(precio de venta)” como la variable dependiente, la cual se puede
predecir desde las variables “year (año) y km_driven (km_recorridos)”

Imagen 2. Variables dependientes e independientes

Esta relación se confirma gracias al coeficiente de la pendiente:

9
Imagen 3. Evaluación del modelo de dependencia
Coeficiente 2 (6.70144325e+04) (Variable: "year"): El coeficiente positivo
sugiere que un aumento en el año del vehículo (es decir, un vehículo más
reciente) se asocia con un aumento en el precio de venta.

Coeficiente 3 (-7.24706842e-01) (Variable: " km_driven"): Este


coeficiente negativo indica que, un aumento en el kilometraje recorrido se
relaciona con una disminución en el precio de venta, lo cual es esperado
ya que, a mayor kilometraje, generalmente se asume mayor desgaste del
vehículo.

De igual manera se puede evaluar con el resto de coeficiente, como el


Coeficiente 1 () (Variable: “name”) ya que puede asociarse a la marca lo
cual afecta generalmente la valoración del vehículo.
Finalmente se obtuvo un rendimiento ideal del modelo, como se evidencia
en la gráfica:

Imagen 4. Rendimiento del modelo de regresión lineal

Esto concluye que las características para el precio de venta de un


vehículo, donde se contempla su año, kilometraje, marca, transmisión,

10
cilindraje y potencia, influyen directamente en el precio que se puede
cobrar por cada vehículo, y para el cliente que puede prever si el vehículo
que planea comprar es costoso.
 Regresión Logística
Dataset Heart Disease Cleveland UCI

Del desempeño del modelo puedo describir:

Imagen 5. Desempeño del modelo

a. La precisión se define como la proporción de predicciones positivas


correctas en relación con todas las predicciones positivas emitidas por
el modelo. Para la clase 'condition', la precisión es del 93%, lo que
indica que el 93% de los casos identificados como enfermos cardíacos
por el modelo resultaron ser correctos.

b. El Recall, o la tasa de verdaderos positivos, representa la proporción


de instancias positivas reales que fueron identificadas correctamente
por el modelo entre todas las instancias positivas reales en el conjunto
de datos. En el caso de la clase 'condition', el Recall es del 81%, lo que
significa que el modelo identificó correctamente al 81% de todos los
enfermos cardíacos en el conjunto de datos.

c. El F1 Score, una medida que combina precisión y recall en una sola


métrica, proporciona una evaluación equilibrada del desempeño del
modelo. Para la clase 'condition', el F1 Score es de 0.87, lo que indica

11
un equilibrio entre precisión y recall, demostrando una buena
capacidad del modelo para identificar y clasificar casos de enfermedad
cardíaca de manera precisa y exhaustiva.
De la Matriz de Confusión se puede deducir que:

Imagen 6. Matrix de Confusión

a. Los Falsos negativos muestran el número de análisis que se predijeron


de forma incorrecta como si fueran falsas pero que en realidad eran
verdaderas. El total de casos mal clasificados llegan a 6.
b. Los Falsos Positivos muestran los casos clasificados como verdaderos
cuando son falsos. Estos casos llegan 2 erróneos.
c. Los Verdaderos Negativos muestran los casos clasificados
correctamente como falsas, en total son 36 casos Negativos.
d. Los verdaderos muestran los casos clasificados correctamente como
verdaderos, contabilizando hay 26 positivos.
La curva ROC muestra un Área Bajo la Curva (AUC) de 0.88. Esto significa que el
88% de las predicciones del clasificador son correctas en todos los
umbrales de clasificación. En otras palabras, el modelo tiene una buena

12
capacidad de discriminación entre las clases positivas y negativas. Un
AUC más cercano a 1 indicaría un rendimiento aún mejor del clasificador.

Imagen 7. Curva de Precisión

Sin embargo, es importante destacar que, aunque el AUC es alto, siempre


es necesario considerar otros aspectos del modelo, como la precisión, la
sensibilidad y la especificidad, para evaluar su desempeño de manera
integral. Además, ajustar los parámetros del modelo y explorar más datos
de entrenamiento podría mejorar aún más su capacidad predictiva.

13
Árbol de decisiones
Dataset Winequality

Imagen 8. Dataframe (primeras filas)

El conjunto de datos tiene 1599 filas y 12 columnas.


Las estadísticas descriptivas indican, por ejemplo, que el promedio de
alcohol es de aproximadamente 10.42%, y la calidad media es de 5.63.
No hay valores nulos en el conjunto de datos, lo cual es excelente para
los próximos pasos de procesamiento.

14
Imagen 9. Matriz de correlación (Mapa de calor)

En el mapa de calor de correlaciones podemos ver cómo cada variable se


relaciona con las demás. Por ejemplo, hay una correlación positiva
moderada entre ’fixed acidity’ y ’citric acid’, y una correlación negativa
entre ’volatile acidity’ y ’quality’, sugiriendo que a mayor acidez volátil
podría haber una calidad más baja del vino.

Imagen 10. Histograma de distribución de variables

En esta imagen se observa una serie de histogramas que representan la


distribución de diferentes variables químicas y de calidad. Cada
histograma está etiquetado con el nombre de la variable que representa,
como “acidez fija”, “acidez volátil”, “ácido cítrico”, “azúcar residual”, entre
otros.

15
Los Histograma de la variable ‘alcohol’ muestra una distribución que es
ligeramente sesgada hacia la derecha. Esto significa que hay una mayor
frecuencia de vinos con contenidos de alcohol en el rango bajo a medio, y
menos frecuencia en el rango alto. En términos estadísticos, una
distribución sesgada hacia la derecha tiene una cola más larga en el lado
derecho del pico más alto del histograma.

Imagen 11. Diagrama de caja de datos

Cada uno de los diagramas de caja representa una variable diferente del
conjunto de datos, como ‘residual sugar’, ‘free sulfur dioxide’ y ‘total
sulfur dioxide’. Los elementos clave de un diagrama de caja incluyen:
La línea central que representa la mediana de los datos.
La caja que se extiende desde el cuartil inferior (Q1) hasta el cuartil
superior (Q3), abarcando el rango intercuartílico (IQR).

Los bigotes que se extienden desde la caja hasta los valores mínimos y
máximos dentro de 1.5 veces el IQR desde los cuartiles. Los datos fuera
de este rango se consideran valores atípicos.
Los puntos individuales fuera de los bigotes que indican los valores
atípicos.

16
En el caso de ‘residual sugar’, ‘free sulfur dioxide’ y ‘total sulfur dioxide’,
se puede observar varios puntos que caen fuera de los bigotes. Estos
puntos son los valores atípicos y pueden indicar casos inusuales o errores
en los datos. Es importante analizar estos valores atípicos ya que pueden
tener un impacto significativo en el análisis posterior, como la modelación
predictiva o la toma de decisiones basada en los datos.
Árbol de Decisión

Imagen 12. Árbol de Decisión

Se ha efectuado un análisis detallado del árbol de decisión, dirigido al


conjunto de datos [Link] que fue previamente observando que la
raíz del árbol se inicia con una decisión basada en la variable X [0].
Prosiguiendo hacia abajo, se encuentran múltiples nodos que bifurcan el
proceso de decisión, cada uno dependiendo de un valor especifico de una
variable y de un umbral determinado. Dentro de cada nodo, el usuario
identifica la condición de bifurcación junto con el índice Gini, que evalúa la
pureza de las instancias en dicho nodo. En la terminación del árbol, los
nodos hoja indican la categorización final sin más divisiones.

17
Imagen 14. Matriz de confusión

De la matriz de confusión se puede interpretar:


La matriz de confusión evalúa el rendimiento del modelo de aprendizaje
automático para clasificar la calidad del vino. La calidad del vino se
clasifica en una escala de 1 a 8, donde 1 es la calidad más baja y 8 es la
más alta. La matriz muestra el número de instancias que se clasificaron
correcta e incorrectamente en cada categoría de calidad. El modelo tiene
un buen rendimiento. Sin embargo, el rendimiento del modelo varía
según la categoría de calidad. El modelo es muy preciso para clasificar
vinos de calidad 3 y 7, pero tiene un rendimiento más bajo para clasificar
vinos de calidad 4 y 8.

18
Link de acceso en github: [Link]

Referencias Bibliográficas

Carlos Véliz. (2020). Aprendizaje automático. Introducción al

aprendizaje profundo. El Fondo Editorial de la Pontificia Universidad

Católica del Perú. Recuperado de:

[Link]

om/[Link]?direct=true&db=nlebk&AN=2600876&lang=es&site=eds-

live&scope=site&ebv=EB&ppid=pp_I Cap 3, 4, 5 y 6

David Julian. (2016). Designing Machine Learning Systems with

Python. Packt Publishing. Recuperado de:

[Link]

om/[Link]?direct=true&db=nlebk&AN=1218065&lang=es&site=eds-

live&scope=site&ebv=EB&ppid=pp_Cover. Cap 2

Giuseppe Bonaccorso. (2018). Machine Learning Algorithms: Popular

Algorithms for Data Science and Machine Learning, 2nd Edition: Vol. 2nd

ed. Packt Publishing. Recuperado de:

[Link]

19
om/[Link]?direct=true&db=nlebk&AN=1881497&lang=es&site=eds-

live&scope=site&ebv=EB&ppid=pp_Cover Cap 3, 4, 5 y 8

Minguillón, J. Casas, J. y Minguillón, J. (2017). Minería de datos:

modelos y algoritmos. Editorial UOC. Recuperado de: [Link]

[Link]/es/ereader/unad/58656. Cap 4, 5, 13

Pratap Dangeti. (2017). Statistics for Machine Learning: Build

Supervised, Unsupervised, and Reinforcement Learning Models Using Both

Python and R. Packt Publishing. Recuperado

de: [Link]

[Link]/[Link]?

direct=true&db=nlebk&AN=1560931&lang=es&site=eds-

live&scope=site&ebv=EB&ppid=pp_Cover Cap 2, 3 y 4

Romero Villafranca, R. y Zúnica Ramajo, L. (2020). Métodos

estadísticos para ingenieros. Editorial de la Universidad Politécnica de

Valencia. Recuperado de: [Link]

[Link]/es/ereader/unad/129644. Cap 12

Dataset Regresión Lineal – Vehicle dataset: Recuperado de:

[Link]

20
Dataset Regresión Logística – Heart Disease Cleveland UCI:

Recuperado de: [Link]

disease-cleveland-uci

Dataset Arboles de Decisión – Red Wine Quality: Recuperado de:

[Link]

21

También podría gustarte