0% encontró este documento útil (0 votos)

36 vistas11 páginas

Resumen Machine Learning

Cargado por

Alex Suarez Vera

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

36 vistas11 páginas

Resumen Machine Learning

Cargado por

Alex Suarez Vera

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Machine Learning

Busca dotar a las máquinas de capacidad de aprendizaje/generalización a partir de la experiencia

(Datos)

¿Qué es un modelo de Machine Learning?

Datos de Entrada > Modelos ML > Salida

Modelo

Representación de un problema o sistema que aprende a partir de los datos

(relación entre los diferentes datos) utilizando un algoritmo de aprendizaje y se

utiliza para hacer predicciones o tomar decisiones en nuevos datos

Tareas con Machine Learning

Tipos de aprendizaje

1.- Aprendizaje supervisado: busca descubrir la relación y/o patrones existentes entre variables de
entrada y de salida. Aplica para set de datos etiquetados

2.- Aprendizaje no supervisado: busca descubrir relaciones entre variables de entrada sin una guía

del aprendizaje. Aplica para set de datos sin etiquetas.

3.- Aprendizaje reforzado: Un agente aprende a tomar decisiones en un entorno interactivo para
maximizar una recompensa acumulativa.

Aprendizaje Supervisado

Salida Existen 2 tipos de aprendizaje supervisado dependiendo de la naturaleza de la variable

objetivo.

- Clasificación: Cuando la variable objetivo es una categoría. Por ej, clasificación de

imágenes, predicción de fuga, clasificación de correos.

- Regresión: Cuando la variable objetivo es un valor numérico. Por ej, predicción del precio
de vivienda, predicción de demanda.

Aprendizaje No Supervisado

- Reducción de dimensionalidad: Se utiliza para reducir la cantidad de dimensiones

aprovechando la relación entre las diferentes variables.

- Clustering: Se utiliza para agrupar conjunto de datos que se asemejan entre ellos. Por
ejemplo, segmentación de clientes para descubrir segmentos de clientes similares entre sí
Retomando la regresión lineal

Para realizar el ejemplo de la regresión lineal desde la perspectiva del Machine Learning vamos a
proceder a aplicar los siguientes pasos:

Objetivo: Dotar al algoritmo de una buena capacidad de generalización en nuevos datos, para
poder utilizar el algoritmo en los procesos pertinentes.

Machine Learning con Python

Dividimos el set de datos en entrenamiento y testeo.

Objetivo: Poder estimar los parámetros de algoritmo en el test de entrenamiento y testear cuál es
el poder predictivo del algoritmo en datos nuevos, no vistos anteriormente.

Importante: Asegurar independencia entre ambos sets de datos, para asegurar la generalización

A partir de una serie de variables numéricas se llega a una categórica (puede codificarse en

1/0)

Clasificación Variable Objetivo: Categórica (Maligno o No Maligno)

Variables Predictoras: Se utilizan para predecir la variable objetivo

KNN

K Nearest Neighbors

Votación de la mayoría dentro de los k vecinos más cercanos

1. Se utiliza el set de entrenamiento como ejemplos de prueba.

2. Se necesita una medida de distancia entre los elementos

3. Se necesita conocer los k valores vecinos para comparar.

KNN

1. Al predecir un nuevo registro se calcula la distancia con el set de entrenamiento.

2. Se identifican los k registros más cercanos.

3. Se etiqueta con la clase que se la mayoría de los k registros cercanos.

KNN
Ventajas Desventajas
? Es computacionalmente
? Fácil de entender e implementar. costoso
? No hace suposiciones sobre la (conjuntos grandes).
distribución de los datos. ? Sensible a la escala de las
? Es adecuado para problemas de características, por lo que es
clasificación multi clase. importante realizar una
? Puede funcionar bien en
conjuntos normalización adecuada.
de datos pequeños o con pocos ? La elección del valor de k puede
atributos. ser crucial.

# Explicación teórica y matemática de KNN y de validación cruzada, junto con Arbol de desisicion

Métricas de desempeño

Las métricas de desempeño son medidas utilizadas para evaluar el rendimiento de un modelo de
clasificación. Un primer paso es analizar los aciertos y fallos que obtiene, considerando las
diferentes clases presentes en el conjunto.

Estos datos se registran en la matriz de confusión.

Matriz de Confusión

● TP = Verdaderos positivos (True positives)

● FN = Falsos Negativos (False Negatives)

● FP = Falsos Positivos (False Positives)

● TN = Verdaderos Negativos (True Negatives

A partir de la matriz, podemos definir algunas métricas de desempeño

Accuracy: Es la exactitud global del modelo corresponde a la proporción de datos que fueron
correctamente clasificados, independiente de la categoría, por eso se considera la métrica de
exactitud global.

Precision: es la proporción de ejemplos clasificados correctamente como positivos (verdaderos

positivos) en relación con todos los ejemplos clasificados como positivos (verdaderos positivos y
falsos positivos). Se puede entender como la capacidad del modelo para identificar correctamente
los positivos.
Recall (Sensibilidad): es la proporción de ejemplos clasificados correctamente como positivos
(verdaderos positivos) en relación con todos los ejemplos reales positivos (verdaderos positivos y
falsos negativos). Se puede entender como la capacidad del modelo para detectar correctamente
los positivos.

Valor F1 (F1 Score): es una métrica que combina la precisión y la sensibilidad en una sola medida.
Es útil cuando se busca un equilibrio entre la precisión y la sensibilidad, ya que tiene en cuenta
tanto los falsos positivos como los falsos negativos.

¿Cómo escoger un valor óptimo?

Cross Validation

Se divide el conjunto de datos disponibles en “k” subconjuntos de entrenamiento y prueba, y se

realizan varios experimentos en los que se testea con cada uno de los subconjuntos, en cada
iteración

1. Se entrena el algoritmo de esta forma para cada combinación de hiper parámetros.

2. Se elige la combinación de hiper parámetros que mejor resultado tiene.

k=3

k=5

k=7

Se calculan métricas de desempeño con cada combinación y se elige la que mejores métricas tiene.

Cross Validation y valor de K

Veremos cómo realizar validación cruzada y escoger, a partir de ello, un valor adecuado para K en
Python, para lo que puedes abrir un archivo de Jupyter Notebook y replicar los pasos que te irá
presentando tu profesor. En esta presentación abordaremos:

1. Validación cruzada con KNN

2. Validación cruzada y valor de K.

/* Árboles de Decisión*/

Árboles de decisión

Método que busca particionar el espacio de atributos en una serie de rectángulos y

posteriormente se implementa un modelo simple (o estadístico) de representación [Definición de
Hastie et al. 2009]

Los hiperparámetros en un árbol de decisión buscan controlar la tendencia de crecer de manera

irrestricta:

● ¿Hasta qué punto puedo dejar crecer un árbol?

● ¿Cuántos datos son suficientes en cada nodo para particionar o declararlo terminal?

● ¿Cuántos atributos son suficientes para que mi árbol pueda capturar de buena manera el

fenómeno?

Árboles de decisión: Hiper parámetros y características

Máximo de Profundidad

¿Hasta qué niveles puede crecer un árbol?

Cantidad de atributos

¿Cuántos atributos debemos considerar en un árbol?

Mínimo de muestras en un nodo particionable

¿Con cuántas observaciones podemos seguir subdividiendo?

Mínimo de muestras en un nodo terminal

¿Con cuántas observaciones dejamos de subdividir?

/* Overfitting y Underfitting */

Sobreajuste

1. Alto Sesgo (forma inflexible)

2. Menor capacidad explicativa

3. Error generalizable

Subajuste

1. Alto Varianza (forma acoplada)

2. Mayor capacidad explicativa

3. Error poco generalizable

Regresión Logística

Determinando los parámetros. ¿Cómo encontramos los que ajusten mejor la función a la
realidad? ¡Método de Máxima Verosimilitud!

1. Regresión logística

2. Support vector machine

3. Hiperparámetros

4. Métricas - ROC AUC

/* Regresión */

En este caso, tenemos una variable objetivo numérica, se intenta entender el comportamiento
entre las variables predictoras y un valor continuo.

Variables Predictoras:

Se utilizan para predecir la variable objetivo

Variable Objetivo:

Numérico (Valores continuos con cierta distribución)

/* Regresión Logística */

Modelo de clasificación que utiliza la función logística (función sigmoide) para predecir la
probabilidad de que una observación pertenezca a una clase.

Aplicaciones

● Economía: Estimar el PIB de un país o región utilizando variables económicas como el

consumo, la inversión y el gasto público.

● Medicina: Predecir la tasa de crecimiento de un tumor basándose en características médicas y

datos de pacientes.

● Agricultura: Estimar el rendimiento de los cultivos basándose en datos climáticos, de suelo y de

cultivo.

● Manufactura: Predecir el tiempo de vida útil de un componente o maquinaria basándose en

datos de mantenimiento y uso.

● Marketing: Predecir las ventas futuras de un producto basándose en datos de marketing,

promociones y precios.

● Seguros: Predecir el costo de las reclamaciones basándose en datos de seguros y características

del asegurado.

● Medio Ambiente: Estimar la concentración de contaminantes atmosféricos basándose en datos

de calidad del aire y factores ambientales.
Estimación de parámetros en regresión lineal

Mínimos cuadrados

Para estimar los betas de la regresión lineal (“entrenar el modelo”) se utiliza el método de Mínimos
cuadrados ordinarios (MCO o OLS), con el cual se busca ajustar los betas al mínimo error.

¿Qué lo caracteriza?

Recordemos que estamos observando la regresión lineal desde el enfoque de Machine Learning.
Esto significa que nuestro objetivo es poder estimar de la mejor forma en nuevos datos, es decir,
poder generalizar el comportamiento del modelo.
/*Regularización*/

Definición y normas

La regularización es una técnica utilizada para controlar y evitar el sobreajuste (overfitting) del
modelo. Se implementa utilizando normas para penalizar los parámetros.

Norma L1 (Lasso): Se mide la distancia entre 2 vectores según la norma absoluta.

Norma L2 (Ridge): Sintetiza la distancia entre dos vectores mediante la norma euclídea.

Ridge

● Ridge modifica la superficie de penalización de los coeficientes mediante el hiperparámetro

lambda.

● Lambda gobierna la superficie de penalización que está determinada por la cantidad de

parámetros inferidos en el modelo.

● Dado que tiene una forma cuadrática, suaviza pero no elimina atributos irrelevantes.

Características y cálculo

Lasso

● Principal diferencia con Ridge: permite seleccionar y eliminar atributos irrelevantes del modelo.

● De igual manera que en Ridge, el hiperparámetro lambda define el área de la superficie de

penalización.

● La diferencia radica en la norma de penalización.

Elastic Net

● Elastic Net combina ambas normas de penalización.

● L1 nos asegura una selección de atributos.

● L2 nos asegura una penalización parsimoniosa de los coeficientes de los atributos.

● Existe un parámetro que gobierna la dominancia entre ambas formas de penalización.

Regularización en regresión lineal:

a. Ridge regression

b. Lasso regression

c. Elastic Net
/* Árboles de regresión */

Son una extensión de los árboles de clasificación que predicen un valor numérico. En vez de utilizar
criterios de pureza, utilizan unas métricas de regresión.

Árboles de regresión

Son una extensión de los árboles de clasificación que predicen un valor numérico. En vez de utilizar
criterios de pureza, utilizan un métricas de regresión.

Los árboles de regresión funcionan de manera similar a los árboles de clasificación, pero en lugar
de predecir una etiqueta de clase mayoritaria en cada nodo hoja, se predice un valor numérico
promedio basado en las muestras que llegan a esa hoja.

- Selección de la división

El árbol comienza con un nodo raíz que contiene todos los datos de entrenamiento. En cada paso,
se selecciona una característica y un umbral que dividirá los datos en dos grupos.

- Cálculo de la predicción

Se calcula la predicción numérica para cada región basada en los valores promedio de las
muestras en esa región.

- Criterio de división

La elección de la característica y el umbral se realiza de manera que la reducción en el error de

predicción sea máxima después de la división. El error se mide en términos de alguna métrica,
como la suma de los cuadrados de los residuos (SSE) o la desviación absoluta media (MAD).

- Crecimiento del árbol

El proceso de selección y división se repite para cada región creada en pasos anteriores, hasta que
se cumple algún criterio de detención, como la profundidad máxima del árbol o el número mínimo
de muestras en una región.
Árboles de regresión

Ventajas Desventajas
Interpretabilidad Sobreajuste
No linealidad Estabilidad
Flexibilidad Limitaciones con la extrapolación
Robustez ante outliers No considera relaciones globales
Tratamiento automático de
variables
Métricas de regresión

Como el objetivo de ML es poder generalizar el modelo a nuevos datos es importante poder medir
el error del modelo, Para esto tenemos múltiples métricas a disposición como:

1. MAE: Mean Absolute Error

2. MSE: Mean Square Error

3. MAPE: Mean Absolute Percentage Error

4. Otros varios

También podría gustarte

Aprendizaje Supervisado en Python
Aún no hay calificaciones
Aprendizaje Supervisado en Python
20 páginas
Conceptos Machine Learning
Aún no hay calificaciones
Conceptos Machine Learning
8 páginas
Train
Aún no hay calificaciones
Train
10 páginas
Clase13-Métricas de Desmpeño y Selección de Modelos
Aún no hay calificaciones
Clase13-Métricas de Desmpeño y Selección de Modelos
20 páginas
Super Visa Do
Aún no hay calificaciones
Super Visa Do
19 páginas
005 Aprendizaje Automático-Machine Learning
Aún no hay calificaciones
005 Aprendizaje Automático-Machine Learning
270 páginas
005 Aprendizaje Automático-Machine Learning
100% (2)
005 Aprendizaje Automático-Machine Learning
229 páginas
Clase 08 - Parte I - Modelos Analíticos para DS II
Aún no hay calificaciones
Clase 08 - Parte I - Modelos Analíticos para DS II
15 páginas
Aprendizaje Automatico
Aún no hay calificaciones
Aprendizaje Automatico
3 páginas
IA - Clase 4 - Métricas y Algoritmos
Aún no hay calificaciones
IA - Clase 4 - Métricas y Algoritmos
41 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
54 páginas
Modelos de Analítica-F
Aún no hay calificaciones
Modelos de Analítica-F
68 páginas
Parte 1
Aún no hay calificaciones
Parte 1
7 páginas
N1 S6 S Presentacion
Aún no hay calificaciones
N1 S6 S Presentacion
89 páginas
Dia 5
Aún no hay calificaciones
Dia 5
38 páginas
Curso R
Aún no hay calificaciones
Curso R
72 páginas
Sesion 5
Aún no hay calificaciones
Sesion 5
48 páginas
Modelos No Supervisados - ML
Aún no hay calificaciones
Modelos No Supervisados - ML
46 páginas
Modelos de Machine Learning y Tipos
Aún no hay calificaciones
Modelos de Machine Learning y Tipos
4 páginas
Apuntes Master Aprendizaje
Aún no hay calificaciones
Apuntes Master Aprendizaje
6 páginas
Algoritmos de Aprendizaje Supervisado
Aún no hay calificaciones
Algoritmos de Aprendizaje Supervisado
39 páginas
MUIAEI AA 2024 11 17 Tema 3
Aún no hay calificaciones
MUIAEI AA 2024 11 17 Tema 3
30 páginas
Análisis Supervisado en Bases de Datos
Aún no hay calificaciones
Análisis Supervisado en Bases de Datos
12 páginas
Introducción al Aprendizaje Supervisado
Aún no hay calificaciones
Introducción al Aprendizaje Supervisado
221 páginas
Machine Learning para Dummies
100% (1)
Machine Learning para Dummies
35 páginas
Tarea 3 Algoritmos de Aprendizaje. Emel Pedrozo
Aún no hay calificaciones
Tarea 3 Algoritmos de Aprendizaje. Emel Pedrozo
21 páginas
Introducción al Aprendizaje Supervisado
Aún no hay calificaciones
Introducción al Aprendizaje Supervisado
57 páginas
M2-Apuntes de Machine Learning - 11592 - 22-09-20-08-32-18-0idg2
Aún no hay calificaciones
M2-Apuntes de Machine Learning - 11592 - 22-09-20-08-32-18-0idg2
10 páginas
Métodos Supervisados en Machine Learning
Aún no hay calificaciones
Métodos Supervisados en Machine Learning
84 páginas
Modelos ML
Aún no hay calificaciones
Modelos ML
9 páginas
DIP Data Science - Supervised Methods S4
Aún no hay calificaciones
DIP Data Science - Supervised Methods S4
95 páginas
Sesion 5 y 6
Aún no hay calificaciones
Sesion 5 y 6
56 páginas
Aprenddedeeizaje Automatico o Machine Learning
Aún no hay calificaciones
Aprenddedeeizaje Automatico o Machine Learning
14 páginas
Telco SL
Aún no hay calificaciones
Telco SL
9 páginas
2do Parcial - Aprendizaje Automático - Apunte Classroom
Aún no hay calificaciones
2do Parcial - Aprendizaje Automático - Apunte Classroom
18 páginas
Modelos de Clasificación y Regresión
Aún no hay calificaciones
Modelos de Clasificación y Regresión
2 páginas
Teoria Machine Learning
Aún no hay calificaciones
Teoria Machine Learning
8 páginas
Cs de Datos 2da Parte
Aún no hay calificaciones
Cs de Datos 2da Parte
20 páginas
07-Diplomatura en IA - Aprendizaje Automático Regresión
Aún no hay calificaciones
07-Diplomatura en IA - Aprendizaje Automático Regresión
70 páginas
Guía de Algoritmos de Clasificación
Aún no hay calificaciones
Guía de Algoritmos de Clasificación
45 páginas
Separata 05
Aún no hay calificaciones
Separata 05
26 páginas
Presentacion Aprendizaje Supervisado
Aún no hay calificaciones
Presentacion Aprendizaje Supervisado
28 páginas
Introducción al Machine Learning
Aún no hay calificaciones
Introducción al Machine Learning
45 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
31 páginas
Evaluación de La Aplicabilidad de Modelos de Machine Learning para Predecir Riesgos de Impago.
Aún no hay calificaciones
Evaluación de La Aplicabilidad de Modelos de Machine Learning para Predecir Riesgos de Impago.
43 páginas
CCA Segundo Parcial 2
Aún no hay calificaciones
CCA Segundo Parcial 2
45 páginas
Tarea3 Grupo 202016908 84
Aún no hay calificaciones
Tarea3 Grupo 202016908 84
23 páginas
1 - Angela Arteaga
Aún no hay calificaciones
1 - Angela Arteaga
15 páginas
1 - Conceptos Básicos de Aprendizaje Automático
Aún no hay calificaciones
1 - Conceptos Básicos de Aprendizaje Automático
42 páginas
3 1 Algoritmos de Aprendizaje Automatico - Docx+
Aún no hay calificaciones
3 1 Algoritmos de Aprendizaje Automatico - Docx+
31 páginas
Tarea 3 Emel Pedrozo
Aún no hay calificaciones
Tarea 3 Emel Pedrozo
20 páginas
Guía Completa de Aprendizaje de Máquinas
Aún no hay calificaciones
Guía Completa de Aprendizaje de Máquinas
109 páginas
IN7581 - Taller de Advanced Analytics: Clase 6 - Modelación, Evaluación y Visualización de Resultados I
Aún no hay calificaciones
IN7581 - Taller de Advanced Analytics: Clase 6 - Modelación, Evaluación y Visualización de Resultados I
46 páginas
Que Es Datamining
Aún no hay calificaciones
Que Es Datamining
55 páginas
ATD - Sesion 15-16 Supervised Models - NEW Format
Aún no hay calificaciones
ATD - Sesion 15-16 Supervised Models - NEW Format
51 páginas
Introducción a Machine Learning
100% (1)
Introducción a Machine Learning
79 páginas
Modelos Supervisado y No Supervisados
Aún no hay calificaciones
Modelos Supervisado y No Supervisados
6 páginas
ATD - Sesion 15-16 Supervised Models - NEW Format
Aún no hay calificaciones
ATD - Sesion 15-16 Supervised Models - NEW Format
49 páginas
Unidad 6
Aún no hay calificaciones
Unidad 6
42 páginas
Rocho, el oso y la vergüenza infantil
Aún no hay calificaciones
Rocho, el oso y la vergüenza infantil
4 páginas
Conflictos entre Objetivos Organizacionales e Individuales
0% (1)
Conflictos entre Objetivos Organizacionales e Individuales
2 páginas
Trabajo Práctico Nº 2 EDUCACIÓN PARA LA SALUD - AULA TALLER.
Aún no hay calificaciones
Trabajo Práctico Nº 2 EDUCACIÓN PARA LA SALUD - AULA TALLER.
2 páginas
Ventajas de la pintura en polvo electrostática
100% (1)
Ventajas de la pintura en polvo electrostática
5 páginas
Presupuesto Insumos Salud San Juan
Aún no hay calificaciones
Presupuesto Insumos Salud San Juan
7 páginas
Cuestionario de Gestión de Capital Humano
0% (1)
Cuestionario de Gestión de Capital Humano
5 páginas
Brochure Boulevard
Aún no hay calificaciones
Brochure Boulevard
15 páginas
Torta Helada - Charlotte de Frutas
Aún no hay calificaciones
Torta Helada - Charlotte de Frutas
2 páginas
Fp-gth-01-13 Formato de Entrega de Dotacion y Epp
Aún no hay calificaciones
Fp-gth-01-13 Formato de Entrega de Dotacion y Epp
4 páginas
Etapa 3 6 Años
100% (1)
Etapa 3 6 Años
16 páginas
Cascos Skullgard para Industrias
Aún no hay calificaciones
Cascos Skullgard para Industrias
3 páginas
Método OWAS
Aún no hay calificaciones
Método OWAS
36 páginas
Libro de Matemáticas 5to Año
100% (1)
Libro de Matemáticas 5to Año
232 páginas
Mover Archivos en Linux: Comandos Esenciales
Aún no hay calificaciones
Mover Archivos en Linux: Comandos Esenciales
15 páginas
Justificacion Analisis Foda
Aún no hay calificaciones
Justificacion Analisis Foda
2 páginas
Conceptos y Técnicas de Estadística
Aún no hay calificaciones
Conceptos y Técnicas de Estadística
30 páginas
Resumen Arquitectura Colonial
Aún no hay calificaciones
Resumen Arquitectura Colonial
2 páginas
Cálculo de Áreas Circulares
Aún no hay calificaciones
Cálculo de Áreas Circulares
36 páginas
Programas Sinópticos Octavo Trimestre
Aún no hay calificaciones
Programas Sinópticos Octavo Trimestre
7 páginas
D&D - El Cubil Del Dragón - 2 - La Guarida Del Gusano
100% (1)
D&D - El Cubil Del Dragón - 2 - La Guarida Del Gusano
15 páginas
COTECMAR: Innovación Marítima en Colombia
Aún no hay calificaciones
COTECMAR: Innovación Marítima en Colombia
12 páginas
Presupuesto de Inversión
Aún no hay calificaciones
Presupuesto de Inversión
8 páginas
Informe Evaluación Concurso Vías Risaralda
Aún no hay calificaciones
Informe Evaluación Concurso Vías Risaralda
186 páginas
Instrucciones SVCC Resolución 81/19
Aún no hay calificaciones
Instrucciones SVCC Resolución 81/19
4 páginas
Preguntas Clave para el Coaching
75% (4)
Preguntas Clave para el Coaching
3 páginas
Examen Parcial Sistemas 2020-0
Aún no hay calificaciones
Examen Parcial Sistemas 2020-0
13 páginas
Test Competecias
Aún no hay calificaciones
Test Competecias
3 páginas
TEXTO ARGUMENTATIVO Mendoza LuisIsrael
Aún no hay calificaciones
TEXTO ARGUMENTATIVO Mendoza LuisIsrael
4 páginas
Cuentos Tradicionales Rusos
100% (2)
Cuentos Tradicionales Rusos
248 páginas
Examen Parcial de Fisica Forense I - Calvay
Aún no hay calificaciones
Examen Parcial de Fisica Forense I - Calvay
3 páginas