0% encontró este documento útil (0 votos)
26 vistas24 páginas

Deep Learning y Machine Learning en Negocios

Este documento explica conceptos básicos de deep learning como redes neuronales, funciones de activación, entrenamiento de modelos y minimización de errores. También menciona algunas aplicaciones comunes de deep learning.

Cargado por

Johan Benavides
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
26 vistas24 páginas

Deep Learning y Machine Learning en Negocios

Este documento explica conceptos básicos de deep learning como redes neuronales, funciones de activación, entrenamiento de modelos y minimización de errores. También menciona algunas aplicaciones comunes de deep learning.

Cargado por

Johan Benavides
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Deep Learning

para el análisis de
datos con redes
neuronales

Econ. Andres Antonio Campaña


Acuña
1. ¿Cómo podemos mejorar (más)?

Hipótesis: aplicar elementos de Machine Learning (ML) mejoran


y agilizan (más) la toma de decisiones.

▪ Indicadores (KPI) de productividad: utilidad neta, poder de


mercado, crecimiento de rentabilidad, …

▪ Indicadores (KPI) de eficiencia: tiempo de demora, errores en


procedimientos, …
1. ¿Cómo podemos mejorar (más)?

Evolución
▪ Actualmente, hay operaciones que han predominado sobre otras, aunque
estas herramientas aún requieren del análisis minucioso. ¡Este es un buen
inicio, no duden en empezar a usarlos sin aún no lo hacen!
1. ¿Cómo podemos mejorar (más)?

¿Qué herramientas nos permiten mejorar aún más?

▪ Gracias a la tecnología actual, y las herramientas gratuitas (no siempre), podemos


mejorar la eficiencia sin sacrificar la productividad.
▪ La automatización de procesos es un buen inicio para tener todo listo, y aplicar
ML, sea mediante cloud (nube) y/o procesos internos.
▪ Una vez implementado, con el ML le podemos “enseñar” a la computadora un
modelo para realizar procesos que haría un humano (o comprar una tecnología
que lo sepa hacer, conocida como modelo pre-entrenado).
2. Automatización y Machine Learning

Machine learning

▪ Pueden ser software como Stata (no gratis), o lenguajes de programación


como Python (gratis).
▪ Permite que la computadora aprenda y replique o extrapole eventos en el
negocio.
▪ Su lógica básicamente es: ¿Cuál es la major forma de que mis características
predicen a mi resultado?
𝑌 = 𝑓(𝑋1 , 𝑋2 , … )
Predecir el valor de una casa (caso básico)
𝑃𝑟𝑒𝑐𝑖𝑜 = 𝑓(𝑁° ℎ𝑎𝑏𝑖𝑡𝑎𝑐𝑖𝑜𝑛𝑒𝑠)

OJO:
- Lo normal es usar muchísimas características, no solo 1.
- Un modelo puede equivocarse, pero, si lo entrenamos bien, con el
tiempo mejorará.
2. Automatización y Machine Learning

Machine learning
Tipos de problemas: saber el tipo de variable por predecir
▪ Regresión: ¿cuánto cobrar por la casa?
▪ Binario: ¿será o no será comprador?
▪ Multi clase: ¿qué número está escrito en el papel?

Entrenamiento: separar la base en 2 partes, una para entrenar y la otra para


probar
▪ Árbol de decisión, SVM, Gradient Boosting, Redes Neuronales, etc…

Evaluación: aquí se usa la data para probar, y se ve el mejor modelo


▪ Regresión: error cuadrático
▪ Binario: precisión
▪ Multi clase: precisión cruzada
Consideración
Los datos normalmente se dividen en:
- train: parte de tus datos para estimar un modelo (80%)
- test: parte de tus datos para verificar un modelo (20%)
Evitar:
- underfitting: rendimiento pobre en train y test
- Overfitting: rendimiento excelente en train y pobre en test
Deep Learning
Conjunto de técnicas de Machine Learning que empleando arquitecturas (redes
neuronales), se consiga un análisis múltiple no lineal e iterativo, de forma tensorial.
Tensor es la generalización de los conceptos de orden espacial (escalar, vector, matriz, etc.),
como ejemplo, un escalar es un tensor de orden 0, vector es un tensor de orden 1, y así
sucesivamente. Tensor de orden 3

Fuente: MathWorks
Términos previos
Arquitectura de red neuronal
Pesos
Capas (entrada, escondidas, salida)
Nodos
Funciones de activación
Redes neuronales
Las redes neuronales son arquitecturas que simulan el
aprendizaje del cerebro humano.
Dada unas neuronas (una por cada feature), estas se
multiplican con cada peso en cada nodo de la capa
escondida uno, estos son nuevos valores que se
combinarán en cada nodo de la capa escondida dos (en
caso se deseará esto), y así hasta declarar la capa de
salida, el cual es la predicción o predicciones final.
Nótese que cada nodo necesita de una función de
activación.
Asimismo, cada línea es un parámetro, que a su vez está
acompañado de un sesgo (intercepto)

Fuente: Hipertextual
Funciones de activación
En cada capa que se crea, para calcular el valor final del nodo se necesita la
función de activación de dicha capa, estas determinan el valor final
calculado. Existen varias funciones de activación, no se puede saber a priori
cual es mejor que otra ni en que ocasiones una sirve más que otra.

Fuente: missing link


Ejemplos de función de activación
Cuando se multiplica el valor de una feature con el peso respectivo (los cuales son
aleatorios), obtenemos un valor (supongamos que el ingreso de A es 100, y el peso
aleatorio es -0.2, obteniendo -20), por lo que dicho valor pasará por una función de
activación (si usamos ReLU obtendríamos 0), por lo que este último es el que se
posicionará en la capa y será el usado para los siguientes cálculos, y finalmente como
activación de la predicción.

Función Función TanH/tangente


sigmoide/logística hiperbólica
Fuente: missing link Fuente: missing link
Función softmax
Función ReLU Fuente: missing link
Fuente: missing link

Para mayor detalle ver:


[Link]
concepts/7-types-neural-network-activation-functions-
right/
¿Cómo se calcula la red neuronal?
El valor de cada feature se multiplica por un peso aleatorio, se emplea el valor de la función
de activación, y así sigue en la arquitectura hasta obtener la predicción. Esto se hace para
cada observación.

Activación ReLU
Activación lineal Fuente: DataCamp
Fuente: DataCamp
¿Cómo minimizamos el error?
Con el gradient boosting.
Por ende, también hay el ratio de aprendizaje.
Aun así, los pesos aleatorios iniciales claramente nos puede dar un error alto, por lo que estos se deben
actualizar para mejorar las predicciones.
Ejemplo: si el peso inicial fue 2, el error fue -4 (valor predicho de 6 y real de 10), y el valor del nodo anterior
fue de 3, entonces con un ratio de aprendizaje de 0.01, el valor del nuevo peso sería:
2*-4*3=-24
Nuevo peso=peso inicial – ratio de aprendizaje * resultado anterior = 2 – 0.01 * (-24) = 2.24
Esto es conocido como actualización de pesos, y ¡se hace en cada nodo!
¿Cuántas veces se realiza la
actualización?
Los pesos se actualizan dependiendo de cuantas veces deseamos que nuestra data se
repita (epoch), además que así evitamos que la inmensa cantidad de parámetros por
estimar nos deje sin grados de libertad.
Por otro lado, por default viene incluido la validación, por lo que se debe escoger el tamaño
de data para test, y en cuantas divisiones se realizarán la data de train (batches).
Datos adicionales
Earlystoppings: dado que se entrenan múltiples modelos en la red neuronal, no siempre se
obtendrá un mejor resultado, por lo que podemos agregar un earlystopping, indicando la
tolerancia que debe tener el modelo ante continuas caídas de la medida de eficiencia.
History: podemos revisar el historial de nuestras medidas de eficiencia.
Diferentes optimizadores: así como el gradient boosting, existen otros como el Adam o el
ada, por lo que podría ser interesante probar estas opciones.
Dropout
En contraste con todo lo mencionado anteriormente, también existe el concepto de
eliminación porcentual, eliminando un % de las neuronas menos significativas para el
modelo, ignorando pixeles irrelevantes.

Fuente: Datacamp
Batchnormalization
Básicamente es normalizar los outputs para que tengan media 0 y desviación estándar 1.
No funciona bien al combinarlo con el dropout.
Aplicaciones
Regresiones convencionales como las de ML transversales
Chatbot (básico)
Esta arquitectura no es recomendable para imágenes o audios
Arquitecturas
Con el fin de mejorar el rendimiento de las redes neuronales, se crean las arquitecturas,
que son una forma de encaminar el aprendizaje, para dar mejores resultados
La arquitectura más básica es la fully connected, pero, hay más avanzadas como las
recurrentes, entre muchas otras.
Libros
[Link]
[Link]

También podría gustarte