Redes neuronales I
Grado en Matemáticas
32GMAT - Matemática Computacional
Machine Learning I
Profesor/a:
Jorge P. Sánchez A.
Introducción
Las redes neuronales artificiales (ANNs, por sus siglas en inglés) son modelos matemáti-
cos inspirados en el cerebro humano. Su objetivo es aproximar funciones complejas y son
ampliamente utilizadas en aprendizaje automático. En este documento, describiremos de-
talladamente su estructura, operación y fundamentos matemáticos.
1 / 37
Los Primeros Pasos
Warren McCulloch y Walter Pitts propusieron el primer modelo matemático de una neu-
rona. Este modelo binario se basó en:
▶ Entradas: Variables binarias que representaban la activación o inhibición.
▶ Pesos: Determinaban la importancia de cada entrada.
▶ Umbral: La neurona se activaba si la suma ponderada de las entradas superaba
este valor.
El modelo estableció las bases para las redes neuronales al demostrar que una combinación
de neuronas podrı́a computar funciones lógicas básicas.
2 / 37
Perceptrón (1958)
Frank Rosenblatt desarrolló el perceptrón, una arquitectura de red neuronal de una sola
capa. Sus caracterı́sticas principales incluyen:
▶ Un algoritmo de aprendizaje supervisado.
▶ Capacidad para clasificar patrones linealmente separables.
Sin embargo, en 1969, Marvin Minsky y Seymour Papert demostraron que el perceptrón
no podı́a resolver problemas no lineales como el XOR.
3 / 37
Redes Multicapa y Retropropagación
En la década de 1980, se introdujeron las redes neuronales multicapa (MLPs), que resolvı́an
las limitaciones del perceptrón al permitir:
▶ Más de una capa de neuronas (capas ocultas).
▶ Modelar relaciones no lineales.
4 / 37
Algoritmo de Retropropagación (1986)
David Rumelhart, Geoffrey Hinton y Ronald Williams propusieron el algoritmo de retro-
propagación, que permitió entrenar redes multicapa de manera eficiente mediante:
▶ Cálculo del gradiente de la función de pérdida.
▶ Ajuste iterativo de los pesos usando descenso por gradiente.
5 / 37
Avances Recientes
Con el aumento del poder computacional y la disponibilidad de grandes volúmenes de
datos, las redes neuronales profundas (DNNs) surgieron como una tecnologı́a dominante.
Algunos hitos incluyen:
▶ Convolutional Neural Networks (CNNs): Introducidas por Yann LeCun en la
década de 1990 y popularizadas en 2012 con AlexNet para reconocimiento de
imágenes.
▶ Recurrent Neural Networks (RNNs): Utilizadas para datos secuenciales y
mejoradas con arquitecturas como LSTM y GRU.
6 / 37
Transformers (2017)
El modelo Transformer, introducido por Vaswani et al., revolucionó el procesamiento del
lenguaje natural y otras áreas. Su arquitectura basada en mecanismos de atención permitió:
▶ Manejar secuencias largas de datos.
▶ Reemplazar las RNNs en tareas clave.
7 / 37
Componentes de una Red Neuronal
Una red neuronal está compuesta por:
1. Capas: Incluyen la capa de entrada, capas ocultas y la capa de salida.
2. Neuronas: Procesan las entradas para producir una salida.
3. Pesos y Sesgos: Parámetros ajustables que determinan el comportamiento de la red.
4. Función de Activación: Introduce no linealidad al modelo.
8 / 37
Componentes de una Red Neuronal
9 / 37
Matemáticas de una Neurona
La operación de una neurona puede representarse como:
n
X
z= wi xi + b, (1)
i=1
donde xi son las entradas, wi los pesos asociados, b es el sesgo, y z es la suma ponderada.
Posteriormente, se aplica una función de activación ϕ(z) para obtener la salida:
a = ϕ(z). (2)
10 / 37
Matemáticas de una Neurona
11 / 37
Funciones de Activación
Las funciones de activación son un componente clave de las redes neuronales, ya que intro-
ducen no linealidad al modelo. Sin la no linealidad, las redes neuronales serı́an equivalentes
a un modelo lineal, incapaces de capturar relaciones complejas en los datos. La función
de activación toma el valor de entrada z (suma ponderada más el sesgo) y produce una
salida a. A continuación, se describen las caracterı́sticas y ejemplos comunes de funciones
de activación.
12 / 37
Propiedades Deseables
Una función de activación debe cumplir con las siguientes propiedades:
▶ Diferenciabilidad: Es fundamental para el cálculo del gradiente en la
retropropagación.
▶ No linealidad: Permite a la red neuronal aproximar funciones complejas.
▶ Rango adecuado: Las salidas deben estar dentro de un rango útil para garantizar
estabilidad numérica.
13 / 37
Funciones de Activación Comunes
▶ Sigmoide:
1
ϕ(z) = , (3)
1 + e −z
es una función suave que mapea valores reales a un rango entre 0 y 1. Se utiliza en
problemas de clasificación binaria, pero puede sufrir de gradientes que desaparecen
para valores extremos de z.
▶ ReLU (Rectified Linear Unit):
ϕ(z) = máx(0, z), (4)
es una función simple y computacionalmente eficiente que introduce no linealidad al
dejar pasar sólo valores positivos. Sin embargo, puede presentar problemas con
”neuronas muertas”(salida cero constante para ciertos pesos).
14 / 37
Funciones de Activación Comunes
▶ Tangente hiperbólica:
e z − e −z
ϕ(z) = tanh(z) = , (5)
e z + e −z
mapea valores reales a un rango entre -1 y 1. Es similar a la sigmoide pero centrada
en cero, lo que la hace más adecuada para datos con valores positivos y negativos.
▶ Softmax:
e zi
ϕ(zi ) = Pn zj
, (6)
j=1 e
se utiliza en la capa de salida para problemas de clasificación multiclase. Convierte
un vector de valores reales en un vector de probabilidades.
15 / 37
Comparación de Funciones de Activación
Cada función tiene sus ventajas y desventajas dependiendo del problema y la arquitectura
de la red neuronal. Por ejemplo, la ReLU es preferida en redes profundas debido a su
simplicidad y eficiencia computacional, mientras que la sigmoide y la tangente hiperbólica
son más comunes en redes más antiguas o especı́ficas.
16 / 37
Propagación hacia Adelante (Forward Propagation)
La propagación hacia adelante es el proceso mediante el cual los datos de entrada atra-
viesan la red neuronal para producir una salida. Para una red neuronal con L capas, el
cálculo se realiza capa por capa.
17 / 37
Cálculo en una Capa
Para la capa l, la salida a(l) se calcula como:
z (l) = W (l) a(l−1) + b (l) , (7)
a(l) = ϕ(z (l) ), (8)
donde:
▶ W (l) es la matriz de pesos de la capa l.
▶ b (l) es el vector de sesgos.
▶ a(l−1) son las activaciones de la capa anterior (o los datos de entrada si l = 1).
▶ ϕ es la función de activación.
18 / 37
Propagación Total
El proceso se repite para todas las capas de la red hasta llegar a la capa de salida,
obteniendo la predicción final ŷ :
ŷ = a(L) . (9)
19 / 37
Ejemplo Numérico
Supongamos una red neuronal con:
▶ L = 2 capas.
(1) 0,2 0,4 (1) 0,1
▶ W = ,b = .
0,5 0,3 −0,2
▶ W (2) = 0,7 0,9 , b (2) = 0,5 .
(0) 1
▶ Entrada a = .
0,5
Capa 1:
(1) (1) (0) (1) 0,2 0,4 1 0,1 0,5
z =W a +b = + = . (10)
0,5 0,3 0,5 −0,2 0,4
(1) (1) (1) 0,5
a = ϕ(z ) = máx(0, z ) = . (11)
20 / 37
Función de Pérdida
El objetivo de la red neuronal es minimizar una función de pérdida que mide la discrepancia
entre las predicciones y los valores reales. Algunos ejemplos comunes son:
▶ Error Cuadrático Medio (MSE):
m
1 X
L(y , ŷ ) = (yi − ŷi )2 , (14)
m i=1
donde m es el número de muestras, yi los valores reales y ŷi las predicciones.
▶ Entropı́a Cruzada:
m
1 X
L(y , ŷ ) = − [yi log(ŷi ) + (1 − yi ) log(1 − ŷi )] . (15)
m i=1
21 / 37
Propagación hacia Atrás (Backward Propagation)
El entrenamiento de una red neuronal implica el ajuste de los pesos y sesgos mediante el
algoritmo de retropropagación. Este se basa en el cálculo del gradiente de la función de
pérdida respecto a los parámetros de la red. Usando el método del descenso por gradiente,
los parámetros se actualizan como sigue:
∂L
θ ←θ−η , (16)
∂θ
donde η es la tasa de aprendizaje y θ representa los pesos y sesgos.
El gradiente se calcula usando la regla de la cadena:
∂L ∂L ∂a(l) ∂z (l)
= · · . (17)
∂θ(l) ∂a(l) ∂z (l) ∂θ(l)
22 / 37
Ventajas de la Retropropagación para el Entrenamiento de Redes
Neuronales
Los principales beneficios de utilizar el algoritmo de retropropagación son:
▶ Facilidad de implementación: La retropropagación es amigable para
principiantes, no requiere conocimientos previos de redes neuronales y simplifica la
programación al ajustar los pesos a través de derivadas de errores.
▶ Simplicidad y flexibilidad: Su diseño sencillo se adapta a una variedad de tareas,
desde el feedforward básico hasta redes convolucionales o recurrentes complejas.
▶ Eficiencia: La retropropagación acelera el aprendizaje al actualizar directamente los
pesos en función del error, especialmente en redes profundas.
23 / 37
Ventajas de la Retropropagación para el Entrenamiento de Redes
Neuronales
▶ Generalización: Ayuda a que los modelos se generalicen bien a nuevos datos,
mejorando la precisión de la predicción en ejemplos no vistos.
▶ Escalabilidad: El algoritmo se escala de manera eficiente con conjuntos de datos
más grandes y redes más complejas, lo que lo hace ideal para tareas a gran escala.
24 / 37
Desafı́os de la Retropropagación
Si bien la retropropagación es poderosa, enfrenta algunos desafı́os:
▶ Problema del gradiente evanescente: En redes profundas, los gradientes pueden
volverse muy pequeños durante la retropropagación, lo que dificulta el aprendizaje
de la red. Esto es común cuando se utilizan funciones de activación como sigmoidea
o tanh.
▶ Gradientes explosivos: Los gradientes también pueden volverse excesivamente
grandes, provocando que la red diverja durante el entrenamiento.
▶ Sobreajuste: Si la red es demasiado compleja, podrı́a memorizar los datos de
entrenamiento en lugar de aprender patrones generales.
25 / 37
Tipos de Redes Neuronales Artificiales
Existen diversos tipos de redes neuronales artificiales (ANNs), cada una diseñada para
tareas especı́ficas. A continuación, se describen las principales:
Redes Neuronales Feedforward (FFNN) Estas redes son las más simples y consisten
en conexiones unidireccionales desde las capas de entrada hasta la capa de salida. Se
utilizan principalmente en problemas de clasificación y regresión.
Redes Neuronales Convolucionales (CNNs) Las CNNs son ideales para procesamiento
de datos con estructura espacial, como imágenes. Se basan en capas convolucionales que
extraen caracterı́sticas locales mediante filtros aprendibles.
26 / 37
Tipos de Redes Neuronales Artificiales
Redes Neuronales Recurrentes (RNNs) Estas redes son adecuadas para datos se-
cuenciales, como series temporales o texto. Utilizan conexiones recurrentes que permiten
conservar información de pasos anteriores en la secuencia.
Redes Generativas Antagónicas (GANs) Las GANs consisten en dos redes que com-
piten entre sı́: un generador que crea datos sintéticos y un discriminador que evalúa si los
datos son reales o generados. Son utilizadas en tareas como generación de imágenes y
videos.
Redes Neuronales de Transformadores Basadas en mecanismos de atención, estas
redes han revolucionado el procesamiento del lenguaje natural y la visión computacional.
Ejemplos incluyen modelos como BERT y GPT.
27 / 37
Aplicaciones Actuales de las Redes Neuronales
Las redes neuronales tienen una amplia gama de aplicaciones en la actualidad, entre las
cuales destacan:
28 / 37
Reconocimiento de Imágenes y Visión por Computadora
Las redes neuronales convolucionales (CNNs) se utilizan para tareas como:
▶ Clasificación de imágenes.
▶ Detección de objetos.
▶ Segmentación semántica.
Estas aplicaciones son esenciales en campos como la medicina (análisis de imágenes ra-
diológicas) y la seguridad (reconocimiento facial).
29 / 37
Procesamiento del Lenguaje Natural (NLP)
Los modelos basados en redes neuronales, como los transformers, permiten:
▶ Traducción automática.
▶ Análisis de sentimientos.
▶ Generación de texto.
▶ Asistentes virtuales como Alexa y Siri.
30 / 37
Conducción Autónoma
Las redes neuronales se utilizan para analizar datos en tiempo real provenientes de sensores
y cámaras en vehı́culos autónomos. Estas redes ayudan en:
▶ Detección de peatones y señales de tráfico.
▶ Planeación de trayectorias.
▶ Prevención de colisiones.
31 / 37
Diagnóstico Médico
En la medicina, las redes neuronales asisten en:
▶ Diagnóstico de enfermedades a partir de imágenes médicas.
▶ Predicción de resultados clı́nicos.
▶ Descubrimiento de medicamentos.
32 / 37
Finanzas
En el sector financiero, se utilizan para:
▶ Detección de fraudes.
▶ Predicción de precios de activos.
▶ Análisis de crédito.
33 / 37
Conclusiones I
Las redes neuronales artificiales (ANNs) representan una de las herramientas más versátiles
y poderosas del aprendizaje automático. Tras décadas de investigación y avances tecnológi-
cos, han alcanzado un nivel de sofisticación que les permite abordar problemas complejos
en una variedad de campos. A continuación, se resumen las principales conclusiones sobre
las ANNs:
▶ Las ANNs son altamente versátiles y pueden adaptarse a diversas tareas, como
clasificación, regresión, procesamiento del lenguaje natural, visión por computadora
y más.
▶ Su capacidad para aproximar funciones complejas las hace adecuadas para modelar
relaciones no lineales en grandes conjuntos de datos.
34 / 37
Conclusiones II
▶ El desarrollo de algoritmos como la retropropagación ha sido fundamental para
entrenar redes multicapa de manera eficiente.
▶ El aumento del poder computacional y la disponibilidad de grandes volúmenes de
datos han catalizado el auge de las redes neuronales profundas (DNNs).
▶ Las ANNs han transformado numerosos campos, desde la medicina hasta la
automoción, proporcionando soluciones innovadoras y eficaces.
▶ Su capacidad para automatizar tareas complejas reduce significativamente los costos
y mejora la eficiencia en múltiples industrias.
▶ Aunque poderosas, las ANNs enfrentan problemas como el sobreajuste, el gradiente
evanescente y la necesidad de grandes cantidades de datos etiquetados.
35 / 37
Conclusiones III
▶ La interpretabilidad y la explicabilidad de los modelos siguen siendo áreas activas de
investigación.
▶ La combinación de ANNs con otras técnicas, como el aprendizaje por refuerzo o los
modelos probabilı́sticos, promete ampliar aún más sus aplicaciones.
▶ Los avances en hardware, como los procesadores especializados (GPUs, TPUs),
continuarán mejorando la velocidad y escalabilidad de los modelos.
▶ Se espera que las redes neuronales desempeñen un papel clave en el desarrollo de
inteligencia artificial general.
▶ Las redes neuronales artificiales han demostrado ser una tecnologı́a transformadora
en el panorama actual del aprendizaje automático.
36 / 37
Conclusiones IV
▶ Su capacidad para resolver problemas complejos y adaptarse a diversas aplicaciones
asegura su relevancia continua en el futuro.
▶ A medida que se aborden los desafı́os existentes, las ANNs seguirán expandiendo los
lı́mites de lo que es posible en la ciencia y la tecnologı́a.
37 / 37
¡Muchas gracias!
Contacto:
jsancheza@[Link]