0% encontró este documento útil (0 votos)
36 vistas36 páginas

Redes Neuronales - I2025

El documento presenta una introducción a la inteligencia artificial y el análisis de datos, enfocándose en el uso de redes neuronales para el aprendizaje automático. Se discuten conceptos básicos, la estructura de las redes neuronales, y se proporciona un ejemplo práctico utilizando el conjunto de datos MNIST. Además, se abordan técnicas de modelado estadístico y la importancia de la diversidad en los ejemplos para el aprendizaje efectivo de las redes neuronales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
36 vistas36 páginas

Redes Neuronales - I2025

El documento presenta una introducción a la inteligencia artificial y el análisis de datos, enfocándose en el uso de redes neuronales para el aprendizaje automático. Se discuten conceptos básicos, la estructura de las redes neuronales, y se proporciona un ejemplo práctico utilizando el conjunto de datos MNIST. Además, se abordan técnicas de modelado estadístico y la importancia de la diversidad en los ejemplos para el aprendizaje efectivo de las redes neuronales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Analítica de datos

Redes Neuronales.
Henry Lamos D
Introducción a la
Inteligencia Artificial
• Pasos para la construcción de
• Conceptos Básicos • Conceptos Básicos una IA
• La inteligencia artificial • ¿Qué experiencia?
• Involucra la capacidad
se refiere a la de aprender, razonar, • ¿Qué debe aprender?
simulación de comprender, percibir y • ¿Cómo representar el
procesos de actuar de manera conocimiento?
inteligencia humana autónoma.
por parte de • ¿Qué algoritmo usar para
máquinas, aprender?
especialmente • ¿Cómo se mide la mejora?
sistemas informáticos.

Seminario Analítica de datos. H Lamos


Agenda clases
• Una introducción a Python
• Una Introducción al análisis de datos
mediante el modelado estadístico
• Una introducción al análisis de datos
mediante modelos de Machine
Learning/data mining
Modelado
estadístico

Variable Codificación original Descripción


𝑦 =𝑎 0 + 𝑎1 𝑥 1 +𝑎 2 𝑥 2 +𝑎3 𝑥 3 +𝑎4 𝑥 4 + 𝜀
X1 LIMIT_BAL Monto del crédito otorgado

X2 SEX Género
Data set : Credit Card Fraud Detection
X3 EDUCATION Educación
saldos de facturación mensual y los
X4 MARRIAGE montos
Estado civilpagados

X5 AGE Edad

Historial de pagos mensuales de abril a septiembre del 2020. La escala mide desde -1
X6-X11 PAY_0 à PAY_6
(pagado puntualmente) hasta 9 (retraso de nueve meses o más).

X12- Monto del estado de cuenta mensual en dólares taiwaneses de abril a septiembre del
BILL_AMT1 à BILL_AMT6
X17 2020,Analítica
desde X12 de(septiembre) hasta X17 (abril).
datos. H Lamos
1
𝑥1

Aprendizaje 𝑥2 2 𝑦
automático
𝑥3
𝑥4 3

Data set : Credit Card Fraud Detection


saldos de facturación mensual y los
montos pagados

Seminario Analítica de datos. H Lamos


Un modelo de cerebro

Cerebro está compuesto por millones de Las neuronas son células


elementos computacionales simples especializadas que se encuentran en
neuronas. Capacidad computacional del
cerebro proviene de paralelismo masivo.
los organismos vivos y tienen
Percepción y representación del mundo. actividad eléctrica. Su objetivo
Inferencia probabilística. Manejo de principal consiste en el control
información conflictiva operativo del organismo.

En lugar de describir el problema a través de un


Modelo Matemático, las redes neuronales utilizan
la analogía del cerebro humano y su estructura para
desarrollar una estrategia de procedimiento.
Un modelo de red neuronal
100.000
MILLONES

Con
10.000
se
conecta
Modelo conceptual, modelo
matemático
Funcionamiento
Algunas de las células nerviosas, los
receptores, reciben la información
directamente del exterior; se le conoce 𝟓
como estímulo.
𝑎=∑ 𝑊 𝑖 𝑥𝑖 +𝜃
Existen terminaciones nerviosas en casi Pesos sinápticos 𝑖 =1
todas las partes del organismo que se
encargan de recibir la información
visual, auditiva, táctil, etc J=
La información una vez elaborada, pasa
a ser tratada como el resto de la
información del sistema nervioso y
convertida en impulsos electro-
químicos; los cuales llegan a los
efectores, los órganos, glándulas,
músculos; que son capaces de
transformar la información recibida en
acciones motoras, hormonales, etc
Red neuronal artificial, modelo matemático

Anotemos que una RNA es solo una forma en que el conocimiento


empírico acerca de un proceso “físico” (entorno - ambiente) de interés
puede ser encapsulado.

Usualmente nosotros no tenemos el conocimiento de la relación funcional


entre
entrada
Función de perdida

𝑥 𝐻𝑎𝑚𝑎𝑐𝑎
𝑔 (𝑥)
El objetivo es aproximar a .
¿Qué usar para la aproximación?
Aprendizaje
Las redes de neuronas artificiales son sistemas de aprendizaje basados
en ejemplos.
 Debe existir un número suficiente de ejemplos
 Los ejemplos deben ser diversos.
 El conjunto de aprendizaje son los ejemplos
 La capacidad de una red para resolver un problema depende de
forma fundamental al tipo de ejemplos que se dispone en el proceso
de aprendizaje
Definiciones importantes

Topología de una Red Los elementos de procesamiento dentro de una red neuronal
artificial se encuentran agrupados por capas. Se define una capa como una colección
de neuronas y de acuerdo a la ubicación de la capa en la red reciben diferentes
nombres:
1. Capa de entrada: Recibe las señales de la entrada de la red. En algunos casos no
se considera el vector de entrada como una capa debido a que hasta ese momento
no se ha llevado a cabo ningún proceso.
2. Capas ocultas: Estas capas son aquellas que no tienen contacto con el medio
exterior, sus elementos pueden tener diferentes conexiones y son estas las que
determinan las diferentes topologías de la red.
3. Capa de salida: Recibe la información de la capa oculta y transmite la respuesta al
medio externo.
Arquitectura de una Red neuronal artificial
De la observación detallada del proceso biológico se han hallado los siguientes análogos con el
sistema artificial:

 Las entradas representan las señales que provienen de otras neuronas y que son capturadas por
las dendritas. Los pesos son la intensidad de la sinapsis que conecta dos neuronas; la neurona
en la capa a la neurona en la capa ( tanto como son valores reales).

 Regla de propagación proporciona el valor potencial pos sináptico de la neurona i en función


de sus pesos y entradas. Sea

 Función de activación proporciona el estado de activación actual


de la neurona i, en función de su estado anterior y de su potencial pos sináptico actual. Sea

 Función de salida , que proporciona la salida actual de la neurona i en función de su estado de


activación.
MNIST Dataset Overview
This example is using MNIST handwritten
digits. The dataset contains 60,000 examples
for training and 10,000 examples for testing.
The digits have been size-normalized and
centered in a fixed-size image (28x28 pixels)
with values from 0 to 255.

28 × 28=784
169 171 172 176 182 184 166 91 57 57 62

172 170 176 180 182 183 88 62 55 55 57

172 175 176 181 191 175 66 62 53 57 62

175 172 180 181 188 157 97 75 48 49 62

172 175 180 182 184 110 106 90 55 54 63

172 176 179 188 147 72 96 90 73 62 71


Se debe dividir el cuerpo del texto en elementos
individuales, llamados “componentes léxicos”

Sentencias, Limpieza Sentencias limpias


Stop words
removal • “ver película ciencia
• “vieron una película
de ciencia ficción”
• de ficción”
• me, el
(1,1,1,1,1,1,0,0.0,0,0, • ellos, una (1,1,1,1,0,0,0,0)
0,0,0)
Stemming
• “Me gusta el cañón de • “gusta cañón
• ver, vieron, ven
Chicamocha”
(0,0,0,1,0,0,1,1,1,1,1,
chicamocha”
0,0,0) ver • (0,0,0,0,1,1,1,0)
• “Ellos deciden ver una
• “deciden ver
película de ciencia
Proceso de película ciencia
ficción” transformar una ficción”
(0,1,1,1,1,1,0,0,0,0,0,
1,1,1)
palabra en su forma (1,1,1,1,0,0,0,1)
raíz.
Arquitectura de una Red neuronal 𝑏 umbral
1

0= 𝑦 1
𝑤 11 1
Diseño de RNA
𝑥1 𝑤 12
a)Determinar tipo de red
𝑤 13
b)Determinar funciones de 2
1= 𝑦 2
activación 𝑤2 1
𝑏2
c)Determinar la arquitectura de
diseño 𝑥2 9= 𝑦 9
3
d)Determinar el tamaño
Capa de
𝑏3 Capas Capa de salida
entrada
ocultas
Las neuronas de la capa de
Activación de las neuronas de la capa oculta :
entrada se encargan de
transmitir hacia la red las
señales recibidas del exterior
Función sigmoide

𝑓 ( 𝑎 )=
{ 1
1+ 𝑒
−𝑎

1.0
y
0.9

0.8

{
0.7

0.6 0 si 𝑎 ≤ 0
0.5
𝑓 ( 𝑎 )= 𝑎 si 0 <𝑎 <1
0.4

0.3 1 si 𝑎 ≥ 1
0.2

0.1

-5 -4 -3 -2 -1 0 1 2 3 4 5
x Función tangente hiperbólica

( )
𝑎 − 𝑎
‖𝑎 − 𝜇‖
2
𝑒 −𝑒
𝑓 ( 𝑎 ) =𝑒𝑥𝑝 − 𝑓 ( 𝑎 )= 𝑎 −𝑎
2 𝜎2 𝑒 +𝑒
El perceptron simple (Rosenblatt)
El perceptrón simple es un modelo unidireccional, compuesto por dos capas de neuronas,
una de entrada (sensorial) y otra de salida (o varias salidas). Se tienen dos clases

Observación.El algoritmo de aprendizaje del perceptrón funciona para aprender


funciones binarias linealmente separables, en caso contrario no converge ni produce la
mejor solución.

-1 -1 -1

+1 -1 -1

-1 +1 -1

+1 +1 +1
𝑥1 𝑤1 =1
y 1) En el ejemplo de la figura , las entradas son
ejemplos o patrones de entrenamiento y la
salida Los pesos son . Además, existe un
parámetro adicional llamado umbral y
𝑥2 𝑤2 =−1 𝑏=0.5 denotado por .
2) La función de propagación que se calcula
como la suma ponderada por los pesos de
todas las entradas
3) La función de activación )
4) La entrada asociada al peso ( tiene el valor
función escalón de -1 (habrá tantos umbrales como células
de salida existan en la red, uno por cada una)
FUNCION LOGICA AND
Actualización de pesos

, es el bias (sesgo y la entrada ) El algoritmo de aprendizaje del


es una constante positiva pequeña que perceptrón garantiza encontrar un
controla la tasa de aprendizaje, conjunto de pesos que
usualmente entre 0 y 1. proporcione la respuesta correcta
si tal conjunto existe
FUNCION LOGICA AND

La inicialización de la red es aleatoria. Supóngase que


los pesos son inicializados a 1, y el umbral a 0,5.
𝑥1 𝑤1 =1
y

𝑥2 𝑤2 =−1 𝑏=0.5
A continuación, se introducen los patrones de entrenamiento y se efectúa el
aprendizaje para aquellos que produzcan una salida errónea.
Patrón salida clasifica
Aprendizaje por refuerzo
 Se potencian las salidas
(-1,-1:-1) f(-1+(-1)+0.5)=-1 bien
correctas
(+1,-1:-1) f(+1+(-1)+0.5)=+1 mal  No se tienen en cuenta las
incorrectas
Por lo tanto es diferente a la deseada .
En este caso la máquina deberá aprender que con la entrada se equivoco.
Se produce el aprendizaje a través de la fórmula
Se introduce ahora el siguiente patrón de entrenamiento:
Patrón salida clasifica
(-1,+1:-1) f(0*(-1)+2*(+1)-0.5)=+1 mal

Por lo tanto y(-1,+1)=1 es diferente a la deseada d=-1.


En este caso se produce el aprendizaje a través de la fórmula

Δ𝑤𝑖=𝑑(+1,−1)𝑥𝑖 ,𝑖=1,2
Si el producto escalar del vector de entrada con el vector de pesos es
negativo, la salida será la equivocada

𝑦 ( 𝑘)
𝑖 = 𝑠𝑔𝑛 ( 𝑤 𝑇
𝑖 𝑥 𝑘
) = 𝑠𝑔𝑛 ¿
x1 x2 (1)
2 3 1 𝑦 Como hay solo una salida . Se eliminará este
(1) 2,5 2 1
𝑥 =(2 , 3) 8 7 -1
subíndice en los cálculos
6 4 -1

Se calcula la salida
Actualización de pesos
, es el bias (sesgo, umbral)
es la salida deseada y es la salida actual
Para cada vector de entrada se repiten los pasos anteriores, hasta que no haya cambios en los pesos o el máximo
número de iteraciones se alcanza
Luego se repite el procedimiento para todos los datos de entrenamientos
𝑛𝑢𝑒𝑣𝑜 𝑣𝑖𝑒𝑗𝑜 (𝑘)
𝑤 =𝑤 +𝛼 / 2( 𝑑 ) 𝑥 𝑖
-1 -1 -1 Clase I
+1 -1 -1 Clase I
𝑤1 =1 ,𝑤 2=1 , 𝑏=0.5
-1 1 -1 Clase I
+1 1 1 Clase II

Veamos como discrimina nuestra regla cuando se le presenta el primer patrón (-1,-1); net=-1.5.
a) Ahora con este valor se procede a hallar el valor de la función de activación (limitador fuerte) sgn(-
1.5)=-1, por consiguiente, el patrón está bien clasificado.
b) Se procede con el segundo patrón (1,-1), el valor de sgn(0.5)=+1
c) Se actualizan los pesos dado que la clasificación es incorrecta
Perceptrón aplicado a la
función AND

(-1,+1)
(1,1)
𝒘

(+1,-1)

( 1, 1)
x1  x2  0.5 0
Operador XOR
• Aplicaciones del operador XOR con • Ejemplo
imágenes • Sea dos imágenes: una de un círculo negro
• El operador XOR se utiliza en diversas sobre fondo blanco y otra de un cuadrado
aplicaciones de procesamiento de negro sobre fondo blanco. Al aplicar el
imágenes, como: operador XOR a estas dos imágenes,
• Detección de cambios: Al comparar dos obtendrás una imagen donde solo se verán
imágenes mediante XOR, se pueden las áreas donde las imágenes originales son
identificar las áreas donde ha habido diferentes, es decir, el círculo y el cuadrado
cambios. superpuestos en blanco.
• Criptografía: El operador XOR se utiliza en
algunos algoritmos de cifrado para
combinar datos. 0 0 0
• Generación de máscaras: El operador XOR
se puede utilizar para crear máscaras que 1 0 1
permitan seleccionar o modificar ciertas
áreas de una imagen. 0 1 1
1 1 0
Perceptrón multicapa para la XOR

Clase
0

Clase
1

Clase Clase
1 0
X2
X1 (peso) (volumen) y1 y2 y3 Fruta
3,98 3,99 1 0 0grapefruit
2,23 1,74 0 1 0apple
0,7 0,69 0 0 1lemon 𝑤 11 1❑
4 3,9 1 0 0grapefruit 𝑦1
2,2 1,75 0 1 0apple
0,69 0,63 0 0 1lemon
𝑥1 𝑤2 1 𝑏1
4,1 4 1 0 0grapefruit 𝑤 12 2
2,5
0,74
1,69
0,59
0
0
1
0
0apple
1lemon
𝑦2
𝑤3 1
𝑏2

Consideremos la matriz de pesos 𝑥2


3
𝑦3
𝑏3
ADALINE (Adaptive Linear Element)

Es frecuente encontrar problemas donde las salidas son números reales y por
consiguiente el espacio de salida no sería un conjunto discreto de valores lo que no
sería adecuado usar el Perceptron para la resolución del problema. Se usa un método
de mínimos cuadrados para su entrenamiento.

Los pesos se actualizan en base a la función lineal en vez de la función escalón


unitario.

Con ADALINE se podrían resolver problemas más generales, como aproximar cierta
función definida por un conjunto de datos . Procedamos a describir el aprendizaje.
Una red con muchas neuronas se denomina MADALINE.
Aplicaciones:
 Procesamiento de señales
 Canceladores de ECO, en señales telefónicas
 Sistemas de predicción
Algoritmo LMS

Un aprendizaje supervisado intenta minimizar un costo esperado desconocido o una


función de error La función de densidad de probabilidad (desconocida ) define la
función de costo esperado. En general se desconoce la distribución de probabilidad
conjunta que caracteriza la función de muestreo , denota un vector aleatorio en ,
denota un vector aleatorio en .
El error esperado se pesa por todas las posibles muestras de entrada salida (, ) en el
espacio muestral con .

datos), Así que se estima por .


Ahora bien, solo se conoce una muestra de ejemplos, , entrada-salida (la tabla de

El valor de naturalmente depende de la muestra observada ; por lo tanto, es una


variable aleatoria.
Algoritmo LMS
Para encontrar los pesos a partir de la ecuación se define la función de costo o pérdida

, son los ejemplos

el problema consiste en hallar los pesos de tal forma que se minimice la función de costo (el
error global).

Para determinar los pesos usaremos el método del descenso de gradiente en lotes
es la iteración
La actualización del peso se calcula en base a todas las muestras del conjunto
de entrenamiento (en lugar de actualizar los pesos de forma incremental
después de cada muestra).
rango de aprendizaje; se debe determinar un buen rango de aprendizaje para
tener una buena convergencia

Observación

Cuando se aplica el algoritmo de ajuste con todo el conjunto de muestras de datos de


entrada en cada iteración del algoritmo, resulta muy costoso, dado que se necesita
reevaluar todo el conjunto de datos de entrenamiento cada vez que se realiza un paso
hacia el mínimo global.
La regla de aprendizaje de Widrow-Hoff o regla LMS (Least Mean
Square).

Los cambios se hacen individualmente para cada patrón de entrada , entonces los
incrementos de los pesos en respuesta al patrón es

Se conoce como el algoritmo de descenso de gradiente estocástico (SGD- Stochastic


Gradient Descent), cuando se estima el gradiente a partir del error observado para cada
muestra de entrenamiento. El término estocástico se refiere al hecho de que cada dato se
extrae al azar.
• El rango de aprendizaje fijado a menudo se sustituye por
un rango adaptativo que disminuya con el tiempo; por
Observaciones ejemplo

1) Descenso de gradiente
estocástico es una aproximación
al descenso de gradiente , son constantes
2) Es usual usar minilotes (Mini
Batch Gradient Descent), un El equilibrio entre el descenso de gradiente en lotes y el
subconjunto de muestras del descenso de gradiente estocástico se denomina aprendizaje
conjunto de entrenamiento. de mini lote (subconjunto más pequeño de datos de
entrenamiento; por ejemplo, 32 muestras a la vez). Para
3) Para que los resultados sean asegurarse que se usan todos los datos, se particiona los
satisfactorios los datos de datos de entrenamiento en varios subconjuntos (o lotes) de
entrenamiento se deben presentar un tamaño determinado. Se elige el primer lote y se pasa por
en un orden aleatorio, además, se la red, se calcula el gradiente de la función de pérdida y se
mezclan los conjuntos de actualizan los parámetros de la RN; se sigue sucesivamente
entrenamiento para cada época hasta el último lote.
con el fin de evitar ciclos
Log loss, logistic loss o cross-
entropy loss
En problemas de clasificación, la capa de salida utiliza como función de activación la
función softmax (Esta función se utiliza para convertir las salidas de la capa anterior en
probabilidades que suman uno. Las probabilidades se utilizan para medir la confianza del modelo
en la pertenencia a cada clase.)
Por consiguiente, la red devuelve una serie de valores que pueden interpretarse como la
probabilidad de que la observación predicha pertenezca a cada una de las posibles clases
En caso de dos clases

Función de perdida=

en caso de varias clases

También podría gustarte