0% encontró este documento útil (0 votos)
24 vistas27 páginas

Visión Artificial en la Industria: IA y Automatización

El artículo aborda la visión artificial en la industria, destacando su evolución desde técnicas tradicionales hasta la integración con inteligencia artificial y machine learning. Se exploran aspectos clave como la adquisición y análisis de imágenes, así como aplicaciones en automatización y robótica. Además, se discuten los retos actuales y futuros del deep learning aplicado a la visión industrial.

Cargado por

veritoleon.rdz
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
24 vistas27 páginas

Visión Artificial en la Industria: IA y Automatización

El artículo aborda la visión artificial en la industria, destacando su evolución desde técnicas tradicionales hasta la integración con inteligencia artificial y machine learning. Se exploran aspectos clave como la adquisición y análisis de imágenes, así como aplicaciones en automatización y robótica. Además, se discuten los retos actuales y futuros del deep learning aplicado a la visión industrial.

Cargado por

veritoleon.rdz
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Artículo Visión Industrial

Visión artificial aplicada a la industria: técnicas tradicionales e integración con IA

Autores (por orden alfabético): J. Azpiazu a, D. Borro b, J. Catalán c, I. Díaz b, G. Ester c, M. Grau d,
A. Gutiérrez e, C. López f, L. López f, D. Martín g, X. Mateo f, I. Maurtua e, I. Merino a, E. Pinto h,
D. Porras i, J. Puig g, S. Redondo j, F. Roure k, J. Sánchez l, D. Serrano k, M. Vinagre m, C. Vivas n.
a
TECNALIA, Basque Research and Technology Alliance (BRTA)
b
Asociación Centro Tecnológico CEIT
c
Sick Optic-Electronic, S.A.
d
BitMetrics
e
TEKNIKER, Basque Research and Technology Alliance (BRTA)
f
INFAIMON S.L.
g
Pilz lndustrieelektronik S.L.
h
Murrelektronik Spain S.L.U.
i
FANUC Iberia, S.L.U.
j
BCN VISION S.L.
k
FUNDACIÓ EURECAT
l
WEPALL ROBOT EASY TOOLS S.L.
m
LEITAT Technological Center
n
PAL Robotics S.L.

1. Introducción 2

2. Visión industrial 3
2.1. Adquisición 3
2.2. Análisis 5

3. Machine Learning 8
3.1. Historia del Machine Learning 8
3.2. Explosión del Deep Learning 8
3.3. Deep Learning aplicado a visión 10
3.3.1. Clasificación 11
3.3.2. Detección de Anomalías 13
3.3.3. Object Detection 14
3.3.4. Semantic Segmentation e Instance Segmentation 14

4. Visión aplicada a la automatización y la robótica 16


4.1. Flexibilidad que aporta la visión y la IA para operar en contextos cambiantes 16
4.2. Ejemplos de automatización con visión 17
4.2.1. Control de calidad 17
4.2.2. Picking de piezas sin CAD 18
4.2.3. Clasificación y picking de piezas naturales entremezcladas 19
4.2.4. Grasping en nubes de puntos 3D mediante Deep Learning 20
4.2.5. Clasificación de materiales 21
4.2.6. Aplicación de visión y robótica en la agricultura 22
4.2.7. Picking de botellas de vidrio con Deep Learning 23

5. Presente y futuro del DL aplicado a visión 24


5.1. Herramientas disponibles en la actualidad 24
5.2. Retos en aplicaciones de la IA. Limitaciones actuales y teóricas 25

6. Conclusiones 26

Página 1
Artículo Visión Industrial

1. Introducción
La visión es uno de los sistemas sensoriales más complejos y eficientes que tienen los seres vivos para poder
percibir e interpretar su entorno. Con la visión artificial se intenta emular el funcionamiento de esta visión natural
mediante el uso de cámaras, ópticas, procesadores y/o algoritmos matemáticos, entre otros. Por lo tanto, se
podría definir la visión artificial como el conjunto de herramientas que permiten que un sistema electrónico sea
capaz de adquirir aspectos visuales de su entorno e interpretarlos con un determinado objetivo.

Los orígenes de la visión artificial pueden situarse como consecuencia de otra disciplina muy similar pero con un
planteamiento algo diferente: el procesado digital de imágenes y/o vídeos. La idea de este procesado es
modificar ciertas características de los datos visuales que tiene como entrada, con objetivos muy variados como
pueden ser una visualización más agradable para el ser humano (reducción de ruido, eliminación de ojos rojos,
autonivelación de contraste, etc.) o la compresión de datos para un almacenamiento y transmisión más
optimizados (son bien conocidos los estándares JPEG para imágenes o MPEG para vídeos).

Los diferentes algoritmos de procesado de imagen que fueron surgiendo desde su aparición permitieron dar un
paso más: ya no solamente se podía modificar una imagen, sino que mediante estas mismas técnicas se podían
llegar a interpretar ciertos aspectos de la escena adquirida y obtener algunas conclusiones. En ese momento la
visión artificial y el procesado de imagen empezaron a diferenciarse como dos disciplinas diferentes, si bien a
fecha de hoy ambas son ampliamente utilizadas y comparten muchos elementos en común.

Desde sus inicios, los avances en visión artificial se han basado en dos aspectos principales: por un lado la mejora
constante de los dispositivos (cámaras con mejor resolución, procesadores más rápidos, conectores con mayor
velocidad, etc.) y por otro lado la investigación en nuevos algoritmos matemáticos que permitan detectar nuevos
aspectos. Hasta principios del siglo XXI estos algoritmos se han basado principalmente en técnicas de la
denominada “visión tradicional”, en la que una persona con amplios conocimientos en visión debía configurar de
forma precisa las diferentes operaciones matemáticas que debían aplicarse a la imagen para obtener el resultado
deseado.

En cambio, durante los últimos años se ha popularizado una nueva tendencia dentro del mundo de la visión
artificial usando algoritmos propios de la inteligencia artificial, los conocidos como algoritmos de Machine
Learning (o aprendizaje automático). El Machine Learning vio sus orígenes de la idea de permitir que las
máquinas aprendieran de sus experiencias pasadas, realimentando sus acciones futuras haciendo uso de
algoritmos matemáticos que les permitían resolver problemas mediante la clasificación o predicción.

La inteligencia artificial y el aprendizaje automático pueden parecernos términos muy frescos y novedosos, pero
la verdad es que datan desde los años 50. La idea de poder crear máquinas que resuelvan problemas como seres
humanos ha alimentado las mentes de las personas desde hace ya tiempo. De todas formas, no ha sido hasta los
inicios tardíos del siglo XXI en que el aumento en la potencia de la computación ha permitido dar el siguiente
paso hacia un enfoque más biológico, mediante la utilización del Deep Learning (también conocido como
aprendizaje profundo) basado en redes neuronales.

En este artículo se pretende presentar de forma divulgativa las principales características de la visión artificial
desde un punto de vista de la automatización y la robótica. En este sentido nos centraremos en la llamada
Machine Vision (conocida en español como visión industrial), que representa un subconjunto dentro del amplio
mundo de la visión artificial. Esta visión industrial suele tener una serie de particularidades que en cierta forma
pueden llegar a facilitar las tareas de visión (entorno relativamente controlado, dispositivos con una alta
capacidad de computación, etc.), pero a su vez también presenta unos altos niveles de requerimientos, una muy
baja posibilidad de fallos, y unos tiempos de ciclo extremadamente bajos.

Página 2
Artículo Visión Industrial

2. Visión industrial

Los orígenes de la visión industrial subyacen de la idea de crear más y mejores mecanismos de automatización
que impactarán de manera positiva: el control de procesos, aseguramiento de la calidad o aumento en la
producción. La idea general era la de poder crear una tipología de sensor multipropósito con el cual se pudiera
llevar a un siguiente nivel los detectores análogos/digitales (sensores de distancia, presión, temperatura, …) y
poder tener una forma de medición más versátil.

Aunque el auge del procesado de imágenes surgió con el objetivo de intentar mejorar la calidad de las imágenes
de la época y la búsqueda de la forma más eficiente para la compresión/descompresión, en el ámbito industrial
se buscaba resolver la dificultad de medir atributos de un proceso que hasta la fecha debían tener intervención
humana. Poder determinar si los componentes de un producto estaban ensamblados de manera correcta y libres
de defectos era un impensable con sensores convencionales, y es allí donde el poder dotar a las máquinas con la
capacidad de ver cobró relevancia.

Si bien el contexto industrial supone un ambiente controlado y entre comillas repetible, existe una variación
inherente a las condiciones del proceso. Es decir, cada proceso industrial que se desea inspeccionar tiene
variaciones ya sea por ajustes mecánicos, cambios físicos en el producto e incluso el entorno mismo. Por ello
conviene prestar especial atención a los fundamentos básicos para implementar exitosamente un sistema de
visión industrial, los cuales explicaremos a continuación.

2.1. Adquisición
La primera (y probablemente más importante) etapa de un sistema de visión artificial es la adquisición de la
escena. Se trata de un proceso muy crítico ya que es el encargado de digitalizar uno o varios instantes concretos
del mundo real y, a diferencia de las etapas posteriores, probablemente nunca más podremos volver a adquirir
esa misma escena en las mismas condiciones (la pieza ya habrá avanzado por la cinta transportadora, las
condiciones de luz habrán cambiado, etc.).

A nivel de hardware los sistemas de visión están compuestos por varios elementos, entre los que principalmente
están la iluminación, la óptica y el sensor. Existen varios tipos de cada uno de estos elementos según la
aplicación, así que a continuación vamos a entrar un poco más en detalle en cada uno de ellos.

Figura 1. Esquema modular de un sistema de adquisición de imágenes

La iluminación es una de las partes principales del sistema de adquisición, ya que una buena técnica de
iluminación nos permitirá resaltar los elementos o características que queremos inspeccionar. Para ello tenemos
diferentes tipos de iluminación y cada uno de ellos se diferencian entre otras cosas por la forma en cómo incide

Página 3
Artículo Visión Industrial

la luz al objeto. Entre los principales exponentes tenemos barras de LED (haz de luz semi-direccional),
domos/cúpulas (iluminación desde todas las direcciones), anillos de led (círculo uniforme compacto de luz),
backlight (contraluz), darkfield (luz en bajo ángulo), coaxiales (colineal al eje óptico), o luz estructurada (perfil de
línea o grilla). Para entender mejor cómo afectan las diferentes incidencias de la luz a un objeto, se ejemplifica en
la siguiente figura el efecto en la imagen de un mismo objeto ante los diferentes tipos de iluminación.

Anillo Darkfield Coaxial

Backlight Domo Barra


Figura 2. Ejemplos de diferentes iluminaciones aplicadas a una misma escena (imágenes obtenidas de CCS Inc.1)

Como se puede apreciar, cada tipo de iluminación resalta características específicas de la pieza permitiendo tener
según el caso la mejor relación entre información y ruido. Por ejemplo, si deseamos inspeccionar
dimensionalmente los agujeros de la pieza, la técnica de backlight sería probablemente la más apropiada.

El siguiente elemento que actúa en la adquisición es la óptica, quien se encarga de focalizar el haz de fotones en
el sensor. Existen también diferentes tipos de ópticas que nos ayudarán a conseguir la imagen deseada según el
caso. Las más utilizadas son las ópticas de focal fija, las cuales tienen definida una distancia focal concreta (8 mm,
12 mm, 25 mm, etc..) o, dicho de otra manera, un ángulo de apertura fijo que nos permite muestrear un espacio
definido (comúnmente llamado FOV o Field of View) a una distancia de trabajo específica. Por otro lado también
existen las ópticas varifocales, que permiten seleccionar diferentes distancias focales mediante la variación de la
distancia entre las lentes de la óptica.

Finalmente en el proceso de adquisición se encuentra el sensor, que es el elemento encargado de capturar la luz
que le dirige la óptica y transformar este flujo de fotones en una imagen digital. La mayoría de aplicaciones se
realizan en el espectro visible, por lo que este tipo de sensores son los de uso más extendido. Dentro de esta
categoría existen dos exponentes por excelencia: el CCD y el CMOS. Hace años el CCD era el predilecto ya que
permite tener una imagen con mayor calidad y en general mejor que los CMOS de su época. No obstante, gracias
a la electrónica de consumo (PCs, móviles, tablets, consolas…), la industria empezó a invertir en los sensores
CMOS ya que por su tecnología eran más fáciles de reducir en tamaño y sus costes de fabricación eran inferiores;
logrando así equiparar sus características y posicionándolo como el sensor por defecto.

Adicionalmente, para crear imágenes 3D se utilizan estos mismos tipos de sensores, ya que mediante diferentes
técnicas que varían la forma de la luz y el ángulo con la cámara permiten obtener información en tres
dimensiones del objeto. Por ejemplo, para crear una imagen 3D con triangulación láser, se puede ubicar un láser

1
https://www.ccs-grp.com/guide/imaging/difference.html

Página 4
Artículo Visión Industrial

con un ángulo determinado respecto a la cámara y al capturar las diferentes variaciones percibidas del perfil que
crea el láser, se puede obtener trazas de la altura y estructura tridimensional del objeto. Otro ejemplo sería la
estereovisión, en el que se configura la posición relativa entre dos cámaras para observar el mismo objeto desde
dos perspectivas diferentes (análogo a los ojos humanos) para correlacionar el desfase entre ellas y obtener la
información espacial.

Existen también sensores fuera del espectro visible, como es el caso de los sensores InGaAs o los
microbolométricos que permiten adentrarnos en el campo del infrarrojo, permitiéndonos ver el calor de los
cuerpos (espectro térmico) y poder monitorizar aspectos tan relevantes para la industria como la aplicación de
adhesivos, la estampación en caliente, o el calidad de sellado térmico, entre otros.

Finalmente, existe también la opción de percibir estas diferentes porciones del espectro en simultáneo, como
puede ocurrir en procesos industriales que necesitan inspeccionar la calidad visual del producto y por ejemplo el
porcentaje de humedad (interacción con el espectro infrarrojo). En este caso hablamos de la tecnología
multiespectral, en la cual podemos tener en un mismo sistema más de un sensor capturando la misma escena y
de esta forma tener información de varias bandas del espectro. En el caso en que deseáramos tener una
información aún más detallada del espectro por bandas (secciones definidas por nanómetros), existe la opción de
incorporar un espectrógrafo entre la óptica y el sensor, permitiendo descomponer por dispersión el espectro
reflejado del objeto. A esta técnica se la conoce como Hyperspectral Imaging.

2.2. Análisis
Una vez la escena ha sido adquirida y digitalizada (imagen, video, etc.), llega el momento de extraer información
mediante su procesado o análisis. Estos procesados pueden ser muy variados en función del objetivo final
deseado y el orden en que los apliquemos, desde una simple ecualización de histograma o aumento de contraste,
hasta procesos más complejos como la aplicación de filtros espaciales o la detección de patrones en la imagen.

Sin duda las técnicas más conocidas en la visión artificial son aquellas relacionadas con el análisis de imágenes
2D, ya que se trata del tipo de imágenes más usadas y con un mayor bagaje histórico. Dejando a un lado las
técnicas que analizan esta imagen 2D desde un punto de vista frecuencial (bastante usadas p.ej. en
reconocimiento de texturas), en el sector industrial las técnicas más usadas son aquellas que usan la información
espacial de la imagen, es decir, teniendo en cuenta la información de los píxeles de la imagen y su relación con
otros píxeles o zonas cercanas. Una buena introducción a este tipo de técnicas son aquellas relacionadas con la
morfología matemática2. Son técnicas ideadas inicialmente para aplicarse a imágenes en blanco y negro, sobre las
que se aplican operaciones morfológicas básicas como erosiones, dilataciones o sustracciones. Con un
funcionamiento similar, también son bien conocidas las técnicas de filtrado espacial. Básicamente consisten en
recorrer toda la imagen con una máscara de tamaño reducido que delimita la zona de influencia al evaluar cada
uno de los píxeles de la imagen. Buenos ejemplos de estos filtrados serían el suavizado de imágenes o la
detección de contornos, con ejemplos muy conocidos como los detectores de Canny3 o Sobel4. Finalmente,
también con un principio de funcionamiento basado en la relación entre zonas cercanas, existen las técnicas de
segmentación de imagen, entre las que destacan algunas como region growing5 o el thresholding dinámico6

2
J. Serra, “Image Analysis and Mathematical Morphology.”, in Academic Press Inc., 1983.
3
J. Canny, "A Computational Approach to Edge Detection.," in IEEE Transactions on Pattern Analysis and Machine
Intelligence, 1986.
4
I. Sobel and G. Feldman, “A 3×3 isotropic gradient operator for image processing.”, in Pattern Classification and Scene
Analysis, 1973.
5
S.W. Zucker, ”Region growing: Childhood and adolescence.”, in Computer Graphics and Image Processing, 1976.
6
J.S. Weszka, “A survey of threshold selection techniques.”, in Computer Graphics and Image Processing, 1978.

Página 5
Artículo Visión Industrial

Figura 3. Ejemplos de diferentes algoritmos simples de análisis: morfología matemática, filtrado espacial y segmentación
(imágenes originales obtenidas de diferentes fuentes7 8 9)

A pesar de que existen algoritmos mucho más actuales y complejos que los explicados hasta el momento, lo
cierto es que muchas tareas de clasificación o detección de defectos actuales pueden llegar a realizarse como
combinaciones de estas técnicas explicadas. Para situarnos en un contexto claro pensemos en el escenario de
una empresa de distribución de fruta, donde las diferentes piezas van pasando en una cinta por delante de la
cámara y se requiere identificar en cada captura qué tipo de fruta se nos está presentando (para simplificar,
reduciremos las posibilidades a 3 clases: “manzana roja”, “manzana verde” y “pera”).

Figura 4. Ejemplo de una tarea de clasificación, con 3 clases diferentes (imágenes obtenidas de MVTec10)

7
https://homepages.inf.ed.ac.uk/rbf/HIPR2/open.htm
8
B. Li, A. Jevtić, U. Söderström, U. Shafiq, S. Réhman and H. Li, “Fast Edge Detection by Center of Mass.”, in International
Conference on Intelligent Systems and Image Processing, 2013.
9
A. Abdulrahman and S. Varol, “A Review of Image Segmentation Using MATLAB Environment.”, in International
Symposium on Digital Forensics and Security, 2020.
10
https://www.mvtec.com/technologies/deep-learning/deep-learning-methods/image-classification

Página 6
Artículo Visión Industrial

Como ya se puede intuir al observar la figura anterior, la clave en este caso de clasificación serían las
características que definen a cada clase (denominadas features en el ámbito de la visión artificial). De esta
manera, una manzana roja debería tener un contorno redondeado y un color acorde a su nombre; una manzana
verde debería tener un contorno similar y un color verdoso o amarillento; mientras que una pera debería tener
un color parecido al anterior pero con un contorno más ovalado. Mediante estas 2 únicas features (color y
forma), que además son fácilmente detectables mediante algoritmos sencillos de visión artificial, deberíamos ser
capaces de identificar a qué tipo pertenecen nuevas imágenes que nos lleguen en el futuro. De hecho, estas 2
features podrían representarse visualmente en un sistema de 2 dimensiones y, colocando cada imagen en sus
“coordenadas” apropiadas, podría apreciarse claramente la separación entre estos 3 grupos.

Figura 5. Representación de 3 clases según características en un caso ideal

Sin embargo, en un caso más real, estas features no serán siempre tan clarificadoras. Siguiendo el mismo
ejemplo, puede suceder que una pera se nos presente desde una perspectiva que tenga un contorno
redondeado, o que la propia variación de color de una manzana roja nos ofrezca una tonalidad verdosa o
amarillenta. En estos casos la representación visual por features no ofrecería una separación tan clara.

Figura 6. Ejemplos de capturas que pueden llevar a confusión, y representación de las 3 clases
según features en un caso real

Para situaciones como la comentada (y en situaciones mucho más complejas con múltiples features y
dimensiones) acude al rescate el Machine Learning, que se explica con mayor detalle en la siguiente sección.
Mediante los algoritmos de Machine Learning es posible determinar con mucha mayor precisión los criterios
óptimos para la delimitación de las features o, incluso, ser capaz de definir estas features de forma automática.

Página 7
Artículo Visión Industrial

3. Machine Learning

3.1. Historia del Machine Learning

El Machine Learning forma parte del grupo de tecnologías disponibles dentro de la Inteligencia Artificial, y está
enfocado en enseñar a los ordenadores a desarrollar tareas sin la necesidad de ser programadas explícitamente.
Así, los ordenadores se nutren de grandes cantidades de datos, aprenden a interpretarlos y desarrollan acciones
sobre estos datos.

En 1959, Arthur Samuel11 propuso el término Machine Learning definiéndolo como “El campo de estudio que da a
los ordenadores la habilidad de aprender sin ser programados explícitamente”. Existen cuatro categorías dentro del
Machine Learning: aprendizaje supervisado, que se basa en aprender mediante ejemplos, es decir, los modelos
son entrenados con datos etiquetados (supervisados) aprendiendo así la correlación entre los datos de entrada y el
resultado, aprendizaje no-supervisado, donde el modelo aprende y descubre patrones por sí mismo y es
entrenado con datos no etiquetados, y aprendizaje por refuerzo donde el modelo aprende a través de un sistema
de refuerzo positivo o negativo dependiendo de si el resultado es válido o no. El aprendizaje semi-supervisado se
refiere a escenarios en los que algunos ejemplos de entrenamiento están etiquetados y otros no. La idea principal
del aprendizaje semi-supervisado es utilizar la parte etiquetada del conjunto de datos (a través del aprendizaje
supervisado) para etiquetar la parte no etiquetada, que luego puede utilizarse para el aprendizaje supervisado.

Existen multitud de algoritmos de Machine Learning, categorizados por el tipo de tarea que desempeñan. Dentro
del aprendizaje supervisado existen algoritmos de clasificación como k-NN (k-Nearest Neighbours)12 o Naive
Bayes13, y de regresión como los árboles de decisión14 o la regresión lineal15. Dentro del aprendizaje
no-supervisado, se encuentran los algoritmos de clusterización como K-means16, o los de extracción de
características como PCA (Principal Component Analysis)17.

3.2. Explosión del Deep Learning

El Deep Learning es una subcategoría del Machine Learning focalizada en resolver tareas mucho más complejas.
Los algoritmos de Deep Learning requieren menos intervención humana para conseguir resultados, pero también
mucha más potencia de cálculo y tiempo para obtener resultados satisfactorios. A efectos prácticos, y siguiendo
con el ejemplo de las manzanas y las peras visto anteriormente, en la mayor parte de algoritmos de Machine
Learning es necesario que una persona defina manualmente qué features serán usadas para la toma de decisiones
(color y forma en el ejemplo). En cambio, los algoritmos de Deep Learning son capaces de definir automáticamente
las features que sean detectadas como más discriminativas, mediante un análisis mucho más profundo de la
situación.

11
A.L. Samuel, "Some Studies in Machine Learning Using the Game of Checkers.", in IBM Journal of Research and
Development,1959.
12
T. Cover and P. Hart, "Nearest neighbor pattern classification.", in IEEE Transactions on Information Theory, 1967.
13
R. Duda and P. Hart, “Pattern classification and scene analysis”, 1973.
14
R.F. Hespos and P.A. Strassmann, “Stochastic decision trees for the analysis of investment decisions.”, in Management
Science, 1965.
15
M. Glasser, "Linear regression analysis with missing observations among the independent variables.", in Journal of the
American Statistical Association, 1964.
16
H. Robbins, M. Sobel, and N. Starr, "A sequential procedure for selecting the largest of k means.", in The Annals of
Mathematical Statistics, 1968.
17
K. Pearson, "On lines and planes of closest fit to systems of points in space.", in The London, Edinburgh, and Dublin
philosophical magazine and journal of science, 1901.

Página 8
Artículo Visión Industrial

Figura 7. Diferencia conceptual entre análisis con Machine Learning y con Deep Learning (imagen original
obtenida de Prasad and Senthilrajan, 202118)

El Deep Learning está basado en un tipo de técnicas desarrolladas a mediados del siglo XX, que han demostrado
una gran capacidad de resolución en todo tipo de problemas: las Redes Neuronales. Las redes neuronales son uno
de los primeros paradigmas utilizados en los comienzos de la historia del Machine Learning. Con una inspiración
claramente biológica, el perceptrón propuesto por Rosenblatt en 195719 intenta llevar el concepto de la neurona a
la computación para generar un clasificador lineal.

El artículo de Yann LeCun de 198920 es a menudo considerado uno de los precursores de los sistemas de Deep
Learning actuales. Su arquitectura es muy similar a las utilizadas en los sistemas modernos y utiliza muchas de las
técnicas también presentes en los sistemas modernos tales como la retropropagación (“backpropagation”) o las
redes convolucionales. En este artículo se muestra una demostración práctica en el que el sistema de
reconocimiento óptico de caracteres reconoce los dígitos de los códigos postales escritos de forma manual en las
cartas del servicio postal.

Figura 8. Códigos postales reconocidos por la red neuronal (imagen obtenida de Lecun et al., 19899)

A pesar del éxito de este trabajo, la explosión de los sistemas de Deep Learning no llegó hasta mediados de la
década de los 2000. Habitualmente se relaciona el comienzo del éxito de los sistemas de Deep Learning con dos
factores:

18
M. Prasad and A. Senthilrajan, “Leaf Features Extraction for Plant Classification using CNN.”, in International Journal of
Advanced Research in Science, Communication and Technology (IJARSCT), 2021.
19
F. Rosenblatt, “The perceptron: a probabilistic model for information storage and organization in the brain.”, in
Psychological review, 1958.
20
Y. LeCun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard and L.D. Jackel, “Backpropagation applied to
handwritten zip code recognition.”, in Neural computation, 1989.

Página 9
Artículo Visión Industrial

a) Disponibilidad de datos: los modelos de Deep Learning con muchas capas requieren de grandes cantidades de
datos para alcanzar el punto en el que son capaces de superar el rendimiento de otros algoritmos de
aprendizaje clásicos. Esta necesidad de datos (y en su mayor parte, datos etiquetados) crece de forma
exponencial de acuerdo al número de parámetros de la red, relacionado con lo que en inglés se denomina “the
curse of dimensionality”. La generación y etiquetado de las bases de datos requeridas para el entrenamiento de
los modelos de Deep Learning sólo ha sido posible a raíz de la irrupción de Internet y la disponibilidad de datos;
un buen ejemplo son la cantidad de imágenes que se encuentran disponibles en la red.

b) Capacidad de cómputo disponible: los primeros investigadores que trabajan en Machine Learning dependían de
las capacidades limitadas disponibles, tanto en almacenamiento como en cómputo, lo que les llevaba a trabajar
con bases de datos de tamaño muy restringido. Las unidades de procesamiento gráfico (GPUs) han resultado
ser un factor crítico para hacer posible el Deep Learning. Estos chips se habían desarrollado para acelerar el
procesamiento de gráficos por computador, principalmente motivado por el mundo de los videojuegos y en
menor medida del diseño 3D. Las GPUs están optimizadas para realizar operaciones matriciales de forma
extremadamente eficiente, aprovechándose de las posibilidades de paralelización de dichas operaciones.
Afortunadamente las matemáticas requeridas para el entrenamiento de modelos de Deep Learning son muy
similares a las requeridas por los sistemas de gráficos por computador, lo que ha permitido a los investigadores
aprovechar estos sistemas.

Existen muchos tipos de redes que pueden ser clasificadas dependiendo de su estructura, tipo de neuronas, flujo
de datos o densidad. La red más básica es el Perceptron, con solo dos neuronas de entrada y una de salida,
utilizada sobre todo para clasificación binaria. Las Feedforward Neural Networks (FNN) son las redes más sencillas
donde la información se transmite en una sola dirección. Más complejas y también ampliamente usadas en
tratamiento de imágenes son las Convolutional Neural Networks (CNN), cuya estructura es mucho más densa. En
este caso, la red inspecciona las imágenes en partes y busca características a diferentes niveles de resolución que
describan, al final, la imagen en su conjunto.

Otro tipo de redes son las Generative Adversarial Networks (GAN), que consisten en enfrentar a dos redes
neuronales, una que aprende generar datos y la otra que aprende a corroborarlos, o las Recurrent Neural
Networks (RNN) muy utilizadas en sistemas de procesado y reconocimiento de lenguaje.

Existen más tipos de redes neuronales pero lo más importante es que cada año surgen nuevas redes y técnicas
fruto de la investigación y el desarrollo en este campo. Un ejemplo de ellos son las redes de tipo Transformer.
Desde su presentación en el año 201721, los Transformers han “revolucionado la revolución del Deep Learning”.
Pensados inicialmente para ser aplicados en el mundo del NLP (Natural Language Processing), plantean una
modificación en qué partes de los datos debe fijarse el algoritmo. Otros tipos de redes neuronales como las RNNs o
las CNNs se basan en un análisis secuencial de los datos de entrada. En cambio, los Transformers plantean los
denominados mecanismos de atención, es decir, fijarse en aquellas partes de los datos que realmente sean
relevantes para el propósito buscado.

3.3. Deep Learning aplicado a visión


En el mundo de la visión artificial y el procesado digital de imágenes, el Deep Learning está teniendo un gran
impacto gracias al uso de las redes neuronales. En el campo de la visión, tal y como se ha comentado
anteriormente, se suelen utilizar principalmente las redes neuronales convolucionales (CNN), las cuales son

21
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser and I. Polosukhin, “Attention is all you
need.”, in Advances in neural information processing systems, 2017.

Página 10
Artículo Visión Industrial

capaces de mantener información espacial de la escena tanto a nivel local como a nivel global, codificándola para la
resolución de una tarea específica de comprensión del contenido de ésta.

En los últimos años, gracias a la expansión de los Transformers podemos encontrar nuevas arquitecturas basadas
en ellos para su aplicación en visión22 23 24, capaces de describir por porciones la imagen llegando a obtener
resultados superiores a los de las CNN.

La extracción de características junto con el uso de otras técnicas nos permiten solventar problemas de clasificación
de imágenes, detección de objetos o segmentación, entre otros como super resolución, generación de imágenes, o
incluso las nuevas tendencias en generación de imágenes a partir de texto gracias a los últimos avances en los
modelos de difusión. La combinación de todo ello permite a la comunidad científica o empresas privadas generar
modelos capaces de resolver problemas muy complejos con una precisión superior incluso a la que una persona
podría conseguir. Soluciones para OCRs complejos, modelos predictivos, control de personas en un espacio,
reconocimiento facial, detección de anomalías, conducción autónoma, robótica, generación de datos sintéticos,
entre muchos otros.

A continuación se explican con más detalle las principales técnicas de Deep Learning aplicadas a la visión artificial.

3.3.1. Clasificación

Dentro del Deep Learning, el problema conocido como Clasificación podría considerarse como el más sencillo.
Consiste en la asignación de una categoría a una imagen completa. Esta clasificación puede ser de clase única
(clasificación binaria), donde se determina si la imagen corresponde a una determinada clase o no, o una
clasificación multiclase, dónde se clasifica la imagen entre un conjunto de categorías pre-definidas.

Figura 9. Muestra de imágenes de la base de datos CIFAR-1025, con 60.000 imágenes divididas en 10 categorías y
usada en múltiples publicaciones de Clasificación

22
R. Ranftl, A. Bochkovskiy and V. Koltun, “Vision transformers for dense prediction.”, in Proceedings of the IEEE/CVF
International Conference on Computer Vision, 2021.
23
H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles and H. Jégou, “Training data-efficient image transformers &
distillation through attention.”, in International Conference on Machine Learning, 2021.
24
Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin and B. Guo, “Swin transformer: Hierarchical vision transformer using
shifted windows.”, in International Conference on Computer Vision, 2021.
25
https://www.cs.toronto.edu/~kriz/cifar.html

Página 11
Artículo Visión Industrial

Una vez entrenado el modelo, una forma muy gráfica de ver su comportamiento es probarlo sobre el conjunto de
test y ver los resultados en forma de matriz de confusión. Esta matriz compara las clases reales (ground-truth)
con las clases predichas por el modelo, de tal manera que cuantos más valores cercanos al 100% aparezcan en la
diagonal, mejor se comporta el modelo.

Figura 10. Ejemplo de matriz de confusión. Los valores fuera de la diagonal corresponden a los falsos positivos y
falsos negativos (imagen obtenida de MathWorks26)

Un buen ejemplo para mostrar el por qué del éxito de los sistemas de Deep Learning es el caso del ILSVRC27
(ImageNet Large Scale Visual Recognition Challenge). En el año 2009, la profesora de la Universidad de Stanford
Fei-Fei Li publicó una base de datos libremente disponible (ImageNet28), que incluía más de 14 millones de
imágenes. Cada una de estas imágenes estaba etiquetada con una clase (perro, gato, avión, etc.) de acuerdo al
contenido de la misma. En torno a esta base de datos se organizó la competición ILSVRC para que los
investigadores propusiesen y comparasen en igualdad de condiciones sus algoritmos. Cada año se evaluaban los
algoritmos propuestos publicando una lista de los mejores algoritmos. En el año 2010 y 2011, algoritmos que
todavía no utilizaban Deep Learning consiguieron una mejora relativa de un 2.4%. El siguiente año, un modelo de
Deep Learning (AlexNet29) propuesto por Alex Krizhevsky consiguió una mejora de casi un 10%. A partir de ese
año, todos los modelos ganadores han sido basados en Deep Learning, consiguiendo una mejora que ha llegado a
superar el rendimiento de una persona que realiza de forma manual la misma tarea.

Tras la aparición de AlexNet han aparecido otras arquitecturas CNN muy utilizadas aplicables al campo de
clasificación de imágenes, como ResNet30, MobileNet31, o Inception32, entre otras.

26
https://es.mathworks.com/help/deeplearning/ref/confusionchart.html
27
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, and L. Fei-Fei, “Imagenet large scale visual recognition
challenge.”, in International Journal of Computer Vision, 2014.
28
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li and L. Fei-Fei, “ImageNet: A Large-Scale Hierarchical Image Database.”, in IEEE
Computer Vision and Pattern Recognition (CVPR), 2009.
29
A. Krizhevsky, I. Sutskever and G. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks.”, in
Advances in neural information processing systems, 2012.
30
K. He, X. Zhang, S. Ren and J. Sun, "Deep Residual Learning for Image Recognition.", in Conference on Computer Vision
and Pattern Recognition, 2016.
31
A. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient
Convolutional Neural Networks for Mobile Vision Applications”, 2017.
32
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S.Reed, D. Anguelov, D. Erhan, V. Vanhoucke and A. Rabinovich, "Going deeper
with convolutions.", in Conference on Computer Vision and Pattern Recognition, 2015.

Página 12
Artículo Visión Industrial

3.3.2. Detección de Anomalías

La técnica de Clasificación comentada anteriormente es muy interesante en caso de que sepamos de antemano
cuáles son las posibles clases y tengamos un buen número de muestras de todas ellas. Esta misma clasificación
podría llegar a usarse también como un método de control de calidad en un proceso de producción, mediante la
definición y el entrenamiento de las clases “Correcto” e “Incorrecto”.

El problema en este caso es que necesitaríamos un número grande de muestras de la clase “Incorrecto”, algo
sumamente complicado si tenemos en cuenta que en un proceso de producción suele haber un porcentaje muy
pequeño de piezas con defectos (hay que tener en cuenta que normalmente se requieren al menos un centenar
de imágenes para asignarle una clase en el método de Clasificación). Además, estos posibles defectos pueden
tener motivos muy diferentes, con lo cual la clase “Incorrecto” podría llegar a tener una definición muy ambigua
y no representaría correctamente todas las posibles fuentes de defectos.

Para situaciones como la comentada existe una técnica mucho más apropiada, conocida como Detección de
Anomalías o Anomaly Detection. Esta técnica tiene la particularidad de que en su entrenamiento no es necesario
añadir muestras incorrectas. Es decir, en un proceso de producción (en el que normalmente casi el 100% de la
producción debería ser correcta), no es necesario buscar aquellas muestras que en algún momento tuvieron una
anomalía. Simplemente mostrando imágenes correctas, el algoritmo, una vez entrenado, será capaz de detectar
aquellas muestras nuevas que “se desvíen” de las características que hacen que el objeto sea considerado
correcto.

En la siguiente Figura 11 puede verse un ejemplo típico de aplicación de esta técnica, con el uso de una cámara
cenital que va observando el paso de diferentes botellas para comprobar que no presentan anomalías en su parte
superior. En la parte derecha de la misma figura puede verse el análisis realizado: por un lado se muestran 2
capturas originales, mientras que a su lado puede verse el resultado tras haber analizado la captura con la red
neuronal. Además del resultado sobre la detección de la anomalía basada en su puntuación, se muestra también
un mapa de calor que indica en qué zonas se ha basado el algoritmo para tomar su decisión. En el ejemplo
superior la botella se encuentra en buen estado, por lo que el mapa de calor es uniforme. En el ejemplo inferior
hay una rotura, por lo que el mapa de calor indica que el algoritmo se ha basado en esta zona para determinar
que existe una anomalía.

Figura 11. Ejemplo de aplicación del método Detección de Anomalías. En la parte izquierda puede verse una
cámara cenital que va analizando la producción de botellas (imagen generada con DALL-E 233), y en la parte
derecha puede verse el resultado de los análisis (imágenes obtenidas de MVTec34)

33
https://openai.com/dall-e-2/
34
https://www.mvtec.com/technologies/deep-learning/deep-learning-methods/anomaly-detection

Página 13
Artículo Visión Industrial

3.3.3. Object Detection

Object Detection es una técnica de visión artificial que permite identificar y localizar objetos en una imagen.
Gracias a la localización del objeto en la imagen y la identificación del mismo, esta técnica puede utilizarse para
contar objetos en una escena y/o realizar un seguimiento de ellos. En esta técnica, cuando se identifica un objeto
se dibujan cuadros delimitadores alrededor de estos objetos. En términos generales, el problema de Object
Detection puede dividirse en aproximaciones basadas en Machine Learning y en aproximaciones basadas en
Deep Learning. Las aproximaciones basadas en Deep Learning son las más populares debido a sus buenos
resultados. Estas usan redes neuronales convolucionales (CNN) para realizar una detección de los objetos sin
ningún tipo de supervisión. La técnica de Object Detection se utiliza hoy en día para el recuento de objetos,
coches autónomos, videovigilancia, detección de caras y detección de defectos en piezas, entre otros.

Figura 12. Ejemplo de Object Detection (imagen obtenida de MVTec35)

Los modelos de Object Detection basados en Deep Learning normalmente están compuestos por dos elementos.
Un codificador que recibe una imagen y la pasa por una serie de capas que aprenden a extraer características
utilizadas para localizar los objetos. Los resultados del codificador se pasan a un decodificador, que predice los
cuadros delimitadores y las etiquetas de cada objeto.

Las arquitecturas de Object Detection más populares son Faster R-CNN36, CenterNet37, EfficientNet38 y YOLO39,
sobre las cuales se han entrenado distintos modelos con la aplicación de transferencia de conocimiento.

3.3.4. Semantic Segmentation e Instance Segmentation

Semantic Segmentation (o segmentación semántica) es el proceso de clasificar cada píxel de una imagen que
pertenece a una clase o etiqueta particular. Un algoritmo de Semantic Segmentation basado en Deep Learning
tomará como entrada una imagen y obtendrá un mapa de segmentación. Cada píxel de ese mapa contiene una
etiqueta de clase representada como un número entero.

35
https://www.mvtec.com/technologies/deep-learning/deep-learning-methods/object-detection
36
S. Ren, K. He, R. Girschick and J. Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal
Networks.", in Advances in Neural Information Processing Systems, 2015.
37
K. Duan, S. Bai, L. Xie, H. Qi, Q. Huang and Q. Tian, "Centernet: Keypoint triplets for object detection.", in International
Conference on Computer Vision. 2019.
38
M. Tan and Q.V. Le, “Efficientnet: Rethinking model scaling for convolutional neural networks.”, in International
Conference on Machine Learning, 2019.
39
J. Redmon, S. Divvala, R. Girshick and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection.”, in
Conference on Computer Vision and Pattern Recognition, 2016.

Página 14
Artículo Visión Industrial

Figura 13. Escena de un contenedor de piezas y resultado tras su proceso de Semantic Segmentation en
3 clases diferentes (imagen cedida por Condals Group)

Aunque pueda parecer trivial para una persona realizar dicha clasificación, es un problema sumamente complejo
a nivel computacional. Desde los inicios de la visión artificial, se desarrollaron algoritmos avanzados para poder
solucionar esta tarea de forma clásica, obteniendo resultados muy pobres si se comparaba la misma tarea
realizada por un humano. Con el auge de técnicas y herramientas que han permitido el uso de Deep Learning en
esta área, han conseguido destacar notablemente e incluso superar al ser humano.

Hay que tener en cuenta que la técnica de Semantic Segmentation no es capaz de diferenciar entre dos instancias
del mismo tipo de objeto. En el ejemplo visto en la anterior figura, se puede apreciar como el proceso de
Semantic Segmentation es capaz de indicar qué píxeles pertenecen a la clase “Pieza”, pero no es capaz de separar
las diferentes piezas. Sin embargo, otra técnica conocida como Instance Segmentation (o segmentación de
instancia), realiza la misma tarea de clasificar píxeles pero aporta una etiqueta única a cada instancia de un
objeto concreto en la imagen.

Figura 14. Diferencia entre Semantic Segmentation e Instance Segmentation para una misma escena (imágenes
obtenidas de Silberman et al., 201440)

Así pues, mediante la técnica de Instance Segmentation podemos fácilmente segmentar los objetos de una
imagen, diferenciarlos entre sí y separarlos del fondo.

Estas dos tareas son posibles gracias a la aparición de nuevas arquitecturas de Deep Learning que en primera
instancia fueron una adaptación de las redes de clasificación de imágenes, donde se sustituyeron las fully
connected layers encargadas de la clasificación de los datos obtenidos por la capa de extracción de características
por convolutional layers creando redes llamadas Fully Convolutional Networks o FCN.

Hasta dia de hoy, muchas nuevas arquitecturas como UNET, DeepLab, FPN, PSPNet, Linknet, entre muchas otras
han ido mejorando los resultados consiguiendo mejorar la precisión y la velocidad con los que a día de hoy somos
capaces de segmentar y por lo tanto clasificar todos los pixeles de una imagen según a qué clase pertenecen.

40
N. Silberman, D. Sontag and R. Fergus, “Instance Segmentation of Indoor Scenes Using a Coverage Loss.”, in European
Congress of Computer Vision, 2014.

Página 15
Artículo Visión Industrial

4. Visión aplicada a la automatización y la robótica

4.1. Flexibilidad que aporta la visión y la IA para operar en contextos cambiantes


El determinismo ha sido tradicionalmente uno de los factores fundamentales de la robótica. Hasta hace pocos
años, la mayor parte de las automatizaciones se han centrado en aplicaciones y contextos de alta repetibilidad y
baja variabilidad dada la dificultad de adaptarse a cambios o sucesos inesperados.
En la actualidad la visión ha permitido cambiar esta situación, e incluso ha aparecido una nueva disciplina
llamada Robótica Guiada por Visión (conocida como VGR por sus siglas en inglés). Gracias a ella un mismo robot
puede adaptarse a diferentes situaciones, modificando sus movimientos o incluso haciendo acciones totalmente
diferentes en función de la escena que se encuentra delante de él.
El uso de la robótica guiada por visión presenta una serie de dificultades añadidas (p.ej. la necesidad de calibrar
la cámara con el robot, controlar las singularidades del robot, etc.), pero sin duda su utilización ha supuesto un
gran cambio en el sector de la automatización.

Figura 15. Proceso de calibración entre cámara y robot, usando (a) una cámara fija o (b) una cámara embarcada.
Este proceso es necesario para poder indicar al robot sus movimientos en su propio sistema de coordenadas

De todos modos, en muchas ocasiones la visión tradicional no es suficiente. Resulta sencillo notificar la presencia
de un objeto aislado estático sobre una cinta transportadora o determinar el agarre exacto de una pieza
mediante su modelo CAD, pero a medida que añadimos otros condicionantes o eventos (especialmente aquellos
que sean inesperados en el entorno industrial), la dificultad de obtener un diagnóstico preciso aumenta.
Es en estos contextos de naturaleza variable donde la IA abre nuevas posibilidades. Situaciones de difícil
modelización pueden ser aprendidas directamente mediante algoritmos de Deep Learning a través de ingentes
cantidades de datos, permitiendo así capturar la variabilidad presente de forma intrínseca en los procesos:
- Un vehículo autónomo podrá circular por calles peatonales, porque en sus datos de entrenamiento hay
situaciones similares.
- Un sistema de visión podrá notificar la presencia de un cuerpo extraño porque ha aprendido qué es lo
que debería aparecer.
- Una alarma nocturna podrá diferenciar entre el movimiento de un gato y el de una persona porque se
ha visto forzada a hacerlo miles de veces durante su entrenamiento.
Todas estas aplicaciones, prácticamente imposibles de modelar de forma determinista, son posibles gracias a la
versatilidad y adaptabilidad ofrecida por la IA.

Página 16
Artículo Visión Industrial

4.2. Ejemplos de automatización con visión


A continuación se presentan brevemente diferentes casos de uso realizados por algunas de las empresas/centros
que han realizado el artículo. Para una mayor información sobre ellos se puede acceder a los enlaces adicionales
indicados al final de cada caso de uso, o bien ponerse en contacto con la entidad que lo ha desarrollado.

4.2.1. Control de calidad

Durante la producción de una pieza industrial suele haber determinados procesos que son
especialmente delicados y pueden generar piezas defectuosas. La verificación de dichos
problemas durante la producción permite a los fabricantes desechar o re-trabajar piezas
defectuosas al comienzo de la producción y corregir problemas antes de que se produzcan
lotes grandes defectuosos, consiguiendo así un ahorro significativo en tiempo y costes. Para
ello se utiliza el concepto de Error Proofing, que garantiza que un proceso de producción
ocurre de acuerdo con la planificación original.

Al proporcionar múltiples ejemplos de piezas buenas y malas, la herramienta AI Error Proofing puede diferenciar
entre ambas durante la producción. Durante la puesta en marcha, el operador puede presentar varios ejemplos de
piezas de trabajo y clasificarlas en dos categorías: buenas y malas. Una vez que el operador clasifica las imágenes,
la función de corrección de errores de IA clasifica automáticamente las piezas durante los ciclos de producción.

La combinación de la herramienta de localización GPM (Geometric Image Pattern Matching) con la herramienta AI
Error Proofing permite encontrar y clasificar piezas al mismo tiempo en la misma imagen. Gracias a esto el robot
recoge aplicadores de plástico de un transportador y coloca los que tienen tapa en la máquina de llenado y los que
no tienen en un contenedor de rechazo.

En resumen, agregar Error Proofing puede mejorar un proceso de fabricación al detectar errores de fabricación
rápidamente, lo que mejora la eficiencia del proceso de producción. La nueva herramienta AI Error Proofing
iRVision de FANUC facilita la adición de pruebas de errores a cualquier aplicación de robot FANUC, lo que brinda a
los clientes una variedad de ventajas que incluyen:

● Reducción de los requisitos de iluminación y resolución de la cámara.


● Reducción significativa de la cantidad de horas de ingeniería necesarias para perfeccionar el sistema.
● Minimización de costes en comparación con los métodos tradicionales.

https://www.fanuc.eu/es/es/robots/accesorios/visión
https://www.youtube.com/watch?v=cQatNBKMKso

Página 17
Artículo Visión Industrial

4.2.2. Picking de piezas sin CAD

Se conoce como picking al proceso mediante el cual un brazo robótico agarra


determinadas piezas de su entorno. Existen diferentes variantes en función del
soporte donde estén ubicadas estas piezas, como pueden ser un rack
(rack-picking), una cinta transportadora (belt-picking), o un contenedor
(bin-picking).
En el caso de piezas industriales, la forma de determinar su posición y
orientación suele ser mediante la búsqueda de su modelo CAD. De todas
formas, existe una gran cantidad de piezas (ya sean naturales o bien
industriales con flexibilidad) de las que no es posible disponer de este modelo.
Para estas piezas resulta prácticamente imposible realizar un alineamiento mediante un modelo geométrico, lo que
dificulta en gran parte su posicionamiento posterior de manera determinista.

Para aplicaciones de picking robótico se suelen utilizar sensores 3D, los cuales suelen ofrecer 2 tipos de imágenes
tras realizar una captura: por una parte la llamada “imagen de profundidad”, la cual codifica en una imagen 2D la
distancia a la que se encuentran los puntos de la escena y nos permite obtener una nube de puntos 3D. Por otra
parte, también suelen ofrecer una imagen visible de la escena, que puede ser en formato monocromo o RGB. Estas
2 imágenes tienen la particularidad de estar perfectamente alineadas, es decir, para cada punto de la escena
capturada podemos saber tanto su valor visible como la distancia a la que se encuentra de la cámara.
En un picking de piezas basadas en CAD el análisis suele hacerse directamente usando la nube de puntos 3D,
dejando en muchas ocasiones sin utilizar la imagen visible (o como mucho para texturizar el resultado y hacerlo
más estético). En cambio, en el picking de piezas sin CAD la imagen visible tiene una especial importancia: es la
imagen utilizada en la red neuronal de Object Detection. Una vez esta detección ha sido realizada, y gracias a la
alineación entre las imágenes anteriormente comentada, es posible obtener una segmentación en la nube de
puntos 3D, lo que permite una reducción considerable de los datos a procesar. La detección de cada pieza y la
obtención del punto de picking se hace a partir de cada una de las regiones segmentadas, ya sea mediante un
análisis local o una comparación con un pseudo modelo.

Infaimon ha añadido la capacidad de entrenar y ejecutar redes neuronales profundas en su producto InPicker,
posibilitando así la utilización de la técnica Object Detection para localizar piezas que no se ajustan a un CAD. En el
marco del proyecto SpecTUNA se ha utilizado esta capacidad para detectar diferentes atunes amontonados
aleatoriamente en un contenedor y posibilitar así su extracción. En un primer paso se usa la imagen visible como
entrada a la red neuronal, dando como resultado un conjunto de bounding boxes que nos indican la posición y
orientación de cada atún. Esta detección puede ser trasladada a la imagen de profundidad (y por consiguiente a la
nube de puntos 3D), dando lugar a múltiples sub-nubes de puntos 3D sobre las que se puede realizar, de forma
independiente, una detección mucho más precisa para identificar su posición de agarre más óptima.
En el marco del mismo proyecto SpecTUNA se realizaron otras tareas de automatización por medio de la visión,
como pueden ser el escaneado 3D de cada atún mediante triangulación láser (para determinar su posterior cortado
automático) o el análisis mediante imagen hiperespectral para conocer su calidad y composición, posibilitando así
su clasificación posterior. El proceso completo puede verse en el video indicado a continuación.

Info adicional: https://spectuna.com/ , https://youtu.be/7xnONghCr60?t=36 , https://inpicker.com/es/inpicker/

Página 18
Artículo Visión Industrial

4.2.3. Clasificación y picking de piezas naturales entremezcladas


Las piezas de madera contienen, por su propia naturaleza, unas texturas
que difícilmente son capaces de identificarse mediante visión artificial
tradicional. Además, si esta identificación debe hacerse con las piezas
colocadas en caótico se dificulta aún mucho más el proceso.

En este caso se presenta una aproximación para la clasificación de cortes de


madera a partir de una caja que contenía distintos cortes aleatorios (en
este caso, corte de madera de pino o de cerezo). Las aproximaciones
basadas en técnicas clásicas se basan principalmente en la diferencia de
tonalidad entre los cortes de cerezo y los de pino. Aunque ésta es una diferencia común entre los dos tipos de
madera, la incidencia de la luz y la variabilidad intrínseca de la madera crean situaciones en la que dicha diferencia
de tonalidad no resulta suficiente para efectuar un veredicto veraz y robusto sobre la clase de un corte dado. Las
aproximaciones basadas en geometría tampoco daban un juicio cierto, dado que ambas clases presentan el mismo
tipo de corte y lijado.

El sistema, desarrollado por Bitmetrics, se basa en un sensor low cost y está entrenado para trabajar en escenas
caóticas, con las 2 clases entremezcladas. A partir de una muestra muy pequeña de cortes de cada clase (es decir
de cada variante), el sistema aprendió qué características definen el corte de pino y cuáles el corte de cerezo.
Gracias a los atributos aprendidos de forma automática, el algoritmo es capaz de dar una clasificación correcta
incluso en los casos que podríamos considerar “frontera”, limitando los errores a lecturas de profundidad inexactas
o a la propagación de candidatos generadas por deficiencias graves en la iluminación.

Una vez encontrado un candidato apropiado, se procede a estimar un punto de pick mediante un estudio local de
su geometría. Dicho punto (coordenada) es enviado al brazo robótico que realiza la acción de pick mediante una
herramienta de vacío y gestiona el place clasificado, colocando el corte de madera en la caja correspondiente.

Comparando esta solución con aproximaciones clásicas basadas en patrones de textura y segmentaciones clásicas,
se ha conseguido una mejora relevante tanto en tiempo de procesado como en la precisión al arrojar el resultado:
el tiempo de procesado se redujo de aproximadamente 1.3 segundos por instancia a 0.9 segundos en 10 instancias,
gracias a la computación y procesado en paralelo potenciado por los núcleos CUDA de la tarjeta gráfica. Por otra
parte, la precisión -que originalmente era del 78%- se mejoró en un 20% alcanzando el 98%.

A futuro, se pretende llegar al 100% de precisión mediante un mejor entrenamiento de la red, y la dotación de una
pequeña heurística para mejorar la obtención del punto de pick en contextos de alta saturación de piezas.

Página 19
Artículo Visión Industrial

4.2.4. Grasping en nubes de puntos 3D mediante Deep Learning


La manipulación de objetos detectados mediante un sistema de visión es un reto en el ámbito de la robótica. En
aplicaciones en las que es necesario garantizar un agarre preciso, y cuando los objetos a manipular tienen cierta
complejidad, es necesario calcular la pose de los objetos con 6 grados de libertad (3 para la posición y 3 para la
orientación). Un ejemplo de este tipo de problemas es a la hora de detectar y manipular objetos tales como
conectores eléctricos que posteriormente deban ser introducidos por el robot en su toma correspondiente, para lo
cual es necesario realizar un agarre del conector en la posición y orientación correctas para asegurar su inserción.

Habitualmente el Deep Learning se aplica al dominio de las imágenes 2D, donde se han conseguido resultados
espectaculares. Pero cada vez es más habitual el uso de sensores 3D. Este tipo de sensores son de gran interés para
la industria, donde muchos de los objetos a manipular son metálicos y carecen de la textura que habitualmente
explotan las técnicas basadas en 2D para la detección de objetos. Además de los retos asociados a una modalidad
diferente de datos (nubes de puntos en lugar de imágenes 2D), la aplicación de técnicas de Deep Learning a datos
3D presenta otro reto: la generación de las bases de datos para entrenar las redes. Existen distintas bases de datos
de entrenamiento disponibles en base a imágenes 2D (ImageNet, COCO, etc), pero estas bases de datos son mucho
más escasas en el dominio de las nubes de puntos, y especialmente cuando se trata de piezas industriales.
Por tanto, este proyecto TECNALIA ha aplicado dos innovaciones principales:
● Por un lado, el uso de nuevas arquitecturas de redes de Deep Learning que operan sobre nubes de puntos
y utilizan información tanto de color (RGB) como descriptores geométricos extraídos de la nube de puntos
para detectar objetos y calcular su pose con 6 grados de libertad.
● Por otro lado, la utilización de métodos procedimentales para generar bases de entrenamiento sintéticos
3D para entrenar las redes; eso permite entrenar nuevos objetos de forma sencilla, evitando las
complejidades del etiquetado manual de las nubes de puntos.

El sistema de visión artificial desarrollado por TECNALIA se ha integrado en el marco del proyecto SHERLOCK en un
robot manipulador móvil (AIMM) que manipula un conjunto de piezas aeronáuticas de características muy
distintas. Se trata de un escenario en el que el robot y un operario humano colaboran para realizar unas tareas de
forma cooperativa. Por tanto, dado que se trata de un robot móvil y trabajando en un entorno no estructurado,
resultan críticas las capacidades de percepción del robot para detectar los objetos a manipular. Las capacidades del
sistema de Deep Learning y el flujo desarrollado para entrenar nuevos objetos reducen la dependencia de un
experto en visión artificial para la incorporación de nuevos objetos al catálogo de objetos reconocibles.

Información adicional: https://www.sherlock-project.eu/home, https://www.mdpi.com/2079-9292/10/11/1276

Página 20
Artículo Visión Industrial

4.2.5. Clasificación de materiales


En la industria existe la necesidad de detectar y clasificar materiales, ya sea para control de calidad (p.ej. en la
detección de impropios en industria alimentaria) o para la clasificación de materiales (p.ej. en un sistema de
reciclaje). Habitualmente se implementan sistemas de visión por computador para dar solución a estos problemas
y, desde hace unos años, se están aplicando también técnicas de inteligencia artificial en el proceso. Sin embargo,
existen escenarios donde las cámaras RGB son incapaces de discernir entre materiales.

En estos casos, la tecnología de imagen hiperespectral aporta soluciones a la problemática. El hecho de poder tener
más información favorece la identificación de características que no son visibles a simple vista. Procesando la
información hiperespectral mediante algoritmos de IA se pueden conseguir muy buenos resultados dando solución
a problemas reales de la industria. Desde Eurecat se han trabajado diferentes casos:
- Detección de materiales en reciclado: Para las empresas de reciclaje es esencial poder discernir los tipos
de materiales que reciben para poder tratarlos tal y como marca la normativa. Muchas veces el material
que llega a la planta contiene muchos impropios debido a la mala praxis de los ciudadanos al separar
(madera entre el plástico, metales, etc.). Se ha desarrollado un algoritmo de IA capaz de identificar
diferentes tipos de materiales en continuo, de tal forma que se pueden identificar antes de su procesado y
ser sacados del proceso antes de su trituración.
- Detección de plásticos sobre carne: La industria alimentaria tiene unos niveles de control de calidad muy
exigentes. Durante el proceso de empaquetado de la carne es posible que algunos fragmentos de plástico
caigan sobre el producto. Cuando el plástico es del mismo color que la carne es muy difícil detectarlos con
cámaras RGB. Usando tecnología hiperespectral el plástico puede ser detectado de forma robusta
- Identificación de textiles. En la industria del reciclado textil es importante identificar la composición de las
prendas para su posterior procesado. Mediante la tecnología hiperespectral es posible identificar los
materiales que componen esas prendas, facilitando así la separación de forma automática.

Los resultados obtenidos en cada uno de estos casos de uso han demostrado gran efectividad en la detección y
clasificación de diferentes tipos de materiales. La posibilidad de poder dar solución a problemas de visión dónde el
uso de cámaras convencionales no es satisfactorio abre diferentes posibilidades de industrialización. La
contrapartida es, principalmente, el elevado coste de los componentes que puede exceder fácilmente los 40.000€.
De todas formas, el uso de esta tecnología no es exclusiva específicamente de cámaras hiperespectrales. Existen
otras opciones en el mercado, con menos rango de sensibilidad, pero que igualmente pueden ser válidas para
procesos concretos, abaratando significativamente los costes de la instalación final.

Segmentación y clasificación de diferentes tipos de tejido. De izquierda a derecha: Algodón+Poliéster, 100% Algodón,
100% Algodón, Jean con botones metálicos, 100% Poliéster, 100% Algodón, Jean.

Pruebas de detección de plásticos sobre carne.

Página 21
Artículo Visión Industrial

4.2.6. Aplicación de visión y robótica en la agricultura

En 2050 la población mundial alcanzará los 9.000 millones de personas, por lo que uno de
los grandes retos globales es el desarrollo de soluciones que permitan avanzar hacia
fuentes de alimentación sostenibles y eficientes a largo plazo. Tekniker ha trabajado
dentro del proyecto Greenpatrol en una solución para mejorar la producción agrícola en
invernaderos gracias a la navegación autónoma, la robótica y la inteligencia artificial. Con
ello se realiza una inspección completa de posibles plagas y la aplicación de los distintos
insecticidas. Actualmente esta inspección de las plantas se hace mediante un proceso
manual, y la aplicación de los insecticidas se realiza a nivel de todo el invernadero y no a
nivel de planta o zonas con pestes.

La solución desarrollada está compuesta por una plataforma móvil Segway para la navegación, un brazo robot
KUKA para la inspección de las plantas, un láser 3D VELODYNE para obtener información 3D extra para dar soporte
a la navegación, un receptor GNSS para obtener la localización del satélite GALILEO, y cámaras para la detección de
personas, la detección de hojas a inspeccionar y la detección de pestes y un equipamiento de pulverización de
insecticida desarrollado a medida.

Los mayores retos tanto científicos como tecnológicos del proyecto han sido (1) la localización en interiores usando
las señales de los satélites GALILEO, (2) la navegación autónoma de la plataforma robótica en un invernadero y (3)
la detección automática de pestes usando inteligencia artificial.

Tekniker ha sido responsable del desarrollo del sistema de detección e identificación de pestes (Bemisia Tabaci,
Trialeurodes Vaporariorum y Tuta Absoluta) en distintos ciclos de vida (huevo, larva e insecto) en las plantas de
tomate basado en Deep Learning. Para ello Tekniker ha trabajado en las distintas fases del proceso:
(a) ha trabajado con un grupo de expertos biólogos para la generación y etiquetado de un dataset de pestes en
condiciones de laboratorio y en el propio invernadero con un sistema automático de adquisición de imágenes;
(b) análisis exploratorio de las imágenes y etiquetas recibidas;
(c) la aplicación de técnicas de aumentación de datos para añadir variabilidad y número de imágenes al dataset;
(d) el entrenamiento del modelo de detección de pestes basado en modelos de Object Detection;
(e) la evaluación de los resultados;
(f) la integración del modelo dentro del brazo robot para la búsqueda de hojas, acercarse a las mismas para realizar
las capturas y la inferencia de las imágenes captadas para la búsqueda de pestes;
(g) el envío de la información a un servidor central para la definición de la estrategia para aplicar los insecticidas

Youtube: https://www.youtube.com/channel/UCuI_1ySFqs26byudAeMzQAQ
Web: https://www.greenpatrol-robot.eu/

Página 22
Artículo Visión Industrial

4.2.7. Picking de botellas de vidrio con Deep Learning


En la actualidad, encontramos robots y cobots en muchos procesos industriales que permiten la automatización de
tareas de manipulación de piezas y donde el procesamiento de las imágenes es muy importante ya que convierte
las cámaras en los ojos del robot. Gracias a la visión artificial se han conseguido sistemas autónomos que pueden
vaciar un contenedor, coger objetos de una cinta transportadora, entre otros.

Hoy en día y gracias a los avances tecnológicos, el guiado robótico es fácil de aplicar a muchas tareas mediante el
uso de softwares sencillos e intuitivos capaces de solventar gran parte de los retos industriales. A pesar de esto,
cuando el producto que queremos recoger tiene poco contraste, no es repetitivo o es variante en la forma, este
proceso puede complicarse. Por este motivo, realizar un picking de botellas presenta muchas dificultades, ya que el
vidrio es un material que tiene mucha variación, transparencia y se ve afectado por la luz natural y sus reflejos.

Si utilizamos algoritmos de procesamiento de imágenes, como la coincidencia de patrones o la extracción de


características geométricas, es prácticamente imposible implementar una solución con la eficiencia y precisión
requeridas en la mayoría de aplicaciones, que podrían entregar poses erróneas haciendo colisionar la pinza del
robot con el producto, que probablemente se rompería al ser de vidrio.

Por otro lado, la gran mayoría de sistemas 3D tampoco son capaces de obtener una buena representación
tridimensional del vidrio debido a la naturaleza del propio material. Sin embargo, gracias a la aparición de las
nuevas tecnologías en Deep Learning, podemos entrenar modelos capaces de detectar cuellos de botellas a pesar
de que la imagen no sea muy contrastada o repetitiva.

La solución de visión artificial basada en Deep Learning desarrollada por bcnvision, permite entregar la posición a
un robot de cualquier tipo de botella de cristal de una forma rápida, eficiente y precisa. El usuario final dispone de
una herramienta potente y sencilla de utilizar, donde solo tiene que entrenar unas cuantas imágenes
representativas indicando la posición de las botellas.

https://teknics.eu/alimentador-de-botellas-de-cristal-glassfeeder/ , https://youtu.be/xart8JKKrto?t=3340

Página 23
Artículo Visión Industrial

5. Presente y futuro del DL aplicado a visión

5.1. Herramientas disponibles en la actualidad


A pesar de que desde hace algunos años el uso de las redes neuronales es técnicamente viable en un PC de
prestaciones medias, la complejidad en su implementación ha sido una barrera para su uso por una gran parte de
los desarrolladores. Por suerte, ha habido durante estos años muchas propuestas de APIs de alto y bajo nivel
mejoradas de manera constante para construir modelos de redes neuronales. Todas ellas tienden a parecer
similares desde la distancia, pero muestran diferencias en un examen más detallado. Por otro lado, gracias a la
gran comunidad de investigadores, desarrolladores e incluso empresas privadas que trabajan con código abierto
y comparten conocimiento, hoy en día tenemos multitud de opciones como frameworks, APIS, plataformas, entre
otros recursos para poder desarrollar nuestras aplicaciones de visión basadas en Deep Learning.

Al igual que en visión artificial podemos hablar de opencv como la librería de programación open-source por
excelencia, en cuanto a frameworks de Deep Learning las más utilizadas son TensorFlow, Keras y Pytorch. Keras,
que se basa en la facilidad de uso, fue adoptado como API de alto nivel por TensorFlow a partir de su segunda
versión, aunque gracias a su compatibilidad con una amplia gama de opciones sigue siendo uno de los
frameworks más utilizados. A pesar de ello, los referentes en la actualidad sin duda son TensorFlow y Pytorch.
Podríamos decir que históricamente el primero está más orientado a producción e industria y el segundo está
más orientado a investigación, aunque con el paso de los años y a pesar de seguir existiendo esta línea
delimitadora por la comunidad, los dos frameworks han incorporado muchos módulos y librerías que los hacen
más versátiles y los acercan más a poder ser usados en ambos campos.

Aparte de estos frameworks y API, dentro de la gran comunidad de investigadores y desarrolladores en el mundo
de la inteligencia artificial, podemos encontrar diferentes fuentes o recursos con los que podremos afrontar los
retos o aplicaciones de visión artificial que queramos resolver.

En primer lugar, y teniendo en cuenta que lo más importante a la hora de afrontar un reto de Deep Learning son
los datos, podemos encontrar fuentes en internet con grandes datasets públicos de imágenes como imagenet,
ms-coco, pascal, cityscapes, entre otros que nos permiten entrenar y validar los modelos.

Por otro lado podemos encontrar los hubs, que son repositorios de modelos de Machine Learning
pre-entrenados, listos para optimizarlos e implementarlos donde se requiera. La idea es poder cargar estos
modelos mediante un framework específico y aprovechar el pre entrenamiento que se ha realizado mediante la
carga de los pesos calculados para resolver otra tarea, pero que puede ser válida como punto de partida para
solventar nuestro problema concreto. Por ejemplo, si queremos segmentar destornilladores, podemos partir de
un modelo de segmentación y cargarle los pesos pre entrenados en imagenet que no incluye la clase
destornillador por defecto, pero será un buen punto de partida para nuestra tarea ya que muchas partes de la red
ya tendrán un conocimiento previo en extracción de características de otros objetos. Algunos de los hubs más
populares son TensorFlowHub, PytorchHub o DeepLearningHub, entre muchos otros.

También podemos encontrar los model zoo que funcionan como un lugar central donde cualquiera puede
explorar, experimentar, colaborar y desarrollar tecnología con Machine Learning. Habitualmente son fuente de
modelos, datasets, espacios de trabajo, foros, documentación y links a los repositorios de códigos donde se
implementa la arquitectura. En la actualidad son una fuente muy importante para no empezar desde cero en
muchas de las aplicaciones que se nos presenten, ya que probablemente, buscando dentro del model zoo
podamos encontrar soluciones similares que nos permitan descargar los recursos, conocimiento o código para
afrontar nuestra aplicación con buen pie desde el principio y obteniendo resultados de una forma mucho más
rápida.

Y por último y no menos importante, tenemos los repositorios, donde la referencia es sin duda GitHub, un sitio
web que nos brinda un servicio basado en la nube para ayudar a los desarrolladores a almacenar y administrar su
código, así como a rastrear y controlar los cambios de éste. El código puede ser público o privado y es en el
primero donde gracias a la comunidad open source podremos encontrar muchísimos ejemplos de códigos,
modelos, implementación, documentación o ejemplos que nos pueden ayudar a implementar nuestra solución.

Página 24
Artículo Visión Industrial

5.2. Retos en aplicaciones de la IA. Limitaciones actuales y teóricas


Es evidente que en la actualidad estamos asistiendo a una revolución gracias a la expansión de la IA y las redes
neuronales, no solamente en el campo de la visión artificial sino también en muchos otros ámbitos. De todas
formas es necesario tener en cuenta ciertos condicionantes con el uso de estas tecnologías, no solamente para
poder aprovechar eficazmente sus capacidades actuales, sino también para garantizar aún mejores
funcionalidades en el futuro.

Por una parte, los algoritmos de IA basados en Deep Learning se alimentan de ingentes cantidades de datos, pero
estos datos deben ser revisados antes de ser usados como material de aprendizaje para no introducir ningún tipo
de sesgo en la red neuronal. Garantizar que los datos usados sean representativos de toda la complejidad de la
realidad es siempre un reto, ya que el sesgo no siempre es evidente. Un ejemplo muy claro podría ser el de una
supuesta IA entrenada para reconocimiento facial mediante smartphone. Si dicha IA se entrena a partir de datos
obtenidos mediante este tipo de dispositivo, éste tendrá mayor especialización en trabajar con facciones
occidentales y orientales que con facciones africanas, dada la menor penetración de smartphones en el conjunto
de esta población, y por tanto una aportación de datos más reducida.

En cuanto a los propios algoritmos, la introducción de las arquitecturas basadas en Transformers (estructuras
explicadas al inicio del artículo y especializadas en encontrar relaciones espaciales en los datos) ha supuesto una
vuelta de tuerca más a las ya apretadas tarjetas gráficas, encargadas de agilizar el proceso de entrenamiento. El
tamaño en memoria gráfica de una red basada en Transformers puede duplicar, e incluso triplicar, el de redes
convolucionales consolidadas. Dicha demanda de prestaciones de hardware limita en gran medida qué empresas
pueden diseñar e implementar nuevas arquitecturas genéricas. Por ejemplo, la red conocida como VIT (Visual
Image Transformer), fue propuesta por Google tras haber invertido más de mil horas de entrenamiento en TPUs
(Tensor Processing Units). No todas las empresas pueden permitirse este tipo de pruebas, ya sea por
disponibilidad de hardware o por el coste en consumo de energía que suponen tantas horas de entrenamiento.

En cuanto a posibles futuras funcionalidades, uno de los aspectos que quedan por explotar en el campo de la IA
es el análisis de datos en vídeo. Teniendo en cuenta que se sigue investigando en el procesado de imágenes
estáticas, la dependencia temporal entre imágenes añade un nuevo grado de dificultad a la tarea. Una aplicación
directa de análisis continuo de vídeo la podríamos encontrar en un sistema encargado de inspeccionar el tráfico.
A diferencia de la información dada por los radares (limitada a la monitorización de la velocidad), un seguimiento
de vehículos basado en vídeo podría detectar conductas de riesgo como conducción temeraria o incluso avisar
automáticamente a una ambulancia en caso de accidente.

Por otro lado, la calidad de los datos generados de forma artificial no ha parado de aumentar desde la
introducción de las redes de generación adversaria (conocidas como GANs). Recientemente, la aparición de las
redes generativas basadas en difusión (por ejemplo DALL-E 241 o Stable Diffusion42) ha causado gran expectación,
dada su capacidad de generar imágenes de alta calidad. La gran duda que surge es si dichas imágenes pueden
considerarse originales o no, ya que las estas redes usan bases de datos para aprender a captar patrones visuales.
Queda por ver si dichas redes serán consideradas como artistas per se o como generadoras de plagio.

Finalmente, la introducción del 5G permitirá implementar la computación de algoritmos en la nube a tiempo real.
Dicha innovación permitiría eliminar la mayoría de dispositivos de cálculo de las industrias, dejando solamente
dispositivos sencillos encargados de transmitir datos del hardware a la nube. Queda por ver el coste de
implementación de esta nueva revolución industrial, y determinar si pequeñas y medianas empresas podrán
beneficiarse de estas nuevas tecnologías o si quedarán limitadas a las grandes industrias.

41
https://openai.com/dall-e-2/
42
https://stability.ai/blog/stable-diffusion-public-release

Página 25
Artículo Visión Industrial

6. Conclusiones
Desde sus inicios a partir del procesado de imágenes, la visión artificial ha experimentado unos grandes avances
gracias a la mejora en las capacidades de los dispositivos y a los algoritmos matemáticos desarrollados por los
investigadores. Aplicado al sector industrial, la visión ha permitido unos niveles de automatización nunca vistos
hasta la fecha, permitiendo que una misma instalación sea capaz de adaptarse a diferentes situaciones.

Sin embargo, el uso de la visión en una instalación industrial tiene una serie de inconvenientes. Dejando a un lado
los casos muy básicos, se suele necesitar un desarrollo a medida para la aplicación de visión que se quiere
implementar. Este desarrollo debe ser realizado por una persona con amplios conocimientos en la materia, que
sepa qué algoritmos matemáticos deben ser aplicados y en qué orden. Por otra parte, a pesar de los múltiples
condicionantes que este especialista pueda incorporar en el desarrollo, jamás será capaz de tener en cuenta las
infinitas casuísticas que pueden aparecer en un entorno real.

En respuesta a estas situaciones se plantea el uso de técnicas propias de la Inteligencia Artificial. En concreto,
durante los últimos años se han popularizado dentro del sector de la visión el uso de técnicas de Deep Learning,
las cuales intentan imitar el funcionamiento del cerebro humano mediante el uso de redes neuronales
artificiales. Ante esta nueva situación, la creación de una nueva aplicación usando visión cambia drásticamente.
Ya no es necesario que un especialista dedique largas horas al desarrollo y a las múltiples casuísticas que puedan
aparecer, sino que simplemente con mostrar al algoritmo una gran cantidad de imágenes (en ocasiones
etiquetadas manualmente), éste será capaz de adaptar automáticamente la red neuronal al objetivo deseado.

Figura 16. Nuevo paradigma en el desarrollo de aplicaciones de visión artificial

Hay que tener en cuenta además que el uso del Deep Learning permite que éste no se trate de un desarrollo
estático, congelado en el tiempo con el aprendizaje obtenido durante su entrenamiento inicial. Los avances en
métodos de entrenamiento y en el aprendizaje por refuerzo permiten añadir nuevos datos de forma gradual, así
como auto-adaptarse en función del resultado de sus acciones. Este modo de actualizarse, similar al aprendizaje
por prueba-error de los humanos, permite a los algoritmos estar siempre al día con los cambios en el contexto.
Esto representa un claro contraste con las modelizaciones clásicas, donde la presencia de algún caso discordante
con el desarrollo actual podía causar la invalidación de un sistema de visión por completo.

El uso de estas técnicas de Deep Learning está revolucionando el mundo de la visión artificial, y es constante la
aparición de nuevos modelos de redes neuronales que consiguen mejorar los resultados de otras redes recientes
o nuevas funcionalidades. De hecho, en la actualidad no se limitan al análisis de las imágenes ya adquiridas, sino
que también existen redes neuronales capaces de mejorar el proceso de adquisición de éstas (generar
información 3D a partir de una única imagen 2D, aumentar la resolución de las imágenes, colorear imágenes en
monocromo, etc.)

Como se ha podido ver a lo largo del presente artículo, estamos viviendo una revolución en el mundo de la visión
artificial gracias a esta irrupción del Deep Learning. Mediante esta potente combinación se consiguen resolver
tareas muy complejas que eran inviables hace unos años, permitiendo a los desarrolladores crear soluciones
disruptivas cada vez más potentes en el análisis de imágenes y en la visión artificial.

Página 26

También podría gustarte