FACULTAD DE INGENIERÍA Y ARQUITECTURA
ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS
Título de Informe Académico:
Clasificación de lenguaje de señas en texto o voz con Deep Learning +
Arduino
AUTOR(ES):
Bances Tananta Cristopher (orcid.org/0000-0003-0215-3599)
Calderón Salazar Joaquin (orcid.org/0009-0003-7364-267X)
Rojas Esteban Leni (orcid.org/0000-0002-8045-1113)
Soto Trejo Cristel (orcid.org/0000-0001-7485-1113)
ASESOR(A)(ES):
Necochea Chamorro, Jorge Isaac
(orcid.org/0000-0002-3290-8975)
LÍNEA DE INVESTIGACIÓN:
Sistemas de Información y Comunicación
SECCIÓN C1T1
LIMA NORTE — PERÚ
2025
INTRODUCCIÓN
En la actualidad, el lenguaje de señas es un método esencial para
comunicarse, más de 430 millones de personas con discapacidad auditiva,
según la OMS; sin embargo, aún existen barreras importantes en la
interacción con personas oyentes debido al desconocimiento generalizado de
este lenguaje visual. Aunque estudios recientes han desarrollado prototipos
de inteligencia artificial con redes neuronales y recurrentes para el
entendimiento de las señas, muchas de estas soluciones requieren
condiciones técnicas ideales o conexión a internet, lo que limita su uso en la
vida real. A través de una revisión sistemática, se identificaron brechas en la
portabilidad y accesibilidad de estos sistemas, evidenciando la necesidad de
herramientas más inclusivas. Por esta razón, el presente estudio plantea el
desarrollo de una aplicación que utilice visión por computadora y técnicas de
deep learning para reconocer el lenguaje de señas en tiempo real, y
convertirlo en texto o voz a través de un sistema innovador. Este sistema,
basado en un microprocesador o microcontrolador, esta diseñado para
cumplir funciones específicas, generalmente en tiempo real, con el propósito
de facilitar la comunicación entre personas sordas y oyentes.
MÉTODOS
Plazas, J., Gutierrez, J., Suarez, M. & González, J. (2022). Nos presentan un
prototipo perceptivo computacional que facilitará la comprobación de la
lengua de señas colombiana en ambientes hoteleros y turísticos. Utiliza redes
neuronales convolucionales y captura los flujos mediante las cámaras de
vídeo de dispositivos móviles. Se logró una tasa de éxito del 97.6% en un
medio supervisado.
Bravo, C., Silva, M., Marceles, K. & Amador, S. (2024). Proponen el uso de
herramientas tecnológicas como alternativas inclusivas para reducir la brecha
comunicacional, enfocándose en el lenguaje de señas. A partir de diversas
propuestas investigadas, se plantea el avance de una solución tecnológica
orientada a una interpretación y aprendizaje de este lenguaje. Se identifican
tanto los alcances como las limitaciones de dichas herramientas, lo que
permite definir métodos adecuados para su implementación.
Ramachandra A.C, Raghavendra, R., Prem Chowdary, K., Viveka Simha, P. &
Nishant, M. (2022). Implementaron modelos de Tiny Machine Learning en la
placa Arduino Nano 33 BLE para el reconocimiento de la gesticulación y voz.
Utilizando sensores integrados como acelerómetro, giroscopio y
magnetómetro, se entrenaron modelos para detectar movimientos de la mano
y reconocer comandos de voz. Los modelos se desarrollaron y desplegaron
utilizando la plataforma EdgeImpulse, demostrando la viabilidad de sistemas
de reconocimiento en tiempo real en dispositivos de bajo costo
LIMITACIONES
Abd Al-Latief, S. T; Yussof, S; Ahmad, A & Kadhim, S. (2024). Realizaron una
revisión comparativa de estudios que aplican el deep learning al aprendizaje
de la lengua de señas, evaluaciones técnicas, modelos y resultados. Utiliza
una revisión sistemática, clasificando trabajos según el problema que aborda
y las arquitecturas empleadas (CNN, RNN, LSTM, GAN, entre otras).
Srivastava S; Singh S; Pooja & Prakash S. (2024). Realizaron un estudio en
donde desarrolla un sistema de reconocimiento continuo de lenguaje de
señas (CSLR) en tiempo real, en profundidad para el lenguaje de señas indio
(ISL), con el fin de que permita traducir gestos en texto o voz usando técnicas
de Deep Learning. Utilizando la recolección y preprocesamiento de datos
visuales mediante Python y OpenCV, extrayendo características temporales y
entrenando una red neuronal compuesta por tres capas LSTM y tres densas.
La limitación está en la dificultad para extraer características en fondos
complejos, la variación entre usuarios, la superposición de manos y rostro, y
la falta de una lengua de señas universal, lo que complica la generalización
del sistema.
He, M. (2025). En su artículo analiza y compara los métodos tradicionales y
basados en inteligencia artificial, enfocándose más en Deep Learning, para el
aprendizaje de la lengua de señas, y mejorar el entendimiento entre los
sordos y oyentes, examina las tecnologías como el modelado de manos en
3D, sensores visuales y dispositivos portátiles. Utilizan la recopilación de
datos mediante técnicas de modelado y visión por computadora, seguida del
uso de modelos de redes neuronales, especialmente CNN con secuencias
dinámicas. La limitación está en las dificultades de los métodos tradicionales
por su alto costo y baja portabilidad, y los desafíos de los métodos visuales
frente a condiciones ambientales complejas, como iluminación variable y
oclusiones.
RESULTADOS
Ortiz, N. & Camargo, J.(2020). Se propone el desarrollo de un software que
utiliza técnicas de aprendizaje automático para reconocer el lenguaje de
señas colombiano Debido a la inexistencia de un repositorio público de
señas, los autores crearon uno propio mediante la grabación de cinco
personas realizando gestos. Las imágenes recolectadas fueron utilizadas
para entrenamiento y evaluación de distintos modelos de clasificación,
utilizando accuracy como métrica principal.
Minhyuk Lee & Joonbum Bae.(2020). La finalidad principal de su
investigación es crear un sistema que pueda convertir en tiempo real el
lenguaje de señas americano a texto utilizando métodos de aprendizaje
rotundo. Para ello, se exploran distintos enfoques como redes neuronales
convolucionales (CNN), modelos ligeros, redes LSTM y transferencia de
aprendizaje. Se propone una arquitectura basada en CNNs con tres capas
convolucionales, y se compara con un modelo VGG16 pre entrenado. El
modelo se entrenó con 87,000 imágenes y alcanzó una precisión del 98.7%.
Finalmente, se implementó una aplicación móvil que captura las señas y
muestra su traducción en texto utilizando una arquitectura cliente-servidor con
Flutter y Django.
Anant V. Nimkar, Bhavya Shah, Samveg Shah & Shubham Thakar (2022).
Este artículo expone un sistema para el reconocimiento en tiempo real de
gestos con los dedos, utilizando un guante de datos que incorpora un sensor
flexible. Este guante mide los ángulos articulares metacarpofalángicas e
interfalángicas proximal (PIP) de cinco dedos. En el campo del
reconocimiento de gestos, un problema complejo es separar los gestos
dinámicos significativos de un flujo continuo de datos.
BRECHAS
Haitham E., Ahmed E., Emad Abouel N., Ali K. Kamrani, Engy E. (2022). Nos
presentan el sistema IDLG (Intelligent for Deaf/Dumb People using Gloves),
cuyo objetivo es facilitar la interacción de personas sordas a través de la
conversión de los gestos a texto. Utiliza guantes inteligentes equipados con
cinco sensores flexibles y un acelerómetro para capturar movimientos de
manos. Los datos se procesan con un microcontrolador Atmega32A y redes
neuronales profundas para clasificar gestos, que se transmiten a una
aplicación móvil vía Bluetooth. La metodología incluyó la creación de un
dataset con 10,000 gestos de 20 personas, enfocado en el alfabeto ASL.
Alaghband, M., Reza Maghroor H., Garibay, I.,(2023). Este artículo revisa la
literatura sobre reconocimiento y la interpretación de lenguaje de señas,
destacando su relevancia para las personas sordas. Examina avances en
reconocimiento de gestos, expresiones faciales y traducción, así como la
disponibilidad de conjuntos de datos. Utiliza una metodología de revisión
sistemática, basada en capítulos de una disertación doctoral, para analizar
enfoques basados en hardware y visión, modelos de aprendizaje automático
y aprendizaje profundo.
Yuxuan L., Xijun J., Xingge Y., Huaidong Y., Chao M., Wanyi W., Youfan H.
(2023). El artículo propone un sistema portátil diseñado para reconocer el
lenguaje de señas chino mediante una red neuronal. Este sistema combina
sensores elásticos de deformación en los dedos, una unidad de medición
inercial y una placa de circuito flexible, con el propósito de enriquecer la
comprension de personas con discapacidades auditivas o del habla. La
metodología incluye captura de datos a 100 Hz, filtrado Kalman, y
clasificación con CNN, logrando 95.85% de precisión en 48 palabras y 84%
en oraciones. Se empleó análisis de correlación para mejorar el
reconocimiento sin entrenamiento adicional para oraciones.
BIBLIOGRAFÍA
Alaghband M., Maghroor H. R., Garibay I. Machine Learning with Applications
(2023). A survey on sing language literature.
Bravo Mosquera., C,J. Silva Joaqui., M.F. Marceles Villalba., K. Amador
Donado., S.(2024). Aplicación móvil para el aprendizaje y
traducción del lenguaje de señas colombiano.
Haitham Elwahsh, Ahmed Elkhouly, Emad Abouel Nasr, Ali K. Kamrani and
Engy El-shafei.(2022). A New Intelligent Approach for Deaf/Dumb
People based on Deep Learning.
Han, Q., Huangfu, Z., Min, W. et al. Sign language recognition based on
skeleton and SK3D-Residual network. Multimed Tools Appl 83,
18059–18072 (2024).
Minhyuk Lee & Joonbum Bae.(2020). Deep Learning Based Real-Time
Recognition of Dynamic Finger Gestures Using a Data Glove.
Montefalcon, M.D., Padilla, J.R., Rodriguez, R. (2023). Sign Language
Recognition of Selected Filipino Phrases Using LSTM Neural
Network. In: Yang, XS., Sherratt, S., Dey, N., Joshi, A. (eds)
Proceedings of Seventh International Congress on Information
and Communication Technology. Lecture Notes in Networks and
Systems, vol 465. Springer, Singapore.
N. Ortiz-Farfán, J. E. Camargo-Mendoza, “Modelo computacional para
reconocimiento de lenguaje de señas en un contexto
colombiano”, TecnoLógicas, vol. 23, no. 48, pp. 197-232, (2020).
Plazas López., J.A. Gutiérrez Leguizamón., J.J. Suárez Barón., M.J. y
González Sanabria., J.S. (2022). Reconocimiento de lengua de
señas colombiana mediante redes neuronales convolucionales y
captura de movimiento. Tecnura, 26(74), 70-86.
Prasanna R. R., Chowdary Kakarla P., Simha V. P., Mohan N.(2022).
Implementation of tiny machine learning models on arduino 33 -
BLE for gesture and speech recognition.
Shahad Thamear Abd Al-Latief, Salman Yussof, Azhana Ahmad , Saif
Khadim.(2024). Deep Learning for Sign Language Recognition: A
Comparative Review.
Shubham Thakar, Samverg Shah, Bhavya Shah, Anant V. Nimkar.(2022).
Sign Language to Text Conversion in Real Time using Transfer
Learning.
Yuxuan Liu, Xijun Jiang, Xingge Yu, Huaidong Ye, Chao Ma, Wanyi Wang,
Youfan Hu.(2023). A wearable system for sign language
recognition enabled by a convolutional neural network.
REFERENCIAS
Alaghband M., Maghroor H. R., Garibay I. Machine Learning with Applications
(2023). A survey on sing language literature.
https://www.sciencedirect.com/science/article/pii/S266682702300
0579
Bravo Mosquera., C,J. Silva Joaqui., M.F. Marceles Villalba., K. Amador
Donado., S.(2024). Aplicación móvil para el aprendizaje y
traducción del lenguaje de señas colombiano.
https://revistaingenieria.univalle.edu.co/index.php/ingenieria_y_competit
ividad/article/view/12815
Haitham Elwahsh, Ahmed Elkhouly, Emad Abouel Nasr, Ali K. Kamrani and
Engy El-shafei.(2022). A New Intelligent Approach for Deaf/Dumb
People based on Deep Learning.
https://www.sciencedirect.com/org/science/article/pii/S1546
Han, Q., Huangfu, Z., Min, W. et al. Sign language recognition based on
skeleton and SK3D-Residual network. Multimed Tools Appl 83,
18059–18072 (2024). https://arxiv.org/pdf/2211.14446
Minhyuk Lee & Joonbum Bae.(2020). Deep Learning Based Real-Time
Recognition of Dynamic Finger Gestures Using a Data Glove.
https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9264164
Montefalcon, M.D., Padilla, J.R., Rodriguez, R. (2023). Sign Language
Recognition of Selected Filipino Phrases Using LSTM Neural
Network. In: Yang, XS., Sherratt, S., Dey, N., Joshi, A. (eds)
Proceedings of Seventh International Congress on Information
and Communication Technology. Lecture Notes in Networks and
Systems, vol 465. Springer, Singapore.
https://www.researchgate.net/publication/389064724_Sign_langua
ge_recognition_method_based_on_deep_learning
N. Ortiz-Farfán, J. E. Camargo-Mendoza, “Modelo computacional para
reconocimiento de lenguaje de señas en un contexto
colombiano”, TecnoLógicas, vol. 23, no. 48, pp. 197-232, (2020).
http://www.scielo.org.co/scielo.php?pid=S0123-779920200002001
91&script=sci_arttext
Plazas López., J.A. Gutiérrez Leguizamón., J.J. Suárez Barón., M.J. y
González Sanabria., J.S. (2022). Reconocimiento de lengua de
señas colombiana mediante redes neuronales convolucionales y
captura de movimiento. Tecnura, 26(74), 70-86.
https://www.redalyc.org/journal/2570/257073797005/html/
Prasanna R. R., Chowdary Kakarla P., Simha V. P., Mohan N.(2022).
Implementation of tiny machine learning models on arduino 33 -
BLE for gesture and speech recognition.
https://arxiv.org/abs/2207.12866?utm_source=
Shahad Thamear Abd Al-Latief, Salman Yussof, Azhana Ahmad , Saif
Khadim.(2024). Deep Learning for Sign Language Recognition: A
Comparative Review.
https://www.researchgate.net/publication/388408861_Deep_Learning_fo
r_Sign_Language_Recognition_A_Comparative_Review
Shubham Thakar, Samverg Shah, Bhavya Shah, Anant V. Nimkar.(2022).
Sign Language to Text Conversion in Real Time using Transfer
Learning.
https://www.researchgate.net/publication/389064724_Sign_language_re
cognition_method_based_on_deep_learning
Yuxuan Liu, Xijun Jiang, Xingge Yu, Huaidong Ye, Chao Ma, Wanyi Wang,
Youfan Hu.(2023). A wearable system for sign language
recognition enabled by a convolutional neural network.
https://www.sciencedirect.com/science/article/pii/S22112855230060
43