0% encontró este documento útil (0 votos)
2K vistas449 páginas

Ristie22 PDF

Cargado por

Sasha Holguín
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
2K vistas449 páginas

Ristie22 PDF

Cargado por

Sasha Holguín
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ISSN: 1646-9895

Revista Ibérica de Sistemas e Tecnologias de Informação


Iberian Journal of Information Systems and Technologies

A g o s t o 1 9 • A u g u s t 1 9

©AISTI 2019 [Link] Nº E22


Revista Ibérica de Sistemas e Tecnologias de Informação
Iberian Journal of Information Systems and Technologies

Edição / Edition
Nº. 22, 08/2019

ISSN: 1646-9895

Indexação / Indexing
Academic Journals Database, CiteFactor, Dialnet, DOAJ, DOI, EBSCO, GALE, Index-
Copernicus, Index of Information Systems Journals, Latindex, ProQuest, QUALIS,
SCImago, SCOPUS, SIS, Ulrich’s.

Propriedade e Publicação / Ownership and Publication


AISTI – Associação Ibérica de Sistemas e Tecnologias de Informação
Rua Quinta do Roseiral 76, 4435-209 Rio Tinto, Portugal
E-mail: aistic@[Link]
Web: [Link]

RISTI, N.º E22, 08/2019 i


Director
Álvaro Rocha, Universidade de Coimbra, PT

Coordenadores da Edição / Issue Coordinators


Iván García Santillán. Universidad Técnica del Norte. Ecuador.
Irving Reascos Paredes. Universidad de Minho. Portugal.
Marco Pusdá Chulde. Universidad Nacional de La Plata. Argentina.
Pedro Granda Gudiño. Universidad Técnica del Norte. Ecuador.
Jorge Caraguay Procel. Universidad Técnica del Norte. Ecuador.

Conselho Editorial / Editorial Board


Carlos Ferrás Sexto, Universidad de Santiago de Compostela, ES
Gonçalo Paiva Dias, Universidade de Aveiro, PT
Jose Antonio Calvo-Manzano Villalón, Universidad Politécnica de Madrid, ES
Luís Paulo Reis, Universidade do Porto, PT
Manuel Pérez Cota, Universidad de Vigo, ES
Ramiro Gonçalves, Universidade de Trás-os-Montes e Alto Douro, PT

Conselho Científico / Scientific Board


Ana Lucía Sandoval Pillajo. Universidad Politécnica de Valencia. España.
Ana Umaquinga Criollo. Universidad de Salamanca. España.
Andrea Verenice Basantes Andrade. Universidad de Salamanca. España.
Carlos Ramiro Peñafiel Ojeda. Universidad Nacional de Chimborazo. Ecuador.
Cathy Pamela Guevara Vega. Universidad de Sevilla. España.
Cecilia Verónica Sanz. Universidad Nacional de La Plata. Argentina.
Coral Calero Muñoz. Universidad de Castilla-La Mancha. España.
Cosme Macarthur Ortega Bustamante. Universidad Nacional de La Plata. Argentina.
Daisy Imbaquingo Esparza. Universidad Nacional de La Plata. Argentina.
Daniela López De Luise. CI2S Labs. Argentina.
Darwin Leonidas Aguilar Salazar. Universidad de las Fuerzas Armadas ESPE. Ecuador.
David Omar Guevara Aulestia. Universidad Técnica de Ambato. Ecuador.
Diego Hernán Peluffo Ordoñez. Universidad Yachay Tech. Ecuador.
Dulce Milagro Rivero Albarran. Pontificia Universidad Católica del Ecuador. Ecuador.
Dunia Inés Jara Roa. Universidad Técnica Particular de Loja. Ecuador.

ii RISTI, N.º E22, 08/2019


Edgar Maya Olalla. Universidad Técnica del Norte. Ecuador.
Enrique Vinicio Carrera. Universidad de las Fuerzas Armadas ESPE. Ecuador.
Erick Patricio Herrera Granda. Universidad Técnica del Norte. Ecuador.
Fausto Salazar Fierro. Universidad Técnica del Norte. Ecuador.
Fernando Manuel Uyaguari Uyaguari. Etapa Empresarial. Ecuador.
Francklin Rivas Echeverría. Universidad Técnica Federico Santa María. Chile.
Gabriela Viviana Tubón Usca. Escuela Superior Politécnica de Chimborazo. Ecuador.
Galo Hernán Puetate Huera. Pontificia Universidad Católica del Ecuador. Ecuador.
Glenda Rosalía Vera Mora. Universidad Técnica de Babahoyo. Ecuador.
Gustavo Adolfo Sandoval Ruilova. Universidad Politécnica de Madrid. España.
Henry Marcelo Recalde Araujo. Universidad Tecnológica Israel. Ecuador.
Hernán Mauricio Domínguez Limaico. Universidad Técnica del Norte. Ecuador.
Irving Reascos Paredes. Universidad de Minho. Portugal.
Israel David Herrera Granda. Universidad Técnica del Norte. Ecuador.
Iván García Santillán. Universidad Técnica del Norte. Ecuador.
Iván Ramírez Morales. Universidad Técnica de Machala. Ecuador.
Janneth Alexandra Chicaiza Espinosa. Universidad Técnica Particular de Loja. Ecuador.
Jorge Herrera Tapia. Universidad Laica Eloy Alfaro de Manabí. Ecuador.
Jorge Luis Pincay Lozada. Universidad Cooperativa de Colombia. Colombia.
Jorge Luis Zambrano Martínez. Universidad Politécnica de Valencia. España.
José Alejandro Salazar Castro. Corporación Universitaria Autónoma de Nariño.
Colombia.
José Antonio Quiña Mera. Universidad de Sevilla. España.
José María Bengochea Guevara. Consejo Superior de Investigaciones Científicas
(CSIC). España.
Juan Carlos Santillán Lima. Universidad Nacional de La Plata. Argentina.
Juan David García González. University College London. United Kingdom.
Karla Susana Cantuña Flores. Centro de Automática y Robótica CSIC. España.
Laura Cristina Lanzarini. Universidad Nacional de La Plata. Argentina.
Leandro Leonardo Lorente Leyva. Universidad Técnica del Norte. Ecuador.
Lenin Omar Lara Castro. Universidad Técnica del Norte. Ecuador.
Lorena De Los Ángeles Guachi Guachi. Universidad Yachay Tech. Ecuador.
Luis A. Marrone. Universidad Nacional de La Plata. Argentina.
Luis David Narváez Erazo. Pontificia Universidad Católica del Ecuador. Ecuador.

RISTI, N.º E22, 08/2019 iii


Luis Suárez Zambrano. Universidad Técnica del Norte. Ecuador.
Marco Patricio Abad Espinoza. Universidad Técnica Particular de Loja. Ecuador.
Marco Remigio Pusdá Chulde. Universidad Nacional de La Plata. Argentina.
Marco Revelo Aldas. Universidad Técnica del Norte. Ecuador.
Mario Bernabe Ron Egas. Universidad de las Fuerzas Armadas ESPE. Ecuador.
Marlon Renné Navia Mendoza. Escuela Superior Politécnica Agropecuaria de Manabí
Manuel Félix López. Ecuador.
Martha Vanessa Agila Palacios. Universidad Técnica Particular de Loja. Ecuador.
Mayra Salazar Grandes. Universidad de las Fuerzas Armadas ESPE. Ecuador.
Miguel Botto Tobar. Universidad Tecnológica de Eindhoven. Netherlands.
Miguel Díaz Rodríguez. Universidad de Los Andes-Mérida. Venezuela.
Nancy Guadalupe Velásquez Villagrán. Universidad Nacional de La Plata. Argentina.
Oscar Marcelo Zambrano Vizuete. Universidad Técnica del Norte. Ecuador.
Pablo Fernando Ordoñez Ordoñez. Universidad Nacional de Loja. Ecuador.
Pablo Landeta López. Universidad Técnica del Norte. Ecuador.
Pablo Vicente Torres Carrión. Universidad Técnica Particular de Loja. Ecuador.
Paul Francisco Baldeón Egas. Universidad Tecnológica Israel. Ecuador.
Paúl Rosero Montalvo. Universidad de Salamanca. España.
Renato Echeverria Meza. Asamblea Nacional del Ecuador. Ecuador.
Segundo Eliceo Pusdá Chulde. Pontificia Universidad Católica del Ecuador. Ecuador.
Stalin Marcelo Arciniegas Aguirre. Pontificia Universidad Católica del Ecuador.
Ecuador.
Verónica Consuelo Tapia Cerda. Universidad Técnica de Cotopaxi. Ecuador.
Víctor Manuel Caranqui Sánchez. Universidad Técnica del Norte. Ecuador.
Villie Morocho Zurita. Universidad de Cuenca. Ecuador.
Vivian Ojeda Serna. Universidad Técnica del Norte. Ecuador.
Walter Marcelo Fuertes Díaz. Universidad de las Fuerzas Armadas ESPE. Ecuador.
Xavier Mauricio Rea Peñafiel. Universidad Técnica del Norte. Ecuador.
Xiomara Blanco Valencia. Universidad Politécnica de Madrid. España.

iv RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 11/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 21/07/2019

Editorial

La Computación en la sociedad actual

Computing on modern society

Iván García Santillán1

idgarcia@[Link]

1
Facultad de Ingeniería en Ciencias Aplicadas. Universidad Técnica del Norte. Ibarra, Ecuador
Pages: v–vi

La computación ha tenido un auge en los últimos años debido, entre otras, a la


miniaturización de las computadoras con mayor poder de procesamiento. Grandes
avances técnicos-científicos han sido desarrollados con ayuda de la computación las
cuales han mejorado la calidad de vida de los ciudadanos del mundo.
Actualmente, estamos viviendo una plena revolución digital con avances tecnológicos
vertiginosos en varios campos: comunicaciones (teléfonos inteligentes), Internet de las
cosas, Inteligencia artificial, Seguridad informática, Big Data, Computación en la nube,
Redes sociales, Robótica, entre otros. Estas tecnologías emergentes, sin duda, impactan
significativamente en la globalización de la economía y diferentes ámbitos de la sociedad,
tales como: educación, salud, transporte, industria, ambiente, negocios, comunicación,
gobierno, seguridad, entretenimiento, etc.
En este contexto, el presente número especial de la Revista Ibérica de Sistemas y
Tecnologías de la Información (RISTI) muestra algunas propuestas de investigación en
el campo de la computación que promueven cambios positivos o alternativas de solución
a necesidades tecnológicas específicas en diferentes sectores estratégicos y de interés
público para una sociedad moderna cada vez más tecnificada.
Estas propuestas son resultado del II Congreso Internacional en Ciencias de la
Computación (INCICS 2019), realizado del 16 al 18 de octubre en la Universidad Técnica
del Norte, Ibarra-Ecuador. Este evento fue un espacio de diálogo y debate de alto nivel
técnico-científico sobre resultados de investigaciones en las áreas de Ciencias de la
Computación, Ingeniería de software, Tecnologías y Sistemas de Información, Redes de
Comunicación, Gestión inteligente del territorio, entre otros.

RISTI, N.º E22, 08/2019 v


Computing on modern society

INCICS 2019 receptó 84 artículos científicos de autores provenientes de 11 países: Brasil,


Chile, Colombia, Cuba, Ecuador, El Salvador, Italia, México, Perú, Portugal y España.
Luego de un proceso riguroso de evaluación por parte de los miembros del comité
científico internacional, donde autores y revisores fueron anónimos, se seleccionaron 33
artículos, correspondiendo a una tasa de aceptación del 39%.
Los artículos elegidos se enmarcaron en las siguientes subáreas: TIC en Educación,
Minería de Datos, Visión por Computador, Calidad de Software, Inteligencia Artificial,
Modelado y simulación, Realidad virtual y aumentada, Seguridad informática, Redes de
datos y comunicación, Robótica, Gobierno electrónico y Auditoría informática.

Agradecimientos
Un reconocimiento profundo:
A los autores, por haber confiado y presentado sus trabajos con alta calidad científica.
A los miembros del comité científico del II Congreso Internacional en Ciencias de la
Computación (INCICS 2019) por su colaboración en calidad de revisores de los artículos
científicos. Esto permitió seleccionar los mejores manuscritos para su presentación en el
evento y su publicación en este número especial de la revista RISTI.
A las instituciones que proporcionaron su aval y/o apoyo académico para el desarrollo
de INCICS 2019: Universidad Técnica del Norte (Ecuador), Universidad de Sevilla
(España), Universidad Complutense de Madrid (España), Universidad de Minho
(Portugal), Universidad Nacional de la Plata (Argentina), Secretaría de Educación
Superior, Ciencia, Tecnología e Innovación (SENESCYT, Ecuador), Red CEDIA
(Ecuador), Red RTC-REDU (Ecuador) y Asociación Ibérica de Sistemas y Tecnologías
de Información (AISTI, Portugal).

vi RISTI, N.º E22 08/2019


Índice / Index

EDITORIAL
La Computación en la sociedad actual...............................................................................v
Iván García Santillán

ARTIGOS / ARTICLES
Propuesta de un videojuego educativo para la enseñanza-
aprendizaje de la clasificación de requisitos en ingeniería de software ........................... 1
Gabriel Elías Chanchí G., María Clara Gómez A., Wilmar Yesid Campo M.
Estimación de la calidad de la experiencia del
videostreaming desplegado sobre redes WiFi 5 definidas por software......................... 15
Luis Eduardo Echeverry Londoño, Wilmar Yesid Campo Muñoz, Gabriel Elías Chanchí
Golondrino
Aplicación móvil en los ambientes educativos en Ecuador:
“Monitoreando tareas y Asistencia en tiempo Real”...................................................... 29
Lady [Link]-Tapia, Eleanor Varela-Tapia, Jenny [Link]-Zambrano, Isaakc Ortiz
Aguirre, Lissette [Link]-Campoverde, William [Link]-Duque
Sistema de Indexación de Documentos Jurisprudenciales
Soportado en Inteligencia Artificial.................................................................................41
Cristian Camilo Ordoñez, Edier Anchico Silva, José Armando Ordoñez,
Cristian Méndez, Hugo Armando Ordoñez
Análisis de accesibilidad web de las universidades y escuelas
politécnicas del Ecuador aplicando la norma NTE INEN ISO/IEC 40500:2012 ..........53
Milton Campoverde-Molina, Sergio Luján-Mora, Llorenç Valverde
Optimización del transporte público urbano mediante
algoritmos de búsqueda Tabú y PSO: Medellín, Colombia............................................ 69
Laura Betancur-Delgado, Miguel A. Becerra, Carolina Duque-Mejía,
Diego Peluffo-Ordóñez, Karla C. Álvarez-Uribe
Traffic analysis of internet applications on mobile
devices over LTE and Wireless networks.........................................................................81
Albert Espinal, Rebeca Estrada, Carlos Monsalve
Análisis de emociones y sentimientos sobre el
discurso de firma del acuerdo de paz en Colombia.........................................................95
Gabriel Elías Chanchí G, Amelia Elizabeth Córdoba G
Human upper limbs movements imitation in a
humanoid robot using a natural user interface.............................................................108
Acurio Maldonado Santiago Alejandro, Robayo Jácome Darío Javier, Acurio
Maldonado Daniel Marcelo, Amancha Proaño Pablo, Cárdenas Salazar Álvaro

viii RISTI, N.º E22, 08/2019


Aplicación móvil para fortalecer el aprendizaje de ajedrez en
estudiantes de escuela utilizando realidad aumentada y m-learning...........................120
Joe Llerena Izquierdo, Maitte Robalino Alfonso, Michael
Andina Zambrano, Jamilette Grijalva Segovia
Predicción del desempeño en una tarea colaborativa con uso de tecnologías.
El papel de la construcción social del conocimiento y la comunicación.......................134
Dunia Inés Jara-Roa, María-Soledad Ramírez-Montoya,
Marcos Cabezas G., José Eulogio Real Deus
Interfaz de usuario enfocado en el co-diseño con niños................................................ 147
Elizabeth Morales-Urrutia, José Miguel Ocaña Ch, Jorge Luis
Santamaría Aguirre, Diana Pérez-Marín
Use of gamification in the learning of children with dyseidetic disexia: a case study .161
Antonio Quiña-Mera, Selena Pozo Barahona, Cathy Guevara-Vega,
Iván García-Santillán, Alexander Guevara-Vega, Javier Montaluisa Yugla
Constrained Edges on Kinetic Delaunay Triangulation............................................... 174
Simena Dinas and Héctor J. Martinez
Evaluación en Sistemas de Aprendizaje Móvil: una revisión de la literatura............... 187
Jorge Muñoz, Carolina González
Wearable devices, the next generation of
mobile devices: Main features and uses........................................................................200
Darwin Suarez, Santiago Criollo-C, Ángel Jaramillo-Alcázar, Sergio Luján-Mora
Algoritmo para la selección de instancias en problemas
de clasificación basado en arreglos de cobertura........................................................... 215
Jhonattan Solarte-Martinez, Carlos Cobos, Martha Mendoza
Modelo de evaluación del Dominio Control de Acceso de
la norma ISO 27002 aplicado al proceso de Gestión de Bases de Datos ..................... 230
Susana Patiño, Alexander Caicedo, Erika Reina Guaña
Optimization-based algorithms applied in photovoltaic systems .............................. 242
Yasmany Fernández Fernández, Ana Cabrera Tobar, Diego H.
Peluffo-Ordóñez, Teresa Sánchez Manosalvas, and Ridelio Miranda
Análisis de la eficiencia de desempeño en aplicaciones de
Realidad Aumentada utilizando la normativa ISO/IEC/25010 ...................................256
Fausto A. Salazar Fierro, Carpio A. Pineda Manosalvas,
Nancy N. Cervantes Rodríguez, Pablo Landeta
Análisis comparativo de algoritmos de aprendizaje
supervisado para la detección de caídas....................................................................... 269
Santiago Solórzano, David Pozo, Luis Morales, Claudia Villalonga
Multi-Target Tracking for sperm motility measurement
using the Kalman Filter and JPDAF: Preliminary Results........................................... 282
Dagoberto Mayorca-Torres, H Guerrero-Chapal, Julio Mejía-Manzano,
Diana Lopez-Mesa, Diego H. Peluffo-Ordoñez, José A. Salazar-Castro

RISTI, N.º E22, 08/2019 ix


Publicando datos abiertos considerando criterios de calidad ......................................295
Susana Cadena-Vela, Andrés Fuster-Guilló, Jose-Norberto Mazón
Una Revisión de Bodegas de Datos para Educación Superior..................................... 309
David-Antonio Fuentes-Vargas, John-Alexander Soraca-Higuera, Carlos-Alberto
Cobos-Lozada, Martha-Eliana Mendoza-Becerra, Luis-Carlos Gómez-Flórez
Generación automática de resúmenes extractivos genéricos de un
documento basado en n-gramas sintácticos no continuos........................................... 323
Andrés-Mauricio Salazar-Piedrahíta, Carlos-Alberto Cobos-Lozada
Satellite-image-based crop identification using unsupervised
machine learning techniques: Preliminary results .......................................................337
Mónica Yolanda Moreno Revelo, Juan Bernardo Gómez Menoza,
Diego Hernán Peluffo Ordoñez
Evaluación de sistemas de seguridad informáticos universitarios
Caso de Estudio: Sistema de Evaluación Docente........................................................ 349
Daisy E. Imbaquingo, Erick P. Herrera-Granda, Israel D. Herrera-Granda,
Silvia R. Arciniega, Verónica L. Guamán, MacArthur C. Ortega-Bustamante
A conceptual architecture for content analysis
about abortion using the Twitter platform................................................................... 363
Paolo R. Roldán-Robles, Ana C. Umaquinga-Criollo, J
anneth A. García-Santillán, Israel D. Herrera-Granda, Iván D. García-Santillán
Factores de éxito para sistemas recomendadores de procesos de investigación..........375
Moya Caisa Julio Danilo, Tapia Vega Liliana Carolina, Albán Taípe
Mayra Susana, Rodríguez Bárcenas Gustavo, Alban Franklin Vinicio
Modelos de ecosistemas de Datos Abiertos del Gobierno: un estudio comparativo... 386
Andrés Rey Piedrahita, Laura Milena Cárdenas Ardila, Andrick Parra Valencia
Análisis temporal y pronóstico del uso de las TIC, a partir del instrumento
de evaluación docente de una Institución de Educación Superior............................... 399
Alexandra E. Jácome-Ortega, Erick P. Herrera-Granda, Israel D. Herrera-Granda, Jorge A.
Caraguay-Procel, Andrea V. Basantes-Andrade, MacArthur C. Ortega-Bustamante
Factores determinantes de la retención universitaria: Un caso
de estudio en el Ecuador a partir del modelo de Tinto..................................................413
Alban Mayra, Veloz Marco, Vizcaíno Gloria
Personalización de algoritmo para auditar base de
datos en Instituciones de Educación Superior..............................................................425
Henry Recalde, Paúl Francisco Baldeón Egas, Miguel Alfredo Gaibor Saltos, Renato Toasa

x RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 29/03/2019
Iberian Journal of Information y S stems and Technologies Aceitação/Acceptance: 21/06/2019

Propuesta de un videojuego educativo para la


enseñanza-aprendizaje de la clasificación de
requisitos en ingeniería de software

Gabriel Elías Chanchí G.1, María Clara Gómez A.2, Wilmar Yesid Campo M.3

gchanchig@[Link], mcgomez@[Link], wycampo@[Link]

1
Universidad de Cartagena, Avenida del Consulado, calle 30 No. 39 B - 192, 130001, Cartagena de Indias,
Colombia.
2
Universidad de Medellín, Cra. 87 No. 30 - 65, 050026, Medellín, Colombia.
3
Universidad del Quindío, Cra. 15 Cll 12 norte, 630004, Armenia, Colombia.
Pages: 1–14

Resumen: Una de las fases más relevantes en el proceso de desarrollo de software


es la de análisis, que define el alcance del software mediante la especificación de los
requisitos funcionales y no funcionales. Esta fase es crucial puesto que una mala
especificación de los requisitos del sistema, pueden generar sobreesfuerzos en fases
posteriores. A nivel académico se han evidenciado falencias en los estudiantes de
los cursos de ingeniería de software, en cuanto la definición y clasificación de estos
requisitos, lo que puede afectar la calidad de los productos de software de estos
futuros profesionales. Este artículo propone un videojuego como herramienta
para reforzar la identificación y clasificación de requisitos en estudiantes de
cursos básicos de ingeniería de software. El videojuego fue concebido usando la
metodología Design Thinking, implementado mediante la plataforma GDevelop y
evaluado desde la perspectiva de usabilidad, usando las heurísticas para videojuegos
de Pinelle.
Palabras clave: fase de análisis; ingeniería de software; requisitos funcionales;
requisitos no funcionales; videojuego.

Proposal of an educational video game for the teaching-learning of the


requirements classification in software engineering

Abstract: One of the most relevant phases in software development process is


the analysis phase, in which the scope of the software to be constructed is defined
through the specification of functional and non-functional requirements. This
phase is crucial since a poor specification of the system requirements can generate
an extra effort in subsequent phases. At the academic level, shortcomings have
been identified in the students of the software engineering courses, in terms of the
definition and classification of these requirements, which may affect the quality of
the software products of these future professionals. This paper proposes a videogame
as a tool to reinforce students’ skills in these courses, in terms of identification and

RISTI, N.º E22, 08/2019 1


Propuesta de un videojuego educativo para la enseñanza-aprendizaje de la clasificación de requisitos en ingeniería de software

classification of requirements. The video game was conceived using the Design
Thinking methodology, implemented through the GDevelop platform and evaluated
from the usability perspective, using Pinelle video game heuristics.
Keywords: analysis phase; functional requirements; non-functional requirements;
software engineering; video game.

1. Introducción
La ingeniería del software es una disciplina que comprende los aspectos relacionados
con la producción de software, desde las primeras etapas de especificación de requisitos
del sistema a construir, hasta el mantenimiento posterior su implementación en su
entorno real de operación (Sommerville, 2011; Laird, 2016). Así, la ingeniería de software
proporciona diversas métricas y metodologías que pueden usarse como especificaciones
para la administración de personal involucrado en proyectos de software, ciclos de vida
de un proyecto de software, costos de un proyecto, y los demás aspectos administrativos
que implica el desarrollo de software. La ingeniería de software ofrece metodologías,
herramientas y técnicas para desarrollar software. Estas metodologías son llamadas
también modelos de proceso de software y dan pautas para construir un software y
generar sus productos asociados como son los manuales técnicos, de usuario y de
instalación así el código fuente, entre otros (Jabangwe, Edison, & Nguyen, 2018).
Una de las fases más relevantes en el proceso de desarrollo de software es la de análisis,
puesto que en ella se concibe y comprende la naturaleza de la problemática a solucionar
a través del software, es decir, en esta fase se define el alcance del software a construir
(Buitrón, Flores-Rios, & Pino, 2018). Esta es una etapa crítica, puesto que una definición
imprecisa o incompleta del alcance del sistema puede generar un sobreesfuerzo en fases
de diseño e implementación para dar cumplimiento a los tiempos definidos inicialmente
entre el equipo de desarrollo y el cliente (Berzal, 2006; Mall, 2018). En la fase de
análisis se definen por lo general los roles de los usuarios del sistema, se caracteriza el
dominio del problema y se especifican los requisitos funcionales y no funcionales del
sistema a construir (Buitrón, Flores-Rios, & Pino, 2018). Dentro de la fase de análisis es
fundamental que a través de la especificación de requisitos funcionales y no funcionales,
el equipo de desarrollo comprenda completamente la naturaleza del sistema a construir,
así como su comportamiento (Gasca-Hurtado, Muñoz, Mejia, & Calvo-Manzano, 2014).
En el campo de la Ingeniería Informática o de Sistemas, la temática de requisitos es
abordada dentro de los cursos de Ingeniería de Software o afines, como parte de la
fase de análisis del proceso de desarrollo de software. En este contexto académico, se
han evidenciado dificultades por parte de los estudiantes de estos cursos en cuanto a
redacción, reconocimiento y la diferenciación de requisitos funcionales y no funcionales.
En este sentido, según (Medina, Hernández, Alonso, & Solis, 2012), la especificación de
requisitos es una tarea compleja en los futuros ingenieros porque es necesario realizar
tareas fundamentales como: tratar con la naturaleza del sistema y comprender su
ambiente, encontrar los componentes y su interacción dentro del sistema, definir los
servicios que el sistema debe ofrecer al usuario y definir las restricciones o limitantes
del sistema. Así mismo, en el proceso de desarrollo de software se suele hacer énfasis
en los requisitos funcionales por sobre los no funcionales, a pesar que estos requisitos
definen aspectos relevantes como la usabilidad, la flexibilidad, el rendimiento, la

2 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

interoperabilidad y la seguridad. Lo anterior hace que en ocasiones se confunda o


distinga claramente el alcance de los requisitos no funcionales (Chung & do Prado Leite,
2009).
A partir de lo anterior, este artículo presenta como aporte, el diseño e implementación
de un videojuego educativo, que pretende servir de apoyo a los profesores del área de
la ingeniería de software en cuanto a la mejor apropiación del concepto de requisitos y
de manera específica en lo referente al reconocimiento y clasificación de los requisitos
funcionales y no funcionales. Esto se debe a dificultades que presentan los estudiantes
en cuanto a la temática de requisitos de software en cuanto a: 1) descripción de requisitos
desde el punto de vista del sistema, 2) reconocimiento de los requisitos funcionales
como acciones del usuario que debe apoyar el sistema y 3) identificación y descripción
de requisitos no funcionales como atributos de calidad del producto relacionados con la
experiencia de usuario.
Como respuesta a estas dificultades, el presente artículo propone un videojuego educativo
desarrollado en la plataforma libre GDevelop, teniendo en cuenta las diferentes fases
propuestas por la metodología Design Thinking (Razzouk & Shute, 2012; Henriksen,
Richardson, & Rohit, 2017) como herramienta para la concepción del juego y sus
características principales. GDevelop permite la generación de videojuegos haciendo uso
de programación orientada a eventos y acciones entre los diferentes elementos y objetos
que componen el juego. Así, la intención de este artículo también es dar a conocer las
ventajas y potencialidades de plataformas para la creación de recursos educativos en el
aula de clase, los cuales por medio de la didáctica contribuyan a la innovación educativa y al
afianzamiento de competencias educativas (Pérez-Ortega, 2017), como lo son en este caso
la identificación, diferenciación y clasificación de requisitos funcionales y no funcionales.
Con el fin de generar un videojuego más efectivo para ser usado en las clases del área
de ingeniería de software, en su proceso de concepción y evaluación se contó con el
apoyo de un grupo de profesores con experiencia en ingeniería de software e interacción
humano computador, quienes aportaron un listado inicial de requisitos empleados de
manera tradicional en sus clases y evaluaron la usabilidad del juego generado a través de
un método de inspección, considerando las heurísticas propuestas por (Pinelle, Wong,
& Stach, 2008)
El resto del artículo está organizado de la siguiente forma: en la Sección 2 se presentan las
diferentes fases metodológicas consideradas en la presente investigación; en la Sección 3
se describen los conceptos relevantes que fundamentan el desarrollo de este trabajo; en
la Sección 4 se presenta el diseño y construcción del videojuego propuesto; en la Sección
5 se describe la evaluación de usabilidad realizada al videojuego propuesto mediante
un método de inspección; finalmente en la Sección 6 se presentan las conclusiones y
trabajos futuros derivados de la presente investigación.

2. Metodología
El desarrollo de esta investigación contempla cuatro fases a saber, adaptadas a partir
de la metodología Design Thinking: empatizar y definir, idear, prototipar y evaluar
(Serrano & Blázquez, 2015; Razzouk & Shute, 2012; Henriksen, Richardson, & Rohit,
2017) (ver Figura 1).

RISTI, N.º E22, 08/2019 3


Propuesta de un videojuego educativo para la enseñanza-aprendizaje de la clasificación de requisitos en ingeniería de software

Figura 1 – Metodología propuesta

Fase 1 – Empatizar y definir: En esta fase se realizó la identificación de la problemática


presentada en el proceso de especificación de requisitos (Medina, Hernández, Alonso,
& Solis, 2012; Vetterli, Brenner, Uebernickel y Petrie, 2013). A partir de lo anterior, se
optó por abordar las dificultades asociadas a la clasificación y/o distinción de requisitos
funcionales y no funcionales por parte de los estudiantes mediante el desarrollo de un
videojuego educativo para cursos de ingeniería de software.
Fase 2 – Idear: Una vez definido el alcance del videojuego educativo, se hizo uso
de interfaces de alto nivel para diseñar la estructura y lógica principal del juego. Las
interfaces de alto nivel generadas, permitieron guiar de manera más simple el proceso
de desarrollo.
Fase 3 – Prototipar: A partir de los diseños de alto nivel realizados, se procedió con
la construcción de un prototipo de videojuego educativo para diferentes plataformas,
haciendo uso de la plataforma libre para no programadores GDevelop. El videojuego
permite al usuario mediante interacciones sencillas clasificar un requisito aleatorio
especificado por el equipo de desarrollo, como funcional o no funcional. En esta fase
se contó con la colaboración de un conjunto de profesores del área de ingeniería de
software quienes aportaron un listado de requisitos de ejemplo usados en sus cursos, en
la fase de análisis de un producto de software.
Fase 4 – Evaluar: Para evaluar la usabilidad del videojuego construido, se condujo
una inspección de usabilidad, la cual fue realizada teniendo en cuenta las diez heurísticas
de usabilidad para videojuegos propuestas por Pinelle, Wong, & Stach (2008). Esta
inspección fue realizada por profesores del área de la ingeniería de software con
experiencia en evaluaciones de usabilidad. El propósito de la evaluación realizada fue
mirar la pertinencia y utilidad del videojuego de cara a su uso en los cursos del área de
ingeniería de software.

3. Marco Conceptual
En esta sección se presentan un conjunto de conceptos relevantes para el desarrollo de la
presente investigación: fase de análisis, requisitos funcionales, requisitos no funcionales
y plataforma GDevelop.

3.1. Fase de análisis


Esta fase incluye el proceso mediante el cual se pretende concebir lo que realmente el
sistema o programa informático debe realizar en un contexto específico. Esta es una fase
compleja ya que no siempre el cliente tiene una visión clara del software a construir y
cualquier decisión errónea repercute ampliamente en el diseño del producto software.
En este sentido, cuanto más precisa sea la caracterización del sistema a construir, mayor

4 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

probabilidad se tendrá de construir un producto software de calidad, puesto que distintos


estudios han demostrado que eliminar un error en las fases iniciales de un proyecto (en
la etapa de análisis) resulta de 10 a 100 veces más económico que subsanarlo al final del
proyecto (Berzal, 2006; Mall, 2018). En la fase de análisis, a partir de las reuniones con el
cliente, el analista del sistema busca obtener los requisitos del software a construir, así como
los roles de los diferentes usuarios que interactuarán con este. En ingeniería de software,
un requisito es entendido como una característica, restricción o necesidad documentada
sobre el contenido, forma o funcionalidad de un producto o servicio (Melegati, Goldman,
Kon, & Wang, 2019). En otras palabras, los requisitos identifican el qué debe hacer el
sistema, mientras que el diseño establece el cómo del sistema (Borgida, Dalpiaz, Horkoff,
& Mylopoulos, 2013). De acuerdo al estándar IEEE 830 los requisitos del sistema pueden
ser divididos en funcionales y no funcionales (IEEE Std. 830-1998, 2008).

3.2. Requisitos Funcionales


Los requisitos funcionales describen la interacción entre el sistema y su ambiente, así
como la forma en la que el sistema debe comportarse ante determinado estímulo. Estos
requisitos son declaraciones de las prestaciones y/o servicios que debe proporcionar el
sistema, de la manera en que éste debe reaccionar a entradas particulares y de cómo
se debe comportar en situaciones particulares. En ciertas ocasiones, también pueden
declarar explícitamente lo que el sistema no debe hacer. Es así como los requisitos
funcionales describen de manera precisa lo que el sistema debe hacer (Lauenroth,
Kamsties, & Hehlert, 2017). O en otras palabras, los requisitos funcionales describen
todas las interacciones que se prevé que los usuarios tendrán con el software (Pytel et al.,
2011). Un ejemplo de requisito funcional podría ser: “El sistema debe permitir actualizar
el estado de un cliente como moroso cuando no está al día en el pago de sus pedidos”.

3.3. Requisitos No Funcionales


Los requisitos no funcionales hacen referencia a los aspectos de calidad de productos
de software como son: rendimiento, fiabilidad, exactitud, seguridad y usabilidad
(Doerr et al., 2005). Una de las características de estos requisitos es la especificación de
ciertos niveles de calidad y, por consiguiente, en muchos casos es posible cuantificarlos
(Boehm, 1996). Por lo anterior, los requisitos no funcionales describen una restricción
sobre el sistema software, la cual limita las elecciones en la implementación de una
solución al problema. En este sentido, estos requisitos restringen las funciones o
prestaciones ofrecidas por el sistema, por lo cual dentro de éstos se pueden encontrar
restricciones en cuanto al tiempo, el tipo de proceso de desarrollo a utilizar, la
fiabilidad del software, los tiempos de respuesta, la capacidad de almacenamiento,
el rendimiento, la escalabilidad, la seguridad de la aplicación, entre otros atributos
que definen la calidad del software (Chung & do Prado Leite, 2009). Un ejemplo de
requisito no funcional podría ser: El sistema debe estar en capacidad de recuperarse
de un error en menos de 5 minutos.

3.4. Plataforma GDevelop


GDevelop es una plataforma para la creación de videojuegos en dos dimensiones,
destinada al uso de usuarios no programadores. Esta plataforma permite la

RISTI, N.º E22, 08/2019 5


Propuesta de un videojuego educativo para la enseñanza-aprendizaje de la clasificación de requisitos en ingeniería de software

creación de aplicaciones, mediante la estrategia de programación orientada a


eventos y acciones, en la cual no se codifican líneas de código, sino que se define
el comportamiento de los objetos agregados al escenario (sprites, tiled layers,
etiquetas, etc.) mediante eventos y acciones. La principal ventaja de GDevelop
con respecto a otras plataformas similares como Construct 2 o Game Maker, es el
hecho de ser libre, lo cual permite exportar el juego creado a diferentes tipos de
plataformas: escritorio, web y móvil. Así mismo, GDevelop puede ser ejecutado en
línea y permite la publicación de los juegos creados en su repositorio de recursos
(Cuartas, 2016). En este artículo se hizo uso de GDevelop para la creación de
un videojuego con propósito educativo para la identificación y clasificación de
requisitos funcionales y no funcionales.

4. Diseño y Construcción del Videojuego


A partir de la problemática evidenciada por parte de los profesores del área de
ingeniería de software, acerca de las dificultades de los estudiantes en cuanto
a la identificación y clasificación de requisitos en la fase de análisis del proceso
de desarrollo de software, en la etapa de diseño del videojuego se propuso como
idea central una interfaz sencilla, en la cual los requisitos ya sea funcionales o no
funcionales desciendan de la parte superior de la pantalla y en la parte inferior sean
depositados en alguna de las dos canastas disponibles. Por cada requisito depositado
de manera correcta el jugador irá sumando un punto, obteniendo al final del juego
una relación entre los requisitos acertados y los intentos realizados. La interfaz de
alto nivel que representa la idea central del juego se presenta en la Figura 2. Esta
interfaz fue realizada con apoyo de la herramienta en línea para la generación de
mockups NinjaMock (Mutis, 2016).

Figura 2 – Interfaz de alto nivel diseñada

6 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

En la Figura 3 se presenta un diagrama de flujo que describe de manera gráfica la lógica de


interacción entre el usuario y el videojuego de clasificación de requisitos funcionales y no
funcionales. Cuando el usuario lanza el juego en alguna de las diferentes distribuciones
(escritorio, web, móvil, etc.), se presenta la interfaz principal del juego. Una vez el
usuario presiona el botón iniciar, el sistema se encarga de generar un requisito aleatorio
a partir de los requisitos definidos y almacenados en el juego, de tal manera que empieza
a descender desde la parte superior de la pantalla el requisito escogido. Mientras el
requisito desciende por la pantalla, el usuario debe clasificarlo como funcional o no
funcional llevándolo a la cesta correcta, de tal modo que en caso que dicho requisito haya
sido bien clasificado, el sistema incrementa el puntaje y el número de intentos, en caso
contrario solo incrementa el número de intentos. Cada vez que el puntaje y los intentos
son desplegados en pantalla del videojuego, el sistema verifica si se han cumplido los
diez intentos o no, en caso que no se hayan cumplido se repite el proceso de obtener los
requisitos aleatorios, de lo contrario se muestra en pantalla el resultado final y el usuario
puede terminar el juego o volverlo a iniciar.

Figura 3 – Diagrama de interacción del juego

Por otra parte, en la Figura 4 se presenta la interfaz final de escritorio del juego
desarrollado en la plataforma libre GDevelop. A diferencia de la etapa de diseño, en
la fase de prototipado se optó por cambiar las imágenes de las cestas por imágenes de
carpetas, teniendo en cuenta que éstas corresponden a representaciones visuales que el
usuario puede asociar de manera más adecuada.
Tal como se aprecia en la Figura 4, los diferentes ítems u objetos del videojuego
pueden ser en este caso de dos tipos específicos: sprites (requisito aleatorio, carpetas,
botón de iniciar o terminar, fondo del escenario, cesped) o mensajes en pantalla
(puntaje, intentos, mensaje en el fondo de la pantalla). Es importante resaltar que
los sprites del juego pueden ser asociados con imágenes, como es el caso del post-
it donde se ubican los requisitos o las carpetas en donde el jugador deposita los
requisitos funcionales o no funcionales.

RISTI, N.º E22, 08/2019 7


Propuesta de un videojuego educativo para la enseñanza-aprendizaje de la clasificación de requisitos en ingeniería de software

Figura 4 – Interfaz principal del videojuego

A partir de los sprites cargados en el escenario del videojuego, GDevelop permite


programar en la pestaña de eventos, las diferentes acciones o eventos que ocurren
cuando estos sprites interactúan. A modo de ejemplo, en la Figura 5 se muestra el evento
programado cuando el sprite que contiene el requisito (sprite nota) colisiona con el
sprite que está asociado a la carpeta de requisitos funcionales (sprite rf).

Figura 5 – Pestaña de manejo de eventos

El videojuego propuesto se encarga de escoger de manera aleatoria un conjunto de


requisitos ya sean funcionales o no funcionales, previamente definidos. A partir del
requisito escogido por el sistema de manera aleatoria, el jugador debe depositar dicho
requisito en la carpeta adecuada, antes de que dicho requisito toque el suelo. A modo
de ejemplo, en la Tabla 1 se muestra un fragmento de los requisitos cargados en el

8 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

videojuego y aportados por un conjunto de profesores del área de ingeniería de software


a partir de los ejemplos usados en sus clases.

Tipo de requisito Requisito


Requisitos funcionales El sistema debe permitir el acceso mediante un login y password.
El sistema debe generar un reporte mensual de ventas.
El sistema debe llevar un registro de los clientes.
El sistema debe permitir consultar los datos personales del cliente.
El sistema debe permitir el registro de productos para la venta.
Requisitos no La aplicación debe permitir la conexión de al menos 1000 usuarios de manera
funcionales simultánea.
La aplicación debe consumir menos de 500 MB de memoria RAM.
El sistema debe estar en capacidad de recuperarse de un error en menos de 5
minutos.
El sistema debe generar el reporte mensual de ventas en menos de 30 segundos.
El sistema debe garantizar la protección de los datos de las ventas mediante el
uso de criptografía.

Tabla 1 – Ejemplo de requisitos funcionales y no funcionales

5. Evaluación del videojuego


Con el propósito de evaluar la pertinencia del videojuego propuesto como herramienta de
apoyo didáctico en los cursos de ingeniería de software, un grupo de profesores de cinco
esta área y con experiencia en interacción humano computador evaluaron la usabilidad del
juego, haciendo uso de un método de inspección guiado por las heurísticas de videojuegos
propuestas por Pinelle, Wong, & Stach (2008). Una inspección de usabilidad es el nombre
genérico para un conjunto de técnicas o métodos eficaces de evaluación de las interfaces de
usuario con el objetivo de encontrar problemas de usabilidad, son muy informales y fáciles
de usar. Este método consiste en la conformación de un grupo de expertos que analizan o
inspeccionan una aplicación específica. Estos expertos realizan un informe comentando
distintos aspectos de usabilidad de la aplicación, basándose en su experiencia en el área
y teniendo en cuenta un conjunto de principios previamente definidos. Este informe es
utilizado para realizar los cambios o ajustes necesarios en la aplicación y resolver los
problemas indicados (Enriquez & Casas, 2013; Valentim & Conte, 2014).
Adicionalmente, la población para la evaluación de usabilidad del videojuego está
conformada por 5 docentes de ingeniería de software con entre 5 y 8 años de experiencia
en la enseñanza de esta área a nivel universitaria y con un nivel de conocimiento medio
y/o en el área de interacción humano-computador en aspectos de usabilidad.

5.1. Heurísticas de la evaluación


En la Tabla 2 se presenta una descripción de cada una de las diez heurísticas propuestas
por Pinelle, Wong, & Stach (2008) las cuales están enfocadas al diseño, construcción y
evaluación de videojuegos. Estas heurísticas fueron obtenidas por los autores a partir
del análisis y revisión de 108 reportes de problemas de usabilidad realizados en el
portal GameSpot. Cabe resaltar que las heurísticas tratan de abordar las diferentes
categorías de los videojuegos, por lo que en algún tipo de videojuego pueden no aplicar
todas las heurísticas.

RISTI, N.º E22, 08/2019 9


Propuesta de un videojuego educativo para la enseñanza-aprendizaje de la clasificación de requisitos en ingeniería de software

Heurística Descripción
H1. Respuesta consistente a las El videojuego debe responder de manera predecible a las diferentes
acciones del usuario. acciones del usuario. Los movimientos del personaje, las colisiones y
las leyes físicas se corresponden con el mundo real.
H2. Personalización de El videojuego debe permitirle al usuario configurar las opciones de
configuraciones multimedia. audio, video, la velocidad del juego y el nivel de dificultad.
H3. Comportamiento de las Las unidades tienen un comportamiento predecible y razonable dentro
unidades controladas. del videojuego, guardando relación con el mundo real.
H4. Vistas sin obstrucción para Se debe proporcionar vistas claras y libres de obstrucción. Debe tener
las acciones del usuario. la posibilidad de seleccionar la cámara más adecuada.
H5. Omisión de contenidos El juego debe posibilitar al usuario la opción de omitir contenidos
frecuentes y repetitivos. frecuentes y repetitivos que se presenten en diferentes momentos.
H6. Entradas intuitivas y Las entradas con los que el usuario interactúa deben ser intuitivos y
personalizadas. personalizables, con el fin de hacer más eficiente la interacción.
H7. Controles fáciles de Los controles de interacción con el juego deben tener el nivel de
gestionar. sensibilidad y respuesta que facilite la interacción del usuario.
H8. Información sobre el estado El juego debe proporcionar al usuario información clara sobre el
del juego. estado del juego (nivel, vidas, salud, armas, etc), la cual le permita
cumplir los objetivos del juego de manera adecuada.
H9. Instrucciones, entrenamiento La ayuda debe ser de fácil acceso y presentarse en forma clara. Se
y ayuda. deben proveer niveles de entrenamiento que faciliten el aprendizaje
del funcionamiento del juego.
H10. Representaciones visuales Las representaciones visuales usadas por el juego deben ser fáciles de
fáciles de interpretar. interpretar y acordes con la información del mundo real.

Tabla 2 – Heurísticas de usabilidad de Pinelle, Wong & Stach (2008)

5.2. Resultados de la evaluación de usabilidad


Una vez inspeccionado el cumplimiento de las diferentes heurísticas de usabilidad
presentadas en la Tabla 2, se obtuvieron a partir de los comentarios de los profesores
del área de ingeniería de software un conjunto de aspectos positivos y por mejorar del
videojuego para la identificación y clasificación de requisitos de software (ver Tabla
3). Estos aspectos buscan contribuir a mejorar la usabilidad del videojuego y por ende
el nivel de aceptación por parte de los estudiantes, de tal modo que el juego sea más
cercano al usuario y pueda contribuir a mejorar las habilidades de los estudiantes en la
clasificación de los requisitos funcionales y no funcionales.

Heurística Comentarios
H1 El videojuego responde de manera consistente a las acciones del usuario, siendo posible
obtener retroalimentación en cuanto al movimiento del requisito en pantalla hacia la
derecha o hacia la izquierda.
El botón iniciar y/0 terminar del videojuego responde de manera adecuada a lo que el
usuario espera que ocurra antes de presionarlo.

H2 El videojuego carece de las opciones para modificar la velocidad con la que el requisito
desciende, y también de las opciones para configurar los efectos multimedia del mismo
(deshabilitar la música de fondo y los efectos de sonido).

10 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

H3 Los diferentes objetos del videojuego se comportan en su mayoría guardando relación con
el mundo real.
Se puede mejorar la retroalimentación, agregando una animación al momento en que cada
requisito es depositado en alguna de las carpetas de requisitos funcionales y no funcionales.
H4 El juego no presenta ninguna obstrucción visual en las diferentes interacciones que realiza
el jugador.
H5 El juego carece de contenido frecuente y repetitivo como publicidad o videos alusivos al juego.
H6 El juego hace uso de entradas sencillas e intuitivas (flecha hacia la derecha y flecha hacia la
izquierda) para el movimiento de los requisitos hacia la derecha o izquierda.
El juego no permite la personalización de las teclas con las que el jugador interactúa. En
este sentido se podría agregar dicha funcionalidad para configurar otras teclas comunes
como (A y D).
H7 El juego no permite la configuración de la sensibilidad y el nivel de respuesta de los
controles, sin embargo debido a su sencillez, presenta un tiempo de respuesta adecuado a
las acciones del usuario.
H8 El juego presenta durante toda la interacción el número de intentos y el puntaje obtenido
por el jugador.
Con el fin de generar una mayor retroalimentación en el jugador, se sugiere que en el
estado del juego se presente un indicador con el número de requisitos funcionales y no
funcionales acertados.
H9 Si bien el juego es intuitivo y sencillo no presenta instrucciones de ayuda o manejo, por lo
que se recomienda incluir esta opción.
Se sugiere incluir una opción que muestre brevemente las definiciones de requisitos
funcionales y no funcionales.
H10 Las representaciones visuales del juego son adecuadas y están relacionadas con el mundo
real (carpeta de requisitos, post-it con el requisito aleatorio generado, etc.).

Tabla 3 – Comentarios de los evaluadores

6. Conclusiones y trabajos futuros


Los requisitos funcionales y no funcionales son conceptos fundamentales en la etapa de
análisis del proceso de desarrollo de software, pues definen aspectos que se ven reflejados
en el diseño y construcción del producto final. En este sentido es fundamental para los
estudiantes de asignaturas de ingeniería de software y afines, reconocer, distinguir y
clasificar claramente estos requisitos.
En este trabajo se propuso como aporte el diseño y construcción de un videojuego para
el reconocimiento y diferenciación de requisitos funcionales y no funcionales. Este
videojuego pretende servir como apoyo didáctico al docente de los cursos asociados a
la ingeniería de software, con el fin de mejorar las habilidades de sus estudiantes en la
identificación y definición de requisitos.
La metodología empleada para la construcción del videojuego de clasificación de
requisitos, permitió identificar ciertos elementos claves a la hora de construir aplicaciones
centradas en el usuario. En este sentido, en la fase de diseño además de posibilitar la
definición de la lógica funcional del juego, se identificaron elementos que podían ser
mejorados en la fase de construcción, como es el caso de la representación visual de
las cestas de requisitos, las cuales se cambiaron por carpetas. Así mismo, en la fase

RISTI, N.º E22, 08/2019 11


Propuesta de un videojuego educativo para la enseñanza-aprendizaje de la clasificación de requisitos en ingeniería de software

de evaluación del videojuego, orientada a una revisión de usabilidad, se identificaron


diferentes aspectos funcionales a considerar para hacer más usable la aplicación, como
resultado del análisis de las diez heurísticas, para el caso puntual del videojuego descrito
en el presente artículo.
La evaluación realizada al videojuego permitió evidenciar según la opinión de los
docentes expertos en ingeniería de software, que el juego es sencillo e intuitivo para
la interacción con el usuario final. Sin embargo, es posible mejorar ciertos aspectos
como la inclusión de las definiciones de requisito funcional y no funcional en la ayuda
del juego, así como la discriminación en el puntaje de los aciertos en los dos tipos de
requisitos. De este modo, la evaluación de usabilidad realizada busca refinar la calidad
del prototipo generado con el fin de que resulte más cercano a los usuarios finales, en
este caso los estudiantes del área de ingeniería de software, al momento de hacer uso de
este videojuego en el aula en un escenario real.
La plataforma GDevelop demostró ser adecuada para el diseño y construcción de recursos
que pueden ser utilizados en el aula de clase. Esta plataforma está dirigida a usuarios no
expertos en programación y hace uso de programación orientada a eventos y acciones
de manera gráfica, por lo que resulta intuitiva y con una curva de aprendizaje menor a
la de los lenguajes de programación convencionales. Adicionalmente esta plataforma
permite la exportación del videojuego a diferentes plataformas, aportando ventajas de
portabilidad y flexibilidad.
Como trabajo futuro derivado de esta investigación se tiene: 1) incorporar en el
videojuego las mejoras sugeridas por los docentes expertos y generar una nueva versión
del videojuego, 2) aplicar esta nueva versión del videojuego en diferentes cursos de
ingeniería de software para evaluar el aporte a nivel del aprendizaje en los estudiantes del
área de ingeniería de software, y 3) incluir en el videojuego la clasificación de requisitos
no funcionales en las subcategorías rendimiento, fiabilidad, exactitud, entre otras.

Referencias
Berzal, F. (2006). El ciclo de vida de un sistema de información. Granada-España:
Universidad de Granada.
Borgida, A., Dalpiaz, F., Horkoff, J., & Mylopoulos, J. (2013). Requirements models for
design- and runtime: A position paper. 5th International Workshop on Modeling in
Software Engineering (MiSE) (págs. 62-68). San Francisco, CA, USA: IEEE.
Buitrón, S., Flores-Rios, B., & Pino, F. (2018). Elicitación de requisitos no funcionales
basada en la gestión de conocimiento de los stakeholders. Revista Ingeniare, 26(1),
142–156.
Chung, L., & do Prado Leite, J. (2009). On Non-Functional Requirements in Software
Engineering. En V. Chaudhri, G. P., & E. Yu, Conceptual Modeling: Foundations
and Applications. Lecture Notes in Computer Science (págs. 363-364). Springer,
Berlin, Heidelberg.
Cuartas, J. (2016). Creación de videojuegos con GDevelop. Bogota, Colombia: Fundación
Universitaria Los Libertadores.

12 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Durán, E. (2011). El uso del uml en la fase de análisis del proceso de desarrollo de un
software educativo. Revista Ingeniería Solidaria, 7(12-13), 83–91.
Enriquez, J., & Casas, S. (2013). Usabilidad en aplicaciones móviles. Informe Científico
Técnico UNPA, 25–47.
Gasca-Hurtado, G., Muñoz, M., Mejia, J., & Calvo-Manzano, J. (2014). Software
Requirements Development: A Path for Improving Software Quality.
Communications in Computer and Information Science, 425, 194–205.
Henriksen, D., Richardson, C., & Rohit, M. (2017). Design Thinking: A Creative Approach
to Educational Problems of Practice. Thinking Skills and Creativity, 26, 140–153.
IEEE Std. 830-1998. (2008). Especificación de Requisitos según el estándar IEEE 830.
Obtenido de [Link]
pdf
Jabangwe, R., Edison, H., & Nguyen, A. (2018). Software engineering process models
for mobile app development: A systematic literature review. Journal of Systems and
Software, 145, 98–111.
Laird, L. (2016). Strengthening the “Engineering” in Software Engineering Education: A
Software Engineering Bachelor of Engineering Program for the 21st Century. IEEE
29th International Conference on Software Engineering Education and Training
(CSEET) (págs. 128-131). Dallas-USA: IEEE.
Lauenroth, K., Kamsties, E., & Hehlert, O. (2017). Do Words Make a Difference? An
Empirical Study on the Impact of Taxonomies on the Classification of Requirements.
IEEE 25th International Requirements Engineering Conference (RE) (págs. 273-
282). Lisbon: IEEE.
Mall, R. (2018). Fundamentals of Software Engineering. Delhi: PHI Learning.
Medina, J., Hernández, V., Alonso, L., & Solis, E. (2012). Análisis de Ingeniería de
Requerimientos: Alta de Unidades de Aprendizaje en la UAI-Agro (México). Revista
Vinculos, 25–40.
Melegati, J., Goldman, A., Kon, F., & Wang, X. (2019). A model of requirements
engineering in software startups. Information and Software Technology, 109,
92–107.
Mutis, E. (2016). Diseño de una Aplicación dirigida al área de la salud para el control de
agendamiento de citas y servicios domiciliarios médicos para pacientes. Catalunya:
Universitat Oberta de Catalunya.
Pérez-Ortega, I. (2017). Creación de Recursos Educativos Digitales: Reflexiones sobre
Innovación Educativa con TIC. International Journal of Sociology of Education,
244–268.
Pinelle, D., Wong, N., & Stach, T. (2008). Heuristic Evaluation for Games: Usability
Principles for Video Game Desing. CHI 2008 Proceedings - Game Zone, (págs.
1453-1462). Florencia-Italia.

RISTI, N.º E22, 08/2019 13


Propuesta de un videojuego educativo para la enseñanza-aprendizaje de la clasificación de requisitos en ingeniería de software

Razzouk, R., & Shute, V. (2012). What Is Design Thinking and Why Is It Important?
Review of Educational Research, 82(3), 330–348.
Serrano, M., & Blázquez, P. (2015). Design Thinking - Lidera el presente, crea el futuro.
Madrid: ESIC Editorial.
Valentim, N., & Conte, T. (2014). Improving a Usability Inspection Technique Based
on Quantitative and Qualitative Analysis. Brazilian Symposium on Software
Engineering (págs. 171-180). Maceio: IEEE.
Vetterli, C., Brenner, W., Uebernickel, F., & Petrie, C. (2013). From palaces to yurts: Why
requirements engineering needs design thinking. IEEE Internet Computing, 17(2),
91–94.

14 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 09/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 11/06/2019

Estimación de la calidad de la experiencia del


videostreaming desplegado sobre redes WiFi 5
definidas por software

Luis Eduardo Echeverry Londoño1, Wilmar Yesid Campo Muñoz2, Gabriel Elías Chanchí
Golondrino3

leecheverryl@[Link], wycampo@[Link], gchanchig@[Link]

1, 2
Universidad del Quindío, Cra. 15 Cll 12 norte, 630004, Armenia, Colombia.
3
Universidad de Cartagena, Avenida del Consulado, calle 30 No. 39 B - 192, 130001, Cartagena de Indias,
Colombia.
Pages: 15–28

Resumen: El tráfico en internet se ha incrementado gracias al servicio de


videostreaming cuyo consumo en su mayoría se realiza a través de dispositivos
móviles desde los hogares, lugar donde por lo regular se hace uso de redes WiFi.
Por tanto, se han impulsado nuevos estándares, que ofrecen mayor ancho de banda
como es el WiFi 5, y que permiten la adaptabilidad de la infraestructura de red
mediante las redes definidas por software SDN. Así, en este artículo se presenta la
convergencia de estas dos tecnologías. Se construye una red emulada WiFi 5 SDN
conformada por equipos reales y virtualizados, se emiten videos con diferentes códec
a través de la red y se estima su QoE, mediante la métrica subjetiva de puntuación
de opinión media MOS y objetivamente mediante la herramienta Evalvid. Así, Los
experimentos permiten conocer el comportamiento de la red WiFi 5 SDN desde la
perspectiva de la QoE.
Palabras-clave: Evalvid; MOS; QoE; videostreaming; WIFI 5 SDN.

Estimation of the quality of experience the video streaming deployed


over WiFi 5 networks defined by software

Abstract: Internet traffic has increased thanks to the video streaming service
whose consumption is mostly made through mobile devices from homes, where
WiFi networks are regularly used. Therefore, new standards have been promoted,
which offer greater bandwidth such as WiFi 5, and allow the adaptability of the
network infrastructure through networks defined by SDN software. In this paper
we present the convergence of these two technologies. We build a WiFi 5 SDN
emulated network made up of real and virtualized equipment, videos with different
codecs are emitted through the network and their QoE is estimated, by means of the
subjective MOS mean opinion score metric and objectively by means of the Evalvid
tool. Thus, the experiments allow to know the behavior of the WiFi 5 SDN from the
perspective of the QoE.

RISTI, N.º E22, 08/2019 15


Estimación de la calidad de la experiencia del videostreaming desplegado sobre redes WiFi 5 definidas por software

Keywords: Evalvid; MOS; QoE; video streaming; WIFI 5 SDN.

1. Introducción
En los últimos años se ha incrementado de manera notoria la cantidad de usuarios de
internet, así mismo, cada vez se ofertan nuevas aplicaciones para la variedad de usuarios
de internet. El incremento del consumo de contenido vía streaming en Latinoamérica en
enero del año 2018, creció un 15% respecto del año anterior, además el consumo supera
ampliamente a la televisión abierta (Elgabli & Aggarwal, 2018). Así mismo se estima que
para el año 2021 se triplicará el tráfico de internet con respecto al generado en el año
2016, siendo el consumo de video uno de los grandes responsables de dicho aumento, ya
que se calcula que para ese año alcanzará una cifra del 82 % del total del tráfico de la red
(Cisco, 2015). Como consecuencia de esta alta demanda de tráfico se puede presentar
congestión, además, se debe tener en cuenta que los datos de control también terminan
sumándose al tráfico general de la red, causando en muchas ocasiones una mala calidad
del servicio QoS (del inglés Quality of Service) y generando a su vez una mala percepción
en los servicios por parte de los usuarios, esto es, una mala calidad de la experiencia QoE
(del inglés Quality of Experience) (Nunes Astuto et al., 2014).
La QoS puede ser desglosada en cuatro polos. El primer polo trata las necesidades
de QoS del cliente, mediante las cuales se define la calidad que se exige para un
determinado servicio, se expresan en un lenguaje corriente. El segundo polo habla
de la QoS ofrecida por el proveedor, en este caso se expresa mediante los valores
especificados de los parámetros como el retardo, la variación del retardo, pérdida
de paquetes o throughput. El tercer polo hace referencia a la QoS conseguida por el
proveedor, que es en realidad la calidad real alcanzada y entregada al cliente, esta
se mide mediante valores proporcionados a los parámetros del segundo polo. El
último polo, donde se desarrolla esta investigación, hace alusión a la QoS percibida
por el cliente, mediante la cual se dictamina el nivel de QoE que los clientes creen
haber experimentado, esta se expresa en términos del nivel de satisfacción y no en
terminología técnica (UIT-T, 2001).
En el año 2016 se calculó que en los años futuros la mayoría del tráfico multimedia de
internet se transmitirá de forma inalámbrica (Cisco, 2015) y en el inicio del año 2018
se publicaron cifras que indican que el consumo de este tipo de contenido en su gran
mayoría se realiza desde dispositivos móviles como celulares y tabletas, llegando a un
82 % del consumo multimedia total, mientras que los computadores llegan tan solo al
10 % (Elgabli & Aggarwal, 2018). Es en el hogar en donde más se consume el contenido
multimedia, lugar en donde los dispositivos mencionados anteriormente, por lo regular
hacen uso de una conexión inalámbrica de área local para consumir estos servicios
(Flaithearta, Melvin, & Schukat, 2015).
Por lo anterior el instituto de ingenieros eléctricos y electrónicos IEEE (del inglés Institute
of Electrical and Electronics Engineers) ha realizado investigaciones para aumentar las
velocidades de transmisión, así en sus más recientes versiones presenta la capacidad de
expandir su ancho de banda al doble de sus antecesores, alcanzando velocidades teóricas
de hasta 1.3 Gbps, mediante el uso de tres flujos de información (Eng Hwee Ong et al.,

16 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

2011) con el estándar denominado en principio como IEEE 802.11ac y renombrado en


el año 2018 como WiFi 5.
También la academia ha impulsado otro tipo de soluciones orientadas a contribuir sobre
la gestión de las redes que permita un manejo más eficiente del plano de control y del
plano de datos, así como también a mitigar el problema de la no adaptabilidad de la
infraestructura de red desplegada. Con estos objetivos ha surgido un nuevo paradigma,
las redes definidas por software SDN (del inglés Software Defined Networking). Una
SDN es una arquitectura emergente que separa el plano de control del plano de datos,
que permite la implementación e implantación de servicios de red de una manera
dinámica, es gestionable, escalable y adaptable, razón por la cual es ideal para la
naturaleza cambiante y de alto consumo de ancho de banda de las aplicaciones y
servicios ofertados (Estrada-Solano, Ordonez, Granville, & Caicedo Rendon, 2017). Por
lo anterior, se espera que el trabajo en conjunto de las tecnologías WiFi 5 y SDN permita
afrontar los retos que trae consigo el aumento de los usuarios y su consumo de contenido
multimedia, específicamente el consumo de videostreaming. Por ejemplo, en (Peng, He,
Wang, & Kai, 2019) los autores proponen un esquema de selección de puntos de acceso
para un escenario SDN-WiFi, los resultados muestran que se puede lograr un mejor
rendimiento que los esquemas existentes, en términos de QoS.
Los aportes de este artículo son: la construcción de una red WiFi 5 SDN emulada
que permita el consumo de un servicio de videostreaming bajo el protocolo de
RTMP (del inglés Real Time Messaging Protocol) permitiendo así que converjan
dos tecnologías como son WiFi y SDN; la estimación de la calidad de la experiencia
mediante la métrica subjetiva de puntuación de opinión media MOS (del inglés mean
opinion score) a partir de la Recomendación UIT-T P.911 (UIT, 2003). Como aporte
al estado del arte se presenta la integración de la norma WiFi 5 con SDN y también
con el framework Evalvid para la estimación objetiva de la QoE. Evalvid permite la
codificación y comparación del video original versus el recibido a partir de lo cual se
obtienen las diferencias a causa de su tránsito por la red (Shakir, Rehman, Abbas,
Masood, & Shahid, 2016).

2. Metodología
En la figura 1, se muestra la arquitectura utilizada para el desarrollo de este artículo la
cual está constituida por tres diferentes etapas. A continuación, se realiza la descripción
de cada una de ellas.

2.1. Etapa uno


Esta etapa consta de un computador real, el cual se considera un dispositivo SDN puesto
que se incluye con sus funcionalidades y su equipamiento real dentro del entorno de
emulación y es administrado por el controlador SDN. Este computador aloja el servidor
encargado de ofrecer el servicio de videostreaming. Para su implementación, se llevó a
cabo la instalación de la herramienta y servidor HTTP NGINX (Li, Li, & Li, 2018), quien
hace uso de la herramienta software OBS como interfaz gráfica y de transmisión, para
enviar el contenido multimedia a todos los dispositivos conectados a la red.

RISTI, N.º E22, 08/2019 17


Estimación de la calidad de la experiencia del videostreaming desplegado sobre redes WiFi 5 definidas por software

Figura 1 – Arquitectura para la estimación de la QoE en redes WiFi 5 SDN

Este servidor se comunica con la red SDN mediante una conexión de tipo ethernet, a través
de la cual se realiza la distribución del contenido multimedia generado por NGINX. Para
esta investigación el contenido de videostreaming corresponde a dos videos. El primer
video denominado Stole The Show feat utilizado para el servicio de video bajo demanda
VoD (del inglés video on demand) soportado por el protocolo RTMP cuya duración de
la transmisión fue de 1 minuto y 30 segundos. El segundo video denominado Foreman
que esta sin codificar el cual se entrega a la herramienta Evalvid que está implantada
de manera distribuida entre el servidor de la etapa I y el cliente de la etapa III. Evalvid
es programado para codificar a Foreman mediante tres códec diferentes y así poder
comparar los resultados y determinar cuál de ellos presenta una mejor QoE.

2.2. Etapa dos


En esta etapa se observa un computador portátil en la parte superior, el cual es el
encargado de alojar la red SDN y de permitir la inclusión a la infraestructura de red,
tanto del servidor externo de la etapa I, como del cliente externo de la etapa III. Para
llevar a cabo dicho proceso, se hace uso de la herramienta SDN Mininet-WiFi, en
conjunto con el controlador ODL (del inglés OpenDaylight) y el Gestor OpenFlow OFM
(del inglés Openflow Manager). La herramienta Mininet-Wifi proporciona los medios
para llevar a cabo la emulación de los dispositivos de red tales como: puntos de acceso
AP (del inglés access point), Switches, computadores anfitriones (host) y estaciones o
dispositivos móviles. Además, permite la inclusión de los computadores portátiles reales
a la infraestructura de red (los computadores de la etapa I y III).
El controlador ODL permite la gestión y el control de la SDN, encargándose con su lógica
centralizada de toda la parte inteligente de la red, es decir, que es el encargado de la

18 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

manipulación del tráfico y de gestionar su paso por cada uno de los equipos implicados
en la red, empezando por el servidor y terminando en el cliente externo. El controlador
también se encarga de toda la gestión y de dictaminar como debe ejecutarse el
tratamiento de los paquetes en los switches de la red. Por el lado de los AP el ODL cubre
las características más importantes como el SSID (del inglés Service Set Identifier), el
canal, el estándar 802.11, la contraseña, etc. Así, el controlador ODL sirve para establecer
un puente entre el modelo tradicional de control de gestión de red y la arquitectura SDN,
a través de capacidades de visibilidad y control mejorados que incluyen aspectos como;
una topología y estado basados en una lógica centralizada para los recursos de red tanto
físicos como virtuales, capacidades de monitorización sin interrupción que no afectan
las comunicaciones, capa de abstracción de servicios dirigida al modelo YANG, que es el
estándar de la industria para asignar aplicaciones de red a dispositivos subyacentes, una
interfaz modular y estándar hacia el sur de gestión de red como OpenFlow, interfaces
hacia el norte que exponen las capacidades SDN a las aplicaciones de red, al mismo
tiempo que realiza la abstracción de la infraestructura subyacente.
El gestor OFM brinda las capacidades necesarias para manipular de forma centralizada
las tablas de conmutación implícitas en los switches y AP de la red, permite establecer
las reglas que serán entregadas al ODL para controlar el tráfico, de forma que se pueda
restringir o habilitar en algunas secciones de la topología, a través de la creación de listas
de control de acceso. Por otra parte, el OFM es una aplicación que llama a las API REST
(del inglés Application Programming Interface Representational State Transfer) para
recuperar el inventario de información del dispositivo Openflow y para la recopilación
estadística de su comportamiento (Lee, Ko, Suh, Jang, & Pack, 2017).
Con la integración de estas herramientas, fue posible llevar a cabo la construcción de la
red que hace parte del escenario de experimentación. En la figura 2 se muestra la topología
de red WiFi 5 SDN que se implementó, la cual cuenta con dispositivos reales y emulados,
conexiones cableadas reales y virtuales y, con conexiones inalámbricas virtuales.

Figura – 2 Topología de red para los escenarios de emulación

La Etapa II, cuenta además con un dispositivo adaptador USB-Ethernet que permite
la conexión cableada entre el computador portátil que aloja la red WiFi 5 SDN y el
computador portátil externo, el cual realiza la estimación de la QoE.

RISTI, N.º E22, 08/2019 19


Estimación de la calidad de la experiencia del videostreaming desplegado sobre redes WiFi 5 definidas por software

2.3. Etapa tres


En la Etapa III de la arquitectura de red mostrada en la figura 1, se puede observar en la
parte superior un computador portátil, en el cual se encuentra ubicado el reproductor
multimedia VLC (del inglés VideoLAN Client) que consume los servicios ofertados por el
servidor de Videostreaming NGINX después de transitar por la red WiFi 5 SDN. En esta
etapa, en primera instancia se realiza la estimación subjetiva de la QoE, la cual se lleva a
cabo mediante las percepciones y opiniones subjetivas de los usuarios de la red del video
Stole The Show feat. Dichas percepciones se registran en un instrumento que arroja
como resultado una calificación cuantitativa que representa el nivel de satisfacción del
usuario con respecto a la reproducción del contenido.
En segunda instancia para la estimación objetiva de la QoE, se hace uso de la herramienta
Evalvid con el video Foreman, el cual no cuenta con audio. Para la transmisión a través
de la red WiFi 5 SDN el video se entrega en formato “.yuv” a la herramienta Evalvid que
lo codifica mediante tres códec diferentes los cuales son: MPEG-4 parte 2, parte 2/H.263
y parte 10/H264. El video así codificado y transmitido corresponde a tres transmisiones
diferentes y adicionales a las de la primera instancia, que permiten determinar bajo que
códec se presenta una mejor estimación de la QoE.

3. Escenario de experimentación
Una vez realizadas las pruebas de conectividad entre todos los dispositivos de la SDN del
escenario emulado, el controlador ODL ya cuenta con la información de todos los
dispositivos implicados y la topología de red la cual se muestra a través de su interfaz
gráfica, ver figura 3. En la figura 3 se puede observar la topología del escenario de
experimentación completa, incluyendo los dos computadores portátiles en donde están

Figura 3 – Escenario de experimentación WiFi 5 SDN en la interfaz gráfica del ODL

20 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

alojados el servidor y el cliente externo. Las conexiones entre las estaciones y los AP son
representadas por el controlador ODL como cableadas, debido que la versión utilizada
no cuenta aún con el soporte para representar conexiones inalámbricas.
En la figura 4 se presenta la interfaz del OBS y la transmisión del video con el protocolo
RTMP.

Figura 4 – Transmisión del Videostreaming con RTMP mediante NGINX y OBS

Sobre esta transmisión, se llevó a cabo una inspección con mayor detalle de las
capacidades y funcionalidades que presenta el controlador ODL. Por ejemplo, en la
figura 5 puede observarse que el ODL permite para los dispositivos de red tales como
los AP y los switches, visualizar información estadística recopilada por el controlador,
referente a los flujos de información que han pasado por un nodo en específico, para este
caso en particular se presentan los datos estadísticos del AP 2 (la última fila) luego de
realizar la transmisión del Videostreaming, desde la interfaz del controlador también se
pueden obtener datos como la dirección MAC de los dispositivos de red, el nombre de la
interfaz y el puerto de conexión.

Figura 5 – Datos estadísticos del AP 2

Los dispositivos móviles, o referidos en este artículo como estaciones, también


consumen el contenido multimedia transmitido por el servidor, esto puede verse en la

RISTI, N.º E22, 08/2019 21


Estimación de la calidad de la experiencia del videostreaming desplegado sobre redes WiFi 5 definidas por software

figura 6, en donde las estaciones 2 y 3 están reproduciendo dicho contenido, mediante


el cliente VLC.

Figura 6 – Nodos virtuales (estación 1 y 3) consumiendo el servicio de Videostreaming

3.1. Métrica para la estimación de la QoE


Para estimar la QoE se implementó un modelo de evaluación subjetivo pasivo a través
de una encuesta. Para esto se empleó la métrica MOS, dado que la calidad del audio
y de la imagen del video, son completamente subjetivas. Para la implementación de
la métrica MOS, se usó la escala ACR (del inglés Absolute Category Rating), que tiene
asociado un método para la realización del experimento subjetivo, que consiste en
presentar las secuencias de video una tras otra, cada una de las cuales se califica de forma
independiente. Específicamente, este método establece que después de la presentación
de una secuencia, el usuario debe calificar la calidad percibida (UIT-T, 2008) La encuesta
se realizó con 19 usuarios de acuerdo a lo establecido en la Recomendación UIT-T P.911
y UIT-T P.800.2 (ITU-T, 2016), que establece la cantidad de participantes entre 4 y 40,
además la recomendación establece que para un experimento de observación y escucha
deben participar un mínimo de 15 usuarios (UIT-T 2008).
Para determinar la calidad del audio y la imagen del video, se parte de las condiciones
establecidas por las recomendaciones UIT-T P.911 y UIT-T P.800.2, con las cuales se
busca tener un ambiente controlado, especificando aspectos como: la distancia mínima
y máxima en la que los usuarios deben estar de la pantalla, que para este caso fue de 1.5
m y 2.5 m respectivamente. La visibilidad directa con la pantalla en la que se reproduce
el video, el control sobre el ruido generado por los usuarios, el tiempo de reproducción
de las secuencias de video de exactamente 1 minuto y 30 segundos, y el tiempo de
calificación de aproximadamente 15 segundos por pregunta. La escala obtenida se
observa en la tabla 1.
El término calidad de la imagen del video incluye aspectos como: la definición y calidad
de la imagen, la velocidad de reproducción, la continuidad en la reproducción y las
pérdidas de pixeles en la reproducción. La calidad del audio del video, incluye aspectos
como la claridad del sonido, el entendimiento de lo que se dice, la velocidad en la
reproducción y la continuidad de la reproducción del audio.

22 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Calificación Nivel de la Descripción


promedio calidad
4, 5 – 5,0 Excelente El usuario alcanza una satisfacción total con la visualización del
contenido reproducido.
3,9 – 4,4 Bueno El usuario alcanza una satisfacción buena con la visualización del
contenido reproducido.
3,0 – 3,8 Aceptable El usuario alcanza una satisfacción media, encontrando aspectos que no
le gusto observar en la reproducción del contenido.
2,0 – 2,9 Pobre El usuario alcanza una satisfacción baja, encontrando más aspectos
que no le gusto observar, en comparación con los que le gustaron en la
reproducción del contenido.
0,0 – 1,9 Mala El usuario presenta una insatisfacción total con la reproducción del
contenido.

Tabla 1 – Métrica para la estimación de la QoE

Para la estimación de la QoE mediante Evalvid se calcula la proporción máxima de señal


a ruido PSNR (del inglés Peak Signal-to-Noise Ratio). Esta metodología requiere de una
referencia, por lo que se necesita tanto el fichero de video recibido, como el fichero de
video enviado. La medición de PSNR se pueden transformar a la escala MOS de acuerdo
con la tabla 2 (Klaue, Rathke, & Wolisz, 2003).

PSNR (dB) MOS


> 37 5
31 – 37 4
25 – 31 3
20 – 25 2
< 20 1

Tabla 2 – Conversión PSNR a MOS

4. Resultados y Análisis
En esta sección se presentan los resultados obtenidos con las pruebas realizadas para
la estimación de la QoE para el video Stole The Show feat usando el servidor NGINX
y los resultados de las transmisiones por videostreaming del video Foreman, el cual
originalmente se encuentra en formato “.yuv” por lo que no se incluye audio. Foreman
es codificado mediante la herramienta Evalvid y posteriormente es enviado a través de
la red WiFi 5 SDN.

4.1. Resultado de las transmisiones de videostreaming mediante el protocolo


RTMP
En la figura 7 se aprecian las calificaciones de los 19 usuarios para el video Stole The Show
feat en cuanto a la calidad del video y del audio, para la transmisión de videostreaming
mediante el servidor NGINX sobre la red WiFi 5 SDN.

RISTI, N.º E22, 08/2019 23


Estimación de la calidad de la experiencia del videostreaming desplegado sobre redes WiFi 5 definidas por software

Figura 7 – Calificaciones de los 19 usuarios para el videostreaming sobre la red WiFi 5 SDN

De acuerdo a la figura 7, la calidad del video obtuvo una calificación promedio para la MOS
de 4,0 y la calidad del audio obtuvo una calificación promedio para la MOS de 4,58. Con
estos valores promedio y tomando como referencia la métrica MOS de la tabla 1, se establece
que la calidad del video se ubica en un nivel bueno, mientras que la calidad del audio se
ubica en un nivel excelente. Si se le da el mismo peso a la calidad del audio que a la calidad
del video, para la transmisión de videostreaming sobre la red WiFi 5 SDN, se obtiene en
promedio un valor de MOS de 4,29 que corresponde a un nivel bueno de acuerdo a la tabla 1.

4.2. Resultados de las transmisiones de videostreaming codificado en el


formato MPEG-4 Parte 2
Para este caso Evalvid codifica a Foreman en formato MPEG-4 Parte 2 para su posterior
transmisión. En la figura 8.a se aprecian las calificaciones de cada uno de los 19 usuarios
para la calidad del video. En la figura 8.b se observa el video original versus el video
recibido y reconstruido con Evalvid en el cliente externo, esto es, después de viajar a
través de la red WiFi 5 SDN.
Con los valores de la figura 8.a, para la calidad del video se obtuvo una calificación
promedio para los 19 usuarios de 3,95, este valor estima un nivel de QoE bueno de
acuerdo a la tabla 1. Por otra parte, la PSNR arrojada por Evalvid tiene un valor promedio
de 25,35 dB, que de acuerdo a la tabla 2 corresponde con una métrica MOS de 3, este
valor de MOS estima un nivel de QoE aceptable de acuerdo a la tabla 1. Por lo tanto,
las medidas subjetivas dieron una mejor valoración a la calidad del video respecto a la
obtenida a través del método objetivo usando la herramienta Evalvid con una diferencia
de un nivel (buena versus aceptable).

Figura 8 – QoE para el video con códec MPEG-4 parte 2 sobre la red WiFi 5 SDN

24 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

4.3. Resultados transmisiones de videostreaming codificado en el formato


MPEG-4 Parte 2/H.263
Para este caso Evalvid codifica a Foreman en formato MPEG-4 Parte 2/H263 para su
posterior transmisión. En la figura 9.a se aprecian las calificaciones de cada uno de los 19
usuarios para la calidad del video. En la figura 9.b se observa el video original versus el
video recibido y reconstruido con Evalvid en el cliente externo, esto es, después de viajar
a través de la red WiFi 5 SDN.

Figura – 9 QoE para el video con códec MPEG-4 parte 2/H263 sobre la red WiFi 5 SDN

Con los valores de la figura 9.a, para la calidad del video se obtuvo una calificación
promedio para los 19 usuarios de 4,0 este valor estima un nivel de QoE bueno de acuerdo
a la tabla 1. Por otra parte, la PSNR arrojada por Evalvid tiene un valor promedio de
20,98 dB, que de acuerdo a la tabla 2 corresponde con una métrica MOS de 2, este valor
de MOS estima un nivel de QoE pobre de acuerdo a la tabla 1. Por lo tanto, las medidas
subjetivas dieron una mejor valoración a la calidad del video respecto a la obtenida a
través del método objetivo usando la herramienta Evalvid, con una diferencia de dos
niveles (buena versus pobre).

4.4. Resultados de las transmisiones de videostreaming codificado en el


formato MPEG-4 Parte 10/H.264
Para este caso Evalvid codifica a Foreman en formato MPEG-4 Parte 10/H264
para su posterior transmisión. En la figura 10.a se aprecian las calificaciones de
cada uno de los 19 usuarios para la calidad del video. En la figura 10.b se observa
el video original versus el video recibido y reconstruido con Evalvid en el cliente
externo, esto es, después de viajar a través de la red WiFi 5 SDN. Con los valores de
la figura 10.a, para la calidad del video se obtuvo una calificación promedio para los
19 usuarios de 4,75 este valor estima un nivel de QoE excelente de acuerdo a la tabla
1. Por otra parte, la PSNR arrojada por Evalvid tiene un valor promedio de 28,67
dB, que de acuerdo a la tabla 2 corresponde con una métrica MOS de 3, valor que
estima un nivel de QoE aceptable de acuerdo a la tabla 1. Por lo tanto, las medidas
subjetivas dieron una mejor valoración a la calidad del video respecto a la obtenida
a través del método objetivo usando la herramienta Evalvid, con una diferencia de
dos niveles (Excelente versus aceptable).

RISTI, N.º E22, 08/2019 25


Estimación de la calidad de la experiencia del videostreaming desplegado sobre redes WiFi 5 definidas por software

Figura – 10 QoE del video con códec MPEG-4 Parte 10/H.264, sobre la red WiFi 5 SDN

5. Conclusiones y Trabajos Futuros


Luego de realizar la implementación y puesta en funcionamiento del escenario de
experimentación se pueden ver las ventajas que presenta la arquitectura de red SDN
mediante software libre como es el controlador OpenDaylight ODL y el OpenFlow
Manager OFM. Gracias a estas herramientas de SDN es posible tener una visión general
de toda la topología de red, esto es, red cableada y red inalámbrica, pudiendo tener un
control basado en una lógica centralizada, que permite llevar acabo procesos de gestión
de la red como la visualización de estadísticas desde un solo punto, sin la necesidad
de implantar en cada dispositivo agentes o gestores para llevar acabo las acciones que
deseen ejecutarse.
La herramienta de SDN Mininet-WiFi demostró ser lo suficientemente robusta, puesto
que permitió la implementación de una de las nuevas normas de WiFi, como es la norma
802.11ac renombrada desde el 2018 como WiFi 5. Además, permitió la construcción de
un entorno de emulación para el consumo en tiempo real del servicio de videostreaming,
combinando elementos reales y virtualizados.
Respecto a la estimación de la QoE se pudo determinar que la norma WiFi 5 sobre SDN
en conjunto con el códec de video MPEG-4 parte 10/H.264 fue la que mejor calificación
obtuvo, tanto para la estimación de la QoE subjetiva como objetiva. De acuerdo a la
valoración de los usuarios alcanzo una calificación de excelente y de acuerdo a Evalvid
alcanzo una calificación de aceptable. En tanto que para el videostreaming transmitido
por NGINX, donde se realizó la estimación de la QoE subjetiva alcanzo un nivel de bueno
para el video y de excelente para el audio.
La estimación subjetiva de la QoE pudo determinar que para las transmisiones de
videostreaming codificado en el formato MPEG-4 parte 2 y 2/H.263 se posicionó en un
nivel bueno con una MOS 3,95 y 4,0 respectivamente y para el formato MPEG-4 parte
10/H.264 se posicionó en un nivel excelente con una MOS de 4,75. Sin embargo, no se
puede decir lo mismo si se tiene en cuenta la estimación objetiva de la QoE mediante
la herramienta Evalvid donde los valores de la MOS obtenidos fueron 3, 2 y 3 para los
formatos MPEG-4 parte2, 2/h263 y 10/H264 respectivamente. Estas diferencias entre
los usuarios y la herramienta Evalvid se pueden atribuir a que para los primeros tiene
impacto el lugar donde los pixeles se pierden, mientras que para la herramienta no.

26 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Como trabajo futuro se propone desarrollar un controlador SDN, capaz de configurar


los AP dependiendo del número de disp.-ositivos que tenga conectados, usando el
controlador ODL y su complemento CAPWAP (Control And Provisioning of Wireless
Access Points).

Referencias
Cisco. (2015). Cisco Visual Networking Index: Forecast and Methodology, 2015-2020.
Forecast Methodol., 22.
Elgabli, A., & Aggarwal, V. “GroupCast: Preference-aware cooperative video streaming
with scalable video coding,” IEEE INFOCOM 2018 - IEEE Conference on Computer
Communications Workshops (INFOCOM WKSHPS), Honolulu, HI, 2018, pp.
616-621.
Eng Hwee Ong, Kneckt, J., Alanen, O., Chang, Z., Huovinen, T., & Nihtila, T. (2011).
IEEE 802.11ac: Enhancements for very high throughput WLANs. In 2011 IEEE 22nd
International Symposium on Personal, Indoor and Mobile Radio Communications
(pp. 849–853). IEEE. [Link]
Estrada-Solano, F., Ordonez, A., Granville, L. Z., & Caicedo Rendon, O. M. (2017). A
framework for SDN integrated management based on a CIM model and a vertical
management plane. Computer Communications, 102, 150–164. [Link]
org/10.1016/[Link].2016.08.006
Flaithearta, P., Melvin, H., & Schukat, M. ( 2015) A QoS enabled multimedia WiFi access
point. Int. J. Network Mgmt, 25: 205– 222. doi: 10.1002/nem.1895.
ITU-T. (2016). Recommendation ITU-T-P.800.2 : Mean opinion score interpretation
and reporting.
Klaue, J., Rathke, B., & Wolisz, A. (2003). EvalVid-A Framework for Video Transmission
and Quality Evaluation. Retrieved from [Link]
fg112/Papers/[Link]
Lee, J., Ko, H., Suh, D., Jang, S., & Pack, S. (2017). Overload and failure management
in service function chaining. In 2017 IEEE Conference on Network Softwarization
(NetSoft) (pp. 1–5). IEEE. [Link]
Li, R., Li, Y., & Li, W. (2018). An Integrated Load-balancing Scheduling Algorithm for
Nginx-Based Web Application Clusters. Journal of Physics: Conference Series,
1060(1), 012078. [Link]
Nunes Astuto, B., Mendonça, M., Nam Nguyen, X., Obraczka, K., Turletti, T., Astuto
Nunes, B. A., Nguyen, X.-N. (2014). A Survey of Software-Defined Networking:
Past, Present, and Future of Programmable Networks, 16(3), 1617–1634.
[Link]
Peng, M., He, G., Wang, L., & Kai, C. (2019) “AP Selection Scheme Based on Achievable
Throughputs in SDN-Enabled WLANs,” in IEEE Access, vol. 7, pp. 4763-4772.

RISTI, N.º E22, 08/2019 27


Estimación de la calidad de la experiencia del videostreaming desplegado sobre redes WiFi 5 definidas por software

Shakir, M., Rehman, O. U., Abbas, Z., Masood, A., & Shahid, W. (2016). Evaluation of
Video Quality in Wireless Multimedia Sensor Networks. International Journal
of Electrical and Computer Engineering (IJECE), 6(1), 223–234. [Link]
org/10.11591/ijece.v6i1.7573
UIT-T. (2001) “G.1000 Calidad del servicio en las comunicaciones: marco y definiciones.,”
Ser. G Sist. Y MEDIOS Transm. Sist. Y REDES Digit. Calid. Serv. y Transm., pp.
58–60, 2001.
UIT-T. (2008). UIT-T P.910: “Métodos subjetivos de evaluación de la calidad vídeo para
aplicaciones multimedios”. Pp. 13. 2008.

28 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 15/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 28/06/2019

Aplicación móvil en los ambientes educativos en


Ecuador: “Monitoreando tareas y Asistencia en
tiempo Real”

Lady [Link]-Tapia1, Eleanor Varela-Tapia2, Jenny [Link]-Zambrano3,


Isaakc Ortiz Aguirre4, Lissette [Link]-Campoverde5, William [Link]-Duque6

[Link]@[Link], [Link]@[Link], [Link]@[Link],


[Link]@[Link], [Link]@[Link], [Link]@[Link]

1
Directora de proyecto de desarrollo, Universidad de Guayaquil, 593, Guayaquil, Ecuador.
2
Investigador secundario 1 desarrollo, Universidad de Guayaquil, 593, Guayaquil, Ecuador.
3
Investigador secundario 2 diseño, Universidad de Guayaquil, 593, Guayaquil, Ecuador.
4
Analista de datos estadísticos, Universidad de Guayaquil, 593, Guayaquil, Ecuador.
5
Estudiante 1 base de datos, Universidad de Guayaquil, 593, Guayaquil, Ecuador.
6
Estudiante 2 aplicativo móvil, Universidad de Guayaquil, 593, Guayaquil, Ecuador.
Pages: 29–40

Resumen: El uso de los Smartphone esta a la vista y uso de todos, conteniendo


aplicaciones llamados apps que permiten facilitar las actividades del ocio, ámbito
profesional o educativo. En el campo de la educación ecuatoriana todavía existe
la falta de participación de los padres en el desarrollo de enseñanza de sus hijos
donde muchas veces no copian ni transcriben lo dictado. Por tal razón se pretende
conocer una aplicación móvil de fácil acceso que podrá monitorear en tiempo real
las actividades escolares brindando un apoyo en el servicio educativo de calidad
a la sociedad en general, con métodos de investigación y scrum (desarrollo de
software). Se determino un mejor control de tareas, asistencias y comunicación
entre el representante, representado de 7 a 9 años y profesor de forma significativa,
la aplicación tuvo una gran aceptación entre los participantes, demostrando que es
una herramienta que aporta en el proceso de aprendizaje.
Palabras-clave: Teléfono-inteligente, aplicaciones-móviles, estrategias-
aprendizaje, plataformas, computadora-educación.

Aplicación móvil en los ambientes educativos en Ecuador:


“Monitoreando tareas y Asistencia en tiempo Real”

Abstract: The use of the Smartphone is in sight and use of all, containing
applications called apps that allow to facilitate leisure activities, professional or
educational. In the field of Ecuadorian education there is still a lack of parental
involvement in the development of their children’s education where they often do

RISTI, N.º E22, 08/2019 29


Aplicación móvil en los ambientes educativos en Ecuador: “Monitoreando tareas y Asistencia en tiempo Real”

not copy or transcribe what has been dictated. For this reason it is intended to know
an easy-to-access mobile application that will be able to monitor school activities in
real time by providing support in quality educational service to society in general,
with research and scrum methods (software development). It was determined
a better control of tasks, assists and communication between the representative,
represented from 7 to 9 years and teacher in a meaningful way, the application
had a great acceptance among the participants, demonstrating that it is a tool that
contributes in the learning process.
Keywords: Smart-phone, mobile-applications, learning-strategies, platforms,
computer-education

1. Introducción
Existen dos escenarios de incorporación de nuevo conocimiento para las organizaciones:
1) la adaptación del nuevo conocimiento creado de manera informal por sus propios
actores y procesos, y 2) la adopción de un nuevo conocimiento que es ajeno a las
estructuras institucionales (Escudero Nahón, 2017). La tecnología tiene distintos
medios o formas para poder realizar el proceso de adaptación y adopción que permite
un mayor desarrollo en el servicio de educación de las instituciones que adoptan las
nuevas tecnologías como se ha realizado en las instituciones financieras que invierten
a plataformas tecnológicas (Rossi, 2018). La presencia de ello aporta a los estudiantes
para su desarrollo estudiantil, por lo tanto, es necesario mejorar el aprendizaje educativo
y una de las forma es la participación por medio de un aplicativo móvil que facilitara el
control de tareas, asistencia y las comunicaciones de actividades de la escuela obteniendo
estadísticas que se podrán relacionar con el rendimiento académico de los estudiantes
(Basantes et al., 2017).
Para conocer el impacto del uso de la aplicación se escogió una escuela de sur este de
Guayaquil de Ecuador “Ciudad de Ariel” donde utiliza una hoja elaborada que contempla
el listado de los estudiantes con sus fechas de asistencia que tiene que ser llenada primero
a mano y luego digitalizarla tomándose mucho tiempo para obtener los resultados.
Para poder sanear este problema se han creado diferentes mecanismos o estrategias,
las cuales no cubren todas las necesidades de mejorar la asistencia de los estudiantes.
Otro problema que se presenta con mucha frecuencia en esta institución es que los
estudiantes, especialmente de nivel de educación básica de Ecuador no transcriben
correctamente las tareas enviadas por el profesor, lo que conlleva a presentar molestias
tanto a los padres como profesores.
El instituto nacional de evaluación de Ecuador indica por medio de inec (Instituto
Nacional de Estadística y Censos) que “El objetivo de la EGB es desarrollar las
capacidades, habilidades, destrezas y competencias de los niños y adolescentes desde
los 5 años de edad en adelante, propiciando una participación universal de forma crítica,
responsable y solidaria en la vida de los ciudadanos, permitiendo la continuidad de la
trayectoria escolar de los estudiantes en el bachillerato” (Spencer, Restrepo, Javier, &
Reyna, s/f). “La EGB está compuesta por diez años de atención obligatoria en los que se
refuerzan, amplían y profundizan las capacidades y competencias adquiridas en la etapa
anterior, y se introducen las disciplinas básicas garantizando su diversidad cultural y
lingüística” (LOEI, 2011).

30 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

La tecnología informática ha tenido un desarrollo muy rápido y a su vez se ha hecho más


accesible. El internet y los dispositivos móviles son los que presentan mayores avances,
tal es el caso que se han desarrollado Smartphones que asimilan la funcionalidad de una
computadora de forma mas rápida, en el procesamiento, la administración de los recursos,
el acceso a internet, etc ya sea para varios campos como en la salud como en la educación
(García De Ribera et al., 2014). Este desarrollo de la tecnología fusiona la tecnología con
la educación a las actividades de los seres humanos (Jiménez-Saavedra, 2014).
Haciendo uso de las actuales tecnologías, se plantea una solución de mejora para
automatizar el proceso del envío de tareas, comunicados y el control de asistencia con
el desarrollo de un aplicativo móvil (Android) llamado “ESCUAPP”, que ayudará a la
comunidad de aprendizaje en genera (Baeza, s/f).
En vista de que la institución particular educativa nivel primario “Ciudad de Ariel” no
cuenta con una herramienta que le permita mitigar los problemas mencionados con
anterioridad, se propone una aplicación que permita una mejor gestión de los procesos
antes mencionados que permitirá mejorar y automatizar el desarrollo de las actividades
internas y a su vez un crecimiento en la calidad de la educación prevista.
Para cumplir con este fin se utilizó la plataforma de desarrollo Android Studio ya que es
el IDE oficial del desarrollo de aplicaciones móviles, diseñada para dispositivos móviles
con sistema operativo Android 4.0 o hasta 6.0, que cuenten con conexiones inalámbricas.
En la aplicación se manejan dos perfiles: Personal Profesor y Representantes (padres),
en el primer perfil la aplicación permite el registro de asistencia y el envío de tareas
de los estudiantes asignados al profesor, en el segundo perfil la aplicación permite la
visualización de las asistencias y faltas de los estudiantes mediante gráficos estadísticos,
además de la recepción y visualización de las tareas enviadas por el personal profesor,
adicionalmente la aplicación le permite al administrador obtener un reporte de las
asistencias de los estudiantes para realizar el correspondiente análisis o cualquier
otra actividad que necesiten realizar con los datos obtenidos de la aplicación. De una
población de 17 maestros y mas de 220 padres de familia, se seleccionaron 9 profesores
y 10 usuarios para las pruebas de aceptación, usabilidad, rapidez y satisfacción del
aplicativo móvil, las cuales el 80% es fácil de usar, 70% brinda mucha confianza en la
gestión de la información, el 89,9% es rápido, 70% de señalan que están muy satisfechos
con el rendimiento del aplicativo.

2. Uso de los medios electrónicos en la comunicación


Los diversos medios electrónicos con los que se cuenta en la actualidad han facilitado
la comunicación en los campos que adoptan estos medios, entre los campos que han
obtenido más beneficios con la implementación de estos medios están: el campo
empresarial, educativo y médico, siendo el educativo el que adopta mayores tecnologías de
comunicación ya sean redes sociales, aplicaciones, etc (Zhao et al., 2019). Es importante
el aprendizaje en el manejo adecuado de aplicaciones pedagógicas y didácticas, como
también en la adopción de nuevas aplicaciones que permitan la organización y la
clasificación de la información, que propicien el desarrollo de habilidades de síntesis,
análisis, deducción, argumentación y toma de decisiones. La misma que se puede utilizar
las aplicaciones móviles como estrategia de educación. Actualmente estamos inmersos

RISTI, N.º E22, 08/2019 31


Aplicación móvil en los ambientes educativos en Ecuador: “Monitoreando tareas y Asistencia en tiempo Real”

en un mundo tecnológico, ya sea con el uso de dispositivos móviles, laptop, la educación


también están inmerso en este ámbito ya sea con la implementación de pizarras táctiles,
el uso de aplicaciones asistencia, que aportan en el aprendizaje por el alto uso de ella
(Silva Calpa & Martínez Delgado, 2017). En el mercado existen muchas aplicaciones
con estas funcionalidades ya sean empresariales o educativas, las cuales se asemejan
a la propuesta en este proyecto, dicha aplicación tiene características que hacen que se
diferencie de las otras, las cuales se detallan a continuación.

Figura 1 – Cuadro comparativo con aplicaciones similares en el mercado

3. Método y metodología
Teniendo en cuenta que el objetivo general de este articulo es dar a conocer un aplicativo
móvil que aportara en el monitoreo de las tareas, asistencias y la mejora de la comunicación
entre padres de familia y profesores en beneficio del desarrollo académico del niño por
medio de 2 metodología, la primera que hace referencia a metodología de investigación
descriptiva y cuantitativa y la segunda de desarrollo SCRUM (Etimológicamente,
la palabra Scrum hace referencia a un término usado en el rugby. No se trata de una
abreviación o sigla, sino que significa gestión ágil de proyectos).
En la primera metodología se utilizó como instrumento de medición un cuestionario
virtual de forma Likert, que se remitió por correos electrónicos, redes sociales o físico.
Para determinar la muestra se contemplo con la colaboración de la autoridad del
instituto de 224 estudiantes mas 200 representantes de familia y 16 profesores en base
a la población de 33´372.493 estudiantes de educación general básica llamada EGB del
Ecuador como lo da a conocer el INEC.
En la segunda metodología de desarrollo del aplicativo móvil se aplicó las siguientes fases:
1. Fase 1: Levantamiento de información
2. Fase 2: Análisis en base a los resultados de la medición del instrumento del
cuestionario.

32 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

3. Fase 3: Desarrollo del aplicativo


4. Fase 4: implementación, pruebas y corrección
Para mas detalle a continuación se explicara la arquitectura, caso de uso, arquitectura de
aplicación etc que presenta a continuación:

3.1. La arquitectura
Para el desarrollo de la aplicación se empleó la metodología de desarrollo Scrum, un
framework iterativo, rápido, eficaz, flexible y con altos índices de adaptabilidad al
cambio, modelo que se entregó el valor al cliente durante todo el proceso de desarrollo
del proyecto. La satisfacción de las necesidades del cliente es el enfoque primordial
de esta metodología a través del progreso continuo. Los instrumentos para obtener el
análisis de aceptación, usabilidad, rapidez y satisfacción del aplicativo móvil fue por
medio de encuestas después de usar el aplicativo.

3.2. Caso de Uso


Los casos de uso describieron la secuencia de eventos que los actores realizaron al
momento en que se lleva a cabo un proceso en el sistema que facilita el entendimiento
del sistema (Arias Chaves, 2006). Los actores que hicieron usos del sistema de envío
de tareas y registro de asistencia han sido clasificados de acuerdo a las funciones que
cumplen en el sistema.

Figura 2 – Roles Usuario Padres y Usuario Profesor


Elaborado por: William Ferruzola y Lissette Masabanda
Fuente: Datos de Investigación

CASO DE USO:

Actores Teacher
Descripción Se encarga de realizar la toma de asistencia de los estudiantes asignados en cada
curso al personal profesor realizado desde el dispositivo móvil.
Precondición Existan estudiantes y cursos asignados al usuario.
Flujo Básico 1. E
 l usuario selecciona el curso, fecha y materia al que desea realizar el proceso de
toma de asistencia.
2. E
 l aplicativo muestra un listado de los estudiantes asociados al curso seleccionado.
3. E l usuario ingresa los datos correspondientes a las asistencias de los estudiantes
y graba dicha información.
4. El aplicativo verifica si la información destinada para su almacenamiento es
nueva o modificada y según sea el caso la almacena.

RISTI, N.º E22, 08/2019 33


Aplicación móvil en los ambientes educativos en Ecuador: “Monitoreando tareas y Asistencia en tiempo Real”

Actores Teacher
Flujo Alterno En caso de que no esté asignado estudiantes al curso
seleccionado se indicara mediante un mensaje de error que se mostrara en la
pantalla.
En el caso de que sea nueva la información ingresada de las asistencias se
creara una nueva tabla en la cual se almacena información con su estado
correspondiente.
En el caso de que la información corresponda a una modificación de la misma se
procederá a actualizar en la tabla correspondiente.

Tabla 1– Caso de uso de toma de asistencia

Actores Teacher
Descripción Se encarga de realizar el envío de tareas de los estudiantes asignados en cada curso
al personal profesor realizado desde el dispositivo móvil.
Precondición Existan estudiantes y cursos asignados al usuario.
Flujo Básico 1. El usuario escoge la opción de Tareas.
2. El usuario selecciona el curso al que desea realizar el proceso de envío de tareas.
3. El sistema muestra un listado de los estudiantes asociados al curso seleccionado.
4. El usuario selecciona la casilla “todos”.
5. El usuario selecciona la opción “Envío”.
6. El sistema muestra un formulario con los datos relacionados a las tareas.
7. El usuario selecciona la opción “enviar”.
8. El sistema muestra un mensaje de éxito.
9. El sistema verifica si la información destinada para su almacenamiento es nueva
o modificada y según sea el caso la almacena.
Flujo Alterno En caso de que no esté asignado estudiantes al curso
seleccionado se indicara mediante un mensaje de error que se mostrara en la
pantalla.
En el caso de que sea nueva la información ingresada de las tareas el sistema
almacena la información con su estado correspondiente.

Tabla 2 – Envío de tareas

Actores Padres de familia


Descripción Se encarga de realizar la consulta de tareas de los estudiantes.
asignados a los padres realizado desde el dispositivo móvil.
Precondición Existan estudiantes asignados al usuario..
Flujo Básico 1. El usuario escoge la opción de Tareas.
2. E
 l sistema muestra un listado de las tareas de los
estudiantes asociados a ese representante.
3. El usuario selecciona la tarea que desea realizar la consulta.
4. El sistema muestra los datos relacionados a las
tareas.
Flujo Alterno En caso de que no esté asignado estudiantes al curso
seleccionado se indicara mediante un mensaje de error que se mostrara en la
pantalla.
En el caso de que sea nueva la información ingresada de las tareas el sistema
almacena la información con su estado correspondiente.

Tabla 3 – Consulta de tareas

34 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Actores Director (Administrador).


Descripción Se encarga de cargar los datos relacionados a los profesors, cursos y estudiantes
necesarios para permitir el proceso de toma de asistencia y envío de tareas desde el
dispositivo móvil.

Precondición El usuario haya ingresado a la aplicación.


Flujo Básico 1. E
 l usuario realiza el ingreso de los datos necesarios para la operatividad de la
aplicación.
2. E l sistema muestra un listado de los estudiantes
asociados al curso seleccionado.
3. E l usuario ingresa los datos correspondientes a las asistencias de los estudiantes y
graba dicha información.
Flujo Alterno En caso de que no esté asignado estudiantes al curso seleccionado se indicara
mediante un mensaje de error que se mostrara en la pantalla.
En el caso de que sea nueva la información
ingresada de las asistencias se creara una nueva tabla en la cual se almacena
información con su estado correspondiente.
En el caso de que la información corresponda a un modificación de la misma se
procederá a actualizar en la tabla correspondiente.

Tabla 4 – Carga de dato móvil

3.3. Arquitectura de la aplicación


Se desarrolló en aplicación es MVP (Model View Presenter) en la cual se separó la lógica
del negocio de la Vista permitiendo tener un mejor análisis del desarrollo, además de
facilitar la testabilidad. La utilización de esto fue el patrón arquitectónico se utiliza
generalmente para crear interfaces de usuario, en este proyecto podemos identificar las
tres capas de este modelo: Model: Esta capa se encarga de administrar los datos, está
conectada a la base de datos MySQL que almacena la información de los estudiantes,
personal profesor, representantes, etc. La cual es utilizada para alimentar a la aplicación
con los datos necesarios para su funcionalidad (Suehring, 2002). View: Esta capa es la
encargada de recibir los datos de entrada y mostrar el resultado a los usuarios, en la
aplicación móvil “ESCUAPP” las pantallas son las encargadas de realizar este proceso
utilizando Fragments, Activies, Holders y Adapters, los cuales para la ejecución del
proceso. Controller: Esta capa se comprendió por objetos, se encargo de configurar
la vista de asistencia que son utilizados en los eventos enviados desde la capa View
(Fragments, Activies).

3.4. Arquitectura MVP


MVP es una arquitectura que buscó segmentar el código en tres capas las cuales
permitieron tener un mejor análisis del desarrollo, además que facilitó el testeo de las
características del software.

Hardware Descripción
Dispositivo Samsung Galaxy smart phone
Procesador ARM Mali-400 MP.
Memoria RAM 2 GB

RISTI, N.º E22, 08/2019 35


Aplicación móvil en los ambientes educativos en Ecuador: “Monitoreando tareas y Asistencia en tiempo Real”

Hardware Descripción
Cámara frontal de 2 megapixels
Tamaño 1080 x 1920 pixels, 4.99 pulgadas
Dimensiones 136.6 x 69.8 x 7.9 mm
Peso (g) 130g
Sistema Operativo Android

Tabla 5 – Requerimientos del hardware utilizado

3.5. Android Studio


Android Studio es la plataforma oficial que se desarrolló en la aplicación móvil para
Android esto debido a que reemplazo a Eclipse el cual era el IDE oficial hasta el 2013.
Google lo recomienda como el IDE oficial para el desarrollo de aplicaciones para su
sistema operativo.
Características: Ofreció soporte para el desarrollo de aplicaciones con sistema operativo
para dispositivos corporales “Android Wear”. Lint. Este tipo de herramientas nos
permiten detectar códigos que no sean compatibles entre las diferentes arquitecturas.

3.6. Procedimientos
Una vez terminado la fase de desarrollo se procedió a instalar en los teléfonos móviles
de los docentes, incluyendo Tablet con sistema operativo Android, días después con la
ayuda del director de la escuela se convoco a los padres de familias de 3 cursos para dar
a conocer del aplicativo móvil.

Figura 3 – Ingreso al aplicativo, con el usuario Padre de familia

Debido a la demanda de padres de familia se indico que podían descargarlo por


medio del APPS y luego instalarlo en sus celulares para que puedan interactuar del
uso de ello.

36 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figura 4 – Monitoreo en tiempo real

3.7. Formulas: Criterios de Validación de la Propuesta


Para establecer los criterios de Validación se procedió a realizar una encuesta con la
finalidad de obtener datos acerca de la problemática por la cual está fundamentado este
articulo. De una muestra de 200 padres de familia y 16 profesores que comprenden a los
224 estudiantes de nivel básico hasta 3er año de Bachillerato de la institución educativa
“Ciudad de Ariel” ubicada en la ciudad de Durán, de los cuales se obtendrán los datos
necesarios para el desarrollo del proyecto de una población de 3 337 249 estudiantes de
educación general básica llamada EGB.
. Para el cálculo del tamaño de la muestra se utilizará la siguiente fórmula:

Dónde: N= Tamaño de la población de representantes y docentes a los cuales se les va a


realizar la encuesta.
Z= Nivel de confianza, 1.96 que equivale al 95% de confianza o 2.58 que equivale al 99%
de confianza
σ =Desviación Estándar, valor constante de 0.5.
e= Error muestral, varía entre 1% - 5%, para realizar el cálculo se va a utilizar el 5%.
Calculando el tamaño de la muestra de una población de 200 representantes y 16
docentes de la institución educativa “Ciudad de Ariel” correspondientes a los
estudiantes desde 1er año de educación básica hasta 3er año de Bachillerato, con un
nivel de confianza del 95% se tiene.
Los valores correspondientes para realizar el cálculo de la muestra son:
Representantes

RISTI, N.º E22, 08/2019 37


Aplicación móvil en los ambientes educativos en Ecuador: “Monitoreando tareas y Asistencia en tiempo Real”

N= 420;Z= 1.96;σ = 0.5;e= 0.05; 420 × 0.5 2 × 1.96 2;n =0.05;2(400− 1) + 0.5 2 × 1.96 2
Que dan como resultado:
n= 200 representantes
Por lo tanto, se va a realizar la encuesta a 200 padres de familias de la institución
educativa “Ciudad de Ariel”.
Realizando la misma operación para determinar la muestra de la cantidad del personal
docente a la cual se procederá a realizar la encuesta tenemos los siguientes datos:

N= 17 ;Z= 1.96; σ = 0.5;e= 0.05;17 × 0.5 2 × 1.96 2;n =0.05 2 (17 − 1) + 0.5 2 × 1.96 2
Que dan como resultado:
n= 16 maestros
Por lo tanto, se va a realizar la encuesta a 16 maestros de la institución
educativa “Ciudad de Ariel”.
Entre los aspectos que se evaluaron están:

Disponibilidad. - La información que la aplicación proporciona deberá estará


disponible en cualquier momento en que sea requerida, siempre y cuando esté conectado
en línea y enlazado a internet, ya sea por los representantes de los estudiantes para
controlar las asistencias y tareas de sus representados, o por el 95 personal docente para
realizar los procesos de registro de asistencia y envío de tareas.
Interactividad. - La aplicación brinda una óptima interactividad con el usuario,
permitiéndoles que la experiencia en la utilización del aplicativo sea placentera.
Accesibilidad a la información. - La aplicación permite el acceso a la información
de los estudiantes de forma oportuna y rápida, brindando de esta forma una óptima
accesibilidad a la información que el aplicativo provee.
Veracidad de la información. - La información que la aplicación provee es
exclusivamente proporcionada por la unidad educativa Ciudad de Ariel y generada por
el personal docente de la institución en el caso de las asistencias de los estudiantes.
Satisfacción. – La aplicación brinda satisfacción en cuanto a su rendimiento y por lo
tanto garantiza su operatividad y mantenibilidad. Para obtener información acerca de
los aspectos antes mencionados se realizó una encuesta a los docentes y representantes.
¿Actualmente cuenta usted con un Smartphone (Teléfono Celular que permite acceder
y navegar por internet)?

Figura 5 – Aceptación del uso de smartphone


¿La interfaz de la aplicación es fácil de usar?

38 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figura 6 – Resultado de usabilidad del aplicativo

4. Resultados
Los resultados son obtenidos en base al objetivo planteado al inicio de este articulo.
Se desarrolló el aplicativo interactivo creando funcionalidades para el control de
tareas, asistencia y comunicación. De una muestra de 200 padres de familias que son
los representantes de los 224 estudiantes y 16 maestros que se encontraban como
profesores de la escuela donde en esta investigación y desarrollo permitió demostrar
que por medio del aplicativo los padres lograron monitorear las tareas de sus hijos,
mejorando la comunicación por medio de factores de usabilidad con el 80%, rapidez
89,9% y satisfacción del 70% de manipular el aplicativo móvil.
Estos datos fueron obtenidos en base a la encuesta a los profesores y padres de familias
quienes representan a sus hijos de la escuela Ariel, los usuarios se muestran satisfechos
con la interactividad del aplicativo. A través de la aplicación se automatizan los procesos
educativos de registro de asistencia y envío de tareas para el personal docente, debido a
que ya no es necesario la utilización de hojas de asistencias como lo han venido realizando
en la institución, si no que al hacer uso del módulo de asistencia que la aplicación provee
para los docentes este proceso se realiza más rápido y óptimo.

5. Discusión y Conclusiones
Dentro de la realización de la investigación se encontró 4 aplicaciones similares como
se muestra en la Fig 1 donde se podrá visualizar que el apps que esta desarrollado es
gratuita, que además contiene un módulo creado adicional que no contiene los demás
que es el “Modulo de Asistencia y envío de Tareas”.
A través de la implementación de la aplicación que contiene los módulos para el control
de asistencia, envío de tareas y la mejora de la comunicación que está diseñada para
dispositivos móviles con sistema operativo Android 4.0 o hasta 6.0, que cuenten con
conexiones inalámbricas, el personal docente va a poder realizar la asignación y cambio
de las asistencias de los alumnos que son asignados a cada docente, además de realizar
el envío de tareas a los representantes de los estudiantes, de esta forma permite una
comunicación más óptima entre el personal profesor y los representantes.

Referencias
Arias Chaves, M. (2006). InterSedes: Revista de las Sedes Regionales.
InterSedes: Revista de las Sedes Regionales, 6(10), 141–154. [Link]
org/10.1111/j.1471-0528.2011.03184.

RISTI, N.º E22, 08/2019 39


Aplicación móvil en los ambientes educativos en Ecuador: “Monitoreando tareas y Asistencia en tiempo Real”

Baeza, J. P. (s/f). Investigación sobre la Incorporación de Técnicas Multimedia y


Tecnologías Web a la Educación Colaborativa.
Basantes, A. V, Naranjo, M. E., Gallegos, M. C., Técnica, U., Julio, C. A. De, José, G., &
Córdova, M. (2017). Los Dispositivos Móviles en el Proceso de Aprendizaje de la
Facultad de Educación Ciencia y Tecnología de la Universidad Técnica del Norte
de Ecuador Mobile Devices in the Learning Process of the Faculty of Education
Science and Technology of the Technica, 10, 79–88. [Link]
S0718-50062017000200009
Escudero Nahón, A. (2017). Aportaciones al proceso horizontal de transversalización de
la Educación a Distancia en las instituciones de educación superior. Revista de la
Educacion Superior, 46(182), 57–69. [Link]
García De Ribera, M. C., Bachiller Luque, M. R., Vázquez Fernández, M., Barrio Alonso,
M. P., Del Río López, A. M., Hernández Velázquez, P., & Hernández Vázquez, A.
M. (2014). Educación para la salud en pediatría a través de una aplicación para
teléfonos móviles. Revista de Calidad Asistencial, 29(6), 364–365. [Link]
org/10.1016/[Link].2014.10.004
Jiménez-Saavedra, S.-A. (2014). Tecnología educativa: campos de formación y perfil
diferencial. j Superior. [Link]
Rossi, E. L. (2018). Citación sugerida: Bernal Peralta, J., 7.
Silva Calpa, A. C., & Martínez Delgado, D. G. (2017). Influencia del Smartphone en los
procesos de aprendizaje y enseñanza. Suma de Negocios, 8(17), 11–18. [Link]
org/10.1016/[Link].2017.01.001
Spencer, H., Restrepo, S., Javier, D., & Reyna, W. (s/f). CIE_ResultadosEducativos-
RetosExcelencia201611301.
Suehring, S. (2002). MySQLTM Bible.
Zhao, S., Li, S., Ramos, J., Luo, Z., Jiang, Z., Dey, A. K., & Pan, G. (2019). User profiling
from their use of smartphone applications: A survey. Pervasive and Mobile
Computing, 59, 101052. [Link]

40 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 10/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 19/06/2019

Sistema de Indexación de Documentos


Jurisprudenciales Soportado en Inteligencia
Artificial

Cristian Camilo Ordoñez1, Edier Anchico Silva1, Armando Ordóñez1, Cristian Méndez1,
Hugo Armando Ordoñez2.

[Link]@[Link],ediersilva@[Link],jaordonez@[Link],
[Link]@[Link], hugoordonez@[Link]

1
Intelligent Management Systems – Fundación Universitaria de Popayán, 190001, Popayán, Colombia.
2
Information Technology Research Group (GTI) Universidad del Cauca, 190001, Popayán, Colombia.
Pages: 41–52

Resumen: En Colombia el precedente judicial o Jurisprudencia facilita la toma de


decisiones por parte de los jueces basándose en sentencias anteriores para poder
dar un veredicto. Los profesionales del derecho deben buscar entre un gran número
de documentos las sentencias que ayuden como soporte para sus casos en ejecución
donde se soportan en diferentes motores de búsqueda y aplicaciones para tener los
documentos que puedan solventar las necesidades del caso. En la actualidad el uso
de inteligencia artificial y métodos de procesos de lenguaje natural hace que los
diferentes sistemas sean más agiles a la hora de dar solución a un problema dado,
por lo anterior dentro de este trabajo se propone y evalúa un sistema de búsqueda
de documentos judiciales soportado en inteligencia artificial, desarrollado para
agilizar los procesos de búsqueda y análisis de dichos documentos judiciales, donde
la evaluación de la propuesta obtiene mejores resultados en las diferentes métricas
de evaluación frente al buscador del estado del arte.
Palabras-clave: Recuperación de documentos judiciales; Procesamiento de
lenguaje Natural judicial; Resumen automatizado.

Document Indexing System Jurisprudential Supported in Intelligence


Artificial

Abstract: In Colombia, the judicial precedent or jurisprudence facilitates decision-


making by specific judges in previous judgments in order to give a verdict. Legal
professionals should search through a large number of documents for sentences
that help support their cases in execution where they are supported by different
search engines and applications to have documents that can meet the needs of
the case. At present, the use of artificial intelligence and natural language process
methods makes the different systems more agile when it comes to solving a given
problem. Therefore, within this work a search system is proposed and evaluated.
Judicial documents supported by artificial intelligence, developed to expedite the
processes of search and analysis of said judicial documents, where the evaluation of

RISTI, N.º E22, 08/2019 41


Sistema de Indexación de Documentos Jurisprudenciales Soportado en Inteligencia Artificial

the proposal obtains better results in the different evaluation metrics compared to
the state of the art search engine
Keywords: Recovery of judicial documents; Natural judicial language processing;
Automated summary.

1. Introducción
El sistema legal colombiano reconoce la importancia de la jurisprudencia, entendida
como un conjunto de sentencias dictadas por jueces, que pueden ser usadas como un
precedente legal y una fuente formal de ley. La ley 1437/2011 donde ordena a los jueces
que consideren sentencias anteriores del Consejo de Estado y del tribunal constitucional.
En ésta ley también creó la figura de la “extensión de la jurisprudencia” que ofrece al
ciudadano común la posibilidad de solicitar a las autoridades que tomen decisiones en
un caso basándose en casos anteriores y similares (Segura 2011).
En la práctica, la búsqueda de casos similares anteriores se debe realizar en dos fases: en
primer lugar, es necesario buscar declaraciones (juicios) en casos similares. La búsqueda
se puede hacer usando los motores de búsqueda disponibles en Colombia como lo son
buscador de la corte constitucional (Rama Judicial del Poder Publico 2011), buscador
de la rama judicial (Estado 2015). Estos motores de búsqueda utilizan palabras clave
y concordancia sintáctica, lo que puede resultar en un gran conjunto de resultados.
La segunda fase requiere encontrar el argumento central de cada oración que sirvió
de base para la decisión (Goytisolo 2009). La identificación de documentos requiere
expertos que conozcan el lenguaje técnico legal. En este sentido, aunque existen algunas
herramientas legales para ampliar el acceso a la justicia no existe aún una herramienta
que permita a los expertos generar automáticamente una búsqueda y resumen de estos
documentos en campo judicial.
Varios enfoques han abordado la cuestión del procesamiento de texto automático y
la búsqueda de sentencias (De Colla Furquim and De Lima 2012), (Raghuveer 2012),
(Lu, Qiang y Conrad, Jack G. y Al-Kofahi, Khalid y Keenan 2011), sin embargo, estos
enfoques no son aplicables al contexto legal particular del idioma colombiano y español.
Actualmente, se han desarrollado algunas herramientas tecnológicas cuya efectividad es
aún baja (Wyner, Mochales-palau, and Moens 2010) y existen en curso igualmente, algunas
aproximaciones orientadas al uso del procesamiento de lenguaje natural en ámbitos
legales (Venturi 2010). En este escenario, las tecnologías de recuperación de información
representan una buena aproximación inicial a la solución del problema. En este sentido el
presente trabajo presenta un aplicación basada en modelo de análisis semántico latente
(LSA) para la búsqueda, identificación e indexación de documentos judiciales, además de
resúmenes de documentos basado en TextRank, con esta aplicación se permite mejorar
los procesos judiciales en Colombia donde para entrenar los métodos se creó un dataset
con cerca de 28000 documentos extraídos de los buscadores tradicionales, los resultados
de esta aplicación denominada PRO-LAW muestra la satisfacción de los usuarios a la
hora de generar una jurisprudencia con los documentos generados, además de la mejora
de tiempo en la generación de la indexación de los documentos.
El resto del artículo está organizado de la siguiente manera: la Sección 2 presenta
una información relacionada con los trabajos relacionados. La Sección 3 presenta la

42 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

arquitectura del marco para la indexación de oraciones y la búsqueda de documentos.


La sección 4 presenta la evaluación del sistema por parte de expertos, para finalizar en
la sección 5 presenta las conclusiones y trabajos futuros.

2. Estado del Arte.


Los sistemas de recuperación de documentos jurisprudenciales denominados en la
literatura como retrieval-law son diseñados para encontrar diferentes documentos que
colaboren a procesar de forma ágil los diferentes casos que se llevan las entidades judiciales.
En Colombia existen diferentes aplicaciones para realizar este tipo de búsquedas las cuales
son herramientas que generan búsquedas de manera general utilizando consultas en una
base de datos. La eficacia de estas aplicaciones puede hacer que sea difícil encontrar
documentos correctos para los casos en búsqueda ya que el enfoque explora el contenido
completo de las oraciones, por ello a continuación se establecen trabajos relacionados en
contextos donde se observan diferentes soluciones que pueden resolver este problema.
En 2016 la base de datos oficial de la corte en China registro 19.706.614 documentos
judiciales con un crecimiento diario, una herramienta que gestionara la extracción de
estos datos y su uso por parte de jueces y personas llegadas al tema era necesario; en
(Kim, Kim, and Cho 2017) desarrolla un sistema de consulta legal para China el cual
se basó en algoritmos genéticos y aproximaciones de tipo k-nearest neighbours (KNN),
dando gran importancia a elementos y características legales de este país, la importancia
de la semántica fue esencial para el proceso de creación, esto significa que la más usada
era tomada mientras la más ambigua era desechada, esto facilito el mejor uso de los
recursos y mayor velocidad en las respuestas sin perder la forma.
(Boella et al. 2016), (Papastefanatos 2016), trabajo sobre ontología jurídica para poder
dar solución a la gran cantidad de elementos jurídicos a nivel internacional, el trabajo de
esta empresa se basó en identificar diferentes formas de cómo se dan las leyes, como se
interpretan y como se toman a nivel jurídico y su contexto, para este software se hace uso
de la categorización según el país, esto para poder categorizar cada una de las leyes según su
contenido en una base de datos por medio de etiquetado y así poder ubicarlos posteriormente.
De igual manera (Zhang et al. 2017) (Ma, Zhang, and Ma 2018) mediante el uso de
semántica y la estructura de la documentación fue de gran importancia para poder dar
solución al problema de recuperación de documentos judiciales dejando a cargo una sola
herramienta de categorización y agrupamiento KNN, la recurrencia de los escritos sobre
la forma de las leyes cambian y su debida interpretación deja ver la importancia sobre la
semántica, el contexto, y demás temas relacionados con las culturas como se puede ver
en el software EUNOMOS.
En (Chou and Hsing 2010; Wang et al. 2017)the huge amount of law cases and judgment
documents, which were digital stored, has provided a good foundation for the research
of judicial big data and machine learning. In this situation, some ideas about Chinese
courts can reach automation or get better result through the research of machine
learning, such as similar documents recommendation, workload evaluation based on
similarity of judgement documents and prediction of possible relevant statutes. In
trying to achieve all above mentioned, and also in face of the characteristics of Chinese
judgement document, we propose a topic model based approach to measure the text

RISTI, N.º E22, 08/2019 43


Sistema de Indexación de Documentos Jurisprudenciales Soportado en Inteligencia Artificial

similarity of Chinese judgement document, which is based on TF-IDF, Latent Dirichlet


Allocation (LDA trabajó una metodología de clasificación, agrupación y búsqueda de
documentos basada en redes neuronales, el cual se evalúa en diferentes casos para
administrar escritos de juicios criminales de manera ordenada y eficiente, donde la
validación de este sistema de agrupación mejora la búsqueda del buscador evaluado en
las diferentes métricas evaluadas.
Presentando los antecedentes, esta propuesta realizada una búsqueda innovadora
implementando modelos de inteligencia artificial (IA) y procesamiento de lenguaje
natural (PNL) para la realización de búsquedas como la extracción de resúmenes, ya que
en lo anteriormente expuesto no se observa que se realicen e implementen estos enfoques
que generan un aporte a estos sistemas de recuperación de documentos basados en leyes.

3. Propuesta del Sistema


En la actualidad, se han desarrollado algunas herramientas tecnológicas como solución
a la problemática mencionada, estas incorporan en su gran mayoría modelos de espacio
vectorial (SVM), de igual manera existen herramientas del ámbito judicial orientadas
al uso del procesamiento de lenguaje natural (Venturi 2010). En este escenario, las
tecnologías de recuperación de información representan una buena aproximación
inicial a la solución del problema. Los sistemas de recuperación de documentos
jurisprudenciales se componen por tareas de búsqueda, recomendación, consulta
de información, clasificación de resultados, almacenamiento de la información,
incorporación de resúmenes, clasificación de documentos en grupos pre definidos y
agrupamiento de documentos en conjuntos definidos a partir del análisis automático
del contenido del documento (Vester and Martiny 2005). A continuación, se presentan
los elementos que fueron utilizados para el diseño de la propuesta.

3.1. Vista descomposición de Módulos.

Ilustración 1 – Arquitectura de la aplicación.

44 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

3.1.1. Analizador de Juicios Jurisprudenciales


Este módulo está conformado por tres componentes principales, los cuales se detallan
a continuación.

[Link]. Scraper
La plataforma utiliza una herramienta web para extraer documentos estructurados de
enlaces y descripciones de juicios jurisprudenciales publicados en el sitio web de la corte
constitucional de Colombia. Concretamente, este módulo fue desarrollado usando la
API de SCRAPY el cual entra a la página web de la corte suprema de justicia y extrae uno
a uno hasta extraer el último elemento documento, estos documentos son alojándolos
dentro de la base de datos.

[Link]. Generador de Resúmenes


Este módulo crea resúmenes de 300 palabras para cada documento jurisprudencial, para
ayudar al usuario a tener una mayor idea sobre el tema de los documentos que pueden
ayudar a resolver su caso (Barrios et al. 2016). TEXTRANK consiste en una extensión del
algoritmo PAGERANK que posibilita el procesamiento de grafos ponderados, donde la
importancia de un nodo no dependerá tan solo del número de nodos que se relacionen
con él, sino también el número de repeticiones de las relaciones entre nodos el cual
contiene las siguientes características:

 (Ecuación 1)

donde es el peso de la arista que va desde el nodo hasta el nodo .


En la Ecuación 1 tomado de (Cruz, Troyano, and Enríquez 2006) se observa modelo
grafico calculado para resumir un texto aplicando TEXTRANK en un esquema no
supervisado. En el grafo que se construye, cada nodo representa una frase del texto del
documento de jurisprudencia y las aristas representan la relación entre las distintas
frases del texto. La forma en que ponderan las aristas se determina mediante el calculó
promedio de palabras comunes de las frases de cada arista. Una vez obtenido el grafo, se
aplica el algoritmo TEXTRANK donde genera las frases ordenadas del texto, tomando
los N nodos con mejor promedio, obteniendo las N frases más importantes del texto.

[Link]. LSA Modelador


Este módulo crea tres modelos útiles para el entrenamiento del algoritmo LSA y el
funcionamiento de la API REST. Este es encargado de procesar, analizar y generar
los modelos utilizando del repositorio de documentos previamente construido. Estos
modelos son los componentes principales del sistema que permite indexar las consultas
de los usuarios los cuales son: modelo DICCIONARIO, modelo LSA, modelo INDEX
(Kherwa and Bansal 2017).

RISTI, N.º E22, 08/2019 45


Sistema de Indexación de Documentos Jurisprudenciales Soportado en Inteligencia Artificial

3.1.2. Recuperador de Sentencias Jurisprudenciales


Este módulo es el responsable de interpretar las consultas del usuario final y
transformarlas mediante el modelo LSA, generado a partir de la base de conocimiento
de las 28.000 sentencias extraídas, con el fin de encontrar los documentos indexados
que más se aproximen a la consulta del usuario para ser retornados, para que el usuario
pueda seleccionar la que más se ajuste a sus necesidades de información.

[Link]. API REST


Este módulo recibe la consulta del usuario y retorna el conjunto de documentos relevantes
organizados en orden de relevancia en formato JSON, utilizando el framework Flask
escrito en Python.

[Link]. Algoritmo de Búsqueda


Esta modulo recibe las consultas del usuario de parte del módulo API REST y se conecta
con otros módulos que son: INDEXER y emparejador de sentencias, para retornar los
documentos más relevantes a dicha consulta en formato JSON, el procedimiento se
describe a continuación:
•• Paso 1: Con la herramienta Scrapy se procede a capturar todas las tutelas
disponibles en la página [Link]
(Constitucional 2015) que contiene 28000 documentos, se define las etiquetas
css en la herramienta Scrapy para que esta busque y extraiga la información del
link del documento al que se desea ir.
•• Paso 2: Cada documento encontrado se almacena en el repositorio de
documentos, en una base de datos MySQL.
•• Paso 3: Se procede al procesamiento del texto de todos los documentos del
repositorio (conjunto de entrenamiento) este arreglo contiene solo el texto de
cada documento, luego se recorre cada documento para detectar y eliminar
palabras vacías, después de esto las palabras se convierten a minúsculas, se
eliminan los acentos y números, además se eliminan las palabras repetidas por
documento, por ultimo tokeniza las palabras resultantes del anterior proceso.
Después de hacer todo el procesamiento en todo el arreglo de documentos se
crea una matriz donde las filas son los documentos y las columnas son cada
palabra (token). Seguido a ello se crea el modelo DICCIONARIO, este asigna
una ID(entero) para cada palabra y crea un diccionario de términos que
consiste en un conjunto de tuplas con ID y palabra, esto sirve para un mayor
procesamiento a nivel de hardware, ya que el procesamiento de números a texto
es más eficiente, seguido a ello el modelo es almacenado para poder utilizar en
otras consultas.
•• Paso 4: Lo siguiente es crear un corpus (bolsa de palabras) que recibe como
parámetro la matriz documentos * palabras(token) y el modelo diccionario.
El corpus representa los términos que son las palabras convertidas a token
que anteriormente fueron extraídas del procesamiento de texto frente a los

46 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

documentos, donde una matriz contiene los números que representa cuantas
veces la palabra se repite en un documento (De Jorge-Botana 2010)
•• Paso 5: Una vez generado el corpus, este se normaliza utilizando el algoritmo
TF-IDF. Este algoritmo funciona buscando el número de veces que una palabra
ha ocurrido en el documento o una frecuencia de palabras en un documento.
Su dominio permanece local al documento. La frecuencia de documentos es la
fracción de documentos en los que se ha producido la palabra. Se calcula en base
a las estadísticas recopiladas de todo el corpus.
•• Paso 6: LSA recibe como parámetros el corpus normalizado(TF-IDF), el
diccionario y el número k (números de temas). El algoritmo empieza a entrenarse,
obteniendo 3 matrices que fueron creadas utilizando las descomposiciones de
vectores singulares(SVD) con una dimensionalidad k, este modelo se almacena
para poderse utilizar después. El modelo INDEX recibe como parámetros el corpus
normalizado(TF-IDF), el modelo LSA, el modelo diccionario, después indexa todos
los documentos para poder hacer consultas de similitud de coseno encontrando el
documento que más se acerque a la búsqueda realizada por el usuario.

3.1.3. Capa de Procesamiento de Datos


Es módulo define las políticas de gestión de datos del sistema, para lo cual se soporta en
dos componentes principales.

[Link]. Repositorio de Documentos


Este componente se encarga de almacenar los documentos generados en la extracción
de las sentencias jurisprudenciales por parte del SCRAPER. Esto se realiza con el fin de

Figura 1 – Proceso de Búsqueda de la Propuesta

RISTI, N.º E22, 08/2019 47


Sistema de Indexación de Documentos Jurisprudenciales Soportado en Inteligencia Artificial

poder generar posteriormente el modelo que representa la estructura semántica oculta


de las sentencias, las cuales nos permitirá comprender la distribución de temas y así
encontrar las sentencias de mayor relevancia a una consulta.

[Link]. Repositorio de modelos


Este módulo almacena los tres modelos generados en el modelador LSA; es decir, los
términos DICCIONARIO, el modelo LSA y el INDEX.
•• Modelo DICCIONARIO: Tiene almacenado todas las palabras tokenizadas
con su id, este tiene la función de convertir las consultas del usuario(texto).
•• modelo LSA: Guarda todas las matrices que fueron creadas utilizando
descomposición en valores singulares (SVD), su función es convertir un vector
mapeado del modelo diccionario a un vector LSA.
•• El modelo INDEX: Guarda una matriz indexada de documentos. Su función
es retornar una matriz de longitud (documentos) donde su primera columna
es el index del documento y la segunda es la similitud que varía entre -1 y 1,
respecto a una consulta(texto) que está convertida a un espacio LSA.

4. Evaluación de sistema.
Esta sección describe y determina la calidad de los resultados de la evaluación del
buscador propuesto, a comparación de los buscadores de la corte suprema de justicia,
esta evaluación se divide en 2 pasos donde a) Evaluación interna de los resultados
obtenidos, b) Satisfacción del usuario frente a los resultados obtenidos en las búsquedas.
A.) Evaluación Interna
En esta fase los resultados obtenidos por parte del buscador PRO-LAW son comparados
con los resultados de la evaluación del buscador de la corte constitucional, para esta
evaluación se contó con 46 evaluadores expertos divididos entre estudiantes de
derecho, profesionales del derecho, los perfiles de los evaluadores se pueden observar
en la Tabla 1
Universidad Profesional Estudiante

Fundación Universitaria de Popayán 9 6

Universidad del cauca 8 3

Universidad Mariana 6 4

Universidad Cooperativa 7 3

Total 30 16

Tabla 1 – Perfiles de Evaluadores

Adicionalmente a la Comparación con la evaluación de los buscadores se evaluó la


calidad de los resultados obtenidos en la ejecución de consultas a partir de la aplicación
de medidas estadísticas utilizadas en evaluación de sistemas de recuperación de
información (Manning, Raghavan, and Schütze 2008), estas medidas son Precisión

48 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

(P), Recall (R), Medida F (MF). La Figura 2 presenta los resultados determinados en
las diferentes métricas por el buscador propuesto PRO-LAW en la búsqueda de 3 casos
dados por expertos en leyes. Los resultados de la evaluación de P, R, MF en la búsqueda
de los casos se describen a continuación.
La Figura 2 presenta el nivel de precisión generada por el buscador propuesto en
la búsqueda de los diferentes casos. Los resultados de P para el caso de búsqueda
número 1 demuestran que el 78% de los evaluadores aseguran que PRO-LAW genera
mejor precisión a la hora de encontrar documentos para solucionar el caso 1 de igual
manera para el caso 2 y 3 el buscador genera búsquedas más precisas con un 83% y 91%
respectivamente en comparación al buscador de la corte donde el 22% aprueba precisión
en el caso 1, 17% para el caso número 2 y 9% para el caso número 3.

Figura 2 – Evaluación Interna

B) Satisfacción Del Usuario


Para esta sección se describe y pregunta al usuario si los resultados entregados por el
buscador propuesto PRO-LAW y la Buscador de la Corte son adecuados y útiles a la hora
de solucionar los casos previamente evaluados, por ello se identificó cuantos usuarios
están de acuerdo con los resultados obtenidos.
En la Figura.3 se observa que en la pregunta 1 ¿Los resultados del buscador son
relevantes y adecuados para resolver un caso en particular? el 91% de los evaluadores
aseguran que el modelo de búsqueda propuesto genera resultados adecuados para
resolver el caso evaluado, esto significa que los resultados obtenidos ayudan y
contribuyen a los expertos en el tema a solucionar los casos evaluados. Por otra parte, en
la pregunta 2 ¿Qué plataforma genera un resumen adecuado a la búsqueda realizada?
el 89% aprueba el resumen generado por la plataforma PRO-LAW donde solo el 11%
de los evaluadores creen que el resumen dado por la propuesta no genera un resumen
adecuado, estas preguntas de satisfacción de usuario se realizan para identificar las
cualidades y debilidades de los buscadores evaluados.

RISTI, N.º E22, 08/2019 49


Sistema de Indexación de Documentos Jurisprudenciales Soportado en Inteligencia Artificial

Figura 3 – Consenso de resultados.

5. Conclusiones y Trabajos Futuros.


Este trabajo desarrolla una plataforma para realizar búsqueda y resúmenes de documentos
para resolver casos de jurisprudencia soportado en inteligencia artificial, esta se evalúa
con la plataforma de la corte constitucional en diferentes medidas del estado del arte
como también preguntas de satisfacción de usuario, donde se determina que la propuesta
genera mejores resultados en las diferentes métricas y preguntas realizadas.
Se determina que la plataforma genera una respuesta a las búsquedas eficientemente
donde entre más palabras claves ingrese el usuario la búsqueda será más precisa, además,
el resumen generado es acorde a la necesidad de las búsquedas planteadas por el usuario.
Se debe destacar que esta herramienta solamente tiene documentos de la corte
constitucional, ya que existen otras cortes que para este desarrollo no se tuvieron en
cuenta, como trabajo futuro se espera incorporar recomendaciones a la hora de generar
una búsqueda todo ello para mejorar los procesos de búsqueda, se determina realizar
una evaluación con diferentes buscadores del estado del arte basados en leyes con el
fin de comparar los métodos incorporados en la propuesta PRO-LAW en diferentes
métricas de referencia, además de utilizar datasets de prueba, todo ello para identificar
fortalezas y debilidades de la propuesta como en los buscadores del estado del arte.

Referencias
Barrios, Federico, Federico López, Luis Argerich, and Rosa Wachenchauzer. 2016.
“Variations of the Similarity Function of TextRank for Automated Summarization.”
Universidad de Buenos Aires 1–8.
Boella, Guido et al. 2016. “Eunomos, a Legal Document and Knowledge Management
System for the Web to Provide Relevant, Reliable and up-to-Date Information on
the Law.” Artificial Intelligence and Law 24(3):245–83. Retrieved ([Link]
org/10.1007/s10506-016-9184-3).

50 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Chou, Shihchieh and Tai-Ping Hsing. 2010. “Text Mining Technique for Chinese Written
Judgment of Criminal Case.” Pp. 113–25 in Intellgence and Security Informatics,
edited by H. Chen et al. Berlin, Heidelberg: Springer Berlin Heidelberg.
De Colla Furquim, Luis Otávio and Vera Lúcia Strube De Lima. 2012. “Clustering
and Categorization of Brazilian Portuguese Legal Documents.” Pp. 272–83 in
Computational Processing of the Portuguese Language, vol. 7243, edited by F.
Caseli, Helena and Villavicencio, Aline and Teixeira, António and Perdigão. Springer
Berlin Heidelberg.
Constitucional, Corte. 2015. “Corte Contitucional.” Ministerio de Justicia y Del Derecho
Colombia. Retrieved ([Link]
Cruz, Fermín, José A. Troyano, and Fernando Enríquez. 2006. “Supervised TextRank.”
Pp. 632–39 in Advances in Natural Language Processing, edited by T. Salakoski, F.
Ginter, S. Pyysalo, and T. Pahikkala. Berlin, Heidelberg: Springer Berlin Heidelberg.
Estado, Consejo de. 2015. “Consejo de Estado.” Consulta de Jurisprudencia. Retrieved
([Link]
Goytisolo, J. V. 2009. “El Razonamiento Judicial.” Anales de La Real Academia de
Jurisprudencia y Legislación 39tn editi(Dykinson, Ed.).
De Jorge-Botana, Guillermo. 2010. “La Técnica Del Análisis de La Semántica Latente
(LSA/LSI) Como Modelo Informático de La Comprensión Del Texto y El Discurso.”
UNIVERSIDAD AUTONOMA DE MADRID 1–447.
Kherwa, Ms Pooja and Poonam Bansal. 2017. “Latent Semantic Analysis : An Approach to
U Nderstand Semantic of Text.” 2017 International Conference on Current Trends
in Computer, Electrical, Electronics and Communication (CTCEEC) 870–74.
Kim, Han Kyul, Hyunjoong Kim, and Sungzoon Cho. 2017. “Neurocomputing Bag-of-
Concepts : Comprehending Document Representation through Clustering Words
in Distributed Representation.” Neurocomputing 266:336–52.
Lu, Qiang y Conrad, Jack G. y Al-Kofahi, Khalid y Keenan, William. 2011. “Agrupación
de Documentos Legales Con Segmentación de Tema Incorporada.” Pp. 383--392 in
Actas de la 20a Conferencia Internacional ACM sobre Gestión de la Información
y el Conocimiento.
Ma, Y., P. Zhang, and J. Ma. 2018. “An Ontology Driven Knowledge Block Summarization
Approach for Chinese Judgment Document Classification.” IEEE Access 6:71327–38.
Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schütze. 2008.
“Introduction to Information Retrieval.” Journal of the American Society for
Information Science and Technology 1:496.
Papastefanatos, George. 2016. “Towards Automatic Structuring and Semantic Indexing
of Legal Documents.” in in Proc. PCI, Patras, Greece.
Raghuveer, avi Kumar V. y K. 2012. “Agrupación de Documentos Legales Mediante La
Asignación de Dirichlet Latente.” Revista Internacional de Sistemas de Información
Aplicados 2(6):27–33.

RISTI, N.º E22, 08/2019 51


Sistema de Indexación de Documentos Jurisprudenciales Soportado en Inteligencia Artificial

Rama Judicial del Poder Publico. 2011. “Sistema de Consulta de Jurisprudencia.”


Consulta Temática Simultánea En Las Altas Corporaciones. Retrieved (http://
[Link]/WebRelatoria/consulta/[Link]).
Segura, Mario Ricardo. 2011. “PRECEDENTE JURISPRUDENCIAL VS UNIFICACIÓN
JURISPRUDENCIAL.” Ministerio de Justicia y Del Derecho Colombia.
Venturi, Giulia. 2010. “Legal Language and Legal Knowledge Management Applications.”
Lecture Notes in Artificial Intelligence.
Vester, Kenneth Lolk and Moses Claus Martiny. 2005. INFORMATION RETRIEVAL IN
DOCUMENT SPACES USING CLUSTERING.
Wang, Yue et al. 2017. “Topic Model Based Text Similarity Measure for Chinese Judgment
Document.” Pp. 42–54 in Data Science, edited by B. Zou et al. Singapore: Springer
Singapore.
Wyner, Adam, Raquel Mochales-palau, and Marie-francine Moens. 2010. “Approaches
to Text Mining Arguments from Legal Cases.”
Zhang, N., Y. Pu, S. Yang, J. Zhou, and J. Gao. 2017. “An Ontological Chinese Legal
Consultation System.” IEEE Access 5:18250–61.

52 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 05/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 29/06/2019

Análisis de accesibilidad web de las universidades y


escuelas politécnicas del Ecuador aplicando la norma
NTE INEN ISO/IEC 40500:2012

Milton Campoverde-Molina1, Sergio Luján-Mora2, Llorenç Valverde3

mcampoverde@[Link], [Link]@[Link], lvalverde@[Link]

1
Unidad Académica de Tecnologías de la Información y la Comunicación Universidad Católica de Cuenca,
Vargas Machuca 6-50, 010107, Cuenca, Ecuador.
2
Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante, 03690, San Vicente del
Raspeig, España.
3
Universitat de les Illes Balears, Departament de Matemàtiques i Informàtica, carretera de Valldemossa km
7.5, 07122 Palma de Mallorca, España.
Pages: 53–68

Resumen: Este artículo revela el análisis de accesibilidad de 55 portales web de


las universidades y escuelas politécnicas del Ecuador. La Web es un recurso cada
vez más importante en muchos aspectos de la vida: educación, empleo, gobierno,
comercio, salud, recreación y más. A pesar de la importancia de la accesibilidad web,
su cumplimiento en los portales web de las universidades es limitado en Ecuador.
El propósito de esta investigación es evaluar la accesibilidad de los portales web
de las universidades del Ecuador con la norma NTE INEN-ISO/IEC 40500:2012,
un nivel de conformidad AA y analizar su cumplimiento normativo. El análisis se
realizó con las herramientas en línea Examinator, AccessMonitor, TAW y TENON.
De las 220 páginas web analizadas ninguna cumple con la norma NTE INEN-ISO/
IEC 40500:2012. Las universidades deben emprender proyectos de accesibilidad
web para su cumplimiento normativo.
Palabras-clave: Accesibilidad web; Discapacidad; Educación; Inclusión
educativa; NTE INEN ISO/IEC 40500:2012; WCAG 2.0.

Web Accessibility Analysis of the Universities and Polytechnic Schools


of Ecuador applying the standard NTE INEN ISO/IEC 40500:2012

Abstract: This article reveals the accessibility analysis of 55 web portals of


universities and polytechnic schools in Ecuador. The Web is an increasingly
important resource in many aspects of life: education, employment, government,
commerce, health, recreation and more. Despite the importance of web
accessibility, compliance in university web portals is limited in Ecuador. The
purpose of this research is to evaluate the accessibility of the web portals of the
universities of Ecuador with the NTE INEN-ISO/IEC 40500:2012 standard, a
level of AA conformity and to analyze its normative fulfillment. The analysis was

RISTI, N.º E22, 08/2019 53


Análisis de accesibilidad web de las universidades y escuelas politécnicas del Ecuador aplicando la norma

performed with the online tools Examinator, AccessMonitor, TAW and TENON. Of
the 220 web pages analyzed, none comply with NTE INEN-ISO/IEC 40500:2012.
Universities must undertake web accessibility projects for regulatory compliance.
Keywords: Web accessibility; Disability; Education; Educational inclusion; NTE
INEN ISO/IEC 40500:2012; WCAG 2.0.

1. Introducción
La accesibilidad web significa que las personas con algún tipo de discapacidad puedan
hacer uso de la Web en las mismas condiciones que el resto de las personas. Al hablar
de accesibilidad web se está haciendo referencia a un diseño que permita a personas con
discapacidad percibir, entender e interactuar con la página o sitio que está navegando.
La accesibilidad web también beneficia a otras personas, incluyendo personas de edad
avanzada que han visto mermadas sus habilidades a consecuencia de los años. Una
web accesible proporciona un acceso equitativo con igualdad de oportunidades a las
personas con discapacidad para participar más activamente en la sociedad (World Wide
Web Consortium, 2019).
La ISO/IEC 40500:2012 (International Organization for Standardization, 2012) es igual
a las Pautas de Accesibilidad para el Contenido Web (WCAG) 2.0, las cuales cubren
una amplia gama de recomendaciones para hacer más accesible el contenido de la Web.
Seguir estas directrices hará que el contenido sea accesible a personas con discapacidades,
incluyendo ceguera y baja visión, sordera y pérdida auditiva, discapacidades de
aprendizaje, limitaciones cognitivas, limitaciones de movimiento, discapacidades del
habla, fotosensibilidad y combinaciones de éstas. Seguir estas pautas también hará que
el contenido de su sitio web sea más usable para los usuarios en general. Los sitios, las
tecnologías o las herramientas que no cumplan con estándares pueden crear barreras
que excluyen a las personas del uso de la Web.
Ecuador, al igual que otros países, ha adoptado la norma ISO/IEC 40500:2012 (Servicio
Ecuatoriano de Normalización, 2014). Para dar seguimiento al cumplimiento obligatorio
en el Ecuador de la norma NTE INEN-ISO/IEC 40500:2012, se crea el reglamento
técnico ecuatoriano RTE INEN 288 “Accesibilidad para el contenido web” que entró
en vigor el 8 de agosto de 2016 (Servicio Ecuatoriano de Normalización, 2016). Este
reglamento se aplica a los contenidos publicados en los sitios web del sector público
y privado que presten servicios públicos. En su segunda transitoria, este reglamento
establece que, hasta el 8 de agosto de 2020, todos los sitios web ecuatorianos que
presten un servicio público deben ser accesibles WCAG 2.0 nivel AA. Conforme la
WCAG 2.0 existen tres niveles de conformidad y 61 criterios de éxito que las páginas
web deben cumplir A (25 criterios de éxito), AA (13 criterios de éxito) y AAA (23 criterios
de éxito). Las instituciones públicas y privadas de la República del Ecuador junto con los
desarrolladores web deben acoger e implementar el reglamento para permitir un acceso
universal a la Web. Además, hasta el momento no se ha actualizado la normativa en
Ecuador, pero es posible que lo haga en el futuro con las WCAG 2.1 (World Wide Web
Consortium, 2018a).
La educación está en un proceso evolutivo que va ajustándose a leyes, reglamentos y
nuevas exigencias en la enseñanza-aprendizaje. Un aspecto clave es conseguir la inclusión

54 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

y participación de todas las personas en el entorno educativo, tal como se requiere en el


artículo 24 Educación de la Convención de las Naciones Unidas sobre los Derechos de
las Personas con Discapacidad (CDPD) (United Nations, 2006). Para lo cual, los portales
web universitarios también deben dar cumplimiento a lo establecido en el reglamento
técnico ecuatoriano RTE INEN 288. Los administradores de los sitios web deben aplicar
la normativa vigente de accesibilidad para que cualquier persona pueda hacer uso de sus
portales web.
La Web (World Wide Web Consortium, 2019) es un recurso cada vez más importante
en muchos aspectos de la vida: educación, empleo, gobierno, comercio, salud,
recreación y más. Es esencial que la Web sea accesible para proporcionar igualdad
de acceso e igualdad de oportunidades a las personas con capacidades diversas. El
acceso a las tecnologías de la información y las comunicaciones, incluida la Web, se
define como un derecho humano básico en la CDPD. La Web ofrece la posibilidad de
un acceso sin precedentes a la información y a la interacción para muchas personas
con discapacidad. La accesibilidad apoya la inclusión social de las personas con
discapacidad. Según las estadísticas publicadas por el Consejo Nacional para la
Igualdad de Discapacidades (CONADIS) con información del Ministerio de Salud
Pública de las personas registradas con discapacidad en el Ecuador hasta abril 2019
(Consejo Nacional para la Igualdad de Discapacidades, 2019) se tiene 460,586
personas registradas con discapacidad en Ecuador.
A pesar de la importancia de la accesibilidad web, su cumplimiento en los portales web
de las universidades y escuelas politécnicas es limitado en Ecuador. El propósito de esta
investigación es evaluar la accesibilidad de los portales web de las universidades del
Ecuador con la norma NTE INEN-ISO/IEC 40500:2012, un nivel de conformidad AA y
analizar su cumplimiento normativo. Con este fin, buscamos respuestas a las siguientes
preguntas: ¿Qué portales web de las universidades del Ecuador cumplen con la norma
NTE INEN-ISO/IEC 40500:2012 con un nivel de conformidad AA? ¿Cuál es la media de
errores en los portales web de las universidades del Ecuador?
En cuanto a la estructura y contenido del artículo, en la sección 2 se presentan los
conceptos relacionados con la investigación. En la sección 3 la revisión de diferentes
fuentes bibliográficas de experiencias y resultados de investigaciones de accesibilidad
web. En la sección 4 se detalla la metodología utilizada para desarrollar esta investigación.
En la sección 5 se muestran los resultados de accesibilidad de los portales web de las
universidades del Ecuador y su cumplimiento normativo. En la sección 6 se establecen
las conclusiones de acuerdo a los resultados obtenidos.

2. Conceptos relacionados

2.1. NTE INEN-ISO/IEC 40500:2012


Las NTE INEN-ISO/IEC 40500:2012 tiene 12 directrices que están organizadas bajo 4
principios: perceptibles, operables, comprensibles y robustos. Para cada directriz, hay
criterios de éxito comprobables, que se encuentran en tres niveles A, AA y AAA (World
Wide Web Consortium, 2018b):

RISTI, N.º E22, 08/2019 55


Análisis de accesibilidad web de las universidades y escuelas politécnicas del Ecuador aplicando la norma

1. Principio 1 – Perceptible: la información y los componentes de la interfaz


de usuario deben ser mostrados a los usuarios en formas que ellos puedan
entender.
••Directriz 1.1 – Texto alternativo: proporciona texto alternativo para el
contenido que no sea textual, así podrá ser transformado en otros formatos
que la gente necesite, como caracteres grandes, lenguaje braille, lenguaje
oral, símbolos o lenguaje más simple.
•• Directriz 1.2 – Contenido multimedia dependiente del tiempo:
proporcione alternativas sincronizadas para contenidos multimedia
sincronizados dependientes del tiempo.
•• Directriz 1.3 – Adaptable: crear contenido que pueda ser presentado de
diferentes formas sin perder ni información ni estructura.
•• Directriz 1.4 – Distinguible: facilitar a los usuarios ver y escuchar el
contenido incluyendo la distinción entre lo más y menos importante.
2. Principio 2 – Operable: los componentes de la interfaz de usuario y la
navegación debe ser manejable.
••Directriz 2.1 – Teclado accesible: poder controlar todas las funciones
desde el teclado.
•• Directriz 2.2 – Tiempo suficiente: proporciona tiempo suficiente a los
usuarios para leer y utilizar el contenido.
•• Directriz 2.3 – Ataques epilépticos: no diseñar contenido que pueda
causar ataques epilépticos.
•• Directriz 2.4 – Navegación: proporciona formas para ayudar a los
usuarios a navegar, a buscar contenido y a determinar dónde están estos.
3. Principio 3 – Comprensible: la información y las operaciones de usuarios
deben ser comprensibles.
••Directriz 3.1 – Legible: hacer contenido de texto legible y comprensible.
••Directriz 3.2 – Previsible: hacer la apariencia y la forma de utilizar las
páginas web previsibles.
•• Directriz 3.3 – Asistencia a la entrada de datos: los usuarios de
ayuda evitarán y corregirán errores.
4. Principio 4 – Robustez: el contenido deber ser suficientemente robusto para
que pueda ser bien interpretado por una gran variedad de agentes de usuario,
incluyendo tecnologías de asistencia.
•• Directriz 4.1 – Compatible: maximiza la compatibilidad con los agentes
de usuario actuales y futuros, incluyendo tecnologías de asistencia.

2.2. Niveles de conformidad


Los niveles de conformidad son tres (World Wide Web Consortium, 2008):
•• Nivel A: para lograr la conformidad con el nivel A (el nivel mínimo de
conformidad), la página web cumple con todos los criterios de éxito del nivel A,
o se proporciona una versión alternativa conforme.

56 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

•• Nivel AA: para lograr la conformidad con el nivel AA, la página web satisface
todos los criterios de éxito de nivel A y nivel AA, o se proporciona una versión
alternativa que cumple con el nivel AA.
•• Nivel AAA: para lograr la conformidad con el nivel AAA, la página web satisface
todos los criterios de éxito de nivel A, nivel AA y nivel AAA, o se proporciona una
versión alternativa que cumple con el nivel AAA.
En la Figura 1, se presentan los criterios de éxito, con sus niveles de conformidad por
cada uno de los principios de la WCAG 2.0.

2.3. Normativas de accesibilidad web en Ecuador


El 28 de enero de 2014 el Instituto Ecuatoriano de Normalización publicó en el registro
oficial No 171 la aprobación de la norma NTE INENISO/IEC 40500 “Tecnología de la
información – Directrices de accesibilidad para el contenido web del W3C (WCAG)
2.0 (ISO/IEC 40500:2012, IDT)” (Servicio Ecuatoriano de Normalización, 2014). El
10 de febrero de 2016, el servicio Ecuatoriano de Normalización publicó el Reglamento
Técnico Ecuatoriano RTE INEN 288 “Accesibilidad para el contenido web” (Servicio
Ecuatoriano de Normalización, 2016). Este reglamento entró en vigor el 8 de agosto de
2016 y establece: i) aplica a los contenidos web publicados en los sitios web del sector
público y privado que presten servicios públicos, ii) se debe satisfacer por completo
el nivel de conformidad AA, establecido en la norma NTE INEN-ISO/IEC 40500,
esta norma es una traducción exacta de WCAG 2.0, iii) por último, se incluyen dos
disposiciones transitorias sobre el plazo para cumplir con el reglamento y la norma:

Figura 1 – WCAG 2.0 Map (Stamford Interactive, 2012).

RISTI, N.º E22, 08/2019 57


Análisis de accesibilidad web de las universidades y escuelas politécnicas del Ecuador aplicando la norma

•• Transitoria Primera: los propietarios de los sitios web a los que se aplica
este reglamento técnico tendrán un plazo de 2 años para adecuar sus sitios web
existentes al momento de entrar en vigencia el reglamento de acuerdo al nivel
de conformidad A de la norma NTE INEN vigente. El 8 de agosto de 2018, todos
los sitios web ecuatorianos que presten un servicio público deben ser accesibles
WCAG 2.0 nivel A.
•• Transitoria Segunda: los propietarios de los sitios web a los que se aplica
este reglamento técnico tendrán un plazo de 4 años para adecuar sus sitios web
existentes al momento de entrar en vigencia el reglamento de acuerdo al nivel
de conformidad AA. de la norma INEN vigente. El 8 de agosto de 2020, todos
los sitios web ecuatorianos que presten un servicio público deben ser accesibles
WCAG 2.0 nivel AA.
Además, el Reglamento Técnico Ecuatoriano RTE INEN 288 “Accesibilidad
para el contenido web” (Servicio Ecuatoriano de Normalización, 2016) emite un
Régimen de Sanciones: el propietario del sitio web que incumpla con lo establecido
en este reglamento técnico recibirá las sanciones previstas en la Ley No. 2007-76
del Sistema Ecuatoriano de la Calidad, Ley Orgánica de Comunicación y demás
leyes vigentes.

2.4. Herramientas de evaluación de accesibilidad web en línea


Las herramientas de evaluación de accesibilidad web son programas de software o
servicios en línea que ayudan a determinar si el contenido web cumple con las directrices
de accesibilidad (World Wide Web Consortium, 2006). A veces, las herramientas
de evaluación pueden producir resultados falsos o engañosos. Las herramientas de
evaluación de accesibilidad web no pueden determinar la accesibilidad ellas solas, solo
ayudan a la evaluación que realice un experto en accesibilidad web (World Wide Web
Consortium, 2017).

2.4.1. Examinator
Examinator1 es un servicio en línea para evaluar de modo automático la accesibilidad de
una página web, usando como referencia algunas técnicas recomendadas por las WCAG
2.0. Adjudica una puntuación entre 1 y 10 como un indicador rápido de la accesibilidad
de las páginas y proporciona un informe detallado de las pruebas realizadas.

2.4.2. AccessMonitor
AccessMonitor2 es un validador automático que comprueba la aplicación de
las WCAG 2.0 en el contenido HTML de un sitio web; se puede utilizar desde
cualquier dispositivo que ejecuta un navegador web es totalmente universal.
AccessMonitor produce automáticamente un informe cualitativo para cada página
que se le envía.

1
Examinator: Web accessibility evaluation. Retrieved from [Link]
2
AccessMonitor: Nota técnica del validador AccessMonitor. Obtenido de [Link]
[Link]/accessmonitor/nota_tecnica.html

58 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

2.4.3. TAW
TAW3 es una herramienta automática en línea para analizar la accesibilidad de sitios
web. El objetivo de TAW es comprobar el nivel de accesibilidad alcanzado en el diseño
y desarrollo de páginas web con el fin de permitir el acceso a todas las personas
independientemente de sus características diferenciadoras; está destinada tanto a
usuarios sin experiencia que quieren conocer el grado de accesibilidad de su sitio web
como para administradores de sitios web, desarrolladores, diseñadores de páginas
web, etc.

2.4.4. TENON
TENON4 es una herramienta automática en línea que tiene una metodología de pruebas
rigurosa, precisa y exhaustiva, ofreciendo una eficiencia sin precedentes. Su objetivo no
es sólo encontrar problemas de accesibilidad, sino ayudarle a que su sistema cumpla con
las normas lo antes posible.

3. Trabajos relacionados
En otra investigación en el año 2016 (Acosta-Vargas, Luján-Mora, & Salvador-Ullauri,
2016), se analizó el nivel de cumplimiento de las directrices de accesibilidad en los
portales web de 10 universidades del Ecuador (3 Categoría A y 7 Categoría B) utilizando
las herramientas en línea TAW y Examinator. De las páginas web analizadas, los autores
determinaron que ninguna cumple con las pautas de accesibilidad requeridas, por lo
tanto, las páginas no son accesibles.
En una investigación realizada en 2019 (Rodríguez, Antepara, & Braganza, 2019), se
evaluó la accesibilidad de los sitios web de la Universidad de Guayaquil, Universidad
Agraria del Ecuador, Escuela Superior Politécnica del Litoral (ESPOL) y Universidad
de Artes (UARTES), todas de naturaleza pública de la ciudad de Guayaquil. Los autores
toman como muestra cinco páginas de cada sitio web y 38 criterios que cumplen
con los niveles de conformidad A y AA. Ellos concluyeron que los sitios web de las
instituciones públicas de Educación Superior en Guayaquil tienen, en promedio, un
nivel deficiente de accesibilidad en la aplicación del estándar NTE INEN ISO / IEC
40500:2012.
Nuestra investigación, a diferencia de las anteriores, presenta el análisis de
accesibilidad de los 55 portales web de las universidades del Ecuador categorizadas
(8 categoría A, 28 categoría B y 19 categoría C) por el Consejo de Aseguramiento de la
Calidad de la Educación Superior (CACES) (Consejo del Aseguramiento de la Calidad
de la Educación Superior, 2018). Además, esta investigación realiza el análisis de
accesibilidad web luego de haber entrado en vigor el Reglamento Técnico Ecuatoriano
RTE INEN 288 “Accesibilidad para el contenido web” y haber cumplido el plazo de
su primera transitoria.

3
TAW: Web accessibility test. Obtenido de [Link]
4
TENON: Services. Obtenido de [Link]

RISTI, N.º E22, 08/2019 59


Análisis de accesibilidad web de las universidades y escuelas politécnicas del Ecuador aplicando la norma

4. Metodología
La metodología aplicada para evaluar la accesibilidad de los portales web se compone
de cuatro pasos:
1. Selección de los portales web de las universidades del Ecuador: con
información publicada por el CACES (Consejo del Aseguramiento de la Calidad
de la Educación Superior, 2018), encargada de ejercer la rectoría política para
la evaluación, acreditación y el aseguramiento de la calidad de las Instituciones
de Educación Superior en Ecuador, sus programas y carreras. Esta investigación
realiza la evaluación de los 55 portales web de las universidades acreditadas por
el CACES, tomando como muestra 4 páginas web de cada portal.
2. Evaluación de las páginas de inicio: para determinar los errores de
accesibilidad de las 55 páginas de inicio se utilizaron las herramientas en línea
Examinator y AccessMonitor. Las páginas de inicio son la primera impresión y
la carta de presentación que se le da al usuario que visita un sitio web. Además,
estas páginas permiten a los usuarios desplazarse entre los demás sitios de los
portales web.
3. Evaluación de los portales web: para determinar los errores de accesibilidad
de las 220 páginas web seleccionadas de los portales web se utilizaron las
herramientas en línea TAW y TENON.
4. Nivel de cumplimiento y propuesta de solución: para establecer el nivel
de cumplimiento se verificó los iconos que certifiquen la accesibilidad de los
sitios por la World Wide Web Consortium (W3C) en HTML, CSS y sus niveles
de conformidad A, AA y AAA. A partir de los resultados obtenidos se corrobora
el nivel de cumplimiento de la norma NTE INEN-ISO/IEC 40500:2012 con un
nivel de conformidad AA.

5. Resultados

5.1. Selección de los portales web de las universidades del Ecuador


En la Ley Orgánica de Educación Superior (LOES) (Consejo de Educación Superior,
2018) en su vigésima tercera disposición general establece que “el CACES verificará
que las Instituciones de Educación Superior tengan implementados los requerimientos
de accesibilidad universal para promover el acceso a la Educación Superior de las
personas con discapacidad, observando las disposiciones aplicables en esta materia, en
coordinación con el CONADIS”. En la Tabla 1, se presentan los portales web de las 55
universidades y escuelas politécnicas categorizadas por el CACES que será el objeto de
estudio en esta investigación.

No. Abreviaturas Universidades del Ecuador URL Portal web


1 EPN Escuela Politécnica Nacional [Link]
Escuela Superior Politécnica Agropecuaria de
2 ESPAM [Link]
Manabí
[Link]
3 ESPOCH Escuela Superior Politécnica de Chimborazo
[Link]

60 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

No. Abreviaturas Universidades del Ecuador URL Portal web


4 ESPOL Escuela Superior Politécnica del Litoral [Link]
Facultad Latinoamérica de Ciencias Sociales Sede
5 FLACSO [Link]
Ecuador
6 IAEN Instituto de Altos Estudios Nacionales [Link]
7 PUCE Pontificia Universidad Católica del Ecuador [Link]
[Link]
8 UAGRARIA Universidad Agraria del Ecuador
[Link]
9 UASB Universidad Andina Simón Bolívar [Link]
[Link]
10 CASAGRANDE Universidad Casa Grande
[Link]
[Link]
11 UCACUE Universidad Católica de Cuenca
ec
12 UCSG Universidad Católica de Santiago de Guayaquil [Link]
13 UCE Universidad Central del Ecuador [Link]
[Link]
14 UCUENCA Universidad de Cuenca
[Link]
15 UDET Universidad de Especialidades Turísticas [Link]
16 UG Universidad de Guayaquil [Link]
17 UDLA Universidad de las Américas [Link]
18 ESPE Universidad de las Fuerzas Armadas “ESPE” [Link]
[Link]
19 UHEMISFERIOS Universidad de los Hemisferios
[Link]
[Link]
20 UOTAVALO Universidad de Otavalo
[Link]
21 UAZUAY Universidad del Azuay [Link]
[Link]
22 UPACIFICO Universidad del Pacífico Escuela de Negocios
[Link]
23 UEA Universidad Estatal Amazónica [Link]
24 UEB Universidad Estatal de Bolívar [Link]
25 UNEMI Universidad Estatal de Milagro [Link]
26 UNESUM Universidad Estatal del Sur de Manabí [Link]
27 UPSE Universidad Estatal Península de Santa Elena [Link]
28 UNIBE Universidad Iberoamérica del Ecuador [Link]
29 UIDE Universidad Internacional del Ecuador [Link]
30 ULEAM Universidad Laica Eloy Alfaro de Manabí [Link]
31 ULVR Universidad Laica Vicente Rocafuerte de Guayaquil [Link]
32 UMET Universidad Metropolitana [Link]
33 UNACH Universidad Nacional de Chimborazo [Link]
34 UNL Universidad Nacional de Loja [Link]

RISTI, N.º E22, 08/2019 61


Análisis de accesibilidad web de las universidades y escuelas politécnicas del Ecuador aplicando la norma

No. Abreviaturas Universidades del Ecuador URL Portal web


Universidad Particular de Especialidades Espíritu
35 UEES [Link]
Santo
36 UISEK Universidad Particular Internacional SEK [Link]
37 UPEC Universidad Politécnica Estatal del Carchi [Link]
38 UPS Universidad Politécnica Salesiana [Link]
[Link]
39 UNIANDES Universidad Regional Autónoma de los Andes
[Link]
40 USFQ Universidad San Francisco de Quito [Link]
[Link]
41 SANGREGORIO Universidad San Gregorio de Portoviejo
[Link]
42 UTA Universidad Técnica de Ambato [Link]
43 UTB Universidad Técnica de Babahoyo [Link]
44 UTC Universidad Técnica de Cotopaxi [Link]
[Link]
45 UTMACHALA Universidad Técnica de Machala
[Link]
46 UTM Universidad Técnica de Manabí [Link]
47 UTN Universidad Técnica del Norte [Link]
48 UTEQ Universidad Técnica Estatal de Quevedo [Link]
Universidad Técnica Luis Vargas Torres
49 UTELVT [Link]
Esmeraldas
50 UTPL Universidad Técnica Particular de Loja [Link]
51 ECOTEC Universidad Tecnológica ECOTEC [Link]
52 UTEG Universidad Tecnológica Empresarial de Guayaquil [Link]
53 UTE Universidad Tecnológica Equinoccial [Link]
54 UTI Universidad Tecnológica Indoamérica [Link]

55 UISRAEL Universidad Tecnológica Israel [Link]

Tabla 1 – Portales web de las universidades y escuelas politécnicas del Ecuador.

5.2. Evaluación de las páginas de inicio


Para evaluar la accesibilidad de las páginas de inicio utilizamos las herramientas
Examinator y AccessMonitor, porque estas proporcionan una orientación específica
para autores y evaluadores sobre el cumplimiento de los criterios de éxito de las WCAG
en técnicas (Técnicas suficientes, Técnicas de asesoramiento y Fallas), que incluyen
ejemplos de código, recursos y pruebas. Examinator tiene la limitación de no evaluar
las páginas web cuyo URL está basado en el protocolo seguro HTTPS, por lo tanto estas
se evaluaron con AccessMonitor. En el diagrama de Pareto Figura 2, se puede observar
el porcentaje de cumplimiento de accesibilidad web alcanzado por las universidades y
escuelas politécnicas del Ecuador en la escala de 0 a 10.

62 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figura 2 – Diagrama de Pareto de las universidades y escuelas politécnicas del Ecuador.

Utilizando Examinator y AccessMonitor se alcanza un promedio de 5.04 en el


cumplimiento de accesibilidad de las páginas de inicio en las universidades y escuelas
politécnicas de Ecuador.

5.3. Evaluación de los portales web


Se utiliza TAW y TENON para determinar los problemas por cada principio de la
WCAG 2.0 y ver el código de sus errores. Para lo cual, se toma como muestra cuatro
páginas de cada portal web de las universidades del Ecuador: inicio, investigación,
vinculación con la sociedad y oferta académica o admisiones. Teniendo en cuenta los
tres ejes sustantivos de la Educación Superior en el Ecuador (Docencia, Investigación
y Vinculación con la Sociedad). En la Tabla 2, se muestra el promedio de errores por
cada uno de los principios perceptible (P), operable (O), comprensible (C) y robusto
(R); sobre las tecnologías HTML y CSS con un nivel de conformidad AA con TAW y el
promedio de errores con TENON.

Páginas TAW TENON


No. Universidades
Analizadas P O C R Errores
1 EPN 4 136 70 28 46 211
2 ESPAM 4 542 115 13 315 674
3 ESPOCH 4 57 289 41 198 598
4 ESPOL 4 262 203 52 252 1624
5 FLACSO 4 790 309 44 11 1792
6 IAEN 4 275 138 76 250 1736
7 PUCE 4 451 205 24 11 2116
8 UAGRARIA 4 538 359 48 681 1925
9 UASB 4 325 179 92 242 936
10 CASAGRANDE 4 830 231 21 591 1138
11 UCACUE 4 1055 298 66 633 1798
12 UCSG 4 579 191 40 33 1370
13 UCE 4 482 1056 44 2510 7846

RISTI, N.º E22, 08/2019 63


Análisis de accesibilidad web de las universidades y escuelas politécnicas del Ecuador aplicando la norma

Páginas TAW TENON


No. Universidades
Analizadas P O C R Errores
14 UCUENCA 4 107 169 371 12 3043
15 UDET 4 343 159 44 50 691
16 UG 4 609 180 118 493 1291
17 UDLA 4 200 464 67 315 3461
18 ESPE 4 392 243 39 93 1664
19 UHEMISFERIOS 4 468 253 77 165 2446
20 UOTAVALO 4 638 262 47 235 790
21 UAZUAY 4 114 80 24 1125 1228
22 UPACIFICO 4 4180 1060 60 448 6104
23 UEA 4 557 398 48 71 3821
24 UEB 4 141 100 28 875 787
25 UNEMI 4 195 152 76 1180 1570
26 UNESUM 4 107 87 21 559 452
27 UPSE 4 249 125 23 23 686
28 UNIBE 4 153 133 35 76 533
29 UIDE 4 227 154 24 51 2314
30 ULEAM 4 277 247 88 257 1172
31 ULVR 4 604 424 104 220 1702
32 UMET 4 476 165 21 104 829
33 UNACH 4 1472 1019 91 2730 732
34 UNL 4 21 88 4 35 1305
35 UEES 4 232 203 23 158 1429
36 UISEK 4 656 111 92 85 3270
37 UPEC 4 681 201 95 257 669
38 UPS 4 366 220 44 110 1211
39 UNIANDES 4 394 376 74 103 2638
40 USFQ 4 117 102 11 194 1796
41 SANGREGORIO 4 234 330 87 391 1275
42 UTA 4 305 368 22 121 3902
43 UTB 4 237 292 26 181 1732
44 UTC 4 457 165 48 226 1434
45 UTMACHALA 4 813 192 45 328 1042
46 UTM 4 689 193 41 68 663
47 UTN 4 147 133 44 50 1471
48 UTEQ 4 1201 295 120 408 1084
49 UTELVT 4 167 538 34 43 4707

64 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Páginas TAW TENON


No. Universidades
Analizadas P O C R Errores
50 UTPL 4 513 446 60 112 1200
51 ECOTEC 4 322 224 90 61 1679
52 UTEG 4 739 564 56 353 2954
53 UTE 4 768 678 66 137 1598
54 UTI 4 391 183 24 1953 882
55 UISRAEL 4 591 213 54 68 2187
TOTAL: 220 27872 15632 3155 20297 99208
Promedio errores / página 126.69 71.05 14.34 92.26 450.95

Tabla 2 – Promedio de errores y advertencias de los portales web de las universidades y escuelas
politécnicas del Ecuador utilizando TAW y TENON.

La media de errores en los portales web es calculada del promedio de errores / página,
teniendo un promedio de 151.06 de los datos obtenidos de las herramientas online
TAW y TENON. En la Figura 3 se muestra el porcentaje de errores obtenidos por cada
principio y páginas web analizadas.

Figura 3 – Porcentaje de errores por cada principio y páginas web analizadas.

Con la evaluación de TAW se determina que el 79 % son advertencias que se deben revisar
en el diseño y contenido de las páginas web, el 16‌ % son problemas que se deben corregir
y el 5 % son puntos no verificados que requieren de un análisis manual completo para
su cumplimiento. Utilizando [Link] que analiza una variedad de factores para
determinar qué sistemas gestores de contenidos (CMS, del inglés Content Management
Systems) está utilizando un sitio web. Se pudo determinar que el 80 % de los portales
web están realizados en WordPress (22), Joomla (11), Drupal (5), Liferay (3), Umbraco
(1), SharePoint (1), DNN (1) y el 20 % en otros (11).

5.4. Nivel de cumplimiento


Luego de haber revisado los portales web de las universidades y escuelas politécnicas del
Ecuador se verifica que ninguna tiene los iconos que certifiquen la accesibilidad de los

RISTI, N.º E22, 08/2019 65


Análisis de accesibilidad web de las universidades y escuelas politécnicas del Ecuador aplicando la norma

sitios por la W3C en HTML, CSS o sus niveles de conformidad A, AA y AAA. De acuerdo
con los resultados obtenidos, se determina que es necesario corregir errores en todos los
portales web analizados de las universidades y escuelas politécnicas del Ecuador. Por lo
tanto, es evidente su incumplimiento con la segunda transitoria del reglamento técnico
ecuatoriano RTE INEN 288, que establece que todos los sitios web ecuatorianos que
proporcionan un servicio público deben ser accesibles WCAG 2.0 nivel AA hasta el 8 de
agosto de 2020.

6. Conclusiones
Para lograr la conformidad con el nivel AA, las páginas web deben satisfacer todos
los criterios de éxito de nivel A y nivel AA. Las páginas web analizadas de las
universidades y escuelas politécnicas del Ecuador tienen errores en los principios
Perceptible (contenido no textual, información y relaciones), Operable (tiempo
ajustable, titulado de páginas, propósito de los enlaces), Comprensible (idioma
de la página, al recibir entradas – al introducir datos, etiquetas o instrucciones) y
Robusto (procesamiento, nombre, función y valor). Se requiere corregir errores en
todos los portales web. Según, López, Pascual, Masip, Granollers y Cardet (2011),
todos los CMS pueden ser configurados para que sean accesibles. También, se puede
inferir que las páginas web de las universidades y escuelas politécnicas no fueron
diseñadas con una visión de accesibilidad web. La apreciación anterior da una
primera impresión de la estructura y diseño de los sitios web, considerando que los
resultados son preliminares; se deben realizar pruebas con expertos para que los
resultados sean fiables y completos.
Según estadísticas de la Organización Mundial de la Salud (Organización Mundial de la
Salud, 2011, pág. 5) y el CONADIS (Consejo Nacional para la Igualdad de Discapacidades,
2019) existe un incremento progresivo de personas con discapacidad. La Constitución
del Ecuador (Asamblea Nacional, 2018) en la sección quinta educación Art. 26 estipula
que la “educación es un derecho de las personas a lo largo de su vida y un deber ineludible
e inexcusable del Estado. Constituye un área prioritaria de la política pública y de la
inversión estatal, garantía de la igualdad e inclusión social y condición indispensable
para el buen vivir”.
Los problemas de accesibilidad web encontrados vulneran los derechos legales de las
personas con discapacidad, estas pueden demandar contra los sitios web según las leyes y
regulaciones vigentes en Ecuador. El desafío de las universidades y escuelas politécnicas
es emprender proyectos de accesibilidad para el cumplimiento de la norma NTE INEN-
ISO/IEC 40500:2012 y la segunda transitoria del reglamento técnico ecuatoriano
RTE INEN 288 “Accesibilidad para el contenido web” y demás leyes vigentes de
inclusión educativa.

Referencias
Acosta-Vargas, P., Luján-Mora, S., & Salvador-Ullauri, L. (2016). Evaluación de la
Accesibilidad de las páginas web de las universidades ecuatorianas. Revista de
Congreso de Ciencia y Tecnología, 11, 181–187.

66 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Asamblea Nacional. (2018). Constitución de la República del Ecuador. Obtenido de


[Link]
Consejo de Aseguramiento de la Calidad de la Educación Superior. (2018). Categorización
Universidades. Obtenido de [Link]
Consejo de Educación Superior. (2018). Ley Orgánica de educación Superior. Obtenido
de [Link]
Consejo Nacional para la Igualdad de Discapacidades. (2019). Estadísticas de
Discapacidad. Obtenido de [Link]
International Organization for Standardization. (2012). Information technology – W3C
Web Content Accessibility Guidelines (WCAG) 2.0. Obtenido de [Link]
org/standard/[Link]
López, J. M., Pascual, A., Masip, L., Granollers, T., & Cardet, X. (2011). Influence of
Web Content Management Systems in Web Content Accessibility. IFIP Conference
on Human-Computer Interaction, (págs. 548–551). Heidelberg (Berlin).
doi:10.1007/978-3-642-23768-3_79
Organización Mundial de la Salud. (2011). Resumen informe mundial sobre la
discapacidad. Obtenido de [Link]
Rodríguez, L., Antepara, J., & Braganza, L. (2019). Web accessibility analysis of the
Universities and Public Polytechnic Schools of Guayaquil applying the NTE
INEN ISO/IEC 40500: 2012 Standard. Espirales Revista Multidisciplinaria de
investigación, 3(27), 59–77. doi:10.31876/er.v3i27.555
Servicio Ecuatoriano de Normalización. (2014). Tecnología de la información -
Directrices de accesibilidad para el contenido web del W3C (WCAG) 2.0. Obtenido
de [Link]
Servicio Ecuatoriano de Normalización. (2016). Reglamento técnico ecuatoriano RTE
INEN 288 ‘accesibilidad para el contenido web’. Obtenido de [Link]
com/file/d/0Bxl4LLo2QyyJdURfOHViRGpCNFU/view
Stamford Interactive. (2012). WCAG 2.0 Map. Obtenido de [Link]
United Nations. (2006). Convention on the Rights of Persons with Disabilities – Articles.
Obtenido de [Link]
World Wide Web Consortium. (2006). Web Accessibility Evaluation Tools List. Obtenido
de [Link]
World Wide Web Consortium. (2008). Web Content Accessibility Guidelines (WCAG)
2.0. Obtenido de [Link]
World Wide Web Consortium. (2017). Selecting Web Accessibility Evaluation Tools.
Obtenido de [Link]
World Wide Web Consortium. (2018a). Web Content Accessibility Guidelines (WCAG)
2.1. Obtenido de [Link]

RISTI, N.º E22, 08/2019 67


Análisis de accesibilidad web de las universidades y escuelas politécnicas del Ecuador aplicando la norma

World Wide Web Consortium. (2018b). Web Content Accessibility Guidelines (WCAG)
Overview. Obtenido de [Link]
World Wide Web Consortium. (2019). Introduction to Web Accessibility. Obtenido de
[Link]

68 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 04/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 25/06/2019

Optimización del transporte público urbano


mediante algoritmos de búsqueda Tabú y PSO:
Medellín, Colombia

Laura Betancur-Delgado1, Miguel A. Becerra2, Carolina Duque-Mejía1, Diego Peluffo-


Ordóñez1, Karla C. Álvarez-Uribe2,

laura.d.26@[Link], migb2b@[Link], caroduquegm@[Link], dpeluffo@


[Link], karlaalvarez@[Link].

1
Universidad Yachay Tech, SDAS-Group, 100115, Urcuquí, Ecuador.
2
Instituto Tecnológico Metropolitano, 050042, Medellín, Colombia.
Pages: 69–80

Resumen: El transporte público urbano en la ciudad de Medellín (Col) ha tenido


un desarrollo drástico y un cambio significativo, pero insuficiente debido al aumento
de la densidad de la población. Este trabajo presenta un análisis comparativo
del algoritmo Tabu Search (TS) y el algoritmo de Optimización por Enjambre de
Partículas (PSO), proponiendo una optimización del servicio del transporte público
urbano en la zona norte de la ciudad de Medellín (Col), utilizando variables de
diferentes dependencias organizacionales (mecánica de vehículos, gestión de
recursos humanos, gestión ambiental y operativa). Los algoritmos lograron la
convergencia teniendo como objetivo la maximización de la rentabilidad respecto
al uso de los autobuses durante la jornada operativa. Se obtuvo una propuesta de
planificación de ruta que permite aumentar el 25% de los usuarios, mejorar los
tiempos de servicio, generando un desarrollo sostenible para el medio ambiente y
la empresa de transporte.
Palabras-clave: Transporte público urbano; Optimización de rutas; Optimización
por Enjambre de Partículas; Optimización por Búsqueda Tabú; Problema de
programación de buses.

Public urban transport optimization by means of Tabu search and


PSO algorithms: Medellín, Colombia

Abstract: Urban public transport in the city of Medellín (Col) has had a positive
development, however insufficient due to the increase in population density. This
paper presents a comparative analysis of the Tabu Search algorithm (TS) and the
Particle Swarm Optimization algorithm (PSO). It proposes an optimization of the
urban public transport service in the northern area of the city, using variables from
different organizational units (vehicle mechanics, human resources management,
environmental and operational management). The algorithms achieved convergence
with the objective of maximizing profitability regarding the use of buses during

RISTI, N.º E22, 08/2019 69


Optimización del transporte público urbano mediante algoritmos de búsqueda Tabú y PSO: Medellín, Colombia

the operating day. A route planning proposal was obtained that allows a user’s
increment of 25%, improve service times, generating sustainable development for
the environment and the transport company
Keywords: Urban public transport: Route optimization; Particle swarm
optimization; Tabu search optimization; Bus scheduling problem.

1. Introducción
La rápida urbanización en los países en desarrollo ha llevado a un aumento sin precedentes
en la demanda de servicios de movilidad, que a su vez ha ejercido una enorme presión
para generar soluciones de infraestructura y de servicios de transporte público (Guzmán
& Oviedo, 2018). Este creciente interés en el desarrollo de soluciones para un transporte
público eficiente, implica nuevas oportunidades y desafíos para explorar la interacción
entre la estructura y la dinámica del sistema, siendo fundamental para optimizar el
servicio de transporte público.
Actualmente, el transporte público ocupa un lugar destacado en las recientes agendas
de desarrollo y políticas urbanas en todo el mundo (Borck, 2019), convirtiéndose en
el principal mecanismo para articular estructuras urbanas y proporcionar acceso al
territorio (Guzmán & Oviedo, 2018). Los efectos ambientales a menudo figuran como
una de los principales desafíos (Borck, 2019; Noland & Lem, 2002), sin desconocer los
efectos sobre el tráfico vehicular y la generación de otras externalidades derivadas del
servicio como ruido, introspección visual, afectaciones de espacios públicos, entre otros.
Particularmente, en la ciudad de Medellín, la oferta de servicios eficientes de transporte
público, ha sido lenta y no ha logrado satisfacer completamente las necesidades de
movilidad de la población urbana debido a varias restricciones de índole geográfico,
además de fiscales e institucionales. Para la Ciudad, el transporte público ha
experimentado un proceso de transformación centrado en el desarrollo sostenible y
ambiental durante los últimos años, que se entiende como el desarrollo que satisface
las necesidades del presente sin comprometer la capacidad de las generaciones futuras
(Möller, 2003). Sin embargo, sigue siendo necesario abordar actividades de planeación
de forma operativa que permita responder a las variaciones de tiempo o como respuesta
a los cambios permanentes producidos en el servicio.
Diversas soluciones emanadas de políticas públicas y de prestadores de servicios
han intentado ofrecer algunas soluciones para satisfacer un servicio eficiente de
transporte, mitigando la congestión, los efectos ambientales entre otras externalidades
ocasionadas, ofreciendo mejor infraestructura (medición en rampas, semáforos
‘inteligentes’, extensión de carriles, sistemas BRT – Sistema Metro), y abordando
otras soluciones operativas como la flexibilidad o el ajuste de rutas y paradas durante
los períodos pico, o proponiendo cambios en la programación de rutas que permitan
mayor acceso a la población.
La literatura ha identificado diferentes actividades de planeación a corto plazo
(planificación operativa), mediano y largo plazo (táctica y estratégica) para el diseño
eficiente de un sistema de transporte público (Desaulniers & Hickman, 2007).
Actividades estratégicas-tácticas como el estudio de la demanda desde los diferentes

70 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

orígenes a diferentes destinos en la ciudad, la división modal, y el diseño de las líneas


o rutas son usualmente abordados por los reguladores (Jaramillo-Álvarez P., González-
Calderón & González-Calderón (2013). Otras actividades generalmente abordadas por
los prestadores del servicio, como la determinación de la frecuencia, la programación
de horarios, planificación de la ruta y la asignación de viajes figuran dentro de los
horizontes de planeación táctica-operativa, siendo cuidadosamente considerados
como actividades de cumplimiento secuencial (Martínez, Mauttone & Urquhart, 2014;
Farahani, Miandoabchi, Szeto & Rashidi, 2013; Ceder & Wilson, 1986).
La planificación de rutas de autobuses y el establecimiento de frecuencias como
determinantes críticos del rendimiento del sistema, han cobrado real importancia
(Ceder & Wilson, 1986), sin embargo, estos no han recibido el mismo grado de esfuerzo
para mejorar la práctica actual comparado con las demás actividades relacionadas con la
programación. No obstante, algunos trabajos han prestado cierta atención al problema
de establecer frecuencias de manera eficiente. La literatura reporta diversos estudios
usando algoritmos metaheurísticos para determinar la frecuencia, reducir las paradas,
desarrollar tablas de tiempos, mejorar la asignación de rutas entre otros. Torabi &
Salari (2019) emplean Tabu Search (TS) y Simulating Annealing (SA) para limitar el
número de paradas no usadas, mostrando que la capacidad no utilizada de la flota se
puede reducir hasta en un 48%. Métodos híbridos combinando el uso de dos o más
algoritmos han sido desarrollados. Sicilia, Escuín, Royo, Larrodé & Medrano (2014),
aplicaron los algoritmos Variable Neighbourhood Search y Tabu Search (TS) junto
con mejoramientos locales para resolver el problema de la distribución de productos en
áreas urbanas. Giesen, Martínez, Mauttone & Urquhart (2016), minimizaron el tiempo
de viaje total de los usuarios y el tamaño de la flota al mismo tiempo aplicando Tabu
Search (TS), mientras que Wang (2017), aplica estos conceptos para el problema de
última milla en el transporte público. Por su parte, Arbex & da Cunha (2015) y Nikolić &
Teodorović (2014), aplicaron Algoritmos Genéticos y un enfoque de Artificial Bee Colony
algorithm para diseñar las rutas de transporte y asignar la frecuencia minimizando los
costos operativos y de pasajeros. Similarmente, Jha, Jha & Tiwari (2019), proponen un
procedimiento combinado con un Algoritmo Genético y Particle Swarm Optimization
algorithm (PSO) con múltiples estrategias de búsqueda, con el objetivo de determinar
un conjunto eficiente de rutas y proporcionar el mejor porcentaje de viaje directo posible.
Las soluciones obtenidas mejoraron significativamente en términos de porcentaje de
viaje y optimización de costos comparado con resultados anteriores propuestos por
Arbex & da Cunha (2015) y Nikolić & Teodorović (2013).
En este estudio se identifican diferentes problemas que se presentan en la transversalidad
de una empresa prestadora de servicios de transporte público de autobuses de la
ciudad. Se analiza el escenario actual del sistema de transporte público para abordar los
problemas que enfrentan los pasajeros, como el mayor tiempo de espera en las paradas y
el largo tiempo de viaje. El problema ha sido dividido en cuatro factores representativos:
i) disponibilidad limitada en la operación del autobús, ii) aumento de las horas extras
del conductor, iii) alto consumo de combustible y aumento de kilómetros inefectivos
(muertos), iv) aumento de frecuencias, disminución de usuarios e insatisfacción con el
servicio (ver Figura 1). Estos factores fueron analizados y evaluados, identificando que
el proceso más crítico para optimizar, es la operación comercial, siendo susceptible de

RISTI, N.º E22, 08/2019 71


Optimización del transporte público urbano mediante algoritmos de búsqueda Tabú y PSO: Medellín, Colombia

mejora con respecto a la planificación del servicio, especialmente en cuanto al aumento


significativo de usuarios frecuentes. Los algoritmos Particle Swarm Optimization
algorithm (PSO) y Tabu Search (TS) fueron aplicados y comparados para la realización
de la tabla de frecuencias específicamente para la ruta C6-004 denominada “Reserva
del Seminario- Estación de exposiciones” perteneciente a las rutas del Sistema Metro de
Medellín. Lo anterior demostró que el sistema debe permitir una mayor flexibilidad con
respecto a las paradas que definen la red de la ruta C6-004, además de permitir viajes
más directos entre cada par de nodos de origen y destino, que puedan mejorar el nivel
de comodidad de los pasajeros, el tiempo de viaje confiable y el ahorro de costos para la
empresa prestadora del servicio.

Figura 1 – Problemas identificados por departamento

2. Materiales y métodos

2.1. Base de datos


La base de datos se recopiló de las estadísticas de movilidad para la ruta C6-004 Reserva
del seminario-Estación de Exposiciones perteneciente al sistema integrado del Metro de
Medellín, a través del software del sistema de ayuda operativa (SAE) y con la autorización
de la empresa “Sistema Alimentador Oriental 6” a cargo del contrato de concesión bajo
el esquema alimentador del Metro de Medellín. La base de datos consta de los pasajeros
movilizados desde enero de 2016 hasta mayo de 2016, para cada una de las paradas.
Además, se incluye la distancia entre paradas, el tiempo de permanencia del vehículo y
la velocidad punto a punto.

2.2. Algoritmo de optimización Tabu Search (TS)


La búsqueda tabú es un método para resolver problemas desafiantes en el campo de la
optimización (Glover & Marti, 2006). El objetivo es identificar las mejores decisiones o
acciones para maximizar algunas medidas de mérito. Se aplica ampliamente en viajes o

72 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

problemas de TSP, que utiliza procedimientos de búsqueda locales o de vecindario para


moverse iterativamente dentro de una solución para satisfacer un criterio de parada
establecido. La búsqueda tabú fue desarrollada por Fred Glover (Riojas & Álvarez, 2009;
Ruisanchez, dell’Olio & Ibeas, 2012) y se explica considerando un problema continuo de
optimización global

donde es un subconjunto compacto del espacio de medida de Lebesgue


y es una función continua definida sobre . El funcionamiento de TS para solucionar
el problema es descrito como sigue:
1. Generar un punto inicial El conjunto .
2. Si una condición de finalización es satisfecha para, de lo contrario genera un
vector aleatorio usando la función de densidad de probabilidad.
3. Si de lo contrario si
de lo contrario si no satisface las condiciones tabu, entonces , de lo
contrario e ir al ítem 2.

2.3. Algoritmo de optimización por enjambre de partículas (PSO)


PSO fue desarrollado originalmente por Kennedy y Eberhart (Eberhart & Kennedy,
1995). Este es un método heurístico de optimización global, que pertenece a la familia
de algoritmos basados en el concepto de inteligencia de enjambre. En analogía con el
comportamiento de las bandadas de aves, PSO define el conjunto de candidatos para
resolver el problema de optimización como un enjambre de partículas que pueden
fluir a través del espacio de búsqueda, que son impulsadas por el rendimiento en sí
y el mejor rendimiento de sus vecinos. De hecho, a diferencia de lo que sucede con
otros algoritmos inspirados en la naturaleza, la evolución se basa en la cooperación
y la competencia entre los mismos individuos a través de generaciones (iteraciones)
(Marini & Walczak, 2015). En PSO, cada solución candidata se llama “partícula” y
representa un punto en un espacio D-dimensional, si D es el número de parámetros que
se optimizarán. Por consiguiente, la posición de la i-ésima partícula puede describirse
por el vector y la población de N soluciones candidatas constituye
el enjambre . La partícula se mueve de acuerdo con la velocidad,
la cual está controlada por la mejor posición alcanzada por la partícula y la mejor
posición entre cada partícula, lo que da como resultado un método exploratorio con
capacidades de convergencia. La ecuación que controla la velocidad y la posición de
cada partícula es:

RISTI, N.º E22, 08/2019 73


Optimización del transporte público urbano mediante algoritmos de búsqueda Tabú y PSO: Medellín, Colombia

Donde, t y t+1 indican dos iteraciones sucesivas del algoritmo, Vi representa la velocidad
para la partícula i, Xi es la posición de la partícula, g* representa la mejor posición
entre todas la partículas y X*i es la mejor posición alcanzada por la partícula i. θ, α y β
son coeficientes de inercia, y de comportamiento grupal e individual respectivamente.
Finalmente, ∊1 y ∊2 son variables aleatorias uniformemente distribuidas que toman
valores entre 0 y 1.

2.3. Procedimiento propuesto


Para el Sistema Alimentador oriental 6, es esencial hacer un uso eficiente de los recursos
asignados, buscando una mejora continua en la prestación del servicio comercial. Para
abordar esta necesidad la empresa utiliza estrategias operativas que permiten una
mayor flexibilidad del sistema, a través de diferentes mecanismos de optimización. Para
el estudio, fue necesario tener en cuenta la representación matemática de los objetivos
de optimización construyendo una propuesta del plan operativo para cada autobús y
teniendo en cuenta la relación que existe entre velocidad y tiempo, la distancia entre
paradas y pasajeros movilizados. También se debió tener en cuenta el tiempo total de
permanencia en el autobús en cada una de las paradas. En la Figura 2, se muestra el
procedimiento desarrollado el cual inicia con la recopilación, categorización y agrupación
de datos históricos de las diferentes variables definidas, luego se aplican técnicas de
suavizado de datos a través de tendencias y estacionalidad, debido a que la movilidad
en la ciudad tiene picos altos y bajos, donde estos picos hacen que sea difícil conocer la
movilidad real. Luego se realiza un análisis de relevancia y reducción de dimensiones
usando análisis de componentes principales, posteriormente se aplican los algoritmos
de optimización TS y PSO y finalmente se realiza el análisis de los resultados.

Figura 2 – Metodología desarrollada

Para el desarrollo de la metodología, se tienen en cuenta consideraciones especiales para


planificar una línea comercial, asegurando que la demanda de pasajeros esté en línea
con la oferta, considerando las siguientes restricciones: i) La capacidad de los autobuses
es de 40 pasajeros. ii) La velocidad comercial actual para cada parada de la ruta C6-
004 es de 12 km / h. iii) Para llevar a cabo la planificación, se tiene en cuenta lo tipos
de días: lunes a viernes (día laboral) y sábado y domingos y feriados (no laborables).
iv) La planificación es efectiva teniendo en cuenta los intervalos de tiempo para cada
tipo de día y la planificación de acuerdo con la demanda estipulada como horas pico
y horas valle. Para los algoritmos TS y PSO, se realiza una comparación de resultados
que permite determinar la rentabilidad del transporte público urbano tanto para los
usuarios como para la empresa. Su objetivo es un aumento significativo de usuarios que

74 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

sea aproximadamente un 25% en condiciones garantizando una mayor flexibilidad en


la planificación de las líneas comerciales. El algoritmo de Tabu Search, permite iterar
respetando las restricciones que son específicas del caso de estudio, donde el punto
inicial y final debe ser el mismo. Cuando el algoritmo pasa por una posible solución, lo
marca como tabú y continúa buscando la solución más óptima. La búsqueda termina
cuando no hay más soluciones tabú. En el caso de PSO, la búsqueda se lleva a cabo
aleatoriamente para determinar qué solución tiene la densidad más alta, cada partícula
tiene una posición y velocidad dentro del espacio de búsqueda. En la aplicación las
funciones objetivo se muestran a continuación:

VC = DR ⁄ tV

fL = Dem ⁄ CO

int_t = pO ⁄ fR

vehr = tT ⁄ int_t

donde VC: velocidad comercial, DR: Distancia de la ruta, tV: tiempo de viaje, fL:
frecuencia de línea, Dem: demanda[pasajeros/(hora)], CO: capacidad ofrecida
[pasajeros/(vehiculo)], int_t:intérvalo de tiempo [min], pO: periodo de operación [min],
fR: frecuencia requerida [(vehiculo)/(hora)], vehr: vehiculo requerido, tT: tiempo total
[min].
En los históricos de información, existe una demanda para cada tipo de día, para
cada intervalo de tiempo, de la misma manera que la ocupación de cada parada que
conforma la definición de red de la ruta. Estas funciones como datos, permiten generar
información sobre tiempos de viaje y demoras en paradas dentro de un servicio asociado
con la ruta C6-004. Los datos fijos se tienen en cuenta, como la distancia punto a
punto de la ruta, el tiempo de viaje por cada punto de acuerdo con la planificación
actual y con la información del tiempo, y la distancia se puede determinar para cada
punto el viaje planificado y como consecuencia la velocidad. Además, debe tenerse en
cuenta que la ruta se programa en ambas direcciones, dado que las distancias y los
tiempos varían para cada uno de ellos. En la Tabla 1,2 se detalla la información fija de
la planificación actual.

Linea Itinerario Cod. Parada Dist t Vel


C6-004 Destino Expo RSM Cra.19 con Cll 33 117 34 3,44
C6-004 Destino Expo S121 S121(C6-004) Cra.20 con Cll. 33 241 69 3,49
C6-004 Destino Expo S122 S122(C6-004)Cra.21 con Cll. 36 424 122 3,48
C6-004 Destino Expo S123 Cll. 40 con Cra.21 131 38 3,45
C6-004 Destino Expo S500 Cll. 40 con Cra. 23 331 95 3,48
C6-004 Destino Expo S124 Cll. 40 con Cra. 25 260 75 3,47

RISTI, N.º E22, 08/2019 75


Optimización del transporte público urbano mediante algoritmos de búsqueda Tabú y PSO: Medellín, Colombia

Linea Itinerario Cod. Parada Dist t Vel


C6-004 Destino Expo S125 S125(C6-004)Cll.40 con Cra. 260 127 36 3,53
C6-004 Destino Expo S126 Cra. 28A con Cll. 38F 454 130 3,49
C6-004 Destino Expo S127 Cra. 32 con Cll.34 303 87 3,48
C6-004 Destino Expo S128 Cra.32 con Cll.32 169 48 3,52
C6-004 Destino Expo S129 S129(C6-004) Cll.31 con Cra.30 278 80 3,48
C6-004 Destino Expo S130 S130(C6-004) Cll.31 con Cra.29 534 153 3,49
C6-004 Destino Expo S131 S131(C6-004) Cll.33 con Cra.28 286 82 3,49
C6-004 Destino Expo S132 Cra.33 con Cll.29 512 62 3,47
C6-004 Destino Expo S133 S133(C6-004) Cll.29C con Cra.33 250 72 3,47
C6-004 Destino Expo S134 S134(C6-004) Cra.37A con Cll.29 193 55 3,51
C6-004 Destino Expo S501 Cll.29 con Cra. 37A Torre España 465 133 3,50
C6-004 Destino Expo BCOD Cra.38 con Cll.26 Barrio Colombia 590 169 3,49
C6-004 Destino Expo SDGD Cra. 42 con Cll.34 Barrio San Diego 420 120 3,50
C6-004 Destino Expo CDGD San Diego 489 140 3,49
C6-004 Destino Expo XPO XPO (C6-004)Cra.51 con Cll 37 0 0 0,00
Total 6277 1800 3,49

Tabla 1 – Ruta C6-004 destino a estación Exposición del Metro

Linea Itinerario Cod. Parada Dist t Vel


C6-004 Destino Reserva XPO XPO(C6-004) Cra.51 con Cll 37 1082 287 3,77
C6-004 Destino Reserva CDGA San Diego 447 118 3,79
C6-004 Destino Reserva SDGA Cra.42 con Cll.34 Barrio San Diego 456 121 3,77
C6-004 Destino Reserva S501 Cra.38 con Cll.38 Barrio Colombia 550 146 3,77
C6-004 Destino Reserva S134 Cll.29 con Cra 37A Torre España 200 53 3,77
C6-004 Destino Reserva XPO XPO(C6-004) Cra.51 con Cll 37 1082 287 3,77
C6-004 Destino Reserva CDGA San Diego 447 118 3,79
C6-004 Destino Reserva SDGA Cra.42 con Cll.34 Barrio San Diego 456 121 3,77
C6-004 Destino Reserva S501 Cra.38 con Cll.38 Barrio Colombia 550 146 3,77
C6-004 Destino Reserva S134 Cll.29 con Cra 37A Torre España 200 53 3,77
C6-004 Destino Reserva XPO XPO(C6-004) Cra.51 con Cll 37 1082 287 3,77
C6-004 Destino Reserva CDGA San Diego 447 118 3,79
C6-004 Destino Reserva SDGA Cra.42 con Cll.34 Barrio San Diego 456 121 3,77
C6-004 Destino Reserva S501 Cra.38 con Cll.38 Barrio Colombia 550 146 3,77
C6-004 Destino Reserva S134 Cll.29 con Cra 37A Torre España 200 53 3,77
C6-004 Destino Reserva XPO XPO(C6-004) Cra.51 con Cll 37 1082 287 3,77
C6-004 Destino Reserva CDGA San Diego 447 118 3,79

76 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Linea Itinerario Cod. Parada Dist t Vel


C6-004 Destino Reserva S122 Cll. 40 con Cra. 21 405 107 3,79
C6-004 Destino Reserva S121 S122(C6-004) Cra.21 con Cll.36 228 60 3,80
C6-004 Destino Reserva S121 S121(C6-004)Cra. 20 con Cll.33 117 31 3,77
C6-004 Destino expo RSM CR.19 con Cll 33 0 1801 0,00
Total 6793 1801 3,59

Tabla 2 – Ruta C6-004 destino Reserva del Seminario

Para las variables utilizadas en los algoritmos, se cuentan los tiempos de permanencia
del vehículo en cada parada, la ocupación, la frecuencia, el retraso o el avance según el
caso y, según esta información, el tiempo muerto para cada servicio se calcula utilizando
la ecuación ∑ tm = tmp1 + tmp2 + ... + tmp4. La figura 3, muestra la ruta comercial para
la ruta C6-004 Reserva del Seminario- Estación de Exposiciones del METRO, donde
cada marca de posición amarilla representa cada una de las paradas que el vehículo debe
realizar para la dirección 1 con la Estación de Exposiciones de destino.

Figura 3 – Definición de red de transporte y trazado para la ruta C6-004

Al categorizar las variables, se observa que, para la optimización del servicio comercial con
respecto a la favorabilidad para los usuarios, los conductores y la empresa, el factor más
afectado son los tiempos de inactividad que realiza un autobús durante la prestación del
servicio. Esta situación genera desacuerdo entre los actores involucrados durante los viajes.
La función objetivo minimiza el tiempo de inactividad en cada parada, por lo que en este
caso permite una mayor flexibilidad en el tiempo total de viaje, maximizando de manera

RISTI, N.º E22, 08/2019 77


Optimización del transporte público urbano mediante algoritmos de búsqueda Tabú y PSO: Medellín, Colombia

proporcional el número de viajes realizados durante un día y reduciendo la frecuencia actual


que oscila entre 6 minutos en la hora valle y 3 minutos en horas pico. Un total de 19
vehículos realizan 581 viajes cada día en tipología laborales, los sábados 425 y domingos y
feriados 301.

3. Resultados y discusión
En la actualidad, se realizan paradas obligatorias en cada estación, que tiene un aumento
en el tiempo de viaje y las frecuencias iteradas con datos históricos desde el 1 de enero
de 2016 hasta el 31 de mayo de 2016. La variable de ocupación se mide con respecto a
cada parada y el tiempo de estadía en el autobús. En el escenario propuesto, se tienen en
cuenta las mismas variables, pero con la diferencia de restricción de permanecer sólo en
una determinada parada si hay ascenso o descenso de pasajeros, de lo contrario el vehículo
no disminuirá la velocidad. El algoritmo TS itera más rápidamente y muestra que cambiar
la restricción de permanecer en el escenario propuesto aumentando la velocidad, haciendo
que realice la parada sólo donde hay ascenso o disminución de usuarios, disminuya el tiempo
de viaje en 7 minutos. Esto representa que la ruta pasa de estar planificada con un tiempo
de viaje de 1800 segundos (que representa 30 minutos por dirección) a 1620 segundos (que
representa 23 minutos por dirección aproximadamente) en el tráfico vehicular regular. La
diferencia con el algoritmo PSO no es significativamente mayor, dado que el algoritmo PSO
en el segundo escenario propone un ahorro en el tiempo de viaje de 8 minutos y medio.
En consecuencia, significa que, al llevar a cabo el plan de servicio operativo con el tiempo
de viaje propuesto de 23 minutos, significa ahorrar 1.5 conductores con una frecuencia de
2.37 minutos en las horas pico, garantizando la cobertura de la demanda actual del servicio
para estos momentos del día. En la Figura 4 se muestra la relación de frecuencia de viajes
respecto al número de pasajes considerado en el proceso de optimización.

Figura 4 – frecuencia de viajes vs pasajeros

78 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

4. Conclusiones
En este artículo se presenta un enfoque para la optimización de parada de buses
y su programación. Para su desarrollo se testearon los algoritmos TS y PSO
independientemente, obteniendo resultados similares pero superior para el TS con las
funciones VC, int_t, vehR, fL. Ambos algoritmos satisfacen la función objetivo de manera
óptima al proponer menos tiempo de viaje reduciendo las frecuencias entre vehículos
pero aumentando el número de pasajeros y ejecutando mayor número de viajes. Basados
en los resultados obtenidos, se proporciona una propuesta de planificación para la línea
C6-004. En las estaciones de Reserva del Seminario y Exibiciones durante las horas
pico, el autobús sólo realizará paradas donde haya usuarios, minimizando el tiempo de
viaje para el itinerario con la estación de Exposiciones de destino desde el Metro a 23
minutos y con destino a Reserva del Seminario a 25 minutos, generando una frecuencia
de 2:37 minutos entre cada vehículo en las horas pico. Para los días laborales se realiza la
tabla de Gantt consiguiendo ahorrar 1.5 conductores. Situación que genera un aumento
significativo en los usuarios, con lo que se infiere que con esta mejora en el servicio podría
existir un mayor atractivo para usuarios frecuentes. Finalmente, para trabajos futuros,
sería factible analizar los resultados obtenidos con otras variables como el consumo de
combustible, la tasa de fallas, el número de horas extras por conductor, entre otras.

Referencias
Arbex, R., & da Cunha, C. (2015). Efficient transit network design and frequencies
setting multi-objective optimization by alternating objective genetic algorithm.
Transportation Research Part B: Methodological, 81, 355–376.
Borck, R. (2019). Public transport and urban pollution.  Regional Science and Urban
Economics. Vol 77, pp. 356–366
Ceder, A., & Wilson, N. (1986). Bus network design. Transportation Research Part B:
Methodological, 20(4), 331–344.
Desaulniers, G., & Hickman, M. (2007). Public transit.  Handbooks in operations
research and management science, 14, 69–127.
Eberhart, R., & Kennedy, J. (1995). A new optimizer using particle swarm theory.
In MHS’95. Proceedings of the Sixth International Symposium on Micro Machine
and Human Science (pp. 39-43). Ieee.
Farahani, R., Miandoabchi, E., Szeto, W., & Rashidi, H. (2013). A review of urban
transportation network design problems.  European Journal of Operational
Research, 229(2), 281–302.
Giesen, R., Martínez, H., Mauttone, A., & Urquhart, M. (2016). A method for solving
the multi-objective transit frequency optimization problem. Journal of Advanced
Transportation, 50(8), 2323–2337.
Glover F., & Marti R. (2006) Tabu Search. In: Alba E., Martí R. (eds) Metaheuristic
Procedures for Training Neutral Networks. Operations Research/Computer Science
Interfaces Series, 36, 53–69.

RISTI, N.º E22, 08/2019 79


Optimización del transporte público urbano mediante algoritmos de búsqueda Tabú y PSO: Medellín, Colombia

Guzman, L., & Oviedo, D. (2018). Accessibility, affordability and equity: Assessing ‘pro-
poor’public transport subsidies in Bogotá. Transport Policy, 68, 37–51.
Jaramillo-Álvarez, P., González-Calderón, C., & González-Calderón, G. (2013). Route
optimization of urban public transportation. Dyna, 80(180), 41–49.
Jha, S., Jha, J., & Tiwari, M. (2019). A multi-objective meta-heuristic approach for transit
network design and frequency setting problem in a bus transit system. Computers
& Industrial Engineering, 130, 166–186.
Marini, F., & Walczak, B. (2015). Particle swarm optimization (PSO). A
tutorial. Chemometrics and Intelligent Laboratory Systems, 149, 153–165.
Martínez, H., Mauttone, A., & Urquhart, M. (2014). Frequency optimization in public
transportation systems: Formulation and metaheuristic approach. European
Journal of Operational Research,  236(1), 27–36. [Link]
ejor.2013.11.007
Möller, R. (2003). Movilidad de personas, transporte urbano y desarrollo sostenible
en Santiago de Cali, Colombia  (Doctoral dissertation, Verlag nicht ermittelbar),
p. 368.
Nikolić, M., & Teodorović, D. (2013). Empirical study of the Bee Colony Optimization
(BCO) algorithm. Expert Systems with Applications, 40(11), 4609–4620.
Nikolić, M., & Teodorović, D. (2014). A simultaneous transit network design and
frequency setting: Computing with bees. Expert Systems with Applications, 41(16),
7200–7209.
Noland, R., & Lem, L. (2002) Review of the Evidence for Induced Travel and Changes
in Transportation and Environmental Policy in the US and the UK, Transportation
Research Part D: Transport and Environment, vol.7, pp. 1-26.
Riojas, A., & Álvarez M. (2009). Búsqueda tabu: conceptos, algoritmo y aplicación al
problema de las N – reinas. Revista de ingeniería de sistemas e informática. 6 (2),
27–38.
Ruisanchez F., dell’Olio L., & Ibeas A. (2012). Design of a Tabu Search algorithm for
assigning optimal bus sizes and frequencies in urban transport services,” Journal of
Advanced Transportation. 46 (4), 366–377.
Sicilia, J., Escuín, D., Royo, B., Larrodé, E., & Medrano, J. (2014). A hybrid algoritm
for solving the general vehicle routing problem in the case of the urban freight
distribution. In Computer-based Modelling and Optimization in Transportation(pp.
463-475). Springer, Cham.
Torabi, M., & Salari, M. (2019). Limited-stop bus service: A strategy to reduce the unused
capacity of a transit network. Swarm and evolutionary computation, 44, 972–986.
Wang, H. (2017). Routing and scheduling for a last-mile transportation
system. Transportation Science, 53(1), 131–147.

80 RISTI, N.º E22, 08/2019


RevistaIbéricadeSistemaseTecnologiasdeInformação Recebido/Submission: 22/03/2019
IberianJournalofInformatioy
nS stemsandTechnologies Aceitação/Acceptance: 11/06/2019

Traffic analysis of internet applications on mobile


devices over LTE and Wireless networks

Albert Espinal1, Rebeca Estrada1, Carlos Monsalve1

aespinal@[Link], restrada@[Link], monsalve@[Link]

1
Escuela Superior Politecnica del Litoral, Guayas 09015863, Guayaquil, Ecuador
Pages: 81–94

Abstract: Traffic analysis and classification is an important requirement to enhance


network security and to optimize the quality of service policies. In this paper, we
propose to analyze the traffic of most common internet applications based on SSL
and HTTP protocols on mobile devices, through the collected data by means of a
packet sniffer, over LTE and Wireless network. This study is focused on the packet
size parameter and allows us to perform a statistical comparison of this parameter
among the most commonly used internet applications in smart phones. Numerical
results show that most of the analyzed applications have a bimodal behavior with
packets around 30 and 1.500 bytes, with small differences in both scenarios. It is
also observed that SSL/HTTPS packets represents a big impact over TCP traffic.
Finally, numerical parameters for a probability density function distribution are
presented in order to estimate and simulate such traffic.
Keywords: Traffic analysis; Applications analysis; Application modelling; Mobile
devices traffic.

1. Introduction
Nowadays, the internet traffic has new trends, mainly generated by mobile devices
connected to wireless and cellular networks. The study from Cisco Systems, forecast and
trends (CISCO, 2017), predicts that by 2022 the traffic from wireless and mobile device
will account 71 percent of total IP traffic, and the smart mobile traffic will represent 44%.
The internet Stats & Facts for 2019 (Hosting Facts, 2018), show that China is the country
with the greatest number of internet users (802 million), and 98 percent of these users
are mobile. There are near to 4 billion global mobile internet users and 90 percent of the
time on mobile devices is spent in apps.
A study of Go-Globe shows statistics about traffic on internet every 60 seconds (Go-
Globe, 2017); this data belongs to internet Apps most common (table 1). In our prior
work (Espinal, Estrada & Monsalve, 2019), we show that IPv4 Traffic is significantly
higher respect to IPv6 in campus wireless network; similarly occur with TCP traffic over
UDP, and applications based on SSL and HTTP represents 99.16% of the total traffic.
In Wireless LANs or LTE networks, the transmission of information is performed using
discrete packets (Arrowsmith & Mondrag, 2005). To analyze and model the network

RISTI, N.º E22, 08/2019 81


Traffic analysis of internet applications on mobile devices over LTE and Wireless networks

traffic, one can consider two variables: the packet size and the inter-arrival time (Lee
& Fapojuwo, 2005). Both variables have a stochastically behavior (Mansfield, Roy &
Shiratori, 2001), which must be monitored for the corresponding analysis.
Traffic network can be monitor by means of active or passive monitoring (Pries et al.,
2009). The active method generates new traffic, and inject it into the network, while
passive method consists on monitor, and capture the network traffic. We use the passive
form analyze the packet headers and produce statistics. One drawback of the passive
method is the privacy of the data to be captured, because the traditional packet sniffers
saves the entire packet: headers and payload (Gandhi et al, 2014). This method is
independent of the protocols and avoid the encrypted payload.
In this work, we proposed to analyze the internet traffic of most commonly used Apps in
mobile devices, connected to two type of networks. The first type of network is a wireless
network and the second one is an LTE network (4.5 G). By doing so, we can determine
the contribution of these Apps over SSL and HTTP protocols and propose statistical
models that estimate and simulate such traffics.

App Internet traffic in 60 seconds


YouTube Around 700.000 hours of video watched
Google More than 3.8 million searches
Facebook More than 240.000 photos uploaded, and 70.000 hours of video content
watched
Twitter More than 350.000 tweets sent
Instagram More than 65.000 photos are uploaded
WhatsApp more than 29 million of messages are processed, 1 million of photos and
175.000 videos are shared
Email More than 156 million of emails are sent
Skype More than 2 million minutes of calls are done

Table 1 – Internet traffic Apps

The rest of the paper is organized as follows: section II provides information about related
works; in section III we show the data collection, classified by application, according
to the variable packet size. Section IV presents the traffic model that characterize the
realistic traffic analyzed. The paper ends with the conclusions in section V.

2. Related work
Many works have analyzed the network traffic based on packet size, using methods such
as statistical analysis, pattern recognition, length of the application messages, packet
flows, user behavior, etc. Additionally, these studies had suggested models to simulate
the realistic network traffic.
A study for identifying network traffic based on message size analysis is presented
in (Hajjar, Khalife & Diaz, Verdejo, 2015), and a Gaussian model was proposed to

82 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

characterize the application-level protocols. In (Cao et al., 2013) a study showed that
network traffic is quite close to Poisson distribution according to interface link speed. A
work over internet data traffic generated in a university campus using a model for predict
internet data traffic is presented in (Adeyemi et al., 2018). A methodology for automatic
fingerprinting and real-time identification of Android apps from their encrypted network
traffic for protocols such as HTTPS/TLS is showed in (Taylor et al., 2016). A method
for extending labeled data that allows to identify unknown mobile traffic is proposed
in (Liu, Wang & Tang, 2018). In (Aceto et al., 2018) proposed a multi-classification
approach to improve the performance of classification of mobile apps traffic. A method
using extreme machine learning that developed a genetic algorithm-based software
for classification of the internet traffic was proposed in (Ertam & Avci, 2017). A study
about UDP traffic based on Inter-Packet Arrival Time and Inter-Packet Transmission
Delay and the impact on the round-trip delay, is presented in (Maheshwari et al., 2017).
In (Alan & Kaur, 2016) an App identification method using only TCP headers under
Android devices, that avoid encrypted traffic, is presented.
Regarding the traffic modelling, (Maheshwari, Mahapatra & Cheruvu, 2018) designed
a Hidden Markov model for network traffic and validated it for different packet sizes.
A modeling of the packet length from normal distributions applied to bimodal traffic
is presented in (Castro, Alencar & Fonseca, 2013). In (Al-Turjman et al., 2017) is
presented a novel traffic model for a new-generation of sensor networks that supports
a wide range of communication-intensive real-time multimedia applications. A new
feature optimization approach based on deep learning and Feature Selection techniques
to provide the optimal and robust features for traffic classification is presented in (Shi
et al., 2018). In (Cao et al., 2017) a network traffic model based on real-time accurate
support vector machine is deducted from the scaling dataset and employs component
analysis to extract network data features and verify its relevant traffic features obtained.

3. Data collection and analysis


According to statcounter1 statistics about mobile operating system for our country (July
2019), the 86.96% of mobile devices use Android, an 11.72% use iOS, and 1.32% use
other operating systems, such as Windows, Nokia, Blackberry, etc. About the Apps use,
we show statistics in the largest LTE network operator in our country (see figure 1). We
apply an online survey to a sample of 380 users (population size of 6.000 users, with
95% confidence level and 5% margin of error) and find that the most common Apps
are: In social networks, WhatsApp, Facebook, Instagram and Twitter. For streaming,
YouTube. And for productivity: Drive, Gmail and Google Search. Other Apps used are:
Messenger, Snapchat, Spotify, Netflix, Tinder.
An important issue in the process of capturing network traffic is the use of the packet
sniffer. This is owing to the fact that they normally capture the entire packet, which
includes headers and payload. We propose to use a free sniffer for Wi-Fi networks called
Wireshark that collected and process the packets, and a commercial sniffer called WICAP
that runs over smartphones with Android operative systems and works over LTE cellular
networks. Additionally, WICAP saves the capture data in PCAP format, what allows to
open and to analyze the data with other sniffers more advanced as Wireshark. Also,

RISTI, N.º E22, 08/2019 83


Traffic analysis of internet applications on mobile devices over LTE and Wireless networks

WICAP permit to capture the following fields in the header for further analysis: total
length (IPv4) o payload length (IPv6), source address, destination address, protocol
(IPv4) or next header (IPv6), source port, and destination port.

Figure 1 – Most common App over LTE network in Ecuador

We implement two scenarios for collecting realistic traffic of mobile Apps. First, we
connect a smartphone to a university campus wireless network shown in figure 2, and
then connect the mobile device to LTE network shown in Fig. 3. The smartphone is a
Samsung Galaxy S8+, with Octa-Core CPU, 2.3GHz speed, 4 GB RAM, 64 GB internal
memory, 64 GB external memory (MicroSD) for data storage, and Android 9 operative
system. It can be connected to Wi-Fi networks using 802.11 a/b/g/n/ac 2.4G+5GHz. It
also can be connected to another cellular network based on 2G GSM, 3G WCDMA, 4G
LTE FDD, 4G LTE TDD.
We install Wireshark on a desktop computer with Windows 10. Its technical specifications
are AMD FX-8300 Eight-core processor, 24 GB of RAM, and two-network interface
cards (NIC) Ethernet. One NIC is dedicated to PC management, and the second one to
capture traffic. We connect the NIC for capturing, in a gigabit port of access layer Cisco
switch, and configure this port as analyzer monitor (SPAM) to reflect the interested
VLAN wireless traffic.

Figure 2 – Wi-Fi scenario for captured data

84
RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

The wireless campus network has around 300 access point managed by a wireless LAN
controller. On average between 5.000 and 6.000 wireless devices are connecting daily,
with an allocation of 300 MB of bandwidth to the internet. This include devices such
as smartphones, tables, and laptops. In this network, about 85% of mobile devices use
android operating system, 10% use windows, 3% use iOS, and 2% use another operating
system. This information is provided by the IT department through the Cisco Identity
Services Engine platform.

Figure 3 – LTE scenario for captured data

The LTE evolved network belonging to a cellular operator in our country. This use IP
RAN as access layer, LTE for Mobil access, fiber rings, ALCATEL routers, one per Radio
Access, Intermediate System to Intermediate System as IGP (interior gateway protocol).

Figure 4 – Google Drive App packets pattern

In both scenarios we collected the data of the eight most common Apps on smartphones,
that includes: Google Drive, Facebook, Google search, Gmail, Twitter, YouTube, WhatsApp,
and Instagram. For each App, we execute the typical task in the smartphone according to
user behavior and collected the data with the network sniffers, on the smartphone using
WICAP for traffic over LTE network, and Wireshark on the computer over Wi-Fi network.

RISTI, N.º E22, 08/2019 85


Traffic analysis of internet applications on mobile devices over LTE and Wireless networks

In Drive testing with upload and download of files; in Facebook, uploading pictures,
videos, navigating over user profiles, etc. Over Google, searching data and visualizing links,
images, videos, etc. And similar for other Apps in our exploratory study of packet size.

Figure 5 – Facebook App packets pattern

Figure 6 – Google App packets pattern

Figure 7 – Outlook App packets pattern

86 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figure 8 – Twitter App packets pattern

Figure 9 – YouTube App packets pattern

Figure 10 – WhatsApp App packets pattern

This work analyzes the variable packet size of typical Apps in mobile devices; this variable
usually is between 0 and 1500 bytes. To analyze the packet size, we take intervals of 10

RISTI, N.º E22, 08/2019 87


Traffic analysis of internet applications on mobile devices over LTE and Wireless networks

bytes for discrimination (i.e. 0-10, 11-20, 21-30, etc.). Figures 4-11 show the packet size
probability for each App analyzed in this paper.

Figure 11 – Instagram App packets pattern

From Figure 4, we can see that there is a bimodal traffic distribution for Drive App in
both scenarios, similar in small packets but different in big packets. Over Wi-Fi network
this App have 23% of packets around of 60 bytes size, and 75% around 1410 bytes. For
the LTE network, it can observe that small packets represent 8% around 30 bytes, while
big packets contribute 88% around 570 bytes. This is an important difference in this App
behavior, and over the models to estimate this real traffic in both scenarios.
From Figure 5, we can see that there is a bimodal traffic distribution for Facebook
App in both scenarios, similar in small and big packets. Over Wi-Fi network this App
have 31% of packets around of 60 bytes size, and 62% around 1430 bytes. For the LTE
network, it can observe that small packets represent 35% around 30 bytes, while big
packets contribute 52% around 1490 bytes. This App behavior is similar for others Apps
as Google search, Twitter, YouTube, WhatsApp and Instagram, and over the models that
estimate this real traffic in both scenarios.
Finally, in Figure 7, we can observe that exist a trimodal traffic distribution for Email App
over LTE network, with 37% of packets (small) around 30 bytes, 4% around 570 bytes
(medium), and 34% for big packets around 1490 bytes. This App over Wi-Fi network has
a bimodal distribution.

4. Application traffic modelling


Considering the analysis of the network traffic analyzed in the previous section, we
estimate some models using the Poisson probability distribution function, based on
Apps for mobile devices.
For Drive App packets pattern presented in fig. 4, results a fitted model as a mixture of
two Poisson distributions with parameters λ1 = 39.82, and λ2 = 583.79. The probability
that the length of a packet belongs to the first distribution is 0.095, while for the second

88 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

distribution the probability of a packet following that distribution is 0.905. Finally, the
model is the result of the sum of two Poisson distributions as in (1):

 (1)

Where x is the occurrence of packet size variable. In fig. 12 we show the simulate model
for Google Drive App pattern.

Figure 12 – Poisson model for Drive App packet pattern

Figure 13 – Poisson model for Facebook App packet pattern

For Facebook App packets pattern the parameters are λ1 = 1414.78 and λ2 = 36.93. The
probability that the length of a packet belongs to the first distribution is 0.623, while for
the second distribution the probability of a packet following that distribution is 0.377.
The model is showed in (2) and the simulation in figure 13. For Outlook (email) the
model is the result of the sum of three Poisson distributions as in (3), and the simulation
in figure 14. The table 2 show the parameters for other Apps analyzed, where λ1 represent

RISTI, N.º E22, 08/2019 89


Traffic analysis of internet applications on mobile devices over LTE and Wireless networks

average occurrence in interval 1, λ2 represent average occurrence in interval 2, P1 is the


probability for a packet following the first distribution, and P2 is the probability of a
packet following the second distribution. And their models in (4) (5) (6) (7) (8).

Figure 14 – Poisson model for Outlook App packet pattern

App λ1 λ2 P1 P2
Google 1383.51 57.75 0.485 0.515
Twitter 1434.44 49.59 0.540 0.460
YouTube 1324.33 62.31 0.444 0.556
WhatsApp 35.78 1414.33 0.398 0.602
Instagram 34.96 1405.98 0.370 0.630

Table 2 –Apps Poisson parameters over LTE network

(2)

(3)

(4)

(5)

(6)

90 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

(7)

(8)

Additionally, table 3 show the parameters for Apps packets pattern over Wi-Fi network.

App λ1 λ2 P1 P2
Drive 1406.74 65.69 0757 0.243
Facebook 87.86 1412.47 0.360 0.640
Google 1365.83 98.28 0.371 0.629
Email 84.61 1394.65 0.493 0.507
Twitter 1412.38 71.23 0.575 0.425
YouTube 104.41 1374.74 0.167 0.833
WhatsApp 79.78 1422.31 0.359 0.641
Instagram 70.82 1404.54 0.414 0.586

Table 3 – Apps Poisson parameters over Wi-Fi network

Finally, we propose a hypothesis test to compare the average of the packets in the LTE
network versus the Wi-Fi network. In each case two hypothesis contrasts were proposed,
Ho: the average of the packages is equal; and in case the null hypothesis is not true, an
alternative hypothesis H1 is proposed: The average of the packets of the Wi-Fi network
is greater than the packets of the LTE network. The only application that shows that the
average of the packages in both scenarios is the same, is the Email App. For Apps such
as Drive, Facebook, Twitter, YouTube and WhatsApp, the result was that the average
packet of the Wi-Fi network is greater than that of the LTE network. For Apps such as
Instagram, and Google search, the average packet of the Wi-Fi network is smaller than
the LTE network. Next, we show in table 4 this comparison for Drive App:

Samples estimates t df p-value Hypothesis evaluation


Ho is rejected, the average of
Mean of x = 1081.4132 129.54 28717 2.2e-16
packets is not equal
Mean of y = 532.3175 H1 is not rejected, the average of
Confidence interval 95% 129.54 28717 1 Wi-Fi packet is greater than LTE
network

Table 4 – Drive App hypothesis contrast

5. Conclusions
In this paper, we presented an analysis for stochastic behavior of packet size for typical
Apps in mobile devices over two networks: wireless and LTE. The results show that a
bimodal traffic distribution can be used to represent Apps such as Drive, Facebook,

RISTI, N.º E22, 08/2019 91


Traffic analysis of internet applications on mobile devices over LTE and Wireless networks

Google, Email, Twitter, YouTube, WhatsApp, and Instagram, with packets around 30
and 1.500 bytes, and small differences in both scenarios. Only Email App over LTE
network had a trimodal distribution. This Apps traffic represents a big impact over TCP
and IPv4 protocols.
We proposed models for characterize the network traffic using mixture Poisson
distribution and provide the best statistical fit to the packet size variable for each App
analyzed in this paper. These traffic models can be used to estimate real data traffic and
be applied for other research studies of computer networking. Devices manufacturers
and Apps developers can focus on characteristics of the popular applications for traffic
performance evaluation, and resource optimization.
This work could serve as a starting point for the optimization of the communication
parameters, such as bandwidth, delay, jitter and packet loss, of different Apps according
to the network that is being used. Also, this study can be used for networking community
researchers to improve security policies, traffic engineering in high performance
networks, and network quality of service provisioning according to traffic type (voice,
video, data).
The future work will be centered in analyze the impact over network delay, mainly
queuing delay in intermediate systems, and design and modelling of a quality of service
policy based on packet size, which help to reduce end-to-end delay in a communication
over an IP network.

References
Aceto, G., Ciuonzo, D., Montieri, A., & Pescapé, A. (2018). Multi-classification approaches
for classifying mobile app traffic. Journal of Network and Computer Applications,
103, 131–145. [Link]
Adeyemi, O. J., Popoola, S. I., Atayero, A. A., Afolayan, D. G., Ariyo, M., & Adetiba, E.
(2018). Exploration of daily Internet data traffic generated in a smart university
campus. Data in Brief, 20, 30–52. [Link]
Alan, Hasan Faik, and Jasleen Kaur. (2016). Can Android Applications Be Identified
Using Only TCP/IP Headers of Their Launch Time Traffic? In Proceedings of the
9th ACM Conference on Security & Privacy in Wireless and Mobile Networks -
WiSec ’16, New York, New York, USA: ACM Press, 61–66.
Al-Turjman, Fadi, Ayman Radwan, Shahid Mumtaz, and Jonathan Rodriguez. (2017).
Mobile Traffic Modelling for Wireless Multimedia Sensor Networks in IoT.
Computer Communications Journal.
Arrowsmith, D. K., & Mondrag, R. J. (2005). Modelling Network Data Traffic. Retrieved
from [Link]
Cao, Jin, William S. Cleveland, Dong Lin, and Don X. Sun. (2013). Internet Traffic Tends
Toward Poisson and Independent as the Load Increases. Nonlinear Estimation and
Classification: 83–109.

92 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Cao, J., Fang, Z., Qu, G., Sun, H., Zhang, D. (2017). An Accurate Traffic Classification
Model Based on Support Vector Machines. International Journal of Network
Management 27(1).
Castro, R. S., Alencar, M., & Fonseca, I. (2013). Probability Density Functions of the
Packet Length for Computer Networks with Bimodal Traffic. International Journal
of Computer Networks & Communications, 5(3), 17–31. [Link]
ijcnc.2013.5302
CISCO (2017). Cisco visual networking index: forecast and trends. Retrieved from
[Link]
networking-index-vni/[Link]
Ertam, Fatih, and Engin Avcı. (2017). A New Approach for Internet Traffic Classification:
GA-WK-ELM. Measurement: Journal of the International Measurement
Confederation 95.
Espinal, A., Estrada, R., & Monsalve, C. (In press). Modelling TCP/IP traffic of a
convergent campus wireless network. ICAMCS – International Conference on
Applied Mathematics and Computer Science.
Gandhi, C., Suri, G., Golyan, R. P., Saxena, P., & Saxena, B. K. (2014). Packet Sniffer
– A Comparative Study. International Journal of Computer Networks and
Communications Security, 2(5), 179–187. Retrieved from [Link]
published/volume2/issue5/p6_2-[Link]
Go-Globe (2017). Things that happen on internet every 60 seconds. Retrieved from:
[Link]
Hajjar, A., Khalife, J., & Díaz-Verdejo, J. (2015). Network traffic application identification
based on message size analysis. Journal of Network and Computer Applications,
58, 130–143. [Link]
Hosting Facts (2018). The Internet Stats & Facts for 2019. Retrieved from: https://
[Link]/internet-facts-stats/.
Lee, I. W. C., & Fapojuwo, A. O. (2005). Stochastic processes for computer network traffic
modeling. Computer Communications, 29(1), 1–23. [Link]
comcom.2005.02.004
Liu, Z., Wang, R., & Tang, D. (2018). Extending labeled mobile network traffic data by
three levels traffic identification fusion. Future Generation Computer Systems, 88,
453–466. [Link]
Maheshwari, S., Mahapatra, S., & Cheruvu, K. (2018). Measurement and Forecasting of
Next Generation Wireless Internet Traffic.
Maheshwari, Sumit, K. Vasu, Sudipta Mahapatra, and C. S. Kumar. (2017). Measurement
and Analysis of UDP Traffic over Wi-Fi and GPRS. [Link]
(January 1, 2019).

RISTI, N.º E22, 08/2019 93


Traffic analysis of internet applications on mobile devices over LTE and Wireless networks

Mansfield, G., Roy, T. K., & Shiratori, N. (2001). Self-similar and fractal nature of
Internet traffic data. International Conference on Information Networking, 14(2),
227–231. [Link]
Pries, R., Warmer, F., Staehle, D., Heck, K., & Tran-Gia, P. (2009). Traffic measurement
and analysis of a broadband wireless internet access. IEEE Vehicular Technology
Conference. [Link]
Shi, Hongtao, Li H., Zhang D., Cheng C., Cao X. (2018). An Efficient Feature Generation
Approach Based on Deep Learning and Feature Selection Techniques for Traffic
Classification. Computer Networks 132: 81–98.
Taylor, V. F., Spolaor, R., Conti, M., & Martinovic, I. (2016). AppScanner: Automatic
fingerprinting of smartphone apps from encrypted network traffic. In Proceedings
- 2016 IEEE European Symposium on Security and Privacy, EURO S and P 2016
(pp. 439–454). [Link]

94 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 10/03/2019
Iberian Journal of Information yS stems and Technologies Aceitação/Acceptance: 03/06/2019

Análisis de emociones y sentimientos sobre el


discurso de firma del acuerdo de paz en Colombia

Gabriel Elías Chanchí G1, Amelia Elizabeth Córdoba G2

gchanchig@[Link], [Link]@[Link]

1
Universidad de Cartagena, Avenida del Consulado, Cll 30 # 48-152, 130001, Cartagena-Bolívar, Colombia
2
Universidad Nacional, Abierta y a Distancia, Cra 3 # 2-55, 190004, Popayán-Cauca, Colombia
Pages: 95–107

Resumen: La computación afectiva ha sido ampliamente difundida en el contexto


de las redes sociales, con el fin de analizar las emociones y/o sentimientos que
expresan los usuarios a partir de sus publicaciones. Este artículo propone un
análisis de emociones y sentimientos sobre el discurso del presidente Santos en
la firma del acuerdo de paz en Colombia. El análisis de emociones es realizado a
través del estudio del comportamiento emocional de la voz del presidente a lo largo
de la pista de audio. Para lograrlo, se extraen las propiedades acústicas de arousal y
valencia, las cuales permiten clasificar una pista de audio en el modelo de Russell.
El análisis de sentimientos es realizado mediante el servicio provisto por el portal
ParalellDots, el cual obtiene la polaridad de un determinado fragmento de texto. La
intención del estudio es evaluar la concordancia entre el análisis obtenido a nivel de
emociones y sentimientos.
Palabras clave: arousal, computación afectiva, emociones, modelo de Russell,
valencia.

Analysis of emotions and sentiments on the discourse of the signing of


the peace agreement in Colombia

Abstract: Affective computing has been widely disseminated in the context of


social networks, in order to analyze the emotions and / or sentiments expressed by
users based on their publications. This article proposes an analysis of emotions and
sentiments about President Santos’ speech at the signing of the peace agreement
in Colombia. The analysis of emotions is carried out through the study of the
emotional behavior of the president’s voice along the audio track. To achieve this,
the acoustic properties of arousal and valence are extracted, which allow to classify
an audio track in Russell’s model. The analysis of sentiments is carried out using
the service provided by the ParalellDots portal, which obtains the polarity of a given
fragment of text. The intention of the study is to evaluate the concordance between
the emotions obtained in the different moments of the audio track of the discourse
with the sentiments extracted from the fragments of the discourse text.
Keywords: affective computation, arousal, emotions, Russell’s model, valence.

RISTI, N.º E22, 08/2019 95


Análisis de emociones y sentimientos sobre el discurso de firma del acuerdo de paz en Colombia

1. Introducción
El análisis y detección de emociones es un factor relevante para evaluar el grado de
percepción de un usuario con respecto a un producto o servicio. En ese orden de ideas, en
el campo de la usabilidad, la emocionalidad de un usuario es un elemento fundamental
de cara a la estimación del atributo satisfacción (Delgado, Girón, Chanchí, & Márceles,
2018; Hassan & Martín, 2003; Enriquez & Casas, 2013; Hassan, 2015). Es así como la
computación afectiva ha surgido como un área de investigación emergente, centrada
en el desarrollo de dispositivos y sistemas con capacidad para reconocer, interpretar,
procesar y simular las emociones humanas con el fin de mejorar la interacción entre el
usuario y el computador (Baldasarri, 2016; González, 2017; Bustos et. al, 2016).
En el campo de la computación afectiva, se han venido desarrollado diferentes
investigaciones aplicadas al contexto de las redes sociales, las cuales se centran en
analizar el comportamiento de los usuarios a través de sus publicaciones (Garcia et al.,
2019; Brajawidagda, Scholl, & Chatfield, 2013; Rani & Rani, 2016; Ravi & Ravi, 2015).
En este mismo sentido, la computación afectiva ha venido también aplicándose al
análisis de contenido auditivo musical, teniendo en cuenta propiedades acústicas como
el arousal y la valencia, las cuales permiten clasificar un fragmento de audio en una
emoción determinada (Meyers, 2007; Solarte et al., 2016a; Solarte et al., 2016b). Por
otra parte, a nivel comercial, se han desarrollado diferentes plataformas de computación
afectiva en línea tales como Echonest, Musicovery o Gracenote, las cuales posibilitan el
análisis y clasificación de un conjunto limitado de contenidos auditivos musicales en
emociones a partir del estudio de sus variables acústicas y la valoración de los usuarios
(Solarte et al., 2016b).
Este artículo propone como aporte la generación de un estudio de análisis de emociones
y sentimientos sobre el discurso del presidente Santos en la firma del acuerdo de
paz en Colombia. La intención del estudio es realizar una comparación entre las
emociones obtenidas en los diferentes momentos de la pista de audio del discurso con
los sentimientos extraídos a partir de los fragmentos de texto del discurso. Para el
estudio de las emociones en las pistas de audio, se construyó en el lenguaje Java un
analizador de emociones, el cual permite obtener la traza de emociones en los diferentes
momentos de una pista de audio. Este analizador toma en cuenta a nivel conceptual el
modelo propuesto por Russell y de manera específica las variables acústicas de arousal
y valencia, las cuales permiten la clasificación de un fragmento de audio en el espacio
emocional del modelo. Para la extracción de las propiedades de arousal y valencia, el
analizador hace uso de la librería abierta para el análisis acústico openEAR (Eyben,
Wollmer, & Schuller, 2012). Por su parte, para el análisis de sentimientos del discurso se
hizo uso de la herramienta en línea provista por el portal de ParallelDots, la cual permite
clasificar un texto en tres posibles sentimientos: positivo, neutral y negativo, indicando
el porcentaje de cercanía del texto con estos tres tipos de sentimientos.
El resto del artículo está organizado de la siguiente forma: en la sección 2 se presenta
la metodología considerada; en la sección 3 se describen un conjunto de conceptos
relevantes que se tuvieron en cuenta para el desarrollo del presente trabajo; en la
sección 4 se presenta el modelo de emociones considerado para el diseño y construcción
del analizador de emociones para contenidos de audio; en la sección 5 se describe la

96 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

estructura funcional del analizador de emociones para contenidos de audio propuesto;


en las secciones 6 y 7 se presenta de manera respectiva el estudio de emociones y
sentimientos sobre el discurso del presidente Santos en la firma del acuerdo de paz; en
la sección 8 se muestra el estudio comparativo de los análisis presentados en la sección
6 y 7; finalmente en la sección 9 se presentan las conclusiones y trabajos futuros.

2. Metodología
Para el desarrollo de la presente investigación, se consideraron 4 fases a saber: exploración
de modelos y tecnologías; diseño y construcción del analizador de emociones; análisis de
sentimientos y emociones sobre al discurso; comparación de resultados.

Figura 1 – Metodología propuesta

Fase 1 - Exploración de modelos y tecnologías: En esta fase se realizó la


exploración de un conjunto de tecnologías para la obtención de variables acústicas,
así como de modelos de emociones relacionados con los contenidos multimedia. Del
mismo modo se exploraron herramientas para la ejecución de análisis de sentimientos
en línea. En esta fase se consideraron las variables acústicas de arousal y valencia, las
cuales de acuerdo a (Solarte et al., 2016b) permiten relacionar de manera más sencilla
un fragmento de audio con una emoción del modelo de Russell.
Fase 2 – Diseño y construcción del analizador: Según las tecnologías escogidas
en la fase 1 a nivel de análisis de emociones y considerando el modelo emocional
seleccionado, se procedió al diseño y construcción de un analizador de emociones
para contenidos de audio, mediante el cual fue posible el análisis de la fluctuación de
emociones en el discurso del acuerdo de paz.
Fase 3 – Análisis de sentimientos y emociones del discurso: A partir de del
analizador de sentimientos para contenidos de audio construido en la fase 2 y de la
herramienta de análisis de sentimientos identificada en la fase 1, se procedió a realizar el
análisis de emociones y sentimientos sobre el discurso del presidente Santos en la firma
del acuerdo de paz.
Fase 4 – Comparación de los resultados: En esta fase se compararon los resultados
del análisis de sentimientos y emociones realizados al discurso del presidente Santos
con el fin de determinar la relación existente entre las emociones reflejadas en el audio y
los sentimientos identificados en el discurso.

3. Marco Conceptual
En esta sección se presentan un conjunto de conceptos relevantes que se tuvieron en
cuenta para el desarrollo de la presente investigación. Dentro de estos conceptos se
encuentran: análisis de sentimientos, modelo de Russell, arosual, valencia.

RISTI, N.º E22, 08/2019 97


Análisis de emociones y sentimientos sobre el discurso de firma del acuerdo de paz en Colombia

3.1. Análisis de sentimientos


El análisis de sentimientos se encarga de clasificar un documento de diferentes contextos
de aplicación (productos, películas, deportes, cultura, etc.) en función de la polaridad
de la opinión que expresa el autor, mediante enfoques semánticos (diccionarios de
términos), aprendizaje de máquina (máquinas de soporte vectorial, Naive Bayes,
aprendizaje profundo, entre otros), ontologías o enfoques híbridos (Ravi & Ravi, 2015;
Bustos et al., 2016). En este ámbito, la determinación de la polaridad de una opinión es
valorada como positiva, neutra o negativa acerca de un producto, servicio, organización,
persona o sobre cualquier tipo de ente sobre el que es posible expresar de manera
escrita una opinión (Martínez, Martín, & Ureña, 2014; Montesinos & Orchard, 2014)
y la subjetividad de una oración está dada por una emoción, un juicio o una opinión
personal, mientras que la objetividad se refiere a información basada en hechos, por
tanto, el análisis de subjetividad es el reconocimiento de la asociación de las palabras y
su sentido (Ravi & Ravi, 2015).
La temática de análisis de sentimientos ha sido dinamizada por el auge que han tenido
las redes sociales en los últimos años y por la necesidad de procesar la gran cantidad
de información en formato de texto que estas generan minuto a minuto, valiéndose de
técnicas de aprendizaje automático para la clasificación de texto con base en la polaridad
de los mismos, por lo tanto, se han abierto nuevas posibilidades de investigación en
diferentes contextos (Sobrino & Kanaan, 2018; Rani & Rani, 2016).

3.2. Arousal
Es propiedad acústica que representa una medida de percepción de la intensidad y la
actividad a lo largo de la pista de audio. Típicamente las pistas de audio rápidas que
cuentan con sonidos fuertes y ruido, tendrían una alta energía, mientras que una pista
de audio que contenga sonidos leves y poco ruido, estaría bajo en la escala de energía.
Otras características que contribuyen en este atributo son la percepción del volumen,
timbre vocal, entropía general (Solarte et al., 2016b).

3.3. Valencia
Es una propiedad auditiva que describe la positividad trasmitida por una pista de
audio. Las pistas con alta valencia están asociadas con emociones positivas tales como:
estar feliz, alegre eufórico, entre otros. Por otra parte, las pistas con baja valencia están
asociadas a emociones negativas o estados de ánimo tales como: tristeza, depresión,
enojo (Solarte et al., 2016b).

3.4. Modelo de Russell


El modelo de Russell ha sido uno de los más utilizados para el análisis de emociones (Jang
& Namkung, 2009; Seo & Huh, 2019). Este modelo tiene una estructura circular de dos
dimensiones (valencia/activación), que parte el espacio en cuatro cuadrantes, en el cual
las emociones son trazadas basándose en su nivel de arousal (activo/pasivo) y su valencia
(positiva/negativa) (Schall, 2015). Así mismo el modelo circunflejo del afecto, muestra
que los estados afectivos surgen de interpretaciones cognitivas de sensaciones nerviosas
centrales, que son el producto de dos sistemas neurofisiológicos independientes, uno está

98 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

relacionado con la valencia (placer/desagrado) y el otro al arousal (estado de alerta).


Cada emoción puede ser vista como una combinación lineal de estas dos dimensiones
o diversos grados de valencia (Solarte et al., 2016b). De acuerdo con lo anterior existen
dos variables acústicas que hace parte del modelo, las cuales son valencia y arousal. Al
obtener los dos valores arousal y valencia definidos anteriormente se establece un punto
en el espacio cartesiano (figura 2) que indica la emoción actual de una persona.

Figura 2 – Modelo de Russell.

4. Modelo de emociones considerado


Para el desarrollo del analizador de emociones para contenidos de audio presentado
en este trabajo, se partió del modelo de emociones presentado en (Solarte et al.,
2016a), el cual es una adaptación del modelo de Rusell (Russell, 1980). En dicho
modelo se consideran cinco estados de ánimo formando una circunferencia en el plano
bidimensional la cual es dividida en cinco sectores iguales de los cuales con base en
los resultados de las variables (arousal y valencia) se posiciona un ángulo apuntando
a determinada emoción como (ver figura 3). Los estados de ánimo considerados en
el modelo de cinco emociones son: “excitado”, “feliz”, “relajado”, “triste” y “enojado”
(Solarte et al., 2016a). El modelo en mención se consideró debido a que toma como
referencia las variables de arousal y valencia, y por su simplicidad de dos coordenadas
para la identificación de la emoción asociada al contenido.

Figura 3 – Modelo de emociones considerado.

RISTI, N.º E22, 08/2019 99


Análisis de emociones y sentimientos sobre el discurso de firma del acuerdo de paz en Colombia

A continuación en la tabla 1, se puede observar como cada emoción del modelo y


descrita en la figura 2 tiene una amplitud de 72°, así mismo se muestra el rango para
el que está determinado cada estado de ánimo (Solarte et al., 2016b). El ángulo al que
se hace mención en la tabla 1, es el que se utiliza para clasificar las emociones en el
modelo, una vez realizada la operación trigonométrica entre la variable de arousal y la
variable de valencia.

Rango de ángulos Emoción


<54° y ≥342° Feliz
≥54° y <126° Excitado
≥126° y <198° Enojado
≥198° y <270° Triste
≥270° y <342° Relajado

Tabla 1 – Emociones por rango

5. Analizador de emociones
En esta sección se presenta el diagrama de bloques del analizador de emociones en pistas
de audio y las interfaces finales del mismo.

5.1. Diagrama de bloques del analizador


En la figura 4 se presenta el diagrama de bloques del analizador de emociones propuesto
en este artículo. Tal como se muestra en la figura 5, el analizador de emociones propuesto
está constituido por 4 módulos principales: módulo de GUI, módulo de codificación,
módulo de emoción y módulo de reportes.
El módulo de GUI es el encargado de la generación y control de la interfaz gráfica del
analizador, para lo cual se hace uso de las clases pertenecientes al paquete Swing de
Java. El módulo de codificación se encarga de codificar el contenido multimedia cargado
al analizador, en caso que dicho contenido sea de tipo MP3. Del mismo modo, este
módulo cumple la función de segmentar el contenido multimedia de audio inicial en
fragmentos de 5 segundos de duración, los cuales son analizados emocionalmente de
manera individual. Las anteriores operaciones son realizadas por el analizador, mediante
la operación en segundo plano de la librería ffmpeg, la cual se ejecuta como servicio en
el sistema operativo Linux.
En lo referente al módulo de emociones, este se encarga de obtener las variables de
arousal y valencia de cada uno de los fragmentos de audio para posteriormente obtener
la emoción asociada a dicha porción de audio. El procesamiento emocional es realizado
mediante la ejecución en segundo plano de la librería openEAR (Eyben, Wollmer, &
Schuller, 2012), la cual corre como servicio en el sistema operativo Linux. Finalmente
el módulo de reportes, es el encargado de presentar de manera gráfica la traza de
emociones presentes a lo largo de la duración de la pista de audio, así como generar una
gráfica porcentual con la participación de las emociones dentro del audio y un reporte

100 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

en formato CSV con la traza de emociones. Las gráficas obtenidas por el analizador son
generadas por la API JFreeChart de Java, la cual cuenta con una amplia variedad de
modelos de gráficas que pueden ser desplegados al cargar los datos a partir de estructuras
temporales. Finalmente, considerando que las librerías openEAR y ffmpeg requieren ser
ejecutadas en el sistema operativo Linux, se escogió la distribución Lubuntu.

Figura 4 – Módulos del analizador de emociones

5.3. Interfaces finales del analizador


En la figura 5 se presenta la interfaz principal del analizador e emociones para contenidos
de audio propuesto en este trabajo.

Figura 5 – Interfaz principal del analizador

El analizador fue construido en el lenguaje Java y trabaja en segundo plano con la


librería de codificación de contenidos ffmpeg, así como de la librería de procesamiento
de emociones openEAR. En cuanto a la generación de las gráficas de seguimiento de
emociones, el analizador hizo uso de la librería JFreeChart. Tal como se aprecia en la
figura 5, la herramienta cuenta con 3 pestañas a saber: “Análisis”, “Seguimiento de
emociones” y “Porcentaje de emociones”.
En la pestaña de análisis se procede con la carga de un archivo de audio con extensión
mp3 o wav, si el archivo tiene extensión mp3, el analizador se encarga de realizar su

RISTI, N.º E22, 08/2019 101


Análisis de emociones y sentimientos sobre el discurso de firma del acuerdo de paz en Colombia

codificación mediante la librería ffmpeg. Una vez cargado el archivo de audio, se muestra
en pantalla la duración en segundos del mismo, de tal manera que cuando se presiona
el botón “Procesar audio”, el archivo comienza a ser segmentado en fragmentos de 5
segundos, los cuales son analizados mediante la librería openEAR con el fin de obtener
las variables acústicas de arousal y valencia. Estas variables son utilizadas para obtener
según el modelo de emociones considerado en la figura 3, una de las 5 emociones a las
que está asociado dicho fragmento de audio. En el área de texto de la primera pestaña
se aprecia como el analizador va realizando en tiempo real el proceso de segmentación,
procesamiento y detección de la emoción asociada. Una vez termina el análisis completo
de toda la pista de audio, el analizador tiene la opción de generar un reporte del análisis,
de tal manera que al presionar el botón “Generar Reporte”, se genera en la pestaña de
“Seguimiento de Emociones” una gráfica que representa la fluctuación de las emociones
en los diferentes momentos de la pista de audio (ver figura 6).
Del mismo modo, al tiempo que se genera la gráfica en la pestaña “Seguimiento de
Emociones”, en la pestaña “Porcentaje de Emociones” se muestra una gráfica de torta
con la distribución de las emociones en la pista de audio. Dicho proceso es realizado
mediante la contabilización de los fragmentos de 5 segundos que están asociados a una
de las 5 emociones (relajado, triste, enojado, excitado) del modelo considerado (ver
figura 6b). A modo de ejemplo, en la figura 6a se presenta la taza de emociones en una
pista específica de audio, en la cual se tiene la participación de tres emociones puntuales
“feliz”, “excitado” y “triste”, siendo las dos primeras las de mayor participación a lo largo
de la pista de audio.

Figura 6a – Seguimiento de emociones Figura 6b – Porcentaje de emociones

6. Análisis de emociones al discurso


En esta sección se presenta el análisis de emociones realizado al discurso pronunciado
por el presidente Juan Manuel Santos en la ceremonia de firma del acuerdo de paz en
Colombia. Este análisis fue conducido haciendo uso de la herramienta automatizada
propuesta en la sección 5, la cual se encarga de segmentar un archivo de audio para

102 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

obtener de cada segmento las variables acústicas de arousal y valencia, mediante las cuales
es posible asociar un determinado segmento a una emoción del modelo considerado en
la sección 4. Así, en la figura 7a se presenta el proceso de segmentación y clasificación
realizado por la herramienta automatizada propuesta sobre el discurso del presidente
Santos, el cual tiene una duración aproximada de 22 minutos. Una vez culminado el
proceso de análisis de emociones de los diferentes segmentos de audio que conforman el
discurso del presidente Santos, la herramienta automatizada permite generar un reporte
del comportamiento emocional presentado a lo largo del discurso. Del mismo modo se
genera una gráfica de torta que presenta la distribución de las emociones en el audio
analizado (ver figura 7b).

Figura 7a – Análisis segmentos de audio Figura 7b – Porcentaje emociones discurso

De acuerdo a la figura 7b, son tres las emociones predominantes en el discurso del
presidente: feliz, relajado y triste. Lo anterior se presenta de manera detallada en la
tabla 2, donde se muestra la distribución porcentual de cada uno de estas emociones en
el audio analizado.

Emoción Apariciones Porcentaje


Triste 22 9.2%
Relajado 90 37.5%
Feliz 128 53.3%

Tabla 2 – Distribución porcentual de emociones

De acuerdo a la tabla 2 el estado predominante en el discurso es el de feliz con un 53.3%,


seguido por el de relajado con un 37.5% y por el de triste con un 9.2%. Del mismo
modo, en la figura 8 se presenta la traza de emociones obtenida en el discurso, a partir
del reporte generado por la herramienta. Como se aprecia en la figura 8, de las cinco
emociones consideradas en el modelo de la sección 4, durante el discurso del presidente
Santos se pueden evidenciar variaciones entre tres de las cinco emociones del modelo

RISTI, N.º E22, 08/2019 103


Análisis de emociones y sentimientos sobre el discurso de firma del acuerdo de paz en Colombia

(feliz, relajado y triste), siendo representativa a lo largo del discurso la fluctuación entre
la emoción relajado a la emoción feliz y viceversa.

Figura 8 – Traza de emociones del discurso

7. Análisis de sentimientos al discurso


En esta sección se presenta el análisis de sentimientos realizado al discurso del presidente
Santos en la firma del acuerdo de paz en Colombia. Este análisis fue conducido haciendo
uso de la herramienta en línea provista por el portal de ParallelDots, la cual permite
clasificar un texto en tres posibles sentimientos: positivo, neutral y negativo, indicando
el porcentaje de cercanía del texto con estos tres tipos de sentimientos. El estudio fue
realizado analizando las diferentes ideas presentadas en el discurso a lo largo del tiempo
de duración del mismo.

Figura 9 – Traza de sentimientos del discurso


En la figura 9, es posible observar como a lo largo del discurso del presidente Santos
el sentimiento positivo es sobresaliente con repecto a los otros dos. Lo anterior se

104 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

puede relacionar directamente con los resultados del análisis de emociones presentado
en la tabla 2, en donde son solamente tres las emociones que se presentan en el audio
del discurso: feliz, relajado y triste. En este orden de ideas es posible establecer una
concordancia entre las emociones y sentimientos: feliz y positivo, triste y negativo,
relajado y neutro. Del mismo modo, es posible observar que en los dos análisis
realizados, tanto la emoción feliz como el sentimiento positivo tienen una distribución
porcentual cercana, siendo para el primer caso de 53.3% y para el segundo de 58.2%. Los
anteriores resultados permiten inferir que existe una correspondencia entre el análisis
de emociones realizado sobre el audio del discurso y el análisis de sentimientos realizado
sobre el texto del mismo.

9. Conclusiones y trabajos futuros


El análisis obtenido en este estudio, permite inferir que existe consistencia entre las
emociones expresadas en el audio del discurso del presidente Santos y los sentimientos
presentes en el texto del discurso. De este modo, es posible relacionar a nivel porcentual la
emoción feliz con el sentimiento positivo, la emoción triste con el sentimiento negativo y
la emoción relajado con el sentimiento neutro. En este mismo sentido se puede observar
que la emoción feliz y el sentimiento positivo tienen una distribución porcentual cercana
(53.3% y 58.2% respectivamente).
En este artículo se propuso como aporte adicional un analizador automático de emociones
para contenidos auditivos, el cual permite generar una traza sobre la fluctuación de las
emociones a lo largo de una pista de audio. Lo anterior gracias a la extracción de las
variables acústicas de arousal y valencia sobre fragmentos de audio de 5 segundos de
duración, los cuales son mapeados a una de las posibles emociones consideradas en la
adaptación del modelo de Russell.
La librería openEAR es un aporte relevante para el desarrollo del analizador de emociones
propuesto para contenidos de audio, ya que posibilita la obtención de las variables
acústicas asociadas a los segmentos de audio del archivo evaluado. Estas variables son
la base para estimar la emoción asociada a un fragmento específico de la pista de audio,
tomando en consideración el modelo de emociones de la figura 3.
Mediante el analizador de emociones para contenidos de audio propuesto se pretende
abrir un espacio para nuevas investigaciones relacionadas con la construcción de
servicios comerciales basados en computación afectiva, como puede ser la estimación
de la percepción de un usuario en las opiniones expresadas sobre un producto o servicio
vía telefónica. Del mismo modo se generan nuevas posibilidades en cuanto a la creación
de servicios en escenarios como el de la televisión digital, donde la interacción se hace
mediante comandos de voz.
A modo de trabajo futuro, se pretende desarrollar un servicio para el análisis en línea de
emociones para contenidos de audio, semejante al servicio de análisis de sentimientos
empleado en este artículo. Lo anterior con el fin de que dicho servicio pueda ser usado
para el análisis emocional en diferentes contextos de aplicación. Del mismo modo
se pretende realizar un análisis estadístico a partir de una prueba de hipótesis para
proporciones entre las frecuencias relativas de las variables en cuestión: positivo - feliz,
neutro - relajado y triste-negativo.

RISTI, N.º E22, 08/2019 105


Análisis de emociones y sentimientos sobre el discurso de firma del acuerdo de paz en Colombia

Referencias
Baldasarri, S. (2016). Computación Afectiva: tecnología y emociones para mejorar la
experiencia. Revista Institucional de la Facultad de Informática - UNLP, 14–15.
Brajawidagda, U., Scholl, H., & Chatfield, A. (2013). Tsunami early warnings via Twitter
in government: Net-savvy citizens’ co-production of time-critical public information
services. Government Information Quarterly, 377–386.
Bustos, M., Hernández, A., Vásquez, R., Hernández, G., Zatarain, R., & Barrón, M.
(2016). EmoRemSys: Sistema de recomendación de recursos educativos basado
en detección de emociones. RISTI - Revista Ibérica de Sistemas e Tecnologias de
Informação, 80–95.
Delgado, D., Girón, D., Chanchí, G., & Márceles, K. (2018). Propuesta de una herramienta
para la estimación de la satisfacción en pruebas de usuario, a partir del análisis de
expresión facial. Revista Colombiana de Computación, 6–15.
Enriquez, J., & Casas, S. (2013). Usabilidad en aplicaciones móviles. Informe Científico
Técnico UNPA, 25–47.
Eyben, F., Wollmer, M., & Schuller, B. (2012). openEAR - Introducing the Munich Open-
Source Emotion and Affect Recognition Toolkit. Technische Universitat Munchen.
Garcia, J., Henríquez-Coronel, P., Pincay, J., & Herrera-Tapia, J. (2019). Analítica de
Twitter para el estudio de las emociones primarias durante el terremoto de México
2017. RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação, 479–492.
González, R. (2017). Computación Afectiva: Una mirada a la historia, aplicaciones y
proyecciones. Revista Bits de Ciencia - Universidad de Chile , 64–71.
Grau, J. (2007). Pensando en el usuario: la usabilidad. Anuario: Think EPI, 172–177.
Hassan, Y. (2015). Experiencia de Usuario: Principios y Métodos. Granada-España.
Hassan, Y., & Martín, F. (2003). Más allá de la Usabilidad: Interfaces ‘afectivas’. No solo
usabilidad.
Jang, S., & Namkung, Y. (2009). Perceived quality, emotions, and behavioral intentions:
Application of an extended Mehrabian–Russell model to restaurants. Journal of
Business Research, 451–460.
Meyers, O. (2007). A mood-based music classification and exploration system.
Massachusetts Institute of Technology.
Preece, J. (1994). Human Computer Interaction (ICS). Addison-Wesley.
Rani, V., & Rani, K. (2016). Twitter Streaming and Analysis through R. Indian Journal
of Science and Technology, 1–6.
Ravi, K., & Ravi, V. (2015). A survey on opinion mining and sentiment analysis: Tasks,
approaches and applications. Knowledge-Based Systems, 14–46.

106 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Schall, A. (2015). Develando las emociones reales de nuestros usuarios: el futuro de la


investigación de experiencia del usuario. Revista de la Asociación de Profesionales
de Experiencia de Usuario, 15(2).
Seo, Y., & Huh, J. (2019). Automatic Emotion-Based Music Classification for Supporting
Intelligent IoT Applications. Electronics, 8(2).
Solarte, L., Sánchez, M., Chanchí, G., Durán, D., & Arciniegas, J. (2016). Dataset de
contenidos musicales de video, basado en emociones. Revista Ingenierías USBMed,
37–46.
Solarte, L., Sánchez, M., Chanchí, G., Durán, D., & Arciniegas, J. (2016). Video on
demand service based on inference emotions user. Revista Sistemas y Telemática,
31–47.
Solis Tech. (2016). Human Computer Interaction - The fundamentals made easy.
CreateSpace Independent Publishing Platform.

RISTI, N.º E22, 08/2019 107


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 01/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 22/06/2019

Human upper limbs movements imitation in a


humanoid robot using a natural user interface

Acurio Maldonado Santiago Alejandro1, Robayo Jácome Darío Javier1, Acurio Maldonado
Daniel Marcelo1, Amancha Proaño Pablo1, Cárdenas Salazar Álvaro1

sacurio@[Link], drobayo@[Link], bdp_rs@[Link], dacurio@pucesa.


[Link], pamancha@[Link].

1
Pontificia Universidad Católica del Ecuador Sede Ambato, Ambato, EC180207, Tungurahua, Ecuador.
Pages: 108–119

Resumen: El objetivo de este trabajo es manipular las extremidades superiores de


un robot humanoide en correspondencia con el movimiento de un usuario capturados
por una interfaz natural. Para conseguir este objetivo se ha utilizado un dispositivo
Kinect y librerías del SDK para desarrolladores para facilitar la representación del
esqueleto humano con puntos y huesos. Magnitudes escalares y vectoriales de las
extremidades superiores se calculan usando información del dispositivo Kinect,
luego estos valores son transformados utilizando algoritmos codificados en visual
C#. Finalmente, estos datos son enviados a través de una conexión serial RS232
a cada servomotor en las extremidades del robot humanoide. El resultado de la
aplicación es un movimiento similar entre el usuario y el humanoide con uno o los
dos brazos. Trabajos futuros permitirán mayor movimiento en un robot imitador.
Palabras-clave: Robot humanoide, Kinect, RoboBuider, Visual C#, comunicación
serla, movimiento de extremidades superiores.

Abstract: The aim of this study is to control the upper limbs of a humanoid robot so
that it follows the movements of a user, captured by a natural interface. To meet this
objective, a Kinect device and SDK developer libraries have been used to represent
the human skeleton with joints and bones. The vector and angular quantities of
the upper limbs are calculated using information from the Kinect device. These
values are then transformed through Visual C # encoded algorithms. Finally, this
data is sent by an RS232 serial connection to each servomotor in the humanoid
robot’s limbs. The result of the application is a similar movement between the user
and the humanoid with one or both arms. Further studies will enable the complete
movement of an imitator robot.
Keywords: humanoid robot, Kinect, RoboBuilder, Visual C#, serial
communication, upper limbs movement.

1. Introducción
La robótica en la actualidad tiene un impacto relevante en las actividades humanas
(Tsarouchi, Makris, & Chryssolouris, 2016) (Koppula & Saxena, 2016) y se espera

108 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

un desarrollo más significativo aún (Mercader Uguina, 2017). Los robots con forma
humana han sido desarrollados de manera muy diversa. En este trabajo se muestra un
procedimiento para implementar una interfaz natural de usuario o NUI por sus siglas
en inglés (Kaushik & Jain, 2014), que permita manipular las extremidades superiores de
un robot HUNO para una modificación de sus posiciones en tiempo real (Liu, Xi, Song,
Um, & Cho, 2013).
RoboBulider es una plataforma educativa DIY, constrúyelo tú mismo por sus siglas en
inglés, utiliza comunicación serial con el computador y puede ser ensamblado de tres
maneras distintas, siendo la disposición tipo HUNO1 la correspondiente a un humanoide
de 16 grados de libertad.
Con esta finalidad, se utiliza un dispositivo Kinect2 de XBOX360 (Damle, Gujar, Joshi,
& Nagre, 2015) que permite reconocer la estructura corporal de un usuario de forma
que su representación en puntos forma un esqueleto. Esta distribución corporal permite
determinar los movimientos humanos, basado en los puntos y vectores que forman las
extremidades superiores.
Estos movimientos son analizados vectorialmente, de forma que se representan
posiciones angulares en tres dimensiones, las mismas que se traducen matemáticamente
(Curci & Gini, 2015), con un algoritmo computacional en las posiciones de los
servomotores de las extremidades superiores del robot HUNO, la comunicación serial,
permite que estas posiciones se envíen a la plataforma RoboBuilder y los movimientos
se representen en tiempo real

2. Estado del Arte


La aplicación de dispositivos tipo Kinect en robots ha tenido un amplio desarrollo,
que va desde visión artificial (Martínez, y otros, 2016) por su capacidad de medir la
profundidad; detección de obstáculos a diferentes alturas (Cubides Franco, 2017); el
movimiento de brazos robóticos (Gutierrez Cáceres, Pardo Beainy, Sosa Quintero, &
Jiménez López, 2017) representados por movimientos de las manos; la manipulación de
objetos peligrosos de forma remota (Jimenez Moreno, 2015), hasta robots quirúrgicos
que se puedan manipular con una intefaz natural (Hurtado-Chavez, Nástar-Guacales,
& Vivas-Albán, 2015); esto sumado a la facilidad de utilización de varios lenguajes de
programación para el desarrollo de soluciones basadas en Kinect (Rodríguez Pérez,
2015), lo muestra como un elemento de gran aplicación y utilidad.
La aplicación de Kinect en robots humanoides resulta interesante. La técnica de motion
retargeting aplicada en plataformas robóticas, permite realizar un análisis cinemático
inverso en las extremidades superiores de un humanoide (Medina Lee & Capacho
1
HUNO is robotic DIY kit designed to provide robot enthusiasts with the value of education and
entertainment and an affordable, feature rich level humanoid robot. It comes with the latest
technology like 16 DOF, daisy chain serial bus, IR and sound sensor and USB connectivity.
[Link]
2
Kinect is Microsoft’s motion sensor add-on for the Xbox 360 gaming console. The device
provides a natural user interface (NUI) that allows users to interact intuitively and without any
intermediary device, such as a controller. [Link]

RISTI, N.º E22, 08/2019 109


Human upper limbs movements imitation in a humanoid robot using a natural user interface

Valbuena, 2015) (Rakita, Mutlu, & Gleicher, 2017). Tölgyessy, Dekan, & Hubinský
(2018) diseñaron un método en el cual un robot se mueve hacia una posición designada
por un operador humano; esto gracias al sensor de profundidad de Kinect, que captura
la posición y el gesto del operador. En este tipo de aplicaciones es fundamental medir
el alcance y tiempo de respuesta que el Kinect presenta para dar paso al control
eficiente y exacto de dispositivos a través de movimientos (Villicaña González,
Orvañanos Guerrero, & Rodríguez Figueroa, 2018). Los movimientos de los brazos de
un humanoide se realizan mediante servomotores que responden a coordenadas en los
ejes x, y, z; por lo que es necesario un análisis de la cadena cinemática y de la geometría
del robot; para ello se aplica cinemática inversa encontrando así el movimiento del
servo que alcance la posición apropiada en el espacio, lo que al final resulta en un
sistema de ecuaciones (Flacco, 2017).
El presente trabajo muestra un alcance al análisis cinemático basado en un estudio
vectorial de los movimientos de los brazos de un usuario, para que sean imitados por
un humanoide en tiempo real, sin afectar su equilibrio. El aporte que se presenta es un
proceso de construcción de una solución robótica, un conjunto de cálculos angulares que
pueden ser replicados en otros humanoides; y, una experimentación práctica de estos
resultados en una plataforma robótica educativa.

3. Desarrollo
El esquema de funcionamiento que se utiliza en el prototipo de ilustran en la figura1.
Un usuario interactúa con el dispositivo Kinect, el mismo que se comunica con el
computador vía USB, se procesa la información de los movimientos detectados y las
posiciones angulares son enviadas vía RS-232 (US Patente nº US6738855B1, 2004)al
robot HUNO, el cual imita los movimientos humanos.

Figura 1 – Esquema de funcionamiento

Para la detección del usuario, se utiliza el SDK de Kinect (Rahman, 2017), que proporciona
un conjunto de métodos para la determinar las coordenadas de las articulaciones del
cuerpo humano. Para la comunicación serial con el humanoide se utiliza la librería
RoboBuilderLib que proporciona métodos de control de los grados de libertada del
robot HUNO.

110 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Para el desarrollo de la propuesta de solución se realiza un esquema de trabajo que


se visualiza en la figura 2. Con el objetivo de determinar los valores que deben ser
transmitidos a los servomotores del robot humanoide en correspondencia con los
movimientos humanos.

Figura 2 – Procedimiento para determinar movimientos de las extremidades superiores de un


robot humanoide con NUI

Para la comunicación entre computador y robot se utiliza un puerto de comunicación


serial COM que permite trasportar datos síncronamente. Una vez seleccionado un
puerto de comunicación correspondiente gracias a los métodos provistos por la
librería RoboBuilderLib, se determina una posición inicial de los servomotores que
permita colocar al humanoide de pie, manteniendo el equilibrio vertical, a pesar de los
movimientos de las extremidades superiores. Para este efecto se exploran algunas de
las posiciones pre-establecidas que oferta la librería de RoboBuilder con modificaciones
pequeñas en los servomotores: ID[6], ID[1], ID[7], ID[2], correspondientes a las
extremidades inferiores del humanoide.
La figura 3 muestra las condiciones de posición y distribución de los 16 servomotores del
humanoide HUNO para mantener la posición inicial en equilibrio.
Con la posición inicial determinada, se busca obtener las coordenadas 3D de las
articulaciones del usuario que manipule al humanoide. Para lograrlo se utiliza la
funcionalidad Skeleton Stream del SDK de Kinect (Pullen, Ogbesor, & Seffens, 2015),

RISTI, N.º E22, 08/2019 111


Human upper limbs movements imitation in a humanoid robot using a natural user interface

que combina las cámaras RGB y de profundidad (Komang, Surya, & Ratna, 2016) para
determinar los veinte puntos de referencia y 19 huesos que conforman una estructura
corporal humana simplificada formando un modelo para el análisis (Na, Choi, Kim, &
Kim, 2019)(ver figura 4).

Figura 3 – Distribución de servomotores y valores correspondientes a la posición inicial del


robot HUNO

Cada una de las articulaciones tiene una ubicación que es determinada en un grupo
de coordenadas tridimensionales (X, Y, Z) (Na, Choi, Kim, & Kim, 2019). Estos datos
permiten determinar los ángulos corporales que se forman entre cada uno de los huesos
de la representación con el uso del sensor Kinect (Su, Wu, Sheng, & Shen, 2019).
Para el efecto de este trabajo, se analizan exclusivamente las extremidades superiores.
Así se estudian los vectores que se forman entre el hombro y codo; y entre el codo y la
mano, de cada una de las extremidades izquierda y derecha.
Así para la extremidad superior derecha se analizan las distribuciones angulares para el
plano XY se determinan los ángulos Hd (hombro derecho) y Cd (codo derecho). En el
plano YZ los vectores corporales forman el ángulo Hdz, como se muestra en la figura 5.

112 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figura 4 – Esqueleto digital provisto por Kinect con el nombre de las articulaciones

Figura 5 – Ángulos y articulaciones plano XY y plano YZ para el brazo derecho

De manera simétrica para la extremidad superior izquierda se corresponden los


ángulos Hi, Ci en el plano XY y el ángulo Hiz en el plano YZ, según lo que se muestra
en la figura 6.

RISTI, N.º E22, 08/2019 113


Human upper limbs movements imitation in a humanoid robot using a natural user interface

Figura 6 – Ángulos y articulaciones plano XY y plano YZ para el brazo izquierdo

Como siguiente paso descrito en el procedimiento se deben determinar las magnitudes


de los vectores hombro-codo y codo-mano de cada una de las extremidades izquierda
y derecha. Para poder determinar posteriormente los valores de los ángulos que se
forman entre cada uno de los vectores. Para este efecto se utiliza el producto punto
(Museros Romero, 2017) o escalar entre dos vectores utilizando sus componentes
rectangulares como se describe en la ecuación 1.

+ + ) (1)

Con los datos obtenidos del sensor Kinect de cada uno de los puntos y aplicando la
ecuación 2, se determina el módulo de cada uno de los vectores formados entre los
puntos hombro-codo ((V_1 ) ⃗) y codo-mano ((V_2 ) ). Según (2).

 (2)

La ecuación 3 permite calcular el ángulo que se genera en el codo (valores de ángulos en


radianes).

 (3)

Para determinar el valor de los ángulos del hombro derecho y el hombro izquierdo en el
plano XY se utilizan las ecuaciones 4 y 5 respectivamente.

 (4)

114 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

 (5)

El valor del ángulo que se forma en el hombro para el eje Z se determina mediante la
ecuación 6.

 (6)

Una vez obtenidos los valores de cada una de las extremidades; según el procedimiento
establecido, estos valores deben ser convertidos en valores que puedan ser interpretados
adecuadamente (Vongchumyen, Bamrung, Kamintra, & Watcharapupong, 2018)en la
plataforma robótica de RoboBuilder. Los movimientos de los dieciséis servomotores
del robot humanoide pueden recibir valores enteros para sus correspondientes ángulos
entre 0 y 250 grados.
Como los valores angulares obtenidos no guardan una correspondencia directa con los
rangos en cada servomotor de la plataforma robótica deben ser transformados según lo
que se establece en la siguiente tabla:

Nombre Valores
ID Motor del Fórmula de conversión
Motor Máximo Rango

Hombro
10 270° 0.89
izquierdo Z

Si el ángulo > 0
Hombro
11 derecho - -
Caso contrario
XY

Si el ángulo es mayor que 90°

180° 0.944443
Codo
12
izquierdo Caso contrario

0.444443

Hombro
13 270° 0.89
derecho Z

Si ángulo > 0
Hombro
14 - 0.855555
derecho XY Caso contrario

Codo
15 180° 0.84444443
derecho

Tabla 1 – Cálculo del valor de servomotores de las extremidades superiores del robot humanoide

RISTI, N.º E22, 08/2019 115


Human upper limbs movements imitation in a humanoid robot using a natural user interface

Una solución de Visual Studio con una aplicación de C# basada en NetFramework4.5


desarrollada en computadora, agrega una referencia a la librería [Link],
que permite la selección de un puerto de comunicación COM a través de un objeto
PCremote() y la transferencia de las posiciones calculadas al robot humanoide a través de
un objeto wckMotion(). La función PlayPose() del objeto wckMotion permite transferir
hacia el robot humanoide los valores de las posiciones ya calculadas según se muestra en
la tabla 1. La aplicación además integra extensiones de [Link] y de Microsoft.
[Link], que proveen un contenedor SkeletonPainter3D, que logra la captura de
los datos referenciales de las posiciones de las articulaciones con los cuales se procede a
los cálculos angulares de la cinemática inversa. Este procedimiento se actualiza con cada
movimiento del usuario, de forma que el robot humanoide replica los mismos.

4. Resultados y discusión
Como primer resultado parcial de este trabajo se establecen una serie de valores angulares
para cada grupo de servomotores que conforman una extremidad. Las tablas 2 y 3
muestran un resumen de los ángulos corporales y su respectiva posición transformada
en valores por servomotor.

Posición Ángulo Posición Ángulo Posición Ángulo


Servo 10 corporal Servo 11 corporal Servo 12 corporal

73 145° 70 171° 76 -58°

98 142° 99 126° 85 -26°

138 158° 102 199° 97 -29°

Tabla 2 – Posiciones de los servomotores y ángulos corporales de la extremidad izquierda

Posición Ángulo Posición Ángulo Posición Ángulo


Servo 13 corporal Servo 14 corporal Servo 15 corporal

146 151° 133 153° 146 -6°

159 138° 145 201° 157 -20°

188 151° 169 168° 160 -48°

Tabla 3 – Posiciones de los servomotores y ángulos corporales de la extremidad derecha

De la experimentación realizada con el prototipo se logra determinar que los movimientos


de hiperextensión y flexión (en 225 grados); así como los de rotación en abducción (en
180 grados) (Vargas, Abad, Baena, Guadarrama, & Valdiviezo, 2015) en cada uno de los
hombros de las extremidades superiores son cubiertos en su totalidad.
Las limitaciones que presenta la plataforma RoboBuilder en cuanto al uso de valores
enteros positivos para las posiciones de los servomotores no permite mantener una
exactitud en la representación de los movimientos.

116 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Con estos datos presentados en este trabajo pueden establecer posteriormente algoritmos
computacionales que establezcan movimientos individuales por cada brazo. Se sugiere
las opciones de movimientos: lateral, arriba, frontal y abajo. Una vez establecidos los
movimientos individuales se pueden preparar soluciones de movimientos en conjunto
de las extremidades superiores.

5. Conclusiones
La aplicación de las cámaras RGB y de profundidad del Kinect de Xbox, así como el uso
de los métodos expuestos en el Kinect SDK, permiten a través de las clases Skeleton la
representación y captura efectiva de los movimientos corporales de las extremidades
superiores de un usuario.
La librería dinámica RoboBuilderLib resulta de utilidad para la transmisión de los datos
de las posiciones de los servomotores desde el computador hacia el humanoide. Se
utiliza el puerto de comunicación DB9 sin embargo es de fácil transformación a USB con
adaptadores.
Los principios matemáticos utilizados para la determinación de los ángulos corporales
no tienen dependencia de la plataforma robótica, de forma que los datos presentados,
pueden ser aplicados en cualquier robot de tipo humanoide.
La aplicación de un procedimiento para la determinación de las posiciones de los
servomotores de la plataforma robótica resulto eficiente en cuanto los movimientos de
las extremidades superiores puesto que permite determinar con exactitud los ángulos en
tres dimensiones de cada uno de los puntos de las extremidades superiores.
El movimiento de las extremidades inferiores de un robot humanoide presenta mayores
complicaciones relacionadas con el equilibrio del robot, por lo que sería recomendable
el uso de plataformas robóticas educativas con acelerómetros o giroscopios para logar
cálculos del centro de gravedad.

Referencias
Cubides Franco, A. (2017). Diseño e implementación de un sistema de interacción
entre robots E-pucks dirigidos por un usuario y objetos virtuales. Bachelor’s thesis,
Universidad Autónoma de Occidente.
Curci, M., & Gini, G. (2015, 12 18). POLITESI archivio digitale delle tesi di laurea e di
dottorato. Retrieved from Tesi di laurea specialistica/magistrale: [Link]
net/10589/115941
Damle, R., Gujar, A., Joshi, A., & Nagre, K. (2015). Human Body Skeleton Detection and
Tracking. International Journal of Technical Research and Applications, 222–225.
Flacco, F. (2017). Real-Time Computation of Distance to Dynamic Obstacles with
Multiple Depth Sensors. IEEE Robotics and Automation Letters, 56–63.
Goldman, S. (2004). US Patent No. US6738855B1.

RISTI, N.º E22, 08/2019 117


Human upper limbs movements imitation in a humanoid robot using a natural user interface

Gutierrez Cáceres, E., Pardo Beainy, C., Sosa Quintero, L., & Jiménez López, F. (2017).
ROBOT DIBUJANTE CONTROLADO MEDIANTE EL SENSOR KINECT. Revista
Colombiana de Tecnología de Avanzada.
Hurtado-Chavez, J., Nástar-Guacales, A., & Vivas-Albán, O. (2015). Sistema de captura
de gestos con KINECT para la manipulación de robots quirúrgicos virtuales.
ITECKNE, 12(1), 17–24.
Jimenez Moreno, R. (2015). Tracking Humano mediante kinect para control de robots.
Clepsidra, 107–112.
Kaushik, M., & Jain, R. (2014). Gesture Based Interaction NUI: An Overview.
International Journal of Engineering Trends and Technology (IJETT), 9(12),
633–636.
Komang, M., Surya, M., & Ratna, A. (2016). Human activity recognition using skeleton
data and support vector machine. Paper presented at the Journal of Physics:
Conference Series. doi:doi:10.1088/1742-6596/1192/1/012044
Koppula, H., & Saxena, A. (2016). Anticipating Human Activities Using Object
Affordances for Reactive Robotic Response. IEEE Transactions on Pattern Analysis
and Machine Intelligence, 14–19.
Liu, H., Xi, Y., Song, W., Um, K., & Cho, K. (2013). Gesture-Based NUI Application for
Real-Time Path Modification. IEEE 11th International Conference on Dependable,
Autonomic and Secure Computing, Chengdu, doi: 10.1109/DASC.2013.104,
446–449.
Martínez, C., Badillo, I., Pimentel, J., Pérez, E., Acevedo, F., & Rosales, L. (2016).
Sistema de Navegación Reactiva Difusa para Giros Suaves de Plataformas Móviles
Empleando el Kinect. Revista Electrónica de Computación, Informática, Biomédica
y Electrónica.
Medina Lee, J., & Capacho Valbuena, L. (2015). Control de un robot humanoide
utilizando Motion Retargeting. Journal of Research of the University of Quindio,
27(2), 23–28.
Mercader Uguina, J. (2017). El impacto de la robótica y el futuro del trabajo. Revista de
la Facultad de Derecho de México, 67(269), 149–174.
Museros Romero, P. (2017). Mecánica : Estática y cálculo vectorial. Valencia: Editorial
de la Universidad Politécnica de Valencia.
Na, H., Choi, J., Kim, H., & Kim, T. (2019). Development of a human metabolic rate
prediction model based on the use of kinect-camera generated visual data-driven
approaches. Building and Environment. doi:10.1016/[Link].2019.106216
Pullen, P., Ogbesor, A., & Seffens, W. (2015). Kinect acquisition of skeleton body
positions during yoga and tai chi for exergame development. Medicine & Science
in Sports & Exercise.
Rahman, M. (2017). Beginning Microsoft Kinect for Windows SDK 2.0: Motion and
Depth Sensing for Natural User Interfaces. Montreal: Apress.

118 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Rakita, D., Mutlu, B., & Gleicher, M. (2017). A Motion Retargeting Method for Effective
Mimicry-based Teleoperation of Robot Arms. Proceedings of the 2017 ACM/IEEE
International Conference on Human-Robot Interaction, (pp. 361-370). Vienna.
Rodríguez Pérez, M. (2015). Desarrollo de un sistema para la teleoperación de un robot
manipulador cilíndrico mediante reconocimiento de gestos a través del sensor
Kinect. Universidad Politécnica de Valencia, Valencia.
Su, B., Wu, H., Sheng, M., & Shen, C. (2019). Accurate hierarchical human
actions recognition from kinect skeleton data. IEEE Access. doi:10.1109/
ACCESS.2019.2911705
Tölgyessy, M., Dekan, M., & Hubinský, P. (2018). Human-Robot Interaction Using
Pointing Gestures. Proceedings of the 2nd International Symposium on Computer
Science and Intelligent Control. Estocolmo.
Tsarouchi, P., Makris, S., & Chryssolouris, G. (2016). Human–robot interaction review
and challenges on task planning and programming. International Journal of
Computer Integrated Manufacturing, 916–931.
Vargas, G., Abad, Á., Baena, N., Guadarrama, J., & Valdiviezo, I. (2015). Control de
Señales EMG para el Movimiento de un Brazo Robótico de Tres Grados de Libertad.
Cultura Científica y Tecnológica.
Villicaña González, C., Orvañanos Guerrero, M. T., & Rodríguez Figueroa, E. (2018).
Brazo Robótico Controlado por Medio de Visión Computacional utilizando un
Kinect. Tecnológico Nacional de México.
Vongchumyen, C., Bamrung, C., Kamintra, W., & Watcharapupong, A. (2018).
Teleoperation of Humanoid Robot by Motion Capturing Using KINECT.
International Conference on Engineering, Applied Sciences, and Technology (pp.
1-4). IEEE.

RISTI, N.º E22, 08/2019 119


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 26/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 12/06/2019

Aplicación móvil para fortalecer el aprendizaje de


ajedrez en estudiantes de escuela utilizando realidad
aumentada y m-learning.

Joe Llerena Izquierdo1, Maitte Robalino Alfonso1, Michael Andina Zambrano1, Jamilette
Grijalva Segovia1.

jllerena@[Link], mrobalinoa@[Link], mandina@[Link], jgrijalvas1@est.


[Link].

Universidad Politécnica Salesiana, Guayaquil, Ecuador.


1

Pages: 120–133

Resumen: El presente trabajo, se plantea una metodología educativa innovadora


para el aprendizaje del ajedrez, en niños de educación primaria mediante una
aplicación móvil que permita aplicar la técnica de la realidad aumentada, como un
mecanismo de refuerzo en las escuelas. El interés por aprender se fomenta cuando
de por medio intervienen dispositivos tecnológicos adecuados. Por este motivo la
educación digital despierta la motivación por aprender, especialmente en edades
tempranas, cuando empiezan su formación académica con iniciativas creativas
utilizando aplicaciones accesibles para ámbitos de estudio. Sin embargo, en Ecuador
no existen aplicaciones creadas con realidad aumentada para fortalecer e incentivar
el aprendizaje del ajedrez. Bajo este prisma, “Jaque Maitte” es una aplicación móvil,
que utiliza una técnica de aprendizaje dinámica llamada Gamificación que mediante
el juego se logra el aprendizaje del ajedrez, con diversos métodos de aplicación para
la educación, otorgando información precisa sobre el aprendizaje de una manera
interactiva.
Palabras-clave: Realidad Aumentada; M-learning; Gamificación; Educación
Digital; Sistemas Interactivos.

Mobile application to encourage education in school chess students


using augmented reality and m-learning.

Abstract: The present study proposes an innovative educational methodology


for elementary school kids that want to learn chess by using a mobile application
which applies the augmented reality technique as a mechanism of reinforcement in
Primary School. Interest in learning is encouraged when appropriate technological
devices are involved. For this reason, digital education arouses motivation to learn,
especially at an early age, when kids begin their academic training with creative
initiatives using accessible applications for every subject. However, in Ecuador there
are no applications created with augmented reality to strengthen and encourage
the learning of chess. With this concept arrives “Jaque Maitte”, which is a mobile
application, that uses a dynamic learning technique called Gamification. It achieves

120 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

the learning of chess, with various methods of application for education, giving
precise information about learning in an interactive way.
Keywords: Augmented Reality, M-Learning, Digital Education, Interactive
Systems, Big Data.

1. Introducción
Con las nuevas tecnologías de la información que se incorporan al aula, las innovaciones
educativas se diversifican. La educación transciende en los niños, cambiando la forma
en que ésta se aplica, se buscan nuevos sistemas de enseñanza y métodos de aprendizaje
de manera más dinámica y sencilla (Banchoff Tzancoff, Martin, López, & Alfano, 2015).
Actualmente hay muchos recursos tecnológicos que facilitan la educación de los niños
en las escuelas, en distintas áreas de estudio y en el control de las actividades diarias que
supervisan los padres de familia. Una de las principales tendencias en el ámbito del uso
de las tecnologías en la educación, es la gamificación, que hace referencia a la aplicación
dinámica de los juegos en distintos ámbitos, en este caso, en la educación (Kim, Song,
Lockee, & Burton, 2018).
La gamificación consigue implicar al participante y ofrecer una forma diferente de
aprendizaje, motivándole y desarrollando un compromiso para alcanzar un objetivo
de estudio. En el amplio abanico de estas tecnologías que se usan dentro del aula, nos
enfocamos en la realidad aumentada, la misma que genera nuevos modos de interactuar
con el entorno y ofrece un gran potencial educativo (Akçayır & Akçayır, 2017). La
realidad aumentada permite un potencial desarrollo de incorporar gamificación en
áreas de estudio específicas. El uso de dispositivos móviles y/o Smartphone para uso
académico, juegan un gran papel importante en las técnicas que se usan en la actualidad
para captar apego e inclinación a diferentes temáticas de estudio, gracias a aplicaciones
innovadoras (Barbour, 2014).
En Ecuador, existen diversas propuestas que unen la educación con la realidad
aumentada, con el fin de innovar estrategias que aumenten el interés de los niños para
un tema específico. Sin embargo, poca atención se ha prestado al desarrollo de estas
propuestas para el aprendizaje del ajedrez, a la fecha no hay evidencia de una aplicación
móvil que refuerce de manera interactiva el aprendizaje de este deporte ciencia con el
uso de la realidad aumentada. La finalidad de este documento es fomentar y fortalecer
metodologías innovadoras de aprendizaje que permitan disminuir brechas digitales en
la educación, gracias a las aplicaciones móviles con realidad aumentada creada para
sistemas Android.
La aplicación “Jaque Maitte” permite interactuar con el usuario, pensado para que se
pueda aprender ajedrez de manera interactiva utilizando nuevas tecnologías emergentes.

2. Marco Teórico

2.1. Realidad aumentada en el ámbito educativo.


Actualmente, la realidad aumentada está presente en la sociedad y los beneficios que
brinda en la educación son muy variados (Billinghurst & Duenser, 2012). La práctica de

RISTI, N.º E22, 08/2019 121


Aplicación móvil para fortalecer el aprendizaje de ajedrez en estudiantes de escuela utilizando realidad aumentada y m-learning.

esta técnica depende primeramente del tema que se desea fomentar y de la imaginación
que se le adapta al elemento virtual. Existe la posibilidad de añadir a los libros, revistas,
tarjetas y demás textos, un marcador que ejemplifica o modela la información contenida,
de igual forma se pueden utilizar para hacer referencia a información que complemente
el aprendizaje del tema (Lee, 2012). Por otro lado, una de las virtudes que ofrece la
realidad aumentada, es su capacidad de modelar lo que se está explicando, esto permite
inclusive la interacción y la maniobra, favoreciendo la experimentación y el desarrollo
educativo (Bower, Howe, McCredie, Robinson, & Grover, 2014).
Esta capacidad de interacción es precisamente la principal ventaja de la realidad
aumentada al compararla con el audiovisual tradicional, ya que los procesos pedagógicos
se ven muy beneficiados cuando el estudiante posee experiencias cercanas a las materias
de estudio. Igualmente, la realidad aumentada admite la contextualización del objeto
de estudio, del mismo modo, una de las ventajas de aplicar esta técnica en la educación,
es la posibilidad de explicar conceptos abstractos, las cuales no podemos acceder de
una manera tangible, como por ejemplo conceptos químicos, esto nos permite ver una
molécula en tres dimensiones, poder agrandarla, modificarla y esto ya nos permite
comprender de una manera concreta conceptos abstractos (Kesim & Ozarslan, 2012).
La figura 1 muestra la aplicación “Jaque-Maitte” ejecutada en un dispositivo móvil con
sistema operativo Android, que usa la realidad aumentada con entorno multimedia al
apuntar a una pieza de ajedrez.

Figura 1 – Aplicación “Jaque-Maitte” visible en un dispositivo inteligente, en una plataforma con


sistema operativo Android.

2.2. Educación digital en la actualidad.


La sociedad en la que vivimos se transforma y crece constantemente. Es así como la cultura
digital emerge con nuevas prácticas sociales que reconfiguran muchos de los aspectos
de nuestras vidas, ofreciendo nuevas oportunidades, pero también nuevos desafíos para
construir la escuela del futuro, promoviendo la innovación pedagógica y la calidad de los
aprendizajes (Cuban, 2010). Esta transición requiere repensar las prácticas en escenarios
más complejos y diseñar propuestas desde la renovación de enseñanza donde los alumnos
puedan producir y construir su conocimiento junto a un docente guía y orientador de
esos aprendizajes. De esta manera, se promueve la alfabetización digital centrada en

122 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

el aprendizaje de competencias y saberes que son necesarias para una inserción plena
en la cultura contemporánea y en la sociedad del futuro (Williamson, 2016). Las TIC
son esenciales dentro de la educación, convirtiéndose en un reto para los docentes,
puesto que los estudiantes en la actualidad tienen destrezas desarrolladas al utilizar los
diferentes dispositivos tecnológicos, esto hace que los docentes se encuentren en continuo
aprendizaje, pasando de ser el transmisor del conocimiento a ser un mentor o guía en el
proceso de aprendizaje. Las TIC, En medio de la educación digital han traído diversas
ventajas como: una mayor motivación presentada por los alumnos, cuando las TIC se ven
involucradas en el día a día de su educación, esto hace que el aprender y la realización
de trabajos y tareas sea mucho más atractiva y amena. Otra ventaja, es el mayor nivel de
cooperación gracias a que los conocimientos adquiridos pueden ser compartidos a través
de las redes y foros. Para los docentes también es una gran ventaja para la organización
de sus clases. La educación digital es esencial para la formación de alumnos e incluso los
docentes, la cual se va desarrollando con el paso del tiempo para que los egresados de
dichas instituciones puedan ser competentes en un ámbito tecnológico y social.

2.3. M-Learning.
Una buena manera de introducir las tecnologías en el aula es a través de actividades de
aprendizaje bien estructuradas donde intervengan los dispositivos móviles, la metodología
que se ocupa de determinar la mejor manera de introducir estos dispositivos en el ámbito
académico es el mobile learning o m-learning (Lindsay, 2016). No obstante, la definición
de m-learning no se ha de limitar exclusivamente en los dispositivos, pues es mucho más
que eso, hace referencia a la ubicuidad de contenidos, y a una conectividad constante. La
M de M-learning hace referencia más a la movilidad del alumnado y de los contenidos,
que a la de los propios dispositivos. Algunas de las ventajas actuales del M-Learning
son: conectividad en todo momento, movilidad con acceso a internet en cualquier lugar,
interacción de varios sentidos con: las pantallas táctiles, los dispositivos intuitivos al
habla y a la escucha, y, aplicaciones móviles educativas y creativas. Permitiendo acceder
a contenidos de calidad y creativos, beneficiando y optimizando el uso del aprendizaje
móvil en el ámbito docente al máximo posible. (Thomas & Munoz, 2016).

3. Materiales y métodos
En la presente sección se describen las fases principales en la que se divide el trabajo
para crear el prototipo y producto final de la aplicación móvil. El proyecto se divide en
dos fases, la primera se realiza el desarrollo de la aplicación para dispositivos Android,
y la segunda fase, se desarrolla el análisis a través de encuestas de satisfacción sobre el
producto final. La elección de las herramientas de software se basa en cuatro criterios:
costo, integración, soporte y rendimiento, como primer momento para la elaboración de
un prototipo. Esto permite tomar en consideración para trabajos posteriores, la norma
ISO/IEC 25010 de calidad del producto de software contemplando sus características de
calidad (ISO/IEC 25010, 2011).

3.1. Aplicación para dispositivo móvil.


El primer paso es la creación de los modelos tridimensionales que aparecen en la
aplicación móvil, en este caso son seis modelados en 3D, cada una con altura distinta

RISTI, N.º E22, 08/2019 123


Aplicación móvil para fortalecer el aprendizaje de ajedrez en estudiantes de escuela utilizando realidad aumentada y m-learning.

dependiendo de la pieza de ajedrez. El software que se usa para el modelado en tres


dimensiones es Sketchup 2018 como se muestra en la Figura 2. Se usa este software
ya que el modelado final con esta aplicación hace que el archivo no ocupe demasiado
espacio al momento de exportarlo, de esta manera funciona más rápido la aplicación
educativa en el dispositivo instalado (Llerena, Andina, & Grijalva, 2018).

Figura 2 – Modelo 3D en “Sketchup” de una pieza del tablero de ajedrez, llamada Alfil.

Como segundo paso, se procede a crear las seis imágenes marcadores, las mismas
que se usan para crear una base de datos dentro del Target Manager de Vuforia
Developer, en este caso cada imagen representa cada pieza distinta del ajedrez. Las
seis imágenes comprenden un tamaño de 850 pixeles por 1100 pixeles de anchura y
altura respectivamente. El software que se usa para la creación de las imágenes finales es
Macromedia Fireworks, en la que cada imagen final se crea con la mezcla de una imagen
de la pieza y un fondo con forma hexagonal. Se usa el fondo hexagonal en las imágenes
para tener más características en la base de datos final, y así evitar textos adicionales en
cada Image Target. Lo que hace la aplicación es identificar estas imágenes para mostrar
los modelados de las piezas específicas en realidad aumentada. En la figura 3 se observan
las seis imágenes marcadores finales, las mismas que son mostradas cada una en forma
de tarjetas.

Figura 3 – Afiche de tarjetas demostrativas.

El tercer paso consiste en obtener una licencia de Vuforia para luego poder mostrar la
realidad aumentada en la aplicación móvil. Para este trabajo, se obtiene la licencia de

124 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

desarrollo gratuita. Esta licencia genera una llave de 380 caracteres, la cual hay que
insertarla en las propiedades de Vuforia al momento de estar desarrollando la aplicación
móvil dentro de Unity. Posterior a esto, se crea una base de datos en el Target Manager
de Vuforia Developer llamada “Ajedrez” para luego subir las seis imágenes marcadores
finales a la plataforma. En esta parte se puede cambiar la anchura y altura de las
imágenes para que sean uniforme. Al finalizar, se muestra la cantidad de características
y puntuación que tiene cada imagen marcador. Entre más características tenga la
imagen marcador, la aplicación tarda menos en reconocerlas. En la figura 4 se muestran
las características que se reconocen en una de las imágenes marcador subida en la
plataforma de Vuforia Developer, las mismas que son representadas de color amarillo
(puntos que bordean la imagen y forman una malla).

Figura 4 – Image Target de una pieza del tablero mostrando las características de la imagen.

El proceso final consiste en crear un proyecto nuevo en Unity para desarrollar la


aplicación móvil. Unity es la multiplataforma en la que se desarrolla “JaqueMaitte”,
la misma que unida con el soporte de Vuforia genera la realidad aumentada en los
dispositivos móviles que tengan instalada la aplicación móvil adecuada. Para esto, se
necesita importar los modelados en 3D, la base de datos creada en Vuforia Developer al
proyecto en Unity e insertar la clave de licencia en las opciones de la cámara de realidad
aumentada de Vuforia. El proyecto se realiza en una sola escena, cada escena representa
una instancia en la aplicación donde se crean los seis Image Target y se relaciona cada
imagen marcador de la base de datos con el modelado correspondiente, como se observa
en la figura 5.

Figura 5 – Modelos en tres dimensiones de las piezas de ajedrez en la plataforma Unity.

RISTI, N.º E22, 08/2019 125


Aplicación móvil para fortalecer el aprendizaje de ajedrez en estudiantes de escuela utilizando realidad aumentada y m-learning.

3.2. Metodología.
Esta propuesta inicia un desarrollo de estudio mediante el método cuasi-experimental
a través del procedimiento de la encuesta con enfoque cuantitativo como método de
evaluación de la usabilidad de la realidad aumentada y medir los criterios de efectividad,
eficiencia y satisfacción como lo establece la norma ISO/IEC 9241-11. La realidad
aumentada se diferencia de los sistemas habituales por una serie de características que
se toman en cuenta al momento de efectuar la evaluación como las características del
entorno físico, del evaluador y del usuario (Fernández Zumaquero, 2019). El método
DGMM (Método de modelado y recolección de datos) se usa para obtener experiencia
de los encuestados y sus acciones. Dentro de éste, existe una subcategoría llamada
DGM (Método de recolección de datos) que es nuestra metodología fundamental para
la selección de las características de la satisfacción del usuario ya que este método se
basa en las diferentes maneras de seleccionar información y experiencia acerca de las
particularidades destacadas de los consumidores finales y sus actividades como en las
encuestas y entrevistas (Scapin & Law, 2007). Se inicia con la primera fase de consulta
a un grupo formado de manera aleatoria por 25 estudiantes de la Unidad Educativa
“El Libertador”. La primera encuesta refiere al conocimiento del estudiante sobre los
movimientos de las piezas de ajedrez, sin haber usado la aplicación móvil “Jaque-Maitte”,
y la segunda encuesta consiste en evaluar el aprendizaje que le brinda la aplicación a
dicho usuario, después de usar la misma. En la figura 6, se muestra el consolidado de
las respuestas correctas e incorrectas de los encuestados que participaron en esta fase:

Figura 6 – Porcentajes de respuestas correctas e incorrectas antes y después de usar la aplicación


“Jaque-Maitte”.

Se determina que antes del uso de aplicación “Jaque-Maitte”, se tiene un porcentaje


menor de recuerdo referente a los movimientos de cada una de las piezas de ajedrez.
Se observa que sin la aplicación hay mayor cantidad de respuestas incorrectas, es decir
luego de usar la aplicación con imágenes aumentadas, el estudiante encuestado logra
retener en su memoria los movimientos de las piezas de ajedrez con mayor detenimiento.
La siguiente fase consiste en cotejar las calificaciones de los estudiantes pertenecientes a
la asignatura Ajedrez, realizar una comparación entre los puntajes anteriores y actuales,

126 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

y así determinar si existe un porcentaje de mejora en el aprovechamiento por parte de


los estudiantes, luego de incluir esta nueva forma de aprendizaje. Como fase final se
encuesta de manera online por medio del servicio de Google Forms, a 400 estudiantes
con la ayuda de sus padres, perteneciente a la Unidad Educativa “El Libertador”,
mediante los afiches en forma de tarjetas que contienen las imágenes representativas
del ajedrez y con la aplicación móvil “Jaque-Maitte”.

4. Resultados
Uno de los propósitos fundamentales de la realidad aumentada es captar de manera
inmediata el patrón de reconocimiento y superponer el objeto o modelo en el mundo
real por medio de la cámara de un dispositivo y lograr la virtualización deseada.
Para un reconocimiento óptimo de las imágenes patrones, se realiza un análisis,
para poder comprender el algoritmo de valoración que ofrece Vuforia SDK sobre
las características de cada imagen patrón. En esta fase, se utiliza como imágenes
marcadoras, Image Targets de tipo Logo, ya que por la gran cantidad de características
que se obtiene desde el inicio, no necesita agregarle formas ni textos adicionales
para alcanzar una mayor puntuación en Vuforia, gracias al fondo hexagonal que se
establece en cada uno de los Image Target, a estas imágenes se las conoce como
marcadores ideales. La tabla 1 muestra la cantidad de características de los Images
Target brindadas por Vuforia.

Nombre de
Tipo Selección Características Puntaje
Image Target

Rey Single Image Logo 340 5 estrellas

Reina Single Image Logo 352 5 estrellas

Torre Single Image Logo 348 5 estrellas

Alfil Single Image Logo 281 4 estrellas

Caballo Single Image Logo 345 5 estrellas

Peón Single Image Logo 297 4 estrellas

Tabla 1 – Target Manager de Vuforia usados en “Jaque-Maitte”

En la segunda fase, se realiza una comparación de las calificaciones de 26 estudiantes


de ajedrez del paralelo 2do “A” obtenidas desde la plataforma web que usa la Unidad
Educativa El Libertador llamada “Edukay” para evidenciar si existe mejora alguna o
un incremento cuantitativo en el puntaje de las calificaciones de la asignatura antes y
depués de aplicar esta nueva forma de aprendizaje en los estudiantes, como se muestra
en la figura 7.

RISTI, N.º E22, 08/2019 127


Aplicación móvil para fortalecer el aprendizaje de ajedrez en estudiantes de escuela utilizando realidad aumentada y m-learning.

Figura 7 – Calificaciones de la asignatura de Ajedrez, para el Curso 2do “A”, sobre diez puntos.

Figura 8 – Pregunta No. 2 de la encuesta, detalla las diferentes opiniones del encuestado, en
porcentajes, referente al aprendizaje con realidad aumentada.

El promedio anterior en la asignatura de ajedrez de los 26 estudiantes pertenecientes al


paralelo 2do “A” antes de aplicar esta nueva forma de enseñanza era de 7/10, y después de

128 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

efectuar este método de enseñanza con el dispositivo móvil usando realidad aumentada
mejora el promedio del paralelo a 9/10.
En la última fase de este trabajo, la versión final del aplicativo fue liberado para su
evaluación, se realiza una encuesta a 400 estudiantes que tengan instalada la aplicación
en el dispositivo móvil de sus padres, el resultado de la experiencia al usar nuestra
aplicación se muestra más adelante de este documento.
En la figura 8, se observa que la mayoría de los encuestados indican que la realidad
aumentada puede generar nuevas formas de aprendizaje.
La figura 9 presenta la facilidad al usar la aplicación desarrollada, el 88% de los
encuestados indican que ha sido fácil en el momento de usarla.

Figura 9 – Pregunta No. 3 de la encuesta, en lo referente al uso de la aplicación móvil y la


experiencia en el usuario.

Figura 10 – Pregunta No. 4 de la encuesta, muestra el interés por el contenido seleccionado para
su uso.

RISTI, N.º E22, 08/2019 129


Aplicación móvil para fortalecer el aprendizaje de ajedrez en estudiantes de escuela utilizando realidad aumentada y m-learning.

En la figura 10 se visualiza el porcentaje de simpatía que los usuarios tuvieron con la


aplicación en el momento de interacción con ella y, la utilidad cuando fue mostrada la
información que el aplicativo les proporciona. El 92% de los que realizan la encuesta
indican que sí les ha motivado el interés de la información ofrecida en sus distintos
formatos.
En la figura 11, trata sobre la pregunta No. 5 de la encuesta, donde los estudiantes
evaluan el contenido visual de la aplicación, donde el 66,2% de los encuestados eligen el
puntaje máximo para la visualización mostrada a través de la aplicación del dispositivo.

Figura 11 – Pregunta No. 5 de la encuesta, indica la valoración del contenido visual observado.

Figura 12 – Pregunta No. 10 de la encuesta, refleja la opinión de los encuestados de cómo es


cosiderada la aplicación “Jaque-Maitte”.

130 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Finalmente, en la figura 12 , se muestra la opinión que tiene el encuestado acerca de la


aplicación “Jaque-Maitte”, y en ella se refleja que el 80% indica que dicha aplicación es
innovadora en el área educativa, es decir que es considerada como un medio que cumple
los objetivos para la que fue desarrollada. El 6% indica que la aplicación móvil que
puede crear nuevas oportunidades para fuentes de trabajo, que pueden ser directos o
indirectos. Se abre una posibilidad de desarrollo local, gracias al aporte que la aplicación
logra en las personas que observan el trabajo presentado.
Es importante indicar que, las personas encuestadas, tienen un grado de interés y
motivación por aprender materias y asignaturas por este medio, con ello la aplicación
“Jaque-Maitte”, es una potencial herramienta de interacción que puede contribuir
fuertemente en el aprendizaje de la asignatura que se ha escogido para el proyecto que
presentamos en este documento.

5. Conclusiones
En este artículo se manifiesta un modelo de aplicación móvil para fortalecer la educación
con una nueva forma de aprendizaje y a su vez cultivar el conocimiento de los usuarios
finales con información de audio e imágenes estructuradas al estudiar el ajedrez. La
tecnología digital no nos deja de sorprender, y su fomento en la parte educativa, sin lugar
a duda sigue en crecimiento a gran escala. La realidad aumentada en aplicaciones es algo
llamativo por parte del usuario que, al unirlo con un tema de interés, como en este caso,
la educación digital y la gamificación, logra captar la atención de muchos estudiantes.
La innovación es un motor en el ámbito educativo y la incorporación de dispositivos
tecnológicos adecuados junto al desarrollo de aplicaciones creativas con buen contenido
visual, motiva al logro de procesos de enseñanza y de aprendizaje más eficaces, es
imperante realizar mejoras para que el servicio brindado por dichas aplicaciones sea
más atractivo y fácil para la experiencia del usuario final al momento de usarla. Se realiza
satisfactoriamente la aplicación móvil para fortalecer el conocimiento del área educativa
en cuestión y, las experiencias analizadas por los encuestados tuvieron una reacción
de manera favorable. Con esto se pudo demostrar, la adquisición de conocimientos
del ajedrez, a través de una aplicación móvil innovadora en el área educativa, dando
paso a futuros trabajas motivando interés en una asignatura determinada y mejorando
el desarrollo del aprendizaje por parte de los estudiantes gracias a la aplicación móvil
“Jaque-Maitte”.

Referencias
Akçayır, M., & Akçayır, G. (2017). Advantages and challenges associated with augmented
reality for education: A systematic review of the literature. Educational Research
Review, 20, 1–11. [Link]
Banchoff Tzancoff, C. M., Martin, E. S., López, F., & Alfano, A. (2015). Uso de TICs en
la escuela primaria: nuevas propuestas para temas tradicionales. Retrieved from
[Link]

RISTI, N.º E22, 08/2019 131


Aplicación móvil para fortalecer el aprendizaje de ajedrez en estudiantes de escuela utilizando realidad aumentada y m-learning.

Barbour, M. K. |Grzebyk. T. Q. J. (2014). Any Time, Any Place, Any Pace-Really?


Examining Mobile Learning in a Virtual School Environment. Turkish Online
Journal of Distance Education, 15(1), 114–127. Retrieved from [Link]
[Link]/?id=EJ1042983
Billinghurst, M., & Duenser, A. (2012). Augmented Reality in the Classroom. Computer,
45(7), 56–63. [Link]
Bower, M., Howe, C., McCredie, N., Robinson, A., & Grover, D. (2014). Augmented Reality
in education – cases, places and potentials. Educational Media International, 51(1),
1–15. [Link]
Cuban, L. (2010). Rethinking education in the age of technology: The digital revolution
and schooling in America. Science Education, 94(6), 1125–1127. [Link]
org/10.1002/sce.20415
de la Nube Toral Sarmiento, A., Loaiza Martínez, M. D. L., Llerena Izquierdo, J., Ayala
Carabajo, R., Torres Toukoumidis, A., Romero-Rodríguez, L. M., ... & Peñafiel
Caicedo, J. A. (2018). 4to. Congreso Internacional de Ciencia, Tecnología e
Innovación para la Sociedad. Memoria académica.
Fernández Zumaquero, S. (2010). Métodos de evaluación de la usabilidad para entornos
de Realidad Virtual, Realidad Aumentada y Sistemas Ubícuos [Ebook] (pp. 8-9).
Albacete. Retrieved from [Link]
libro39/[Link]
ISO/IEC 25010:2011(en), Systems and software engineering — Systems and software
Quality Requirements and Evaluation (SQuaRE) — System and software quality
models. (2011). Retrieved from [Link]
iec:25010:ed-1:v1:en
Kesim, M., & Ozarslan, Y. (2012). Augmented Reality in Education: Current Technologies
and the Potential for Education. Procedia - Social and Behavioral Sciences, 47,
297–302. [Link]
Kim, S., Song, K., Lockee, B., & Burton, J. (2018). Gamification in Learning and
Education. [Link]
Lee, K. (2012). Augmented Reality in Education and Training. TechTrends, 56(2),
13–21. [Link]
Lindsay, L. (2016). Transformation of teacher practice using mobile technology with one-
to-one classes: M-learning pedagogical approaches. British Journal of Educational
Technology, 47(5), 883–892. [Link]
Llerena, J., Andina, M., & Grijalva, J. (2018, November). Mobile application to
promote the Malecón 2000 tourism using augmented reality and geolocation. In
2018 International Conference on Information Systems and Computer Science
(INCISCOS) (pp. 213-220). IEEE.

132 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Scapin, D. e Law, E. 2007. R3UEMs: Review, Report and Refine Usability Evaluation
Methods. The 3rd COST294-MAUSE International Workshop. Atenas, Grécia.
Disponível em [Link]
Thomas, & Munoz. (2016). Hold the Phone! High School Students’ Perceptions of
Mobile Phone Integrati...: EBSCOhost. American Secondary Education 44(3)
Summer 2016. Retrieved from [Link]
[Link]/ehost/pdfviewer/pdfviewer?vid=2&sid=c17a67da-d581-4676-a83b-
f8ed6ae5d213%40sessionmgr103
Williamson, B. (2016). Digital education governance: data visualization, predictive
analytics, and ‘real-time’ policy instruments. Journal of Education Policy, 31(2),
123–141. [Link]

RISTI, N.º E22, 08/2019 133


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 29/03/2019
Iberian Journal of Information yS stems and Technologies Aceitação/Acceptance: 25/06/2019

Predicción del desempeño en una tarea colaborativa


con uso de tecnologías. El papel de la construcción
social del conocimiento y la comunicación

Dunia Inés Jara-Roa1, María-Soledad Ramírez-Montoya2, Marcos Cabezas G.3, José


Eulogio Real Deus4

dijara@[Link], solramirez@[Link], mcabezasgo@[Link], [Link]@[Link]

1
Docente agregado Universidad Técnica Particular de Loja, San Cayetano Alto, 593 7301444, Loja, Ecuador.
2
Profesora investigadora Tecnologico de Monterrey, Avda. Garza Sada 2501 Sur. Col Tec. Monterrey, 52 81
2358 2000, Monterrey, México.
3
Profesor titular Universidad de Salamanca, Paseo de Canalejas 169, 37008, Salamanca, España.
4
Profesor titular Universidad Santiago de Compostela, Campus Universitario Sur, 15706, Santiago de
Compostela, España.
Pages: 134–146

Resumen: En el presente artículo se muestra un modelo predictivo para identificar


si un trabajo colaborativo con el uso de tecnologías contribuye a la construcción
social del conocimiento a partir de cuatro componentes y doce dimensiones. La
construcción social del conocimiento abarca tres componentes, mientras que el
trabajo colaborativo está basado en la percepción subjetiva del estudiante. Para
la recogida de datos se aplicó un cuestionario a estudiantes de la asignatura de
Inteligencia Artificial de modalidad a distancia de la Universidad Técnica Particular
de Loja. El modelo indica que el trabajo colaborativo incide en un 56,7% en la
construcción social del conocimiento, visibilizando dos aspectos fundamentales: a)
la fluidez de la comunicación y b) la asistencia del docente. El aporte del estudio
se da en el área de construcción social del conocimiento en ambientes en línea,
que puede ser replicado en otro tipo de ambientes (presenciales, multimodales,
b-learning, m-learning).
Palabras-clave: Aprendizaje colaborativo; gestión del trabajo colaborativo;
construcción social del conocimiento.

Prediction of performance in a collaborative work with the use of


technologies. The role of the social construction of knowledge and
communication

Abstract: A predictive model aimed to identify if collaborative work contributes


to the social construction of knowledge is proposed. The model consists of four
components and twelve dimensions, where the social construction of knowledge
is composed of three components. In turn, collaborative work is based on the

134 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

student’s subjective perception with respect to the execution of the activity. For data
collection purposes, a questionnaire was applied to students of Artificial Intelligence
in the University Technical Particular of Loja Open Modality. The model showed
that collaborative work accounts for 56.7% of social construction of knowledge,
illustrating two fundamental aspects of collaborative work: a) communication
fluency and b) teacher assistance. The contribution of the study lies on the area of
social construction of knowledge in online environments, which can be replicated
in other types of environments (face-to-face, multimodal, b-learning, m-learning).
Keywords: Collaborative learning; collaborative work management; social
construction of knowledge.

1. Introducción
El aprendizaje colaborativo describe “una situación en la cual se espera que ocurran
formas particulares de interacción, que conllevarán a mecanismos de aprendizaje, pero
que no hay una garantía total que estas condiciones ocurran efectivamente” (Collazos,
Muñoz, & Hernández, 2014, p.11). Además, estos autores puntualizan que “este tipo
de aprendizaje no se opone al trabajo individual ya que puede observarse como una
estrategia de aprendizaje complementaria que fortalece el desarrollo global del alumno”
(p.9). El aprendizaje colaborativo se caracteriza por: a) una interdependencia positiva;
b) interacción promotora; c) responsabilidad individual y grupal; d) desarrollo de las
competencias de trabajo en equipo; y, e) valoración del grupo (Johnson, Johnson, &
Smith, 1998). Los integrantes de la Red sobre Aprendizaje Colaborativo en Entornos
Virtuales (RACEV) establecen una definición de aprendizaje colaborativo en entornos
virtuales, según la cual “el aprendizaje colaborativo se basa en un proceso de actividad,
interacción, y reciprocidad entre los estudiantes, facilitando la construcción conjunta
de significados y un avance individual hacia niveles superiores de desarrollo” (Guitert
& Pérez-Mateo, 2013, pp.24-25). Así pues, el aprendizaje colaborativo tiene como fin la
construcción de significados individuales y grupales producto del diálogo, la negociación
y la toma de decisiones y, por tanto, es altamente dependiente de la calidad del trabajo
colaborativo desarrollado.

1.1. Trabajo colaborativo


Martín-Moreno (2004, citado por Espuny, González, LLeixá, & Gisbert, 2011) destaca
que el trabajo colaborativo: a) multiplica la diversidad de conocimientos y experiencias,
b) favorece mayores niveles de rendimiento académico, c) incrementa la motivación,
d) potencia el pensamiento crítico y e) mejora la retención de lo aprendido. (Ramos
Gonçalves & Vieira da Silva, 2019) agregan enriquece la reflexión. A fin de identificar
los aspectos a considerar en la ejecución de tareas colaborativas, es necesario manejar
indicadores de desempeño grupales e individuales. Noguera & Gros (2014) organizan
estos indicadores en cuatro áreas: (a) diseño de la tarea y preparación individual; (b)
organización de la tarea y negociación grupal; (c) realización de la tarea y construcción
colaborativa del conocimiento; (d) evaluación crítica. Así mismo, (Mayordomo &
Onrubia, 2015) mencionan que se debe considerar los procesos de organización y
coordinación del trabajo colaborativo para que se promueva la construcción colaborativa
del conocimiento, e indican que es responsabilidad de los docentes ayudar en éstos
procesos para asegurar el cometido.

RISTI, N.º E22, 08/2019 135


Predicción del desempeño en una tarea colaborativa con uso de tecnologías.

1.2. Construcción social del conocimiento


Para investigar la forma en la que se construye socialmente el conocimiento se han
propuesto modelos para analizar las interacciones producidas en un aula (presencial
o virtual). Dada la naturaleza de la investigación, de entre los modelos de construcción
social de conocimiento, el modelo seleccionado es el de Garrison, Anderson, & Archer
(2000), puesto que, además de ser un modelo que continúa investigándose, se orienta
a ambientes de aprendizaje en línea basados en el aprendizaje constructivista y
colaborativo que puede darse en una Comunidad Virtual de Aprendizaje (CVA) a través
de la presencia cognitiva, social y docente.
Para terminar de desarrollar el modelo de construcción social del conocimiento a
partir del trabajo colaborativo, se identificaron en la literatura aquellas conductas
que pueden darse durante la interacción entre iguales dado que éstas son importantes
en la consecución de las metas educativas (Coll, 1984). Una de las metodologías
disponibles consiste en la utilización de pruebas sociométricas como lo indican
Ingles, Aparisi, Delgado, Torregrosa, & Garcia-Fernandez (2017). Asimismo, se ha
elaborado el llamado Protocolo de Observación de Interacción en el Aula (PIA),
desarrollado por las Universidades de Oviedo y La Laguna (España) (Pedrosa,
Borges, Herranz, Lorenzo, & García-Cueto, 2013). Los resultados obtenidos con
el PIA mostraron que es un instrumento fiable y flexible, que se puede aplicar a
cualquier colectivo y a cualquier programa educativo, por lo que resulta idóneo para
nuestra investigación. El PIA fue adaptado eliminando dos categorías: la interacción
neutra y la instrumental, no aptas para la modalidad a distancia. Asimismo, a partir
de la Teoría del Aprendizaje Colaborativo y la Teoría de la Representación Social
desarrollada por Roselli (2011) se añadieron tres componentes de comunicación
sociocognitiva: comunicación en el grupo, comunicación con el líder, y comunicación
con el docente.
A partir de lo señalado, ésta investigación se plantea el estudio de las dimensiones
relevantes para la construcción social del conocimiento en un trabajo colaborativo.
Así pues, el objetivo general del trabajo fue: analizar cómo la ejecución de un trabajo
colaborativo contribuye a la construcción social del conocimiento, a partir de los
componentes y dimensiones del modelo teórico general, así como la selección de
aquellos componentes y dimensiones más relevantes para un mejor aprendizaje, con el
fin de aportar en el área de la construcción social del conocimiento.

2. Método
La recopilación de datos para la presente investigación se la hizo a través de un
cuestionario estructurado autoadministrable, que abarca cuatro componentes. El
cuestionario fue aplicado a los alumnos de la Universidad Técnica Particular de Loja,
Modalidad a Distancia, matriculados en la asignatura de Inteligencia Artificial. El
cuestionario fue administrado online. La asignatura se implementó coordinadamente
durante un semestre (abril-agosto/2018), en un diseño de trabajo colaborativo
basado en la resolución de casos; más concretamente, los estudiantes tuvieron que

136 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

resolver un caso de optimización de combinaciones para la resolución de un problema


práctico. La solución fue proporcionada a través de la plataforma Moodle. Concluido el
período académico se les envió un mail a los estudiantes en el que se les solicitaba que
respondieran al cuestionario online. La muestra recogida fue de 106 cuestionarios, que
representaban el 70.66% de la población objeto de estudio. La edad promedio de los
participantes es de 26 años, en lo que se refiere al sexo el 84.31% eran hombres y 15.6%
eran mujeres. Para el análisis de datos se utilizó el programa SPSS. Tras la revisión de
los cuestionarios, se encontró que 17 de ellos estaban incompletos y fueron descartados,
con lo que la muestra final de los participantes fue de N = 89.

2.1. Análisis
El indicador de desempeño se desarrolló a partir de las respuestas de los alumnos a 9
ítems dicotómicos, correspondientes a las 9 actividades llevadas a efecto en la AC. Para
cada uno de los ítems, los alumnos debían indicar si dicha actividad les había permitido
lograr aprendizajes significativos para llegar a la solución del caso y/o para entender y
aplicar la temática propuesta en el mismo.
En primer lugar, se analizó la relación existente entre las respuestas proporcionadas
por los estudiantes a los 9 ítems, empleando la prueba chi-cuadrado, así como el
coeficiente de correlación Phi (φ) de Pearson. Una vez comprobadas estas relaciones
bivariadas, los 9 ítems fueron sometidos a un análisis de correspondencias múltiple
(Gifi, 1990; Greenacre, 1991). El análisis de correspondencias múltiple permite resumir
las relaciones existentes entre un conjunto de variables nominales a las distancias
entre puntos en un espacio de baja dimensionalidad (en el caso, 2 dimensiones), de tal
modo que las coordenadas de estos puntos en el espacio pueden ser interpretadas como
cuantificaciones métricas de las relaciones no métricas existentes entre las variables
originales; esto permite expresar mediante variables cuantitativas las propiedades
subyacentes a las relaciones existentes entre los 9 ítems dicotómicos.
Una vez que se obtuvo la solución del análisis de correspondencias, ésta fue empleada
para estudiar la relación entre los 9 ítems y otras variables categóricas del instrumento
aplicado, con el fin de comprobar si estas variables estaban relacionadas con los
indicadores de desempeño. Finalmente, las coordenadas proporcionadas por la
solución del análisis de correspondencias múltiple fueron empleadas como variables
dependientes en sendos análisis de regresión lineal múltiple, tomando como predictores
las dimensiones del modelo teórico general. Los resultados de estos análisis permitieron,
por un lado, interpretar las dimensiones de la solución del análisis de correspondencias
múltiple, y por otro, determinar los factores responsables de un mejor o peor aprendizaje
y/o resolución del problema planteado en la AC.

3. Resultados
La inspección de las frecuencias esperadas y observadas de la tabla de contingencia
permitió conocer el tipo de relación existente entre los ítems, mientras que el coeficiente
φ proporcionará una cuantificación de esta relación.

RISTI, N.º E22, 08/2019 137


Predicción del desempeño en una tarea colaborativa con uso de tecnologías.

Actividades 2 3 4 5 6 7 8 9
1. Rev. Bib. propuesta por docente .201 .286** .151 .226* .109 .018 .172 .408***
2. Rev. Bib. propuesta por grupo .163 .479 ***
.556 ***
.245 *
.183 .340 **
.132
3. Búsqueda y selec. recursos web .121 .235* .369** .207 .225* .405***
4. Discusión en grupo .603 ***
.403 ***
.366 **
.499 ***
.164
5. Conclusiones del grupo .577*** .387*** .384*** .200
6. Elab lectura y revisión inf. Final .394 ***
.452 ***
.259*
7. Lectura trabajos otros grupos .345** .186
8. Retroalimentación del docente .193
9. Iniciativa personal 1.00
* p<.05; ** p<.01; *** p<.001

Tabla 1 – Coeficientes de correlación φ de Pearson entre los 9 ítems de la AC

Se encontraron relaciones siempre directas, moderadamente fuertes, y significativas,


entre la mayoría de las actividades. La Tabla 1 muestra estas correlaciones junto con
su significación estadística. La existencia de correlaciones moderadas a fuertes entre
algunos de los ítems indicó que es factible realizar un análisis de correspondencias
múltiple, y reducir las relaciones entre las 9 actividades a una menor dimensionalidad,
a partir de las coordenadas proporcionadas por el análisis. Con el fin de resumir la
información proporcionada por los ítems en un modelo de baja dimensionalidad,
se solicitó una solución en 2 dimensiones. La solución proporcionada por el análisis
mostró que la primera de las dimensiones era mucho más importante que la segunda,
con autovalores de 3.471 y 1.402, respectivamente.
El coeficiente Alfa de Cronbach correspondiente a las escalas métricas subyacentes a
ambas dimensiones también mostró claras diferencias entre ellas, con valores de .801 y
.323, respectivamente. La inspección de las correlaciones existentes entre las variables
en el modelo mostró que estas fueron muy similares a los coeficientes φ presentados en
la Tabla 1, lo que indica que esta solución reproduce fielmente las relaciones existentes
entre las variables originales. La mayoría de las actividades (6 ítems) mostraron mucha
relación con la dimensión 1 y prácticamente ninguna con la dimensión 2, mientras que
solo 3 de ellas mostraron más relación con la dimensión 2 que con la dimensión 1. Las
inspecciones de las medidas de discriminación mostraron que los ítems relacionados
con la dimensión 1 se referían a aspectos relativos a la ejecución del trabajo colaborativo,
mientras que aquellos más relacionados con la dimensión 2 se referían a aspectos que no
precisan de la presencia del grupo (trabajo individual), tales como revisión bibliográfica
propuesta por el docente, búsqueda en la web o iniciativa personal.
En la Figura 1 se presenta la solución bidimensional, junto con las posiciones de las
respuestas (Sí o No) a los 9 ítems. La combinación de las coordenadas asignadas
a las respuestas sitúa a éstas en posiciones diferentes dentro de los 4 cuadrantes del
espacio que se forman a partir del centroide de cada dimensión, de tal modo que la
dimensión 1 separa el cumplimiento de los indicadores de desempeño (a la izquierda)

138 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

del incumplimiento de los mismos (a la derecha); mientras que, la dimensión 2 distingue


entre el cumplimiento de los indicadores de desempeño individuales (arriba) del
cumplimiento de los indicadores de desempeño grupales (abajo). Esto da lugar a cuatro
agrupamientos de indicadores, de tal modo que el no cumplimiento de los indicadores
correspondientes a actividades en grupo, situadas en el cuadrante 1 (superior derecho),
se oponen a sus versiones positivas, situadas en el cuadrante 3 (inferior izquierdo). Del
mismo modo, el no cumplimiento de los indicadores correspondientes a actividades de
tipo individual, situadas en el cuadrante 2 (inferior derecho), se oponen a sus versiones
positivas, situadas en el cuadrante 4 (superior izquierdo). Así pues, en función de los
cuatro cuadrantes, es posible distinguir cuatro grupos diferentes de estudiantes: (1)
personas que no aprenden por medio de tareas colaborativas; (2) personas que no
aprenden por medio de tareas individuales; (3) personas que aprenden por medio de
tareas colaborativas; (4) personas que aprenden a través de tareas individuales.
Además de proporcionar coordenadas en el espacio bidimensional para las respuestas
de los sujetos, el análisis de correspondencias múltiple también asigna coordenadas
a las personas dentro del mismo espacio, lo que permite relacionar la posición de
las variables en la solución con la posición de los sujetos. Esto facilitó la creación
de una variable categórica que asignó a los estudiantes de la muestra a uno de estos
cuatro grupos en función de sus coordenadas en la solución. Aquellas personas con
coordenadas positivas en ambas dimensiones (cuadrante 1) fueron asignadas al grupo
1; las que tenían coordenadas positivas en la dimensión 1 y negativas en la dimensión
2 (cuadrante 2) fueron asignadas al grupo 2; las que tenían coordenadas negativas en
ambas dimensiones (cuadrante 3) fueron asignadas al grupo 3; finalmente, las que
tenían coordenadas negativas en la dimensión 1 y positivas en la dimensión 2 (cuadrante
4), fueron asignados al grupo 4.
A continuación, se utilizó de nuevo la prueba chi-cuadrado para tablas de contingencia,
con el fin de estudiar la relación de esta variable categórica con otras variables
categóricas del presente estudio, tales como: sexo, edad, nivel de estudios, fluidez de la
comunicación dentro del grupo de trabajo, y uso de redes sociales en la AC. Se encontró
una asociación fuerte y significativa en el caso de la fluidez de la comunicación dentro del
grupo de trabajo (chi-cuadrado= 54.84; g.l.= 9; p<.001), mientras que no se encontraron
relaciones significativas con el resto de variables analizadas. La inspección de la tabla de
contingencia para la variable de fluidez en la comunicación reveló que las categorías
de incumplimiento de los indicadores de desempeño (1 y 2) estaban asociadas a bajos
niveles de fluidez en la comunicación, mientras que las categorías de cumplimiento (3 y
4) estaban asociadas a niveles altos de fluidez en la comunicación.
Dada la asociación encontrada entre esta variable y la solución proporcionada por el
análisis de correspondencias múltiples, se realizó un nuevo análisis, integrando ahora
la variable de fluidez en la comunicación dentro del modelo. Al igual que en el caso del
primer análisis, se solicitó una solución en dos dimensiones. Los resultados mejoraron
ligeramente con respecto a los obtenidos previamente, sobre todo en el caso de la
dimensión 2, aunque de nuevo la dimensión 1 mostró mucha mayor importancia que
ésta, con autovalores de 3.922 para la dimensión 1, y de 1.646 para la dimensión 2. En
lo que se refiere a la consistencia interna de las escalas creadas por cada dimensión,
el Alfa de Cronbach para la dimensión 1 fue de .828, y de .436 para la dimensión 2.

RISTI, N.º E22, 08/2019 139


Predicción del desempeño en una tarea colaborativa con uso de tecnologías.

La Tabla 2 muestra las medidas de discriminación correspondientes a las variables del


nuevo modelo. Por lo que respecta a la nueva variable incluida en el modelo, la fluidez
de la comunicación dentro del grupo, ésta mostró valores de discriminación elevados
para ambas dimensiones, aunque ligeramente mayores para la dimensión 1 que para la
dimensión 2.

Figura 1 – Espacio bidimensional en la solución proporcionada por el análisis de


correspondencias múltiple

Así pues, este modelo mejorado ha mostrado mayor ajuste que el modelo previo, con
autovalores e índices de consistencia interna superiores. Además, la incorporación de
una nueva variable al mismo no ha alterado significativamente las relaciones existentes
previamente entre las variables del modelo. Por otro lado, la nueva variable muestra una
fuerte asociación con ambas dimensiones, por lo que contribuye a mejorar el modelo en
su totalidad.
En la Figura 2 se muestra la solución bidimensional proporcionada por el nuevo modelo.
Puede apreciarse que no existen diferencias en las posiciones de las respuestas de los
estudiantes a los 9 ítems dicotómicos En cuanto a la nueva variable introducida (fluidez
en la comunicación) en el modelo, se constata que las condiciones de baja fluidez en
la comunicación están asociadas al incumplimiento de los indicadores de desempeño

140 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

en las 9 actividades (zona derecha), mientras que las condiciones de alta fluidez están
asociadas al cumplimiento de éstas (zona izquierda).

Dimensión
1 2
Conclusiones a las que se llegó en el grupo. ,668 ,022
Discusión en el grupo. ,599 ,089
Elaboración, lectura y revisión del informe final. ,490 ,003
Retroalimentación del docente encargado de la asignatura. ,411 ,011
Revisión bibliográfica propuesta por alguno de los integrantes del grupo. ,388 ,012
Lectura de los trabajos realizadas por otros grupos. ,307 ,036
Iniciativa personal. ,184 ,404
Revisión bibliográfica propuesta por el docente encargado de la asignatura. ,134 ,383
Búsqueda y selección de recursos disponibles en la Web. ,212 ,247
Fluidez de la comunicación entre las personas que formaron parte del grupo ,530 ,440
Total active 3,922 1,646

Tabla 2 – Medidas de discriminación para los 9 ítems de la AC y la variable de fluidez de la


comunicación

Además, cada categoría de respuesta se asoció con alguno de los 4 cuadrantes de la


solución. Así, la falta total de comunicación se asocia al incumplimiento de los indicadores
de desempeño individual. La baja fluidez en la comunicación, por su parte, se asoció al
incumplimiento de los indicadores de desempeño grupal, mientras que las condiciones
de buena o muy buena fluidez se asociaron al cumplimiento de estos indicadores, aunque
en mucha mayor medida cuando fue a través del trabajo colaborativo que cuando no lo
fue. Este resultado indica que, como sería de esperar, el aprendizaje mediante trabajo
colaborativo depende en gran medida del grado de fluidez existente en la comunicación
entre sus miembros, de tal modo que la presencia de esta fluidez está asociada al
aprendizaje, mientras que su ausencia dificulta o impide el aprendizaje. Además, y como
sería de esperar, cuando se da esta fluidez en la comunicación afecta mucho más al
aprendizaje en grupo que a las actividades de aprendizaje no relacionadas con el grupo.
Una vez obtenido el modelo de análisis de correspondencias múltiples para estas
variables categóricas, se planteó su relación con las dimensiones del modelo teórico
general. Para ello, se tomaron las coordenadas de los estudiantes en las dimensiones
como cuantificaciones de las propiedades medidas por estas dimensiones, utilizándolas
como variable criterio en sendos análisis de regresión lineal. Antes de llevar a cabo estos
análisis, se comprobó la consistencia interna de las dimensiones de nuestro modelo
teórico general mediante el coeficiente Alfa de Cronbach. En el primer análisis de
regresión se tomó como variable dependiente las coordenadas de las personas en la
dimensión 1 del análisis de correspondencias, y como variables independientes las 12
escalas del estudio correspo0ndientes a los componentes: comunicación sociocognitiva,
presencia cognitiva-metacognitiva, patrones de interacción, y la presencia subjetiva de

RISTI, N.º E22, 08/2019 141


Predicción del desempeño en una tarea colaborativa con uso de tecnologías.

la AC. Se empleó un método de selección de predictores por pasos sucesivos (Draper &
Smith, 1998). El análisis retuvo dos predictores: construcción social del conocimiento
y comunicación entre los miembros del grupo. La proporción de varianza explicada
conjuntamente por ambos predictores fue del 66%, lo que puede considerarse un valor
satisfactorio. En la Tabla 3 se muestra los coeficientes de regresión y determinación, así
como el error típico de estimación para cada uno de los pasos del procedimiento.

Figura 2 – Espacio bidimensional análisis de correspondencias múltiple. Solución mejorada

Modelo R R2 R2 corregida E.T. Cambio en


estimación R2
Construcción del conocimiento ,753 ,567 ,562 ,66581 ,567
Comunicación entre los miembros del
,813 ,660 ,652 ,59352 ,093
grupo

Tabla 3 – Resumen del modelo de regresión lineal por pasos sucesivos. Variable dependiente:
coordenadas de las personas en la dimensión 1 de la solución del análisis de correspondencias
múltiple

142 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

La construcción social del conocimiento es el principal predictor del aprendizaje/


no aprendizaje a partir del trabajo colaborativo, con un 56.7% de varianza explicada,
mientras que la comunicación entre los miembros del grupo explicó el 9.3% restante. Por
lo que se refiere al peso de cada predictor en el análisis, ambos mostraron coeficientes
Beta similares y negativos (construcción social del conocimiento=-.453; comunicación
entre los miembros del grupo=-.428). Dado que en la dimensión 1 el cumplimiento
correspondía a valores negativos (situados en la zona izquierda de la Figura 2), estos
coeficientes indican que, a mayor construcción social del conocimiento y mayor
comunicación entre los miembros del grupo, mayores posibilidades de cumplimiento de
los indicadores de desempeño.
En lo que se refiere a la dimensión 2 del análisis de correspondencias, el análisis de
regresión retuvo 3 predictores, aunque el ajuste del modelo a los datos fue muy
inferior, con solo un 16.1% de varianza explicada. Los predictores seleccionados fueron
la presencia social, con un 6.9% de varianza explicada; la comunicación con el líder
del grupo, con un 5% de varianza explicada; y la comunicación con el docente, con un
4.2% de varianza explicada. En la Tabla 4 se presentan los coeficientes de regresión y
determinación, junto con el error típico de estimación para cada uno de los pasos del
análisis de regresión. La inspección de los pesos de cada uno de los predictores mostró
que la presencia social estaba positivamente relacionada con las coordenadas de las
personas en la dimensión 2 (Beta= .342). Esto viene a indicar que la presencia social
está asociada al cumplimiento de los indicadores individuales de desempeño, mientras
que su ausencia está asociada al cumplimiento de los indicadores grupales. Por su parte,
la comunicación con el líder del grupo mostró un coeficiente negativo (Beta= -.368),
lo que indica que, a mayor comunicación con el líder del grupo, mayor cumplimiento
de los indicadores grupales, y viceversa para el caso de los indicadores individuales.
Finalmente, la comunicación con el docente mostró un coeficiente positivo (Beta=
.254), lo que viene a indicar que el docente tiene un efecto positivo sobre los indicadores
individuales, y negativo sobre los grupales.

Modelo R R2 R2 E.T. Cambio


corregida estimación en R2
Presencia social ,263 ,069 ,058 ,97600 ,069
Comunicación con el líder del grupo ,346 ,119 ,099 ,95487 ,050
Comunicación con el docente ,401 ,161 ,131 ,93756 ,042

Tabla 4 – Resumen del modelo de regresión lineal por pasos sucesivos Variable dependiente:
coordenadas de las personas en la dimensión 2 de la solución del análisis de correspondencias
múltiple

Como resumen de los resultados obtenidos, ambos análisis indican que, de modo general,
los mejores predictores del desempeño en una tarea colaborativa son, en este orden, la
construcción social del conocimiento y el grado de comunicación entre los miembros del
grupo. Por otra parte, se estable una diferencia entre desempeño individual y desempeño
grupal, este último mejora en función del grado de comunicación con el líder, mientras
que el desempeño individual mejora en función del grado de presencia social que tiene el
alumno focal en el grupo, así como de su grado de comunicación con el profesor.

RISTI, N.º E22, 08/2019 143


Predicción del desempeño en una tarea colaborativa con uso de tecnologías.

4. Discusión y conclusiones
Los resultados obtenidos en el presente estudio ponen de manifiesto que la construcción
social del conocimiento en la AC estuvo fuertemente relacionada con el grado de
fluidez presente en la comunicación entre los integrantes del equipo, coincidiendo
en este sentido con lo que señalan Guitert & Pérez-Mateo (2013), cuando mencionan
que la interacción y la reciprocidad facilitan la construcción conjunta de significados.
Asimismo, y como sería de esperar, aquellos indicadores de desempeño no asociados
con el trabajo colaborativo mostraron menos dependencia del grado de comunicación
que los que sí estaban asociados.
Este resultado pone de manifiesto dos aspectos fundamentales en la ejecución de un
trabajo colaborativo: 1. Dado que la mayoría de las actividades en este tipo de trabajo
son grupales, la fluidez de la comunicación será un factor determinante, por lo que
garantizar dicha fluidez se convierte en una condición indispensable para el éxito de éste,
corroborando lo planteado por Collazos, Muñoz, & Hernández (2014). Por el contrario,
la escasez o falta de fluidez en la comunicación se convierte en un factor determinante
del fracaso del trabajo colaborativo, pero no constituye un obstáculo para el desempeño
individual. Adicionalmente, nuestros resultados también ponen de manifiesto que la
presencia de un líder eficaz y comunicativo dentro del grupo es esencial para el éxito del
desempeño grupal. 2. A pesar de que la característica fundamental de las actividades
colaborativas es el trabajo con otros, este tipo de actividades también precisa de cierto
grado de desempeño individual, algo ya señalado por (Johnson et al., 1998). En este
sentido, otro tipo de factores que van a afectar al éxito o fracaso de dicha actividad
son, por este orden, la iniciativa personal del alumno, el uso de herramientas externas
a la actividad en grupo y a la influencia del líder, y la asistencia proporcionada por
el profesor, como lo mencionan (Mayordomo & Onrubia, 2015). Así pues, al llevar a
cabo este tipo de actividades es necesario ser consciente de la importancia que tiene el
docente en su papel de acompañar, mediar y orientar a los alumnos en su trabajo, y no
dejarlo todo a las interacciones entre los alumnos, o a la dirección del líder del grupo.
También es necesario tener en cuenta los factores personales de los alumnos, por lo que
tampoco es conveniente apoyarse únicamente en el grupo como un todo, sino también
fomentar la iniciativa individual y la investigación fuera del grupo. Es muy probable
que la atención a estas características de iniciativa dentro del grupo de alumnos pueda
resultar útil también para el trabajo del grupo como un todo, por ejemplo, para la
selección de líderes.
Como conclusión, los resultados de este estudio animan a seguir investigando la incidencia
del trabajo colaborativo y del trabajo individual en la construcción del conocimiento
del estudiante, lo que apoyará para identificar de qué manera se debe gestionar el
aprendizaje con la participación, interacción y la ejecución del trabajo colaborativo. Por
otro lado, el bajo poder predictivo de nuestro segundo modelo de regresión múltiple
viene a indicar que todavía quedan por identificar otros factores responsables de un
mayor desempeño individual o grupal.
Sería interesante replicar el presente trabajo en una muestra mayor y por un período más
largo de tiempo para ratificar o rectificar los hallazgos encontrados, y así determinar si
el trabajo colaborativo es realmente una estrategia de aprendizaje para la construcción
social del conocimiento, así como profundizar en la interdependencia entre un buen

144 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

desempeño individual y un buen desempeño grupal a la hora de mejorar los resultados


de aprendizaje en este tipo de actividad.

Referencias
Coll, C. (1984). Estructura grupal, interacción entre alumnos y aprendizaje escolar.
Infancia y Aprendizaje, (27), 119–138. Retrieved from [Link]
es/servlet/extart?codigo=668449%5Cn[Link]
articulo/[Link]
Collazos, C., Muñoz, J., & Hernández, Y. (2014). Aprendizaje Colaborativo Apoyado
por Computador (1ra. Ed. I). LATIn. Retrieved from [Link]
book/aprendizaje-colaborativo-apoyado-por-computador
Draper, N. R., & Smith, H. (1998). Applied regression analysis. Third edition.
New York: Wiley.
Espuny, C., González, J., LLeixá, M., & Gisbert, M. (2011). Actitudes y expectativas del
uso educativo de las redes sociales en los alumnos universitarios. RUSC. Revista de
Universidad y Sociedad Del Conocimiento, 8(1), 171–184. [Link]
CBO9781107415324.004
Garrison, R., Anderson, T., & Archer, W. (2000). Critical Inquiry in a Text-Based
Environment: Computer Conferencing in Higher Education. The Internet and Higher
Education, 2(2–3), 87–105. [Link]
Gifi, A. (1990). Nonlinear multivariate analysis. Chichester: Wiley.
Greenacre, M. J. (1991). Interpreting multiple correspondence analysis. Applied
Stochastic Models and Data Analysis, 7(2), 195–210. Retrieved from
[Link]
Guitert, M., & Pérez-Mateo, M. (2013). La colaboración en la red: Hacia una definición
de aprendizaje colaborativo en entornos virtuales. Tesi, 14(1), 10–31. Retrieved
from [Link]
Ingles, C. J., Aparisi, D., Delgado, B., Torregrosa, M. S., & Garcia-Fernandez, J. M.
(2017). Sociometric types and academic self-concept in adolescents. Psicothema,
29(4), 496–501. [Link]
Johnson, D. W., Johnson, R. T., & Smith, K. A. (1998). Active learning: cooperation in
the college classroom. (I. B. Company, Ed.).
Mayordomo, R. M., & Onrubia, J. (2015). Work coordination and collaborative knowledge
construction in a small group collaborative virtual task. Internet and Higher
Education, 25(2015), 96–104. [Link]
Noguera, I., & Gros, B. (2014). Indicadores para la construcción de prácticas colaborativas
en entornos virtuales de aprendizaje / Indicators to develop collaborative practices
in online learning. Revista Latinoamericana de Tecnología Educativa - RELATEC,
13(1), 51–62. Retrieved from [Link]
article/view/1155

RISTI, N.º E22, 08/2019 145


Predicción del desempeño en una tarea colaborativa con uso de tecnologías.

Pedrosa, I., Borges, Á., Herranz, N., Lorenzo, M., & García-Cueto, E. (2013). Desarrollo
del Protocolo de Observación de Interacción en el Aula: aplicación en un programa
de niños con altas capacidades. Revista de Educación, Extra1(1), 338–362.
[Link]
Ramos Gonçalves, D., & Vieira da Silva, M. C. (2019). Formación de profesores e
identidad profesional: la contribución del trabajo colaborativo en educación.
Profesorado, Revista de Currículum y Formación Del Profesorado, 23(2).
[Link]
Roselli, N. (2011). Teoría del aprendizaje colaborativo y teoría de la representación
social: convergencias y posibles articulaciones. Revista Colombiana de Ciencias
Sociales, 2(2), 173–191.

146 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 07/03/2019
Iberian Journal of Information yS stems and Technologies Aceitação/Acceptance: 15/06/2019

Interfaz de usuario enfocado en el co-diseño con


niños

Elizabeth Morales-Urrutia1, José Miguel Ocaña Ch2, Jorge Luis Santamaría Aguirre3,
Diana Pérez-Marín4.

[Link]@[Link], jmocanac@[Link], [Link]@[Link], [Link]@


[Link]

1
Universidad Técnica de Ambato, Ecuador, 182020, Ambato, Ecuador .
2.
Ejército Ecuatoriano, Ecuador, 182020, Ambato, Ecuador.
3
Universidad Técnica de Ambato, Ecuador, 182020, Ambato, Ecuador .
4
Universidad Rey Juan Carlos, España, 28933, Madrid, España.
Pages: 147–160

Resumen: El co-diseño es un método que permite el desarrollo de productos por


medio de la experimentación, se puede determinar las necesidades reales de los
usuarios ocasionando una mejora del producto, en funcionalidad y usabilidad. El
presente artículo da a conocer el proceso de co-diseño de un agente pedagógico
conversacional que enseñará a programar a niños. Se centra en como extraer
información del público objetivo para generar una propuesta que cubra sus
expectativas, en la experiencia de interacción y aprendizaje; para esto, se pidió a
66 niños de 8 a 10 años que escribieran un diálogo con el ordenador sobre cómo
les gustaría que se les enseñara la programación. Del análisis de los diálogos
recopilados, se obtienen los criterios para definir el perfil y rasgos que configuran al
agente pedagógico conversacional y las actividades que éste desarrolla en el entorno
de la aplicación.
Palabras-clave: Interfaz; usuario; co-diseño; agente pedagógico conversacional;
niños.

User interface co-designed with children

Abstract: Co-design is a method to develop software through experimentation


by identifying the users’ real needs. The goal is to improve the usability and
functionality of the software. In this paper, the co-design process of a Pedagogic
Conversational Agent to teach programming to children is described. The paper is
focused on how to extract information from the children to generate the interface
that covers their expectations. To do that, 66 children between eight to ten years of
age were requested to write a dialogue with their computer about how they would
like to be taught programming. From the dialogue analysis, criteria have been
elicited to define the profile and features of the Pedagogic Conversational Agent
interface and its tasks.

RISTI, N.º E22, 08/2019 147


Interfaz de usuario enfocado en el co-diseño con niños

Keywords: Interface; user; co-design; Pedagogic Conversational Agent; children.

1. Introducción
En décadas recientes, las preferencias de los usuarios se ha convertido en factor que
incide a la hora de generar o crear un diseño, esto se ha visto reflejado en diferentes
medios tales como revistas, libros, aplicaciones digitales, entre otros. Con el pasar del
tiempo el factor humano ha realizado importantes aportes a la calidad del producto y
facilidad de uso, tomando como referencia principal el grado de satisfacción del usuario.
En este sentido, algunas industrias han elaborado diseños en función de la relación
existente entre las necesidades de Maslow (2012) y factores como la funcionalidad,
usabilidad y el placer.
En las últimas décadas, los seres humanos contribuyen a la creación de usabilidad y de
establecer una serie de principios que deberá contener el diseño para que sea fácil de
utilizar (Jordan, 1998), A este respecto, el gran desafío al que se enfrenta el ser humano
es desarrollar productos que puedan generar diferentes emociones y sentimientos en las
personas (Hollan, Hutchins y Kirsh, 2000).
En la actualidad, se investiga tecnologías educativas y metodologías adecuadas para
desarrollar competencias digitales que promuevan el pensamiento lógico por medio de la
enseñanza de programación. Una de estas tecnologías son los Agentes Conversacionales
Pedagógicos (ACPs), que se pueden definir como sistemas interactivos que permiten
a los estudiantes repasar de una forma entretenida y amigable, a su vez éstos están
considerados como una entidad viviente artificial que son diseñados con la finalidad de
tener conversaciones con seres humanos reales, conversaciones que pueden ser llevadas
a cabo vía texto, de forma oral o incluso una conversación no verbal (Johnson, Rickel y
Lester, 2000).
Siendo el objetivo principal de este estudio el desarrollar un Agente Conversacional
Pedagógico para enseñar programación en Educación Primaria en la presente
investigación se trabajará con ALCODY, cuyo nombre representa (Algoritmos -Código),
agente que aproximará a los usuarios y en especial a los niños a la toma de decisiones y
desarrollo del pensamiento lógico es por ello que para el diseño del agente se integra a
los niños en el proceso creativo para el desarrollo del personaje a través del co-diseño,
con el fin de construir un agente con rasgos y características que los niños identifiquen y
que finalmente puedan empatizar con su personalidad.
En esta investigación, se ha tomado como referencia al co-diseño como apoyo al diseño
a través de la retroalimentación por parte del usuario, en este caso las historias creadas
por los estudiantes de educación básica, ya que no hay precedentes en el diseño de
agentes pedagógicos conversacionales para el apoyo en la enseñanza de programación.
Los resultados obtenidos con los estudiantes permiten configurar al agente pedagógico
conversacional, mediante el análisis morfológico de los rasgos y características detectadas
en los diferentes textos escritos y en el proceso de retroalimentación en la co-creación
del personaje con la ayuda de los niños.
Este artículo está compuesto de siete apartados. Partiendo desde la introducción como
primer apartado que nos aproxima a la problemática, en el segundo apartado se aborda

148 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

el estado del arte basado en la revisión existente de literatura sobre usabilidad, diseño y
co-diseño; tomando en cuenta la no existencia de referentes sobre la creación de agentes
conversaciones para el apoyo interactivo en clase y sobre todo enfocado a la enseñanza
de programación. En el tercer apartado se establece la metodología desarrollada en el
co-diseño del agente conversacional pedagógico, en el cuarto apartado se exponen los
resultados obtenidos de la experiencia de los textos escritos, en el quinto apartado se
muestra la propuesta de diseño, en el sexto apartado se muestran las conclusiones y
trabajo a futuro de la aplicación y los aspectos de interés encontrados en el co-diseño y
finalmente en el apartado siete se recoge la bibliografía.

2. Trabajos relacionados

2.1. Usabilidad
En el campo del diseño, la usabilidad es un término ya conocido y aplicado como un
proceso que presenta métricas para su evaluación que dependen de la efectividad,
eficiencia y satisfacción. Mientras que como producto descansa en la facilidad para
aprender, recordar, y operar, además de resultar atractivo (González, Montero y
Gutiérrez, 2012). El reto en los procesos de diseño está en identificar, evaluar y detectar
los aspectos hedónicos de los procesos interactivos, y de cómo poder diseñar un sistema
que haga al usuario “sentirse bien” y genere en él “afinidad”, “fidelidad” o “complacencia”,
aparte de que el grado de belleza estética, diseño visual, colores o estilo de la marca sean
del agrado de éste (Jordan, 1998).
En el diseño de un producto ya sea físico o digital, se debe tomar en cuenta algunos
aspectos tales como: usabilidad, integración e interacción que generan entre la aplicación
y los usuarios, para Human Computer Interaction (HCI) la usabilidad se relaciona en
hacer que los sistemas sean fáciles de aprender y fáciles de usar (Preece et al., 1994)
y se distingue de la noción de “experiencia del usuario”, que abarca un conjunto más
amplio de preocupaciones, tales como crear sistemas que sean satisfactorios, divertidos,
entretenidos, útiles, estéticamente agradables, de apoyo a la creatividad, gratificante o
emocionalmente satisfactorios, que permitan en la actualidad el desarrollo optimizado
en todos los dispositivos basados en tecnologías modernas tangibles e intangibles (Wong
y Khong, Chee Weng y Thwaites, 2012), los investigadores de HCI reconocieron que para
producir sistemas con buena usabilidad, era necesario entender aspectos psicológicos,
factores ergonómicos, organizativos y sociales que determinan cómo operan las personas,
y para considerar el trabajo grupal, integración e interacción de los medios, así como los
impactos más amplios de las tecnologías informáticas (Kukulska-Hulme, 2004).
Al hablar de diseño y usabilidad es importante conjugar los términos de cognición y
ergonomía enfocados a la interacción entre persona e interfaz. Los procesos cognitivos,
como percepción, aprendizaje o solución de problemas juegan un papel importante en la
ejecución de tareas cognitivas, tales como la búsqueda de información y su interpretación,
la toma de decisiones y la solución de problemas (Cañas y Waerns, 2001). Por su lado,
Preece (2000) había pasado a considerar la usabilidad en el contexto de las comunidades
en línea, concluyendo que “... el software con buena usabilidad admite aprendizaje
rápido, alta retención de habilidades, bajas tasas de error y alta productividad”. Además,
dentro del diseño es necesario considerar una interfaz que permita fluidez de contenidos

RISTI, N.º E22, 08/2019 149


Interfaz de usuario enfocado en el co-diseño con niños

y sea invisible en el contexto de uso para no afectar la experiencia del usuario (Hadler,
2018), (Badashian et al., 2011), (Roth, 2017). En la actualidad se encuentran ejemplos
de proyectos enfocados al aprendizaje y al diseño de interfaz de usuario en diversos
ámbitos de la educación y de la formación de los niños (Martínez y Cely, 2018).

2.2. Diseño y Co-diseño


El uso de iteraciones y grupos pequeños de los posibles usuarios, en la actualidad se esta
utilizando en el desarrollo de las nuevas tecnologías y la realidad aumentada (O’Hare
et. al, 2018). Estas acciones están basadas en la participación activa de los sujetos de
estudio para el éxito del co-diseño (Andersen et al, 2015).
Partiendo de la visión de Norman (2004), en la que se argumenta que la parte emocional
del ser humano viene de tres niveles diferentes del cerebro, un buen diseño debe tomar
en cuenta inicialmente el nivel visceral, asociado a la apariencia del producto, que genera
la primera impresión; por otro lado, el nivel comportamental, asociado a la comprensión
del uso desde la experiencia de interacción del usuario, donde la percepción de utilidad,
rendimiento y usabilidad se entrelazan; y, por último, el nivel reflexivo que permite al
usuario recordar el pasado y contemplar el futuro, creando relaciones duraderas con los
objetos, a través de los sentimientos de satisfacción de poseer, ver o usar un producto.
Hassenzahl (2013) manifiesta que el diseño emocional ha ayudado al desarrollo de
productos o sistemas tecnológicos que ha generado diferentes emociones y placer en el
usuario. Asimismo, la creación de experiencias significativas mediante la apropiación de
una tecnología. En este sentido, se puede decir que el diseño debe presentar productos
asequibles, funcionales y generadores de experiencias únicas para el consumidor y sobre
todo que produzcan en el usuario el placer de poseerlo y utilizarlo (Norman 2002). En el
proceso creativo de construcción de un producto participan tanto los diseñadores como
los co-diseñadores, a fin de experimentar, probar, transformar, desarrollar, y completar
ideas iniciales a través de la observación, reflexión, interpretación, discusión y expresión
(Sanders y Stappers, 2014).
Para Sanders (2008) el proceso de diseño se resume en un ciclo de tres pasos, en primer
lugar, los productos comienzan como ideas, segundo, se transforman en uno o más
prototipos, y finalmente en el tercer paso se convierten en productos. Es así como con
la evolución y desarrollo de las investigaciones de diseño la percepción que el diseñador
tiene del consumidor va cambiando con el pasar del tiempo; es decir, las personas
que participan en el diseño han ido tomando varios roles. Durante los años 70´s se
los conoce como clientes y consumidores, en los 80´s el diseño se centra en el usuario
donde se refiere a las personas como usuarios finales y en la actualidad está surgiendo
un enfoque que invita a las personas a participar en el diseño real, ahora se piensa en las
personas como participantes en el proceso de diseño, como adaptadores del producto
diseñado, o incluso como co-creadores, personas con experiencia única y relevante, y los
diseñadores se convierten en intérpretes de las necesidades, los sueños de las personas,
y no solo creadores de un producto (Sanders, 2005).
El diseño debe enfocarse en colocar al usuario final en el centro del proceso de diseño, el
estándar ISO 9241-210 (Mirnig et al., 2015) define el diseño centrado en el ser humano
como “un enfoque para el diseño y desarrollo de sistemas que tiene como objetivo hacer

150 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

los sistemas interactivos más útiles centrándose en el uso del sistema y la aplicación
de factores humanos/ergonomía y conocimiento y técnicas de usabilidad”, de tal forma
que se pretende agrupar una mayor cantidad de percepciones por parte del usuario
y no solamente tener en cuenta la funcionalidad del sistema. Por su parte, Bonsiepe
(2012) menciona que una interfaz debe “ser aprendida rápidamente, con un bajo nivel
de frustración” (p.110). Del mismo modo, el estándar ISO 9241-210 describe el beneficio
potencial de seguir un enfoque de diseño que mejore la usabilidad y los factores
humanos: “Los sistemas utilizables pueden proporcionar una serie de beneficios,
incluyendo una mejor productividad, mayor bienestar para el usuario, evitar el estrés,
mayor accesibilidad y menor riesgo de daños” (Mirnig et al., 2015).
En los procesos de co-diseño, la intervención de los socios del diseño es fundamental,
es así que, a la hora de diseñar el criterio de los usuarios es de importancia, sean estos
adultos o niños. En este sentido, Druin (1997) afirma que el trabajar con niños posibilita
el desarrollo de un entorno de acercamiento que apoya a las actividades del aprendizaje
de éstos. En los primeros acercamientos de su investigación los niños se sentían atraídos
por contar historias mediante el uso de dibujos o escritos. A través de estas actividades
desarrollaron y ejercitaron habilidades de alfabetización visual y verbal, y al mismo
tiempo permitieron generar cierta competencia con el uso de las nuevas tecnologías. En
el diseño de prototipos gráficos, los niños se convirtieron en catalizadores y generadores
de ideas en las que no se había pensado antes y definitivamente cambiaron la dinámica
de grupo y de los diseños (Druin et al., 1997).
En los últimos años, se han desarrollado numerosas metodologías que llevan a los
usuarios de tecnología al proceso de desarrollo, convirtiéndolos en socios activos para
la construcción de propuestas (Bjerknes, Ehn y Kyng, 1987); (Greenbaum y Kyng,
1991), (Schuler y Namioka, 1993), inspectores o probadores (Nielsen, 1995), (Nielsen,
1994), o participantes de investigación para ser observados y / o entrevistados (Beyer y
Holtzblatt, 1998), (Druin et al., 1997), (Holtzblatt et al., 1995), (Chan, Kah & Easterly,
Douglas, 2009), (Ayuningtyas & Effendy, Veronikha & Kaburuan, Emil, 2018). Todas las
metodologías parten de una visión proyectual y trabajo en equipo con el fin de buscar
soluciones que integren la opinión de todos los participantes.

Figura 1 – Design Suggestions from Children, Druin 1999

RISTI, N.º E22, 08/2019 151


Interfaz de usuario enfocado en el co-diseño con niños

Para Manzini (2015) “todo diseño es (o debería ser) una actividad de investigación en sí
misma que promueva experimentos socio-técnicos”. Druin (1999) puso de manifiesto que
el mejor ambiente de co-diseño con los niños es el que se da de manera natural, ya sea a
través de patrones de actividades y roles de juego, lo cual se diferencia del co-diseño con
adultos. En algunos casos en los estudios que abarca la tecnología se observa que los niños
quieren ser narradores de historias, asimismo, se ha encontrado que los niños de 7 a 10
años son la mejor alternativa (Druin et al., 1999), debido a que son lo suficientemente
verbales y auto reflexivos para discutir lo que están pensando. No parecen estar demasiado
agobiados por nociones preconcebidas sobre la forma en que “se supone que deben ser
las cosas”, algo que típicamente vemos en niños mayores de 10 años (Druin et al., 1999).
Como explican Greenbaum y Kyng (1991) coinciden en la “la necesidad de que los usuarios
se conviertan en socios plenos en el proceso de desarrollo del sistema cooperativo. La
plena participación de los usuarios requiere capacitación y cooperación activa, no solo
representación simbólica”; siendo los dos ejes fundamentales desde el ámbito de diseño
al momento de desarrollar una interfaz (Bonsiepe, 2012, p. 101). En estudios recientes
la estrategia de trabajo y metodología con los niños es más frecuente, teniendo mayor
relevancia la interacción con las experiencias y percepción de los niños (Chan y Easterly,
2009), (Birch et al., 2017) y (Kleinsmann, Sarri y Melles , 2018), en los que el uso
de focus group, análisis de experiencias previas y la etnografía son caminos para la
obtención de información relevante.

3. Metodología
Para el co-diseño del agente con los niños se desarrollan las siguientes etapas:
–– Toma de información de los requerimientos de los docentes
–– Primera propuesta de diseño basado en los requerimientos de los docentes.
–– Co-diseño con los estudiantes.
–– Segunda propuesta de Diseño basado en los requerimientos de los estudiantes.
Como primera etapa en el diseño de la interfaz para el análisis de requisitos, se entrevistó a
docentes de una escuela de Educación Primaria en Madrid - España, donde plantearon rasgos
iniciales del agente conversacional pedagógico, de acuerdo con su visión y que es el punto
de partida para la presente investigación. Estos manifestaron que el agente conversacional
debería presentar una estructura sencilla constituida por formas básicas y que tuviera colores
pasteles. En la segunda etapa el diseño inicial que se presentó tenía el aspecto que se muestra
en la Figura 2, el personaje fue creado con formas geométricas simplificadas.

Figura 2 – Diseño de agente conversacional basado en entrevista con docentes


Morales-Urrutia, 2017

152 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

En la tercera etapa de la metodología para la validación de la interfaz, ésta se mostró a 66


niños (hombres y mujeres) de 8 a 10 años de una institución de educación Primaria en
Madrid - España, en la cual se aplicó una encuesta para determinar el conocimiento que
tienen de programación además se les pidió crear una historia en la que debían escribir
un diálogo con el ordenador sobre cómo les gustaría que se les enseñara programación,
con la finalidad de recopilar de manera directas sus expresiones escritas (Figura 3).
Posterior a ello se procede a analizar de manera contextual los textos que desarrollaron
los niños para analizar la parte comunicacional a fin de interpretarlo para el diseño de
la Interfaz (Silveira et al., 2015). Lo que se puede interpretar del primer acercamiento
de los niños con la interfaz es que: los niños por medio de los diálogos identificaron al
ordenador como el nexo de aprendizaje y acompañante, dando la pauta para la creación
y características del personaje.

Figura 3 – Test impreso y digital aplicado (instrumentos de recolección de información)

De las historias creadas por los niños se puede extraer las características implícitas en
los textos para el co-diseño, como se observa en el texto (Figura 4)

Figura 4 – Historias de conversación de los niños con agente pedagógico conversacional.

4. Resultados
De las historias creadas por los niños en la etapa de la propuesta, se realizó un análisis
más profundo para contextualizar las historias contadas, para esto se optó por el método
de análisis de contenidos para extraer ideas y atributos que sirvan para el desarrollo

RISTI, N.º E22, 08/2019 153


Interfaz de usuario enfocado en el co-diseño con niños

del personaje y su contexto, a través de la matriz de análisis morfológico donde se


organiza las ideas y se configuran la opción u opciones más viables. En el análisis de
contenidos se extraen palabras clave asociadas a nueve parámetros, cinco de ellos:
personaje, género, color, características del personaje y estado de ánimo.
Estos parámetros permiten definir los rasgos generales de forma y actitud del personaje;
mientras que: tipo de historia, estructura de la historia, tema y como te
gustaría que hablase contigo, permiten establecer el carácter del personaje y sus
interacciones con los usuarios (ver Figura 5).

Figura 5 – Descripción de las características del robot por medio de textos.

Los rasgos generales que se destacan de los resultados obtenidos en la (Tabla 2), definen
la personalidad y rasgos formales del agente conversacional ALCODY como: ordenador
antropomorfo, masculino, paleta de colores, deportista, que hable, con aspecto humano,
normal y amigable. Los rasgos aproximan la propuesta de diseño con una cabeza, tronco
y extremidades como base para el diseño; además se toma en cuenta que el carácter del
personaje debe ser calmado y que realice actividades humanas como el deporte, y que
debe comunicarse con los niños en un tono amigable.
Características
Personaje Género Color Estado de Ánimo
del Personaje
ordenador (25) *no define (34) *no define (54) deporte (7) normal (22)
persona (19) masculino (20) varios colores (5) *no define (6) amigable (15)
robot (7) femenino (7) Rosado (2) Hablar (5) *no define (8)
Características
animal (6) humanas (brazos, feliz (5)
boca, piernas) (4)
característica de
transporte (2) asombro (2)
animales (2)
bailar (2) preocupado (2)
sorprendido (2)
triste (2)
mensajes positivos (1)
agresividad (1)
Nota: * Son valores cuantitativos representativos de la muestra, pero no tienen valor cualitativo.

Tabla 2 – Resultados de la encuesta a los niños

154 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

El género está presente en una ambivalencia de masculino y femenino (Tabla 3), siendo
el primero el que logró mayor puntaje, esto finalmente no tendrá impacto de sesgo para
el diseño, para evitar un posible condicionamiento a factores culturales preexistentes en
los niños.

Género Color
masculino (20) femenino (7)
varios colores (5) Rosado (2)

Tabla 3 – Género y color

En la investigación también se pudo destacar rasgos de personalidad para ALCODY,


como lo muestra la (Tabla 4):

Personaje Características del personaje Estado de Animo


*Ordenador *Deporte *Normal
*Persona Hablar Amigable
Robot Humanas (brazos, boca, piernas) Feliz
Transporte Característica de animales Sorprendido
Animal Bailar Asombro
Mensajes positivos
Nota: * Características con mayor representatividad que permiten la personificación y características del
agente pedagógico.

Tabla 4 – Personalidad

Se ha decidido optar por los rasgos más aparentes para una comunicación no verbal para
el agente pedagógico conversacional como: deberá tener una cara expresiva, deberá tener
brazos que le permita realizar actividades y comunicarse con los usuarios de la aplicación.

5. Propuesta
Descripción del co-diseño del agente conversacional pedagógico con niños para que
les enseñe a programar, el análisis de la percepción de los estudiantes con respecto al
agente pedagógico conversacional dio paso al co-diseño del personaje, obteniendo una
nueva versión (Figura 6), adaptada a las preferencias y sugerencias de los niños.

Figura 6 – Imagen del agente pedagógico conversacional llamado Alcody

RISTI, N.º E22, 08/2019 155


Interfaz de usuario enfocado en el co-diseño con niños

Alcody se muestra amigable, se ha trabajado en los ojos para denotar expresividad,


los colores se mantienen en una base neutra permitiendo que los elementos visuales
complementarios sean notorios y se pueda variar al agente pedagógico conversacional
en su personalidad y actitud.

5.1. Descripción de Personaje


En cuanto a las formas, la estructura es más simplificada y representa tecnología, se
relaciona con la experiencia que los niños tienen en manejo de medios y dispositivos;
además, las gafas representan un elemento de identidad del nombre del personaje
ALCODY, aun cuando no es visible al 100%, esto se planea como estrategia de
diferenciación creativa que genera un mayor dinamismo en la creación e identidad del
personaje. En síntesis, del co-diseño se puede concluir que el personaje creado cumplirá
su rol de agente. El concepto que se ha manejado de manera gráfica es mostrar que es
un robot inteligente de última generación que guía a los niños en su aprendizaje de
programación, el nombre asignado es Alcody y presenta cualidades de ser multifacético
en personalidad, alegre, amigable, activo, con inmediatez en la comunicación y
guía de las actividades. Alcody tiene una forma compacta, donde los elementos más
representativos resaltan como los ojos y la pantalla del cuerpo, mientras que los
elementos complementarios que no interactúan en la interfaz se los ha simplificado para
facilitar la interacción del personaje, el personaje al no tener mayor expresividad en el
rostro, el movimiento de brazos y manos se convierte en una estrategia de comunicación
con los niños.

5.2. Forma - styling


La forma general es ovoide, con detalles y complementos redondos; se utilizan figuras
básicas y simplificadas que definen la forma del personaje; los trazos son finos y no
tienen gran impacto en la estructura global. Los pies se simplifican porque no tiene
interacción dentro de las actividades de la interfaz.
En general, el diseño utiliza formas básicas, círculos, rectángulos, cuadrados, etc, se
aplican estos elementos con el fin de no saturar la interfaz. Se utiliza una paleta de colores
con tonos de colores relacionados con la tecnología, y a su vez, se pretende que sean
alegres y permitan su aplicación en entornos cotidianos de los niños. La representación
del personaje en sus distintas facetas es discreta pero notoria (Figura 7), marcan las
diferentes propuestas para la alternancia del personaje en los escenarios y narrativas
que tienen que acompañar al aprendizaje del niño (Si & Marsella, 2014).

Figura 7 – Representación del agente pedagógico conversacional

156 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

5.3. Entorno
El entorno va asociado a la personalidad de Alcody, por tanto, se hace un cambio de
espacios muy coloridos y saturados de la primera versión hacia un entorno más limpio
pero que denota tecnología donde se manejan líneas y formas muy sutiles que no
interfieren con las actividades lúdicas del personaje y el usuario. Los fondos son neutros
y se prioriza los espacios de información con textos simples contrastantes e ilustraciones
coloridas. A cada tipo de información se le asigna un color para ser identificado con
mayor facilidad y rapidez. Para la interfaz de comunicación entre el usuario y el
agente pedagógico, se analiza la experiencia de los niños relacionada con la forma de
comunicarse por medio de aplicaciones digitales, de los textos escritos analizados se
observa la estructura de un chat; la misma que ha servido de base para el diseño de la
nueva interfaz que se muestra en la Figura 8.

Figure 8 – Propuestas de chat basado en el análisis de los textos

6. Conclusiones y trabajo futuro


Dada la falta de características predefinidas para el diseño de un nuevo agente
conversacional pedagógico para la enseñanza de la programación en Educación
Primaria, en este artículo se ha propuesto la aplicación del método de co-diseño con
niños. La aplicación del co-diseño ha permitido un entorno de creación basado en el
diálogo y experiencias que ha logrado un resultado apegado a la realidad y gustos del
usuario. Para la definición de los rasgos del personaje y sus actividades en el entorno se
han tenido en cuenta los criterios extraídos de los diálogos con los niños. Se pretende
continuar con este proceso de co-diseño para adaptar no solo el personaje, el entorno
y la interacción del niño con la interfaz, sino también para adaptar la interacción en
lenguaje natural entre los niños y el agente.

Referencias
Ayuningtyas, O & Effendy, Veronikha & Kaburuan, Emil. (2018). User Interface modelling
by implementing storytelling on Sudanese cultural introduction media for early
childhood using child - centered design method. IOP Conference Series:Materials
Science and Engineering, 434.

RISTI, N.º E22, 08/2019 157


Interfaz de usuario enfocado en el co-diseño con niños

Andersen, L. B., Danholt, P., Halskov, K., Hansen, N. B., & Lauritsen, P. (2015).
Participation as a matter of concern in participatory design. CoDesign, 250–261.
Badashian, A. S., Mahdavi, M., Afzali, S. H., & Zabardast, Z. (2011). Supporting Multiple
Categorization using Conceptual File Management. American Journal of Scientific
Research, 192–136.
Beyer, H. y Holtzblatt, K. (1998). Contextual design. defining customer-centered
systems. San Francisco. CA: Morgan Kaufmann.
Bjerknes, G. Ehn, P. y Kyng, M. (1987). Computers and democracy: A Scandinavian
challenge. UK. Alebury: Aldershot.
Birch, J., Parnell, R., Patsarika, M., & Šorn, M. (2017). Creativity, play and transgression:
children transforming spatial design. CoDesign, 245–260.
Bonsiepe, G. (2012). Diseño y crisis. Valencia: Campgráfic
Cañas, J. J. y Waerns, Y. (2001). Ergonomía cognitiva: aspectos psicológicos de
la interacción de las personas con la tecnología de la información. Médica
Panamericana.
Chan, Kah & Easterly, Douglas. (2009). Understanding Empathy in Children Through
3D Character Design. In DiGRA Conference.
Druin, A. Stewart, J. Proft, D. Bederson, B. y Hollan, J. (1997). KidPad: A design
collaboration between children, technologists, and educators. In Proceedings of
Human Factors in Computing Systems. (CHI 97) ACM Press, 463–470.
Druin, A. Bederson, B. Boltman, A. Miura, A. Knotts-Callahan, D. y Platt, M. (1999).
Children as our technology design partners. The design of children’s technology.
San Francisco: CA: Morgan Kaufmann, 51–72.
González-Sánchez, José-Luis; Montero-Simarro, Francisco; Gutiérrez-Vela, Francisco-
Luis. (septiembre-octubre de 2012). Evolución del concepto de usabilidad como
indicador de calidad del software. En el profesional de la información, 529–536.
Greenbaum, J. y Kyng, M. (1991). Design at work: Cooperative design of computer
systems. Hillsdale, NJ: Lawrence Erlbaum.
Hassenzahl, M. 2013. «User experience and experience design» The Encyclopedia of
Human-Computer Interaction.
Hadler, F. (2018). Interface critique. Editorial–Beyond UX, 2–9
Hollan, J. D. Hutchins, E. L. y Kirsh, D. (2000). Distributed cognition: A new theoretical
foundation for human–computer interaction research. ACM Transactions on
Human-Computer Interaction, 174–196.
Holtzblatt, K. Jones, S, M. Baecker, J. Grudin, W. A. S. Buxton, y Greenberg, S. (1995).
Readings in Human-Computer Interaction: Toward the year 2000. San Francisco.
CA: Morgan Kaufmann.

158 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Johnson, W. L., Rickel, J. W., & Lester, J. C. (2000). Animated Pedagogical Agents: Face-
to-Face Interaction in Interactive Learning Environments, Journal of Artificial
Intelligence in Education, nº 11, pp. 47-78.
Jordan, P. (1998). Human factors for pleasure in product use. En Applied Ergonomics,
25–33.
Kleinsmann, M., Sarri, T., & Melles, M. . (2018). Learning histories as an ethnographic
method for designing teamwork in healthcare. CoDesign, 1–19.
Kukulska-Hulme, A. (2004). Usability and pedagogical design: Are language learning
websites special?. In EdMedia: World Conference on Educational Media and
Technology. Association for the Advancement of Computing in Education, pp.
4235–4242.
Manzini, E. (2015). Cuando todos diseñan: Una introducción al diseño para la innovación
social. Madrid: Gráficas Muriel.
Martínez, Y , & Cely, C. (2018). Diseño de Interfaz de Usuario para la creación de
Sistemas Multimedia para Apoyar el Desarrollo del Lenguaje. Tecnología & Diseño.
Maslow, A. 2012. «Pirámide de las necesidades.»
Mirnig, A. G. Meschtscherjakov, A. Wurhofer, D. Meneweger, T. y Tscheligi, M. (2015).
A formal analysis of the ISO 9241-210 definition of user experience. In Proceedings
of the 33rd Annual ACM Conference Extended Abstracts on Human Factors in
Computing Systems. ACM, 437–450.
Morales-Urrutia, E. Ocaña, J. M. Pérez-Marín, D. y Tamayo, S. (2017, October). A first
proposal of Pedagogic Conversational Agents to develop Computational Thinking
in children. In Proceedings of the 5th International Conference on Technological
Ecosystems for Enhancing Multiculturality (p. 2). ACM.
Nielsen, J. (1994). Usability inspection methods. New York: Wiley.
Nielsen, J. (1995). Scenarios in discount usability engineering. Scenario-based design:
Envisioning work and technology in system development. New York: Wiley, 151–167
Norman, D. (2002). Emotion & design: attractive things work better. Interactions, 36–42.
Norman, D. (2004). Emotional Design: Why We Love (or Hate) Everyday Things. En
Basic Books. Nueva York: Basic Books.
O’Hare, J., Dekoninck, E., Mombeshora, M., Martens, P., Becattini, N., & Boujut, J.
F. (2018). Defining requirements for an Augmented Reality system to overcome
the challenges of creating and using design representations in co-design sessions.
CoDesign, 1–24.
Preece, J. Rogers, Y. Sharp, H. Benyon, D. Holland, S. y Carey, T. (1994). Human-
Computer Interaction. AddisonWesley.
Preece, J. (2000). Online Communities: Designing Usability, Supporting Sociability.
Chichester: Wiley.

RISTI, N.º E22, 08/2019 159


Interfaz de usuario enfocado en el co-diseño con niños

Roth, R. (2017). User Interface and User Experience(UI/UX) Design. The Geographi
Information Science & Technology Body of Knowledge
Sanders, E. B. N. y Stappers, P. J. (2014). Probes, toolkits and prototypes: three
approaches to making in codesigning. En CoDesign, 5–14.
Sanders, E. B. (2005). Information, inspiration and [Link] of the 6th
International Conference of the European Academy of Design. Bremen: University
of the Arts.
Stappers, P. J. (2014). Prototypes as Central Vein for Knowledge Development. Proto:
type 2010.
Sanders, E. B.-N. y Stappers, P. J. (2008). Co-creation and the new landscapes of design.
CoDesign, 5–18.
Silveira Donaduzzi, D. S. D., Colomé Beck, C. L., Heck Weiller, T., Nunes da Silva
Fernandes, M., & Viero, V. (2015). Grupo focal y análisis de contenido en
investigación cualitativa. Index de enfermería, 71–75.
Si, M, & Marsella, S. C. (2014). Encoding theory of mind in character design for
pedagogical interactive narrative. Advances in HCI, 10.
Schuler, D. y Namioka, A. (1993). Participatory design: Principles and practices.
Hillsdale. Lawrence Erlbaum.
Wong, M.L. & Khong, Chee Weng & Thwaites, H. (2012). Applied UX and UCD Design
Process in Interface Design. Procedia - Social and Behavioral Sciences, 703–708.

160 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistema e Tecnolgias de Informaçã Recebido/Submission: 10/03/2019
Iberian Journal of Informati ystemS and Technolgis Aceitação/Acceptance: 20/06/2019

Use of gamification in the learning of children with


dyseidetic disexia: a case study

Antonio Quiña-Mera1,2, Selena Pozo Barahona 1, Cathy Guevara-Vega1,2, Iván García-


Santillán1, Alexander Guevara-Vega1,2, Javier Montaluisa Yugla3

aquina@[Link],  svpozob@[Link], cguevara@[Link], idgarcia@[Link],


alexguevara@[Link], fjmontaluisa@[Link] 

1
Universidad Técnica del Norte, Faculty of Engineering in Applied Sciences, 17 July Avenue, 100150, Ibarra,
Ecuador.
2
Network Science Research Group e-CIER, 17 July Avenue, 100150, Ibarra, Ecuador 
3
Fuerzas Armadas ESPE University, Software Engineering Career, Quijano-Ordónez and Hermanas Páez
Street, 050150, Latacunga, Ecuador. 
Pages: 161–173

Abstract: In primary education institutions there is a high degree of children


with associated learning difficulties and not disability, among the most common,
dyslexia. The objective of this research was to make a proposal for the improvement
of the visual and spatial abilities of children between 6 and 9 years old with
dyseidetic dyslexia, using gamification. The video game was developed with the
SUM methodology in the Game Maker Studio environment. A case study was carried
out in an Educational Unit of the city of Ibarra-Ecuador, where an evaluation was
applied before and after the use of the videogame, to measure the improvement
of the visual and spatial abilities of the subjects. In addition, a non-parametric
statistical analysis was performed using the Wilcoxon test where it was obtained
that 46.15% and 53.84% of the children evaluated had an improvement in their
visual and spatial abilities, respectively.
Keywords: Learning difficulties; dyslexia; SUM; video game; gamification.

1. Introduction
The difficulties of school learning are very common in educational institutions and
continue being a widely treated field in educational research. People with learning
problems have significant problems in the learning process in different areas (Badia,
Cano, & Fernández, 2013). In this context, it is considered that a student with learning
problems is not within the range expected by their age with respect to the acquisition
of knowledge, representations, behaviors and mastery of scientific concepts (Santana &
Rosato, 2018).
One of the most frequent learning problems in elementary school students is dyslexia.
His study began in the nineteenth century, where Kussmaul defined it as “verbal
blindness” in 1877, to a case study where a patient who had lost reading ability despite

RISTI, N.º E22, 08/2019 161


Use of gamification in the learning of children with dyseidetic disexia: a case study

not presenting previous injuries. In 1896, Morgan defined it as “a case of congenital


verbal blindness”; however, later it had different variations in its name, until 1975 where
the World Federation of Neurology called it “dyslexia of development”, a term that has
not undergone major changes until now (Bueno & Lourdes, 2006).
Dyslexia is a disorder that presents difficulties with the written language of a person
with a normal IQ, without physical or psychological problems that could be a cause of
this disorder that directly affects the priority processes in the life of a human being,
such as reading and writing (Hudson, 2017). The persistent difficulties in reading and
mathematical calculation, dyslexia and dyscalculia respectively, are the most important
learning disorders in educational and clinical practice, which have the most impact on
the acquisition of knowledge and interfere in the school performance of children in the
educational stage, with a worldwide prevalence of 5% (De-La-Peña & Brotóns, 2018).
This disorder is based on the concept of developmental dyslexia and another as acquired
dyslexia, also called alexia. Under the first concept, dyslexia is classified into three
subtypes according to Boder: (i) Dysphonic dyslexia: equivalent to linguistic and auditory
subtypes, (ii) Dyseidetic dyslexia: equivalent to visual and spatial subtypes, and (iii)
Mixed dyslexia: it combines the deficits of the previous subtypes (Boder, 1973). Children
with dyseidetic dyslexia have visual perception, memory of letters and configurations or
gestalts of words, with difficulty in developing visual vocabulary, although they have no
difficulty in developing phonetic skills (Bermosolo, 2010).
The symptoms of dyslexia manifest themselves differently in each person. Children
with the disorder have considerable reading delays of more than a year with respect to
their actual age and their teaching process. The most common signs are inversion and
confusion of letters, syllables and even words, mirror writing and difficulty in spelling. In
addition, those affected have signs that are alien to their training process, such as poor
spatial orientation, motor uncoordination, unclear temporal notions, low self-esteem
and a host of problems that arise from the aforementioned. According to most authors,
these signs are considered to be indicative, but not determinant for the diagnosis of the
disorder (Sánchez-Rivas & Coveñas, 2013). The diagnosis is usually made in primary
school since difficulties in reading and writing are used as first indicators; however, if
this problem is detected and addressed in preschool years, the condition of affected
people can be improved and the impact of the disorder reduced (Gaggi, Galiazzo, Palazzi,
Facoetti, & Franceschini, 2012).
On the other hand, gamification is defined as the use of learning techniques or methods
that are automated and focused in the educational field, in order to motivate actions,
(Prabawa, Sutarno, Kusnendar, & Rahmah, 2018). Gamification supports the learning
process of children who have problems learning, motivating and promoting their
participation to acquire or reinforce their knowledge (Shamsuddin, Selman, Ismail,
Amin, & Rawi, 2018). Thus, the use of video games (Del Moral, 2015) with methods and
techniques designed to train the skills affected by dyslexia have also been shown to be
effective in improving the effects of the disorder (Gaggi, Galiazzo, Palazzi, Facoetti, &
Franceschini, 2012).
In the educational field, the implementation of video games is based on determining
goals and ideal objectives, which can be linked to the teaching - learning process

162 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

of children (Cartuche, 2015). In the implementation, the human aspects over the
technological ones must be prioritized. However, it is necessary for institutions to have
technological centers, for the didactic innovation and, above all, facilitate the work of
teachers, becoming a complementary educational resource (Castro, Raposo, & Martínez,
2018). Studies show that the implementation of video games in the classroom “Special
Educational Needs” (SEN) (Sánchez-Rivas, Ruiz, & Sánchez-Rodríguez, 2017).
The objective of this research is to develop a video game that is used as an educational tool
to work with children with SEN not associated with disability, specifically, with dyseidetic
dyslexia, a type of dyslexia very common. For the construction of the proposal, the SUM
and Game Maker Studio methodology is applied as a development environment. The
learning achievements are determined by a prior evaluation and subsequent to the use
of the video game in those affected.
Regarding the structure of the document, section 1 determines the current situation of
the research, the problem and the justification of the development. Section 2 specifies
the type of research, its population and sample, then the SUM methodology is applied
to the development of the video game. In section 3 the results and evaluation of the
software are determined by means of statistical tests. Section 4 presents the discussion
and section 5 the conclusions and future work.

2. Materials and Methods


The research methodology consisted of three phases: (i) design of the research, (ii)
design and development of the videogame, and (iii) evaluation, see Figure 1.

Figure 1 – Research methodology used in the study.

Phase 1: Research design


Kind of investigation
The research is exploratory, documentary, and descriptive and field, with a quantitative
and longitudinal approach.
Population and sample
This study was carried out on children from 6 to 9 years of age corresponding to the
second, third and fourth years of General Basic Education (EGB) of an Educational Unit
of the city of Ibarra - Ecuador. The population consisted of 126 students, where their
teachers a sample of 52 students of which 13 have dyslexia was selected, and the others

RISTI, N.º E22, 08/2019 163


Use of gamification in the learning of children with dyseidetic disexia: a case study

which were identified as having learning problems, according to their shortcomings


and behaviour. The selection was made using a non-probabilistic method, that is, a
convenience sampling.
Phase 2: Design and development of the video game
The proposal of this research was developed using the SUM methodology for videogames
which has five phases (See Figure 2).

Figure 2 – SUM life cycle. (Eclipse, 2008).

F1. Concept
The proposal has a ludo-educational approach, designed for children with dyslexic
dyslexia from 6 to 9 years old and teachers who a support need tool for the learning of
those affected.
Game mechanics
In accordance with the functional requirements (Guevara-Vega et al., 2019) of the video
game, which in the SUM methodology are called characteristics, two game modes were
established based on the areas affected by the dyseidetic dyslexia, corresponding to the
visual and spatial area of the child.
The video game strengthens the child’s visual area using eye-hand coordination training,
through exercises in which it is necessary to identify an object from a set of images that is
equal to a sample that is projected on the screen; The player, by using the mouse, drags his

164 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

response to the sample, if it is correct the game will emit a victory sound and will move on
to the next activity (which increases his level of difficulty throughout the game), otherwise if
the answer is wrong will tell you what to keep trying, it should be noted that the game makes
the indications visually (visual perception) and auditory (auditory perception) at all times,
in this way the attention and visual search ability of the child / player will be exercised.
In addition, the video game consists of several spatial orientation activities, in which
you must choose the address of each of the objects that are on the screen, for which
you drag with the mouse each object towards the direction that is created correctly , if
all movements are successful, the level is advanced, otherwise you must keep trying. A
reinforcement level is used every three levels passed, in order to remember the positions
that were used. As the level progresses, the direction alternatives used are increased,
the main ones being up, down, right, left, forward and back, thus strengthening the
laterality, attention skills and spatial orientation of the child / player.
The processes of automation of the mechanics of the game for the visual and spatial
areas are similar, as an example the process of the visual area is shown (See Figure 3).

Figure 3 – Flow diagram of game mechanics - Visual.

Definition of technologies and tools


As a development IDE, Game Maker Studio (GMS) was used with its programming
language Game Maker Language (GML) (YoyoGames, 2019). For the graphic part, the
IDE’s own image editor and the free software tool GIMP (GIMP, 2019) were used, and
Audacity (Audacity Team, 2019), also freely available, was used as the sound editor.
In addition, websites were used to design buttons, personalized texts, download images
and sounds without a license.

RISTI, N.º E22, 08/2019 165


Use of gamification in the learning of children with dyseidetic disexia: a case study

F2: Planning
Definition of the development team
The video game was designed with the support of an expert in the software engineering
area of the Technical University of the North (UTN, Ecuador), an expert in the area of
primary education with knowledge of dyslexia and an expert in the area of psychology
of the educational institution, who developed and implemented the proposal, as well as
evaluate the learning achievements of the affected students thanks to the video game.
Specification of videogame features
The main functional characteristics of the videogame were established and distributed
in six iterations, determining the order in which they should be developed, to maximize
their value, see Table 1.
ID Characteristics ID Characteristics
CR-01 Main page CR-07 Space Area – Hard Mode
CR-02 Page “About” CR-08 Space Area – Reinforcement levels
CR-03 “Exit” page CR-09 Option menu
CR-04 Visual Area – Easy Mode CR-10 Help screens
CR-05 Visual Area – Difficult Mode CR-11 Management of lives and games
CR-06 Space Area – Easy Mode

Table 1 – Characteristics of the video game


F3: Elaboration
Construction of the video game
The elaboration of the video game was carried out in six iterations, each previously
planned. In addition, each iteration was monitored to comply with all the characteristics
established in Phase 2 (See Table 2).
N° Iteration Characteristics Type Estimation (Hours)
1 CR-01 Design and programming 8
CR-02 Design and programming 2
CR-03 Design and programming 2
2 CR-04 Design and programming 40
3 CR-05 Design and programming 40
4 CR-06 Design and programming 25
5 CR-07 Design and programming 30
CR-08 Design and programming 10
6 CR-09 Design and programming 6
CR-10 Design and programming 10
CR-11 Design and programming 8
Total estimated time (Hours) 180

Table 2 – Iterations for the development of the video game

166 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

F4: Beta tests


Verification and correction of videogame errors was made through three distributions
(See Table 3). Each of them was tested by the beta tester, who is able to report as
many errors as possible, to make the necessary adjustments and continue with the
development.

N° Distribution Types of errors Estimation (Hours)


1 Programming, design and sound 8
2 Programming and design 6
3 Programming, design and sound 8

Table 3 – Beta distributions

F5: Closure
In this phase the final version of the proposal is delivered, in this case the video game
was installed in the technological environments of the Educational Unit. In addition,
the installer and user manual of the video game was made to the Department of Student
Counseling of the institution.
Phase 3: Evaluation of the video game
Evaluation of visual and spatial skills prior to the use of the video game
Once the development of the video game and the beta tests were completed, the first
evaluations were made with those affected, with the purpose of verifying the initial
state of their visual (see Table 4) and spatial (see Table 5) abilities, and then making a
comparison with the evaluations subsequent to the use of the videogame, and analyze
the results (impact) of this process.
Evaluation of visual and spatial skills after the use of the video game
Subsequent evaluations allow us to appreciate the effectiveness or failure of the videogame
in the training of students’ abilities. In the same way, the evaluated areas (visual - spatial)
are separated for a better appreciation of the results (see Tables 6 and 7).

3. Results
The sample of the research is children with learning problems equivalent to 52 students,
of which 42.31% have no difficulties in the areas evaluated, while 57.69% have different
degrees of involvement in each area.
For the visual area
After the use of the video game, the visual and spatial abilities of the affected children
were evaluated, and the results before and after the use of the software were compared,
obtaining the following results in the visual area:

RISTI, N.º E22, 08/2019 167


Use of gamification in the learning of children with dyseidetic disexia: a case study

Evaluation Criteria N ° of Students % Total


Absent 28 53.85%
Slight 15 28.85%
Moderate 4 7.69%
Severe 5 9.61%
Total 52 100.00%

Table 4 – Results of the previous evaluation - Visual area.

Evaluation Criteria N ° of Students % Total


Absent 40 76.92%
Mild 7 13.46%
Moderate 3 5.77%
Serious 2 3.85%
Total 52 100.00%

Table 5 – Results of the subsequent evaluation - Visual area.

The analysis of the previous and subsequent evaluations in the visual area shows an
increase of children who do not have learning problems in 23.07%, equivalent to twelve
students, and considerable improvements that are reflected thanks to the decrease of
students affected in the others evaluation criteria (see Figure 4).

Figure 4 – Representative picture of the improvement in the visual area.

For the space area


Similarly, in the space area an improvement of 26.92% was observed, equivalent to
fourteen children, in the “Absent” evaluation criterion, therefore, the number of students
affected in the other ranks has decreased (see Figure 5).

168 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Evaluation Criteria N ° of Students % Total


Absent 28 53.85%
Slight 13 25.00%
Moderate 10 19.23%
Severe 1 1.92%
Total 52 100.00%

Table 6 – Results of the previous evaluation - Spatial area.

Evaluation Criteria N ° of Students % Total


Away 42 80.77%
Mild 6 11.54%
Moderate 4 7.69%
Severe 0 0.00%
Total 52 100.00%

Table 7 – Results of the subsequent evaluation - Spatial area.

Figure 5 – Representative picture of the improvement in the space area.

With the implementation of the videogame, an improvement of visual and spatial


perception abilities was achieved in children with dyslexia and those who presented
features of dyslexia. In addition, it was demonstrated that the use of new teaching
methods that are related to technology generate good results.
Statistical Analysis
Additionally, to corroborate that there is an improvement of visual and spatial perception
abilities in children with dyslexia, a statistical analysis was carried out considering the
types of variables and the sample used. In this case, the measured variables are of ordinal
type and the sample is related (the same group of individuals), so the statistical test

RISTI, N.º E22, 08/2019 169


Use of gamification in the learning of children with dyseidetic disexia: a case study

used was that of Wilcoxon (Juma et al., 2019). This test consists of a nonparametric test
applied to two related samples and tries to debate whether the results emitted by both
samples are the same or different. Specifically, the null hypothesis (H0) will show that
the starting distributions of the populations from which the samples were obtained are
the same, as opposed to the alternative hypothesis (H1) that there is a difference between
both distributions (Bouso, 2013). In this study, the two hypotheses were established as
follows:
H0: There are no significant differences in the improvement of visual and spatial
perception skills in children with dyslexia.
H1: Whether there are significant differences in the improvement of visual and spatial
perception skills in children with dyslexia.
Statistical analysis was performed using IBM SPSS Statistics software, version 24 (IBM,
2018). The decision rule in the hypothesis test was the following:
If p. value> 0.05 then H0 is accepted, otherwise H0 is rejected.
The p. value represents the Asymptotic Sig value shown in Table 8.
As it is observed, for all the tests, the values ​​of asymptotic significance (p-value) are
inferior to 0.05, that is to say, that according to the rule of decision the hypothesis
H1 is accepted. Therefore, it is concluded that there are significant differences in the
improvement of visual and spatial perception abilities in children with dyslexia.

Visual area - after - Visual Space area - after - Space


area - before area - before
Z -4.359b -4.491b
Sig. Asymptotic (bilateral) , 000 , 000
a. Wilcoxon signed rank test
b. It is based on positive ranges.

Table 8 – Wilcoxon test statistics a

4. Discussion
The results of this investigation are related to the study carried out by Sánchez-Rivas
et al. (2017) who noted that the use of video games in the classroom has an advantage
over traditional resources in students with SEN, improving participation, motivation,
performance and the extension of the educational process outside the study center.
Castro et al. (2018), confirm that skills and cognitive processes can be improved in
children with learning difficulties, by integrating video games as an educational resource,
since the results of these interventions have turned out to be very positive. In the same
way, the research agrees with Pedroli et al. (2017) by pointing out that traditional skills
training methods can become boring and very demanding, which is why he points out
as a technological tool a Wii game that improves reading skills in dyslexic children.
A very similar project, made by Pinilla (2013), proposes the video game as a tool that

170 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

facilitates pedagogical work and treatment, strengthening the linguistic, auditory, visual
and spatial areas of the affected people.
In accordance with Santana & Rosato (2018), it was affirmed that it is important
understanding of the complexity of the teaching and learning processes in students
with school learning problems. De-La-Peña & Brotóns (2018) analysed dyslexia and
dyscalculia as the most common and important learning difficulties in educational
practice. On the other hand, Castro et al. (2018) exposed the integration of video games
as an educational resource that helps improve the cognitive processes of elementary
school students with learning problems. Sánchez-Rivas et al. (2017) had as objective
to know the perception of the teachers that teach direct teaching to the children of
primary education with SEN, where they showed that the teachers who made use of the
videogames noticed improvements regarding the classroom work.
Regarding the development and implementation of this proposal, there were some
limitations: (i) the development team did not have a professional in graphic or sound
design, (ii) the budget of the project was very small, which was not possible acquire
a license for the development environment, (iii) the primary education institution did
not have a technological space, which is equipped with everything necessary for the use
of the video game, since its physical space is very limited, and (iv) ) students are not
familiar with the use of desktop computers or laptops, so they do not have the skills to
handle and manipulate computer peripherals.

5. Conclusions and Future Work


Through the use of the SUM methodology, a videogame could be developed in an
organized and effective way that served as an educational tool to train the visual and
spatial perception of children with SEN not associated with disability, specifically, with
dysidetic dyslexia. With the use of the videogame, motivation could be improved and
learning processes facilitated through innovative techniques or methods.
The results of the research confirm that the use of videogames in the educational field is
very favorable, since in the visual area (see Figure 4) and in the spatial area (see Figure 5)
significant improvements could be seen in the affected children. This is also corroborated
by a nonparametric statistical analysis using the Wilcoxon test (see Table 8).
Finally, as future work, more complex exercises or activities must be implemented,
which allow the progressive training of the visual and spatial abilities of the children; as
well as the integration of a module for diagnosis and monitoring of the affected people.
It is also recommended as future work testing the game with a larger population.

References
Audacity Team. (2019). Audacity. Obtenido de [Link]
Badia, G. A., Cano, O. M., Fernández, V. C. (2013). Dificultades de aprendizaje de los
contenidos curriculares. Barcelona: Editorial UOC.

RISTI, N.º E22, 08/2019 171


Use of gamification in the learning of children with dyseidetic disexia: a case study

Bermosolo, J. (2010). Psicopedagogía en el aula: Desafío a las barreras en el aprendizaje


y la participación. (Primera ed.). México: Alfaomega.
Boder, E. (1973). Developmental dyslexia: A diagnostic approach based on three atypical
reading-spelling patterns. Developmental Medicine & Child Neurology, 15(5),
663–687.
Bouso, F.J. (2013). El paquete estadístico R. Madrid: CIS - Centro de Investigaciones
Sociológicas.
Bueno, A., Lourdes, M. (2006). Dislexia y otras dificultades. Caracas.
Cartuche, E. L. (2015). Desarrollo de un Videojuego para la Enseñanza-Aprendizaje de la
Historia de los Sitios Turísticos de la Ciudad de Loja. Tesis de Grado. Universidad
Nacional de Loja, Loja.
Castro, Á. P., Raposo, M., Martínez, E.M. (2018). Improving attention with videogames?
A case study. [¿Mejorar la atención con videojuegos? Un estudio de caso]. Revista
Espanola de Orientacion y Psicopedagogia, 94–109. doi:10.5944/[Link].29.
num.3.2018.23323
Del Moral, M. E., Fernández, L. C. (2015). Videojuegos en las aulas: Implicaciones de
una innovación disruptiva para desarrollar las Inteligencias Múltiples. Revista
Complutense de Educacion, 26, 97–118. doi:10.5209/rev_RCED.2015.v26.44763
De-La-Peña, C., Brotóns, E. (2018). Dyslexia and dyscalculia: A current systematic
revision from a neurogenetics perspective: Una revisión sistemática actual desde la
neurogenética]. Universitas Psychologica, 17(3), 1–11. doi:10.11144/JAVERIANA.
[Link]
Eclipse. (2008). SUM para Desarrollo de Videojuegos. Obtenido de [Link]
[Link]/sum/
Gaggi, O., Galiazzo, G., Palazzi, C., Facoetti, A., Franceschini, S. (2012). A Serious Game
for Predicting the Risk of Developmental Dyslexia in Pre-Readers Children. 2012
21st International Conference on Computer Communications and Networks
(ICCCN). doi:10.1109 / ICCCN.2012.6289249
Guevara-Vega, C., Guzmán, E., Guevara-Vega, V., Andrade, A., Quiña-Mera, J.A. (2019).
Functional Requirement Management Automation and the Impact on Software
Projects: Case Study in Ecuador. Springer professional, Advances in Intelligent
Systems and Computing, Volume 918, pp 317-324. doi: https:// 10.1007/978-3-
030-11890-7_31
GIMP. (2019). GIMP: GNU image manipulation program. Obtenido de [Link]
[Link]/
Hudson, D. (2017). Dificultades específicas del aprendizaje y otros trastornos. Madrid,
España: Narcea.
IBM SPSS (2018). IBM SPSS Statistics. Obtenido de [Link]
ec/es/technology/spss/

172 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Juma A., Rodríguez, J., Naranjo M., Caraguay J., Quiña A., García-Santillán, I. (2019).
Integration and Evaluation of Social Networks in Virtual Learning Environments:
A Case Study. Communications in Computer and Information Science. Vol. 895, pp
245–[Link]: [Link]
Pedroli, E., Padula, P., Guala, A., Meardi, M. T., Riva, G., Albani, G. (2017). A Psychometric
Tool for a Virtual Reality Rehabilitation Approach for Dyslexia. Computational and
Mathematical Methods in Medicine. doi:10.1155/2017/7048676
Pinilla, K. E. (2013). Videojuego para el tratamiento de la dislexia. Tesis de Grado.
Universidad Piloto de Colombia, Bogotá.
Prabawa, H. W., Sutarno, H., Kusnendar, J., & Rahmah, F. (2018). Learning basic
programming using CLIS through gamification. Journal of Physics: Conference
Series, 1013(1). doi:10.1088/1742-6596/1013/1/012099
Sánchez-Rivas, L., Coveñas, R. (2013). Dislexia: Un enfoque multidisciplinar. ECU.
Sánchez-Rivas, E., Ruiz, J., Sánchez-Rodríguez, J. (2017). Videojuegos frente a fichas
impresas en la intervención didáctica con alumnado con necesidades educativas
especiales. Educar, 53(1), 29–48.
Santana, T., Rosato, M. (2018). The subjective dimension of the complaint of school
learning difficulties; Dimensión subjetiva de la queja de dificultades de aprendizaje
escolar]. Psicologia Escolar e Educacional, 22(2), 385–394. doi:0.1590/2175-
35392018011363
Shamsuddin, S., Selman, M., Ismail, I., Amin, M., & Rawi, N. (2018). A conceptual
framework for gamified learning management system for LINUS students.
Indonesian Journal of Electrical Engineering and Computer Science, 12(3), 1380–
1385. doi:10.11591/ijeecs.v12.i3.pp1380-1385
YoyoGames. (2019). Game Maker Studio. Obtenido de [Link]

RISTI, N.º E22, 08/2019 173


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 03/10/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 09/12/2019

Constrained Edges on Kinetic Delaunay


Triangulation

Simena Dinas1 and Héctor J. Martínez2

simena.dinas00@[Link], [Link]@[Link]

1
Universidad Santiago de Cali, Calle 5 # 62-00, Cali, Colombia
2
Universidad del Valle, Calle 13 # 100-00, Cali, Colombia
Pages: 174–186

Abstract: Real world can be described as an interaction of moving objects and


obstacles. To address this fact, we consider how to transform a straightforward
set of vertices into a simple and enriched structure that includes obstacles. It
has been done by representing obstacles with constrained edges. To model
motion, Kinetic Data Structure has demonstrated to be suitable and adaptable
for different geometrical and logical structures. However, for modeling collision
detection has been proposed Kinetic Delaunay Triangulation. First, we proposed
a Kinetic Constrained Delaunay Triangulation, which is as Delaunay as possible
and represents obstacles by constrained edges and objects by vertices. Second,
we contribute with a Kinetic Delaunay Constrained Triangulation model that
guarantees both: constrained edges and the Delaunay Triangulation structure.
Third, we show experiments for each kinetic model to compare their performance.
The purpose of this article is to show and evaluate new models to understand its
strengths and weaknesses.
Keywords: Constrained Delaunay Triangulation; Delaunay Constrained
Triangulation; Delaunay Triangulation; Kinetic Data Structure; Kinetic Delaunay
Triangulation.

1. Introduction
In the physical world, objects interact when they come near to each other; especially
in motion. However, there are motionless objects with an unchangeable position; they
are obstacles. A geometrical structure can be used to represent the most significant of
elements of the real world; it is the Delaunay Triangulation (DT). Thus, DT will be used
to model motion and motionless objects as simple as possible. Managing moving objects
in an environment with obstacles is the central topic of this approach.
Even though motion objects are highly studied, motionless objects can be used to
represent the motionless world, the part of the world that never changes its position. For
that, constraints represent obstacles. DT helps to calculate the proximity information,
which has been an interesting topic in Computational Geometry to detect collisions.

174 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

There are several works focused on small perturbations; they exploit temporal and
spatial coherence; in other words, they work on the stability or predictability of the
data. For instance, in (Vomácka, 2008a), it was addressed research on DT of moving
points, whereas in (Vomácka, 2008b), it was proposed a numerical-analytical method
to compute times of topological events required to maintain a DT. Research conducted
by Machado Manhães de Castro (2009) showed an efficient way to update DTs when
there are small perturbations on vertices. Besides, a study of times for topological events
using DT was developed by Vomácka and Kolingerová (2008). They worked on the
computation of a highly time-consuming process, which analyzes topological events
required to maintain a Kinetic Delaunay Triangulation (KDT) with moving vertices
through linear trajectories. Additionally, fast updating of DT of moving vertices by
bi-cell filtering was proposed by Zhou et al. (2010), in which they addressed a slight
perturbation on data for DT. They used Bi-cell filtering to update the triangulation; its
approach takes advantage of the connectivity between vertices, the temporal, and the
spatial coherence.
Kinetic Data Structures (KDS) are challenging for motion in collision detection (Weller,
2013); moreover, KDT have been explored to tackle problems related to collision
detection because motion objects play a crucial role in simulations. Even though kinetic
approaches are computationally more expensive than traditional approaches which
model moving objects as unrelated static snapshots over time, they are more complete
and more precise than the others. When simulating a complex system of moving
objects, it is desirable to maintain both, objects and environment, as a whole. However,
proposed approaches ignore static objects; they represent moving and static objects
indistinguishable. In this research, we aim to address the problem by defining static
objects as obstacles and constraints model obstacles in DTs.
The remainder of this document is organized as follows: Delaunay Triangulation and
Constrained Edges are described in Sections 2. Motion Data and Kinetic Delaunay
Triangulation with Constrained Edges is detailed in Sections 3 and 4, respectively,
whereas, the Computational Experiments and Conclusions are described, respectively,
in Sections 5 and 6. The Acknowledgements and Bibliography are shown in the last part
of the document.

2. Delaunay Triangulation and Constrained Edges


Given a set of points P, a DT is a net of non-overlapping triangles whose circumcircles
do not contain any vertex of other triangle and the set of vertices is P (local-empty circle
condition) (Guibas and Russel, 2004). This structure is widely used in computational
geometry and extended to other multi-purpose areas. Some applications of DT include
Computer Vision (Dinas and Bañón, 2015); Moving Points (Vomácka, 2008b); Networks
(Mei et al., 2018); Images (Lawonn and Günther, 2019); Video Compression (Vomácka
and Puncman, 2009); Meshing (Pardue and Chernikov, 2019); among others.
Given a set of points P and a set of edges E, a Constrained Delaunay Triangulation
(CDT) respects only the Constrained Edges (CE), it means, all the edges belong to the
triangulation, and the resulting triangulation is as close as possible to a DT.

RISTI, N.º E22, 08/2019 175


Constrained Edges on Kinetic Delaunay Triangulation

Given a set of points P and a set of edges E, a Delaunay Constrained Triangulation (DCT)
guarantee both, the CE and the DT, it is possible to convert a CDT into a DCT by inserting
artificial vertices inside the triangulation.

3. Motion Data
Motion data is related to the change of the position of each object. Motion can be random;
however, we work on a specific trajectory for the objects, which is previously known.
Several authors have been working on motion planning (Moll et al., 2014), motion data
(Basch et al., 1997) and KDS (Guibas et al., 2004). Several authors have worked on DT
of moving vertices, using dynamic and kinetic approaches (Russel, 2007; Vomácka,
2008b).

3.1. Kinetic Data Structure


A KDS is a set of related data used to track a set of attributes that are changing continuously
in time. They are suitable to model continuous collision detection since they model and
combine the state of geometrical and motion configuration (Basch et al., 1997).
Kinetization transforms an algorithm working with static data into a data structure valid
for continuously changing data. A KDS is a structure that uses attributes in the input set,
includes a set of proofs that guarantees all attributes stay valid, and has a system that
updates the data structure when proofs or the data structure are no longer valid.
A background on KDS and applications was widely studied by (Russel, 2007). A
package for exact computation was developed by Russel et al. (2007), which constructed
a framework for KDS for Computational Geometry Algorithms Library –CGAL.
Nevertheless, on the validation of the framework, they used a KDT.
KDSs were early documented focused on Collision Detection (Basch et al., 1997b).
However, an in-depth study was proposed by Guibas et al. (2004). In contrast, the
evaluation criteria for KDS: responsiveness, efficiency, compactness and locality were
defined in Basch (1999). These criteria can be used to evaluate the goodness of the KDS
(Guibas et al., 2004; Basch, 1999).
Based on the circumcircle condition, a KDT takes advantage of the uniqueness of the
Delaunay construction for moving vertices (Vomácka, 2010). There are three approaches
based on DT to deal with continuous collision detection problem: i) discrete-time
approach or inserting and deleting approach, ii) continuous movement approach, and
iii) continuous legalization approach (Russel, 2007).
A discrete-time approach updates the triangulation by two operations: insertion and
deletion (Vomácka, 2008a). The independence of the trajectory of each point is the main
advantage of this technique; however, discrete intervals of time can produce temporal
fails in the triangulation. Continuous motion approaches are related to apply motion
of the vertices in a triangulation continuously, but it is not important to update the DT
when motion produces an invalid structure (Vomácka, 2008a). Continuous legalization
approach is related to KDS. They are based on track a set or attributes by using certificate
functions that indicates if the structure remains valid, otherwise, an event is produced

176 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

and the structure has to be repaired. Certificate functions are widely explained in Guibas
(2004). For details of Kinetic Data Structures see Vomácka (2008a); Basch et al. (1997b);
Guibas (2004)

3.2. Certificate Functions in Kinetic Delaunay Triangulation


A DT is a Data Structure. In order to make this structure Kinetic, four certificate
functions are useful: i) inCircle is used to guarantee the data validity for each triangle
(Basch et al., 1997b), ii) verticesCollision is used to guarantee the data validity for all
vertices connected by an edge, iii) convexHullEdge is uses to guarantee the validity of
the edges the Convex Hull, and iv) convexHullVertex is used to guarantee the validity
of the vertices the Convex Hull. Following, an extended explanation of inCircle and
verticesCollision certificate functions:
1. For each pair of adjacent triangles in a DT, it is required an inCircle certificate
function, which is based on the local empty-circle condition.
2. For each edge in a DT, it is required a verticesCollision certificate function,
which uses the distance between two points to verify if two vertices have or not
the same coordinate.

4. Kinetic Delaunay Triangulations with Constrained Edges


The work developed by Karavelas and Guibas (2001) is based on Kinetic Constrained
Delaunay Triangulation (KCDT) and is an approach to model CE in KDT; nevertheless,
they work mainly on the comparison of CDT and Spanners. Rather than providing a
new structure for kinetic approaches, they explained the similarities between both to
take advantage of spanners to model CDT. Additionally, the authors show the way to
maintain the structure in kinetic approaches focused on the nearest neighbor, which is
an inherent feature for DT. In Bose et al. (2015), it was proved that a CDT is a spanner
graph for generalized Constrained Delaunay. Karavelas and Guibas (2001) proved that
a Constrained Delaunay graph is a Spanner graph and a mathematical demonstration of
Kinetic Spanner graphs was developed. In contrast, Gold and Dakowicz (2007) developed
a KCDT approach based on urban building and street boundaries as obstacles; however,
this approach was closer to Voronoi Diagrams rather than DT. Finally, in Al-Jubeh et al.
(2013), it was worked on the connectivity of CE or planar graphs.
Gold and Dakowicz (2007) proposed KCDT: a tool to move and draw points using an
edit operation where users make the point motion. Thus, they model motion in CDT by
using discrete approaches based on point motion rather than KDS.
The KCDT model uses CDT as a Data Structure to produce a Kinetic model. Thus, the
input, rather than only vertices and their motion functions, involves constrained edges.
The Kinetic Delaunay Constrained Triangulation (KDCT) model uses DCT as a Data
Structure to produce a Kinetic model. Thus, the input, rather than only vertices and their
motion functions, involves artificial vertices. Both motels were proposed by Dinas (2016).
DT environments are computationally expensive, whereas a CDT can exhibit degenerate
cases in which the solution deals with NP-Problems (Grislain and Shewchuk, 2003).
Several authors worked on accelerating the Delaunay construction by using graphic

RISTI, N.º E22, 08/2019 177


Constrained Edges on Kinetic Delaunay Triangulation

hardware implementations and parallel approaches. For instance, GPU implementations


of DT and CDT were introduced in Chen et al. (2017) and, Coll and Guerrieri, (2017) and
Chen and Tan (2019), respectively. A parallel implementation of DT with MPI (Message
Passing Interface) was proposed in Nguyen and Rhodes (2018), whereas Funke et al.,
(2019) presented a Parallel Delaunay Triangulation approach based on a Divide and
Conquer technique. Finally, new researches on DT are focused on optimal and curved
approaches (Feng et al., 2018) and image matching based on photogrametry (Jiang and
Jiang, 2019).

5. Computational Experiments
The KCDT and the KDCT experiments are focused on analyzing the performance of the
algorithms for the events management. For more details, see Dinas (2016).
The experiment for both triangulations includes the following steps: i) it was created
15 different sets with a number of vertices between 100 and 100.000. For that, the
polynomial coefficients for the motion functions for each vertex were randomly
determined. ii) It was created a set of 40 CE by 53 additional vertices. iii) For each set
of vertices, it was created the KCDT and the KDCT. iv) For each triangulation, it was
computed the number of certificate functions at time t = 0, then it was calculated the
number of events in the Event Queue and the average time of events in the Event Queue.
v) For each kind of event, it was computed the number of events repaired during the
first 100 events. Finally, vi) it was calculated the average quantity of flip and moving
operations required to repair the event.

5.1. Results
On the following figures, the number of moving vertices of each set of vertices is on
the horizontal axis, the points represent the result of each experiment, and the straight
line that appears in the figure is the tendency line for these points. The slope of the line
equation and R2 indicate the linearity level of the points.

Figure 1 – Quantity of Enqueued Events

The relationship between the number of enqueued events of both triangulations and
the number of moving vertices is practically linear (R2 equals to 0.999 and 0.994,

178 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

respectively). Moreover, for each thousand of vertices, the quantity of enqueued events
increases in almost 2.750 and 2.685, respectively (Figure 1).

Figure 2 – Time for Enqueuing Events

The relationship between the time for enqueuing events of both triangulations and
the number of moving vertices is practically linear (R2 equals to 0.992 and 0.991,
respectively). Moreover, for each thousand of vertices, the time required for enqueuing
events increases in almost 3.23, and 3.25 seconds, respectively (Figure 2).

Figure 3 – Number of inCircle events

According to Figure 3, there is no linear relationship between the number of inCircle


events and the number of vertices for the triangulations. The curve that appears in
figure 3(a) is the nonlinear least squared curve fitting for these points. It has a limit of
almost 35.125, which is the number of virtual vertices when the number of vertices is big;
this limit is reached with a rate of 0.447 and a curvature of -12.554. Similarly, the curve
that appears in figure 3(b) is the nonlinear least squared curve fitting for these points. It
has a limit of almost 27.271, which is the number of virtual vertices when the number of
vertices is big; this limit is reached with a rate of 0.133 and a curvature of -18.425.

RISTI, N.º E22, 08/2019 179


Constrained Edges on Kinetic Delaunay Triangulation

Figure 4 – Number of Flips in inCircle Events

The relationship between the number of flips in inCircle events of both triangulations
and the number of moving vertices tends to be linear (R2 equals to 0.973 and 0.926,
respectively). Moreover, for each thousand of vertices, the number of flips in inCircle
events increases in almost 0.138, and 0.137, respectively (Figure 4).

Figure 5 – Number of verticesCollision events

According to Figure 5, there is no linear relationship between the average number of


verticesCollision events and the number of vertices for any of the triangulations.

Figure 6 – Number of Flips + Moves in verticesCollision Events

180 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

The relationship between the average number of flips and moves used to repair the
verticesCollision events of both triangulations and the number of moving vertices tends
to be linear (R2 equals to 0.924 and 0.983, respectively). Moreover, for each thousand
of vertices, the average number of flips and moves used to repair the verticesCollision
events increases in almost 0.08, and 0.11, respectively (Figure 6).

Figure 7 – Number of vertexEdgeCollision events

According to Figure 7, there is no linear relationship between the quantity of


vertexEdgeCollision events and the number of vertices for the triangulations.

Figure 8 – Number of Flips + Moves in vertexEdgeCollision Events

The relationship between the average number of flips and moves used to repair
the vertexEdgeCollision events of both triangulations and the number of moving
vertices tends to be linear (R2 equals to 0.732 and 0.803, respectively). Moreover, for
each thousand of vertices, the average number of flips and moves used to repair the
vertexEdgeCollision events increases in almost 0.048, and 0.182, respectively (Figure 8).

5.2. Technical Features


In order to guarantee repeatability and reproducibility of the experiments, the
experiments were done in a laptop with the following features of hardware. Intel(R)
Core(TM) i5-2410M CPU 2.30GHz (Dual Core). Model: Dell System Inspiron N411Z.

RISTI, N.º E22, 08/2019 181


Constrained Edges on Kinetic Delaunay Triangulation

RAM: 6GB. HardDisk: 679GB. Besides, the operative system, software, and packages
used were Linux Ubuntu version 12.04 (64 bits), the Computational Geometry Algorithms
Library (CGAL) Version 4.3, and DT, CDT, KDS, and Kinetic Framework.

5.3. Discussion
In general, the linear tendency of both triangulations is similar, as it is shown in the
following summary table. The number of events enqueued, the time for enqueuing the
events are practically linear with the number of vertices for both triangulations (Figures
1 and 2).
The results show that the number of inCircle events has not a linear tendency with the
number of vertices (Figures 3). However, they have a nonlinear least squared curve fitting,
which means that the tendency of the data fits a curve. In contrast, the flips required repairing
the inCircle events have a linear tendency with the number of vertices (Figure 4). Similarly,
the number of verticesCollision events has not a linear tendency with the number of vertices
(Figure 5), whereas the flips and moves operations required to repair the verticesCollision
events have a linear tendency with the number of vertices (Figures 6). Analogously, the
number of vertexEdgeCollision events has not a linear tendency with the number of vertices
(Figure 7), whereas the flips ad moves operations required to repair the vertexEdgeCollision
events has not a linear tendency with the number of vertices (Figure 8).

R2 Slope
Figure
CDT DCT CDT DCT
Quantity of Enqueued Events 0.999 0.994 2.754 2.685
Time for Enqueuing Events 0.992 0.991 3.234 3.249
Number of inCircle Events 0.055 0.445 ------ ------
Number of Flips in inCircle Events 0.973 0.926 0.138 0.137
Number of verticesCollision Events 0.115 0.013 ------ ------
Number of Flips + Moves in verticesCollision Events 0.924 0.983 0.08 0.114
Number of vertexEdgeCollision Events 0.23 0.0002 ------ ------
Number of Flips + Moves in vertexEdgeCollision Events 0.732 0.803 0.048 0.182

Table 1 – Results of the Experiments

According to Table 1, the R2 for the quantity of enqueued events and the time for
enqueuing events are almost equal for both Triangulations. Those values are calculated
by the quantity of enqueued events in time t=0. In contrast, the following values are
calculated by the amount of specific events that has used to repair the first 100 events
on the Event Queue. The reparation of each event can produce new events. The R2 for
the number of flips in inCircle events shows a better linearity tendency for CDT than for
DCT. In contrast, the R2 for the amount of flips and moves in verticesCollision events
shows a better linearity for DCT than for CDT. Even though there is no a linear tendency
in the other variables with the number of vertices, for the number of inCircle events and
the number of verticesCollision events, this is better for DCT. Similarly, for the number
of vertexEdgeCollision events this is better for CDT.

182 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

The slope for the quantity of enqueued event, the time for enqueuing the events and the
number of flips in inCircle events are almost equal for both triangulations; however the
slope for the number of flips and moves in verticesCollision, and vertexEdgeCollision
events, for CDT is almost 50% and 75% lower than the slope for DCT, respectively.
The quantity of enqueued events for CDT has the R2 and slope slightly upper than the
R2 and slope for DCT, respectively. That means that even though the number of moving
points in both triangulations are equal, the CDT produces a slightly higher quantity of
enqueued events. In contrast, the time for enqueuing the events is slightly lower for CDT
than for DCT.
Finally, neither the number of inCircle nor the number of verticesCollision nor the
number of vertexEdgeCollision events have a linear tendency with the number of vertices.
However, there are a nonlinear correlation between the number of verticesCollision and
the number of vertices, which can be seen in figure 4. The curve fitting for the figures 3(a)
reaches the asymptotic value faster than the figure 3(b) because of its rate is the highest
(0.447). In contrast, the number of verticesCollision events and vertexEdgeCollision
events do not fit with the nonlinear least squared curve fitting.
In contrast, the number of flips in inCircle and the number of flips and moves in
verticesCollision and vertexEdgeCollision have a linear tendency. Summarizing, CDT
produces a higher number of enqueued events and its time for enqueuing the events is
slightly lower than DCT. For that, CDT is slightly better than DCT because, even though
its slightly higher quantity of data, the processing time is slightly lower.

6. Conclusions
Due to CDT is not a DT, the management involves additional work to maintain the
structure valid. Then, a DCT model was constructed to take advantage of the DT structure
including CE but including new vertices.
KCDT is a KDT method including CEs. Thus, CEs were used into the model to represent
obstacles in the real world. As a result, a DT with CEs that does not have the Delaunay
structure, but it has a structure as close as possible to a DT.
KDCT is a KDT supporting CEs and including new vertices. KDCT guarantees both: the
inclusion of CEs and guarantees the Delaunay structure. Nevertheless, it is impossible
to guarantee both features without changes; thus, new vertices were included into the
triangulation. New vertices were managed as artificial vertices since they were not part
of the original set of vertices. Lastly, new vertices change constantly because of motion.
A set of experiments for KCDT, and KDCT was developed to measure the time for
enqueuing the events, the number of events, the number of operations, among others. The
comparison between KCDT, and KDCT show that in the most of the cases, the KCDT
have a slightly upper linear tendency than KDCT. Except for the Number of Flips +
Moves in verticesCollision Events and Number of Flips + Moves in verticesCollision
Events, which does not have a linear tendency.
The number inCircle verticesCollision and verticesEdgeCollision events show a tendency
that is not linear. However, the number inCircle Events fit a nonlinear least squered

RISTI, N.º E22, 08/2019 183


Constrained Edges on Kinetic Delaunay Triangulation

curve. In contrast, the others have an almost randomly behavior; thus the tendency is
not clear to adjust a curve.
A reason which the KCDT is slightly better than KDCT could be related to the artificial
points. Thus the cost of creates and updates the position of the artificial points in a
kinetic environment need to be reviewed.

Acknowledgements
This research was supported by the Programa de Apoyo a Doctorados Nacionales
de Colciencias (Departamento Administrativo de Ciencia, Tecnología e Innovación
-Colciencias). This article is part of the Ph.D. thesis called “A Kinetic Constrained
Delaunay Triangulation Approach for Modeling Obstacles” and developed at
Universidad del Valle.

References
Al-Jubeh, M., Barequet, G., Ishaque, M., Souvaine, D. L., Tóth, C. D., and Winslow, A.
(2013). Constrained tri-connected planar straight line graphs. In Pach, J., editor,
Thirty Essays on Geometric Graph Theory, 49–70. Springer New York. DOI:
[Link]
Basch, J. (1999). Kinetic Data Structures. PhD thesis, Stanford University, Stanford,
CA, USA.
Basch, J., Guibas, L. J., and Hershberger, J. (1997a). Data structures for mobile data. In
SODA, 747–756.
Basch, J., Guibas, L. J., Silverstein, C. D., and Zhang, L. (1997b). A practical evaluation
of kinetic data structures. In Proceedings of the thirteenth annual symposium on
Computational geometry, SCG ’97, 388–390, New York, NY, USA. ACM. DOI:
[Link]
Bose, P., De Carufel, J.-L., and van Renssen, A. (2015). Constrained generalized delaunay
graphs are plane spanners. In Proceedings of the 31st European Workshop on
Computational Geometry (EuroCG).
Chen, Z., and Tan, T.-S. (2019). Computing Three-dimensional Constrained Delaunay
Refinement Using the GPU. CoRR, abs/1903.03406.
Chen, Z., Qi, M., and Tan, T.-S. (2017). Computing delaunay refinement using the GPU.
In Proceedings of the 21st ACM SIGGRAPH Symposium on Interactive 3D Graphics
and Games (I3D ‘17), Stephen N. Spencer (Ed.). ACM, New York, NY, USA, Article
11, 9 pages. DOI: [Link]
Coll, N., and Guerrieri, M. (2017). Parallel constrained Delaunay triangulation on the
GPU, International Journal of Geographical Information Science, 31(7), 1467–
1484, DOI: [Link]
Dinas, S. (2016). A Kinetic-Constrained Delaunay Triangulation Approach for Modeling
Obstacles. PhD Thesis, Universidad del Valle, Cali, Colombia.

184 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Dinas, S. and Bañón, J. M. (2014). A Review on Delaunay Triangulation with Applications


on Computer Vision. IJCSE – International Journal of Computer Science and
Engineering, 3(2):9–18.
Feng, L., Alliez, P., Busé, L., Delingette,H., and Desbrun, M. (2018). Curved optimal
delaunay triangulation. ACM Trans. Graph.37(4), Article 61, 16 pages. DOI: https://
[Link]/10.1145/3197517.3201358
Funke D., Sanders P., Winkler V. (2019) Load-Balancing for Parallel Delaunay
Triangulations. In: Yahyapour R. (eds) Euro-Par 2019: Parallel Processing. Euro-
Par 2019. Lecture Notes in Computer Science, 11725. Springer, Cham
Gold, C. M. and Dakowicz, M. (2007). Dynamic cartography using voronoi / delaunay
methods. In Proceedings of 5th ISPRSWorkshop on Updating Geospatial Databases
with Imagery on DMGISs, 41–47.
Grislain, N. and Shewchuk, J. R. (2003). The strange complexity of constrained
delaunay triangulation. In Proceedings of the Fifteenth Canadian Conference on
Computational Geometry, 89–93.
Guibas, L. J. (2004). Kinetic data structures. In Handbook of Data Structures and
Applications. CRC Press.
Guibas, L. J., Karavelas, M. I., and Russel, D. (2004). A computational framework for
handling motion. In Proceedings of the Sixth Workshop on Algorithm Engineering
and Experiments, 129–141.
Guibas, L. J. and Russel, D. (2004). An empirical comparison of techniques for updating
delaunay triangulations. In Proceedings of the twentieth annual symposium on
Computational geometry, SCG ’04, 170–179, New York, NY, USA. ACM. DOI:
[Link]
Jiang, S. and Jiang, W. (2019). Reliable image matching via photometric and
geometric constraints structured by Delaunay triangulation. In ISPRS Journal of
Photogrammetry and Remote Sensing, 153, 1-20 DOI: [Link]
isprsjprs.2019.04.006.
Karavelas, M. I. and Guibas, L. J. (2001). Static and kinetic geometric spanners with
applications. In Proceedings of the twelfth annual ACM-SIAM symposium on
Discrete algorithms, SODA ’01, 168–176, Philadelphia, PA, USA. Society for
Industrial and Applied Mathematics.
Khanimov, M. and Sharir, M. (2015). Delaunay triangulations of degenerate point sets.
CoRR, abs/1510.04608.
Lawonn, K., & Günther, T. (2019). Stylized Image Triangulation. Comput. Graph.
Forum, 38, 221–234.
Machado Manhães de Castro, P., Tournois, J., Alliez, P., and Devillers, O. (2009).
Filtering relocations on a delaunay triangulation. In Proceedings of the Symposium
on Geometry Processing, SGP ’09, 1465–1474, Aire-la-Ville, Switzerland,
Switzerland. Eurographics Association. DOI: [Link]
8659.2009.01523.x.

RISTI, N.º E22, 08/2019 185


Constrained Edges on Kinetic Delaunay Triangulation

Mei, G. Xu, N. and Cuomo, S. (2018) Degree Distribution of Delaunay Triangulations.


[Link]
Moll, M., Sucan, I. A., and Kavraki, L. E. (2014). An extensible benchmarking
infrastructure for motion planning algorithms. CoRR, abs/1412.6673.
Nguyen, C. and Rhodes, P. J. (2018). TIPP: parallel Delaunay triangulation for large-
scale datasets. In  Proceedings of the 30th International Conference on Scientific
and Statistical Database Management (SSDBM ‘18). ACM, New York, NY, USA,
Article 8, 12 pages. DOI: [Link]
Pardue, J. and Chernikov, A. (2019). Algorithm 995: An Efficient Parallel Anisotropic
Delaunay Mesh Generator for Two-Dimensional Finite Element Analysis. In ACM
Trans. Math. Softw. 45(3):1-30  DOI: [Link]
Russel, D. (2007). Kinetic data structures in practice. PhD thesis, Stanford University,
Stanford, CA, USA.
Russel, D., Karavelas, M. I., and Guibas, L. J. (2007). A package for exact kinetic data
structures and sweepline algorithms. Comput. Geom. Theory Appl., 38:111–127.
DOI: [Link]
Vomácka, T. (2008a). Delaunay triangulation of moving points. In CESCG 2008, pages
67–74, Vienna. Vienna University of Technology.
Vomácka, T. (2008b). Delaunay Triangulation of Moving Points in the Plane. PhD thesis,
University of West Bohemia, Pilsen, Czech Republic.
Vomácka, T. (2010). Construction of geometric models for moving points - the state of
the art and concept of ph.d. Thesis. Technical report, University ofWest Bohemia in
Pilsen, Univerzitni 8, 30614 Pilsen, Czech Republic.
Vomácka, T. and Kolingerová, I. (2008). Computation of topologic events in kinetic
delaunay triangulation using sturm sequences of polynomials. In SIGRAD 2008,
57–64, Linköping. University Electronic Press.
Vomácka, T. and Puncman, P. (2009). A novel video compression scheme based on
kinetic delaunay triangulation. In Algoritmy 2009: 18th Conference on Scientific
Computing, 372–381, Bratislava. Slovak University of Technology.
Weller, R. (2013b). Kinetic data structures for collision detection. In New Geometric
Data Structures for Collision Detection and Haptics, Springer Series on Touch and
Haptic Systems, 49–89. Springer International Publishing. DOI: [Link]
org/10.1007/978-3-319-01020-5_3.
Zhou, Y., Sun, F., Wang, W., Wang, J., and Zhang, C. (2010). Fast updating of delaunay
triangulation of moving points by bi-cell filtering. Computer Graphics Forum, 29(7),
2233–2242. DOI: [Link]

186 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 18/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 11/06/2019

Evaluación en Sistemas de Aprendizaje Móvil: una


revisión de la literatura

Jorge Muñoz1, Carolina González2.

jorgevelasco@[Link], cgonzals@[Link]

1
Universidad del Cauca, Calle 5 # 4-70, 190001, Popayán, Colombia.
2
Universidad del Cauca, Calle 5 # 4-70, 190001, Popayán, Colombia.
Pages: 187–199

Resumen: La evaluación cobra gran importancia en los sistemas mediados


con tecnología, especialmente en Sistemas de Aprendizaje Móvil que utilizan
información del contexto. Este documento presenta un análisis de los trabajos que
incorporan evaluación y de los elementos en común alrededor de contexto sensible,
técnicas de realimentación y componentes de modelado. Los resultados muestran
que las entidades del contexto más relevantes son tiempo, ubicación, dispositivo,
físico y estudiante. La técnica de razonamiento más utilizada es Fuzzy. Los
componentes en común corresponden a entrega de contenido, perfil del estudiante,
adquisición del contexto, banco de preguntas, evaluación adaptativa, módulo de
razonamiento y módulo de realimentación.
Palabras-clave: Revisión Sistemática; Aprendizaje Móvil; Sensibilidad al
Contexto; Evaluación; Realimentación.

Assessment in Mobile Learning System: A literature review

Abstract: The evaluation becomes very important in systems mediated with


technology, especially in Mobile Learning Systems that use context information.
This document presents an analysis of the works that incorporate evaluation and
the elements in common around context-aware, feedback techniques and modeling
components. The results show that the most relevant context entities are time,
location, device, physical and student. The most used reasoning technique is
fuzzy. The components in common correspond to content delivery, student profile,
context acquisition, a question bank, adaptive evaluation, reasoning module and
feedback module.
Keywords: Systematic Review; Mobile Learning; Context-Aware; Assessment;
Feedback.

1. Introducción
Las tecnologías móviles están configurando un nuevo paradigma económico, social,
cultural y educativo que obliga al desarrollo de individuos capaces de adaptarse a

RISTI, N.º E22, 08/2019 187


Evaluación en Sistemas de Aprendizaje Móvil: una revisión de la literatura

situaciones de constante cambio (Unesco, 2013). Así, el uso de computadores portátiles,


celulares inteligentes, tabletas, asistentes digitales personales, entre otros, están
cambiando la forma cómo entendemos la comunicación y los procesos educativos en el
aula, con el fin de dar soporte a nivel adaptativo, colaborativo, investigativo y productivo
en las actividades de aprendizaje (Ozdamli & Cavus, 2011).
En este sentido, los Sistemas de Aprendizaje Móvil que detectan los cambios de
ubicación y las características del mundo real (Schilit, Adams, & Want, 2008), se
denominan Sistemas de Aprendizaje Móvil Sensibles al Contexto, los cuales están
usando la información del contexto1 para adaptar y/o personalizar materiales, rutas de
aprendizaje y actividades educativas de acuerdo a las preferencias y necesidades de los
estudiantes (Louhab, Bahnasse, & Talea, 2018b). Sin embargo, el uso de la información
del contexto en procesos de evaluación aún requiere especial atención con fines de
soporte en tiempo real y entrega de realimentación (Chu, Chen, Hwang, & Chen, 2017;
Nikou & Economides, 2017).
Es por ello que la información del contexto es un elemento clave y esencial, ya que
permite proveer y dar soporte a estudiantes y profesores con fines de seguimiento y
mejora del proceso educativo, especialmente en procesos de evaluación (Banno & Yang,
2016; Louhab et al., 2018b). De acuerdo con esto, la evaluación formativa es incorporada
como estrategia de realimentación, ya que permite a los estudiantes alcanzar y mejorar
las metas establecidas (Hattie, 1999; Kulasegaram & Rangachari, 2018). Sin embargo,
la incorporación de elementos de evaluación en sistemas móviles sigue siendo crítica
(Madhubala & Akila, 2017). Por lo tanto, la presente revisión analiza los trabajos que
están incorporando procesos de evaluación e identifica los elementos en común alrededor
de entidades del contexto, técnicas de razonamiento y componentes de modelado, con
el fin de dar soporte a mecanismos de evaluación efectivos en Sistemas de Aprendizaje
Móvil (Lopes, Carvalho De Oliveira, & Vaccare Braga, 2017).
Finalmente, este artículo se ordena de la siguiente forma: En la sección 2, se describe
la metodología utilizada para la revisión de la literatura. En la sección 3, se presentan
los resultados de las temáticas a investigar y se analizan los elementos encontrados.
Por último, en la sección 4, se concluye acerca de las preguntas de investigación y
conclusiones finales.

2. Metodología
El presente estudio, establece como procedimiento guía para realizar la revisión de la
literatura los pasos definidos por (Kitchenham, 2007). El objetivo de esta revisión, es
proveer una visión global del conocimiento sobre Evaluación en Sistemas de Aprendizaje
Móvil y la importancia de la información del contexto en este tipo de sistemas. Las pautas
definidas para el protocolo de revisión corresponden a: i) preguntas de investigación, ii)
fuente de datos y estrategia de búsqueda, iii) criterios de inclusión y exclusión, y iv)
ejecución de la cadena de búsqueda.

1
“El contexto es cualquier información que puede ser usada para caracterizar la situación de
una entidad. Una entidad es una persona, lugar u objeto que es considerado relevante para la
interacción entre el usuario y una aplicación” (Dey, 2001).

188 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

2.1. Preguntas de investigación


La revisión establece como referencias las investigaciones realizadas por (Kalaivani &
Sivakumar, 2017; Madhubala & Akila, 2017; Nyland, 2017), quienes revisan trabajos
relacionados con Contexto Sensible, Aprendizaje Móvil Adaptativo y Técnicas de
Evaluación Formativa entre 2006 y 2014. Lo anterior, se establece para dar solidez a
la presente investigación con el fin de identificar los elementos de evaluación en común
en los Sistemas de Aprendizaje Móvil. El estudio fue guiado por la siguiente pregunta
general de investigación.
¿Cuál es el estado actual del conocimiento sobre Evaluación en Sistemas de Aprendizaje
Móvil?
Las preguntas de investigación (ver tabla 1) permiten identificar los trabajos que han
incorporado mecanismos de evaluación y considerado uso de información contextual.
De igual forma, las preguntas permiten identificar las técnicas más utilizadas para medir
el nivel de conocimiento y el nivel de rendimiento de los estudiantes, así como también,
permiten describir y analizar los componentes2 de modelado en común de los diferentes
estudios que consideran procesos de evaluación.

2.2. Fuente de datos y estrategia de búsqueda


Los motores de búsqueda representan la principal fuente de publicaciones en el área de
investigación, entre ellos: Scopus, Science Direct, IEEE Xplore y ACM Digital Library. La
cadena de búsqueda corresponde a los términos más relevantes y cercanos a los estudios
que se pretenden investigar: (Evaluation OR Assessment Formative OR Feedback) AND
(Model OR System) AND (Mobile Learning OR m-learning) AND (Context-Aware OR
Context awareness).

No. Pregunta Pregunta de investigación


¿Cuáles son las investigaciones desarrolladas alrededor de Sistemas de
PI1
Aprendizaje Móvil sensibles al contexto?
¿Cuáles son los Sistemas de Aprendizaje Móvil sensibles al contexto que
PI2
consideran procesos de evaluación?
¿Cuáles entidades del contexto son utilizadas en los sistemas encontrados que
PI3
incluyen evaluación?
¿Cuáles son las técnicas de razonamiento consideradas con fines de
PI4
realimentación en los sistemas que incluyen evaluación?
¿Cuáles son los componentes de modelado en los sistemas que incluyen
PI5
evaluación?

Tabla 1 – Preguntas de investigación.

2.3. Criterios de inclusión y exclusión


Los criterios de inclusión se establecen con base en la cadena de búsqueda, publicaciones
académicas y profesionales indexadas realizadas en conferencias, revistas y libros,
artículos en inglés publicados entre 2014-2018 y estudios que incorporen mecanismos
2
“Un componente es simplemente una cápsula de datos. De este modo, la ocultación de la
información se convierte en el principio básico de construcción” (Broy et al., 1998).

RISTI, N.º E22, 08/2019 189


Evaluación en Sistemas de Aprendizaje Móvil: una revisión de la literatura

de evaluación y uso de información contextual. Los criterios de exclusión, se restringen


a los artículos que no se relacionan con Sistemas de Aprendizaje Móvil, además de
investigaciones en evaluación no propias del proceso de enseñanza-aprendizaje,
artículos que solo presentan resumen o contenido en diapositivas, contenido de páginas
web, blogs personales o folletos y sistemas de aprendizaje en ámbitos no móviles.

2.4. Ejecución cadena de búsqueda


La ejecución de la cadena de búsqueda permitió encontrar los siguientes artículos por
motor de indexación: Scopus (48 artículos), Science Direct (14 artículos), IEEExplore (73
artículos) y ACM Digital Library (4 artículos) para un total de 139 artículos primarios.
Cabe resaltar que después de aplicar los criterios de inclusión y exclusión sobre los
artículos encontrados, se seleccionaron 52 investigaciones con base en la revisión de
títulos, resumen y palabras claves. Finalmente, solo 22 investigaciones fueron leídas
a texto completo debido a su aporte y relación con la temática de estudio, priorizando
revisiones de la literatura, modelos, arquitecturas y estudios de caso que permitan
conceptualizar acerca de los mecanismos de evaluación y el uso de la información
contextual.

3. Resultados

3.1. Descripción de los resultados


Los países con mayor actividad investigativa son Morocco, Tunisia y Taiwam, siendo
los investigadores de este último país, donde más se profundiza en el campo de la
evaluación. En la tabla 2, se presentan los artículos primarios relacionados a la pregunta
PI1, de los cuales, solo 11 estudios hacen referencia a evaluación (PI2).

Autor(es) Título País Evaluación


(Moebert, Zender, & A Generalized Approach for Context-Aware Alemania No
Lucke, 2016) Adaptation in Mobile E-Learning Settings
(Luo, Yang, & Wei, Research on Adaptive Mobile Collaborative China Si
2017) Learning System
(Curum, Gumbheer, A Content-Adaptation System for Personalized Mauritius No
Khedo, & Cunairun, M-Learning
2017)
(Baccari & Neji, 2016) Design for a context-aware and collaborative Tunisia No
mobile learning system
(Akharraz, El To context-aware learner modeling based on Morocco No
Mezouary, & Mahani, ontology
2018)
(Lopes et al., 2017) Context-Aware Ubiquitous Learning Brasil No
(Curum, Chellapermal, A Context-Aware Mobile Learning System Using Mauritius No
& Khedo, 2017) Dynamic Content-Adaptation for Personalized
Learning
(Huang, Yin, & Liu, Research on Individualized Learner Model Based China No
2017) on Context-awareness

190 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Autor(es) Título País Evaluación


(El Guabassi, Personalized adaptive content system for context- Morocco No
Bousalem, Al Achhab, aware ubiquitous learning.
Jellouli, & El Mohajir,
2018)
(Tortorella, Kinshuk, & Framework for designing context-aware learning Finlandia No
Chen, 2018) systems
(Faber & Visscher, The effects of a digital formative assessment tool Los Países Si
2018) on spelling achievement: results of a randomized Bajos
experiment.
(Louhab, Bahnasse, & Considering mobile device constrains and context- Morocco No
Talea, 2018a) awareness in adaptive mobile learning for flipped
(Chu et al., 2017) Effects of formative assessment in an augmented Taiwam Si
reality approach to conducting ubiquitous learning
activities for architecture courses.
(Chou, Lai, Chao, Lan, Negotiation based adaptive learning sequences: Taiwam Si
& Chen, 2015) Combining adaptivity and adaptability
(Mutahi, Bent, Kinai, Capturing Learner’s Activity Events from a Mobile Kenia No
Weldemariam, & Learning System using Adaptive Event Framework
Sengupta, 2015)
(Harchay, Cheniti- A Context-Aware Framework to Provide Tunisia Si
Belcadhi, & Braham, Personalized Mobile Assessment
2014)
(Nikou & Economides, Mobile-based Assessment: Towards a Motivational Grecia Si
2017) Framework
(Louhab et al., 2018b) Towards an Adaptive Formative Assessment in Morocco Si
Context-Aware Mobile Learning
(Banno & Yang, 2016) Improving Educational Assessment in Mobile Reino Si
Environment Unido
(Khalifa, Souilem, & An Evaluation system of students (applied in Tunisia Si
Neji, 2018) primary school in Tunisia)
(Wirawan & New Concept of Learning Outcomes Assessment in Indonesia Si
Mahendra, 2017) Adaptive Mobile Learning
(Chiu & Huang, 2015) The effectiveness of a meaningful learning-based Taiwan Si
evaluation model for context-aware mobile
learning

Tabla 2 – Estudios primarios seleccionados.

La información del contexto está siendo utilizada para soportar presentación, entrega
y creación de materiales educativos. En la tabla 3, se clasifican solo los estudios que
consideran evaluación y se detalla las entidades del contexto utilizadas por cada estudio
de investigación, dando así respuesta a la pregunta PI3.
En la tabla 4, se presentan las técnicas de razonamiento (pregunta PI4) utilizadas en los
estudios previos de la tabla 3, incluyendo el objetivo de medición de la técnica. El estudio
de (Nikou & Economides, 2017) no reporta uso de técnica.

RISTI, N.º E22, 08/2019 191


Evaluación en Sistemas de Aprendizaje Móvil: una revisión de la literatura

Autor(es) Tiempo Ubicación Dispositivo Estudiante Físico


(Luo et al., 2017) X X X - X
(Faber & Visscher, 2018) - - - - -
(Chu et al., 2017) - - - - -
(Chou et al., 2015) - - - - -
(Harchay et al., 2014) X X X X -
(Nikou & Economides, 2017) - X - - -
(Louhab et al., 2018b) X X X X -
(Banno & Yang, 2016) - X X X X
(Khalifa et al., 2018) X X X X -
(Wirawan & Mahendra, 2017) - - - - -
(Chiu & Huang, 2015) - - - - -

Tabla 3 – Entidades del contexto.

Autor(es) Técnica de razonamiento Objetivo de medición


(Luo et al., 2017) - Nivel de conocimiento
(Faber & Visscher, 2018) Modelo teórico ítem-respuesta Nivel de rendimiento
(Chu et al., 2017) Web-based Assessment and Test Nivel de conocimiento
Analyses (WATA) system
(Chou et al., 2015) Reglas Fuzzy Nivel de rendimiento
(Harchay et al., 2014) Algoritmo de Recuperación de Adquisición de contexto
Recursos de Evaluación Personalizado
(Nikou & Economides, 2017) - -
(Louhab et al., 2018b) Reglas de adaptación basado en Nivel de conocimiento y
Pruebas Adaptativas Computarizadas rendimiento
CAT
(Banno & Yang, 2016) Extensión de algoritmo basado en Nivel de conocimiento y
el Modelo de Análisis del Factor de rendimiento
Rendimiento
(Khalifa et al., 2018) Lógica de primer orden Nivel de conocimiento
(Wirawan & Mahendra, Método de ponderación adaptiva Nivel de rendimiento
2017) simple
(Chiu & Huang, 2015) Proceso de Jerarquía Analítica Nivel de rendimiento

Tabla 4 – Técnicas de razonamiento.

Por último, en la tabla 5, se presenta la información relacionada a la pregunta PI5


referente a los componentes de modelado en los Sistemas de Aprendizaje Móvil que
incorporan procesos de evaluación. Los estudios de (Chu et al., 2017; Faber & Visscher,
2018) no presentan componentes de modelado.

192 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Autor(es) Componentes de modelado


(Luo et al., 2017) Modelos de Estudiante, Dominio, Aprendizaje Colaborativo y Evaluación.
Modelo de Recomendación Adaptativo basado en Contexto
(Faber & Visscher, 2018) No especifica.
(Chu et al., 2017) No especifica.
(Chou et al., 2015) Modelo de estudiante, Módulo pedagógico, Framework de factores
adaptativos y Módulo de adaptación basado en negociación.
(Harchay et al., 2014) Interfaz gráfica, dispositivo, aprendices. Módulos de adquisición,
razonamiento y entrega. Módulo Recursos de evaluación.
(Nikou & Economides, 2017) Banco de preguntas, módulo de entrega, soporte basado en geolocalización,
realimentación, autenticidad, soporte para guía apropiada, comunicación y
colaboración.
(Louhab et al., 2018b) Interfaz de evaluación adaptativa, objetos de aprendizaje, motor de
evaluación adaptativa, reglas de adaptación, contexto del estudiante y perfil
del estudiante.
(Banno & Yang, 2016) Modelado de estudiante, motor de evaluación dinámica, motor de
recomendación, dispositivo, evaluación dinámica, recursos de aprendizaje.
(Khalifa et al., 2018) Autenticación, gestión del contexto, Base de Datos Ontológica, Módulo de
Evaluación y Banco de Preguntas y Respuestas.
(Wirawan & Mahendra, Dominio cognitivo y Dominio afectivo.
2017)
(Chiu & Huang, 2015) Modelo de evaluación basado en aprendizaje significativo. Dimensiones:
Activa, Autentica, Constructiva, Cooperativa e Interactiva.

Tabla 5 – Componentes de modelado.

3.2. Análisis de los resultados


De acuerdo a la pregunta PI1 , se evidencian que los estudios de (Baccari & Neji, 2016;
Chiu & Huang, 2015; Louhab et al., 2018a) desarrollan investigación en el marco de
aprendizajes como el colaborativo, invertido y significativo; esto confirma que nuevos
enfoques de aprendizaje están siendo investigados en el campo de tecnologías móviles
y ubicuas. Así mismo, cinco estudios (Banno & Yang, 2016; Chou et al., 2015; Chu et al.,
2017; Faber & Visscher, 2018; Louhab et al., 2018b) adoptan la estrategia pedagógica de
evaluación formativa para proveer realimentación y soporte a estudiantes y docentes,
con el fin de mejorar el nivel de rendimiento, alcanzar logros y tomar decisiones acerca
de las rutas de aprendizaje y materiales educativos.

Evaluación
En evaluación, se evidencian varios mecanismos (Louhab et al., 2018a; Madhubala
& Akila, 2017) que están siendo incorporados en los Sistemas de Aprendizaje Móvil
(Pregunta PI2). Sin embargo, la evaluación sigue siendo un componente crítico y es
necesario promover esfuerzos con el fin de dar soporte a estudiantes y docentes en
contenidos de evaluación, apoyo técnico, seguimiento a logros y nivel de compresión,
así como realimentación efectiva durante la evaluación (Goldin, Narciss, Foltz, & Bauer,
2017). Otros estudios, resaltan que la evaluación formativa provee oportunidades a los

RISTI, N.º E22, 08/2019 193


Evaluación en Sistemas de Aprendizaje Móvil: una revisión de la literatura

estudiantes para incrementar la responsabilidad de su propio aprendizaje y fomentar


una mayor compresión del conocimiento (Chou et al., 2015; Chu et al., 2017). El estudio
de (Chou et al., 2015) revela que la propuesta de evaluación basada en negociación puede
extenderse a la búsqueda de ayuda, realimentación y ubicación de compañeros de estudio,
así mismo, que el modelo propuesto puede ser más completo para abordar niveles de
rendimiento más precisos, detallando el nivel de conocimiento y conceptos erróneos.
Estudios como (Harchay et al., 2014; Khalifa et al., 2018) hacen uso de ontologías y
notación semántica para personalizar recursos y actividades de evaluación, en ambos
casos, se resalta la necesidad de contar con otros tipos de preguntas. La investigación
realizada por (Nikou & Economides, 2017), indica que carece de soporte para entornos
sensibles al contexto en el marco del modelo de evaluación móvil definido. Finalmente, el
estudio de (Louhab et al., 2018b) presenta tres reglas de adaptación basadas en contexto
sensible, con el fin de entregar contenidos de pruebas adaptativas según los niveles de
dificultad, pero aún no se ha podido corroborar la efectividad de esta propuesta basada
en pruebas adaptativas computarizadas.

Entidades del contexto


Los trabajos relacionados a la pregunta PI3, evidencian que solo seis investigaciones
(ver tabla 3) involucran aspectos de información contextual, es decir, que consideran
características del contexto para ser usadas en los Sistemas de Aprendizaje Móvil.
En este sentido, la relevancia del contexto en el aprendizaje es un elemento clave
(Kulasegaram & Rangachari, 2018) para proveer actividades, contenidos y recursos de
aprendizaje efectivos basados en las características de los dispositivos, las necesidades
del estudiantado y de los factores ambientales o del lugar donde ocurre el aprendizaje
(Goldin et al., 2017; Madhubala & Akila, 2017).
Respecto a las entidades del contexto, solo cuatro estudios hacen referencia a la entidad
llamada tiempo, donde autores como (Louhab et al., 2018b; Luo et al., 2017) utilizan
la característica fecha, (Luo et al., 2017) tiempo de duración y (Harchay et al., 2014;
Khalifa et al., 2018) consideran fechas de inicio y fin para las actividades de aprendizaje.
Por otro lado, los estudios de (Banno & Yang, 2016; Harchay et al., 2014; Khalifa et al.,
2018; Louhab et al., 2018b; Luo et al., 2017; Nikou & Economides, 2017) relacionan como
entidad del contexto a la ubicación. La entidad denominada dispositivo hace referencia
a conectividad de red, costo de comunicación y banda ancha. En especial, estudios como
(Harchay et al., 2014) utilizan las normas definidas por el Consorcio W3C para la captura
de propiedades hardware y software de los dispositivos. De la entidad llamada estudiante,
se relacionan las características más comunes, entre ellas: información personal, nivel de
conocimiento, preferencias, estilo de aprendizaje, nivel de rendimiento, comportamiento
histórico y aspectos de colaboración. Solo dos estudios (Banno & Yang, 2016; Luo
et al., 2017) hacen referencia a la entidad físico, donde las características en común
corresponden a nivel de ruido, iluminación y temperatura. Finalmente, las técnicas de
modelado de contexto más común son ontologías y bases de datos.

Técnicas de razonamiento
De acuerdo a la pregunta PI4, las técnicas de razonamiento encontradas (ver tabla 4)
hacen referencia a técnicas para medir nivel de conocimiento y el nivel de rendimiento

194 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

de los estudiantes. En particular, el estudio de (Wirawan & Mahendra, 2017), se enfoca


en obtener resultados de notas finales a través de sesiones tipo prueba, donde la
estrategia de evaluación es sumativa. Por otro lado, solo cinco estudios (Banno & Yang,
2016; Chou et al., 2015; Chu et al., 2017; Faber & Visscher, 2018; Louhab et al., 2018b),
se enfocan en proveer realimentación como soporte al proceso de evaluación, siendo
estos estudios, los que abordan evaluación formativa. Solo los estudios de (Banno &
Yang, 2016; Louhab et al., 2018b) consideran elementos contextuales. El soporte más
común es orientado a estudiantes, solo dos estudios proveen soporte a docentes (Chu et
al., 2017; Faber & Visscher, 2018).
En el estudio de (Faber & Visscher, 2018), se propone una herramienta de evaluación
formativa digital basada en el modelo Teórico Ítem-Respuesta, los autores sugieren que
se puede mejorar la entrega de realimentación para la toma de decisiones. El estudio de
(Chu et al., 2017) presenta un mecanismo de evaluación formativa en tiempo real para
la enseñanza de la arquitectura basado en Realidad Aumentada, como trabajo futuro, se
pretende incluir un mecanismo de realimentación personalizado. El estudio realizado
por (Chou et al., 2015) diseña un sistema de negociación basado en reglas Fuzzy haciendo
uso de un modelo de negociación, la propuesta pretende ser extendida para dar soporte
a nivel de realimentación. La investigación de (Louhab et al., 2018b) plantea un método
de evaluación basado en reglas de adaptación haciendo uso de pruebas adaptativas
computarizadas, el estudio resalta la importancia de los métodos de evaluación para
presentar a los estudiantes procesos coherentes y adaptados.
Un algoritmo de razonamiento es presentado en el estudio (Harchay et al., 2014)
para proveer contenidos de evaluación, se resalta la importancia de contar con una
arquitectura que pueda ser usada en diferentes dominios y contextos de evaluación. Los
autores (Banno & Yang, 2016) proponen un algoritmo basado en el modelo Factor de
Análisis de Rendimiento, donde se estima el nivel de conocimiento con base en el número
de respuestas previas correctas e incorrectas. La creación de algoritmos de análisis para
captura de datos, toma de decisiones y seguimiento del nivel de compresión son desafíos
a futuro de acuerdo a (Chu et al., 2017; Curum, Gumbheer, et al., 2017; Mutahi et al.,
2015). El estudio de (Wirawan & Mahendra, 2017) presenta un método de inteligencia
artificial llamado ponderación aditiva simple para la toma de decisiones, el trabajo a
futuro de este estudio, radica en optimizar el método para evaluación de aprendizaje; el
estudio no considera elementos contextuales.

Componentes de modelado
Finalmente, los estudios primarios descritos en la tabla 5, responden a la pregunta PI5,
donde solo nueve estudios presentan componentes a nivel de modelado. Los estudios
de (Chu et al., 2017; Faber & Visscher, 2018) no especifican ningún componente. Los
componentes son presentados en términos de módulos (Louhab et al., 2018b), capas
(Harchay et al., 2014), framework (Chou et al., 2015), necesidades humanas (Nikou &
Economides, 2017), motores (Banno & Yang, 2016), dominios (Wirawan & Mahendra,
2017) y dimensiones (Chiu & Huang, 2015). De igual forma, se evidencia que no hay
consenso frente a lo que representa un modelo de evaluación, cada propuesta presenta,
interpreta e implementa de manera diferente el concepto de evaluación en el campo

RISTI, N.º E22, 08/2019 195


Evaluación en Sistemas de Aprendizaje Móvil: una revisión de la literatura

móvil de acuerdo al dominio de aplicación, en este punto, los investigadores podrían


presentar un modelado común que permita hacer uso de la información del contexto,
estrategias de evaluación, enfoques pedagógicos y mecanismo de realimentación
efectivos. Entre todos los estudios descritos en la tabla 5, los componentes en común
hacen referencia a: entrega de contenidos, perfil del estudiante, adquisición del
contexto, banco de preguntas, evaluación adaptativa, módulo de razonamiento y
módulo de realimentación. Respecto a los métodos de evaluación, se evidenció el uso
de: estrategia de pre-test y pos-test; estrategia basada en cuestionarios, autoevaluación
y consenso, y estrategia basada en sistema WATA “respuesta repetida”, “No hay
respuesta que proporcionar” y “Realimentación inmediata” (Wang, Wang, Wang,
Huang, & Chen, 2004).

4. Conclusiones
El estado actual del conocimiento sobre evaluación en Sistemas de Aprendizaje
Móvil muestra que el uso de estrategias de evaluación como el enfoque formativo,
permite a los estudiantes la apropiación del aprendizaje y una mayor compresión del
conocimiento; siendo la realimentación el componente clave dentro de esta estrategia
de evaluación. El soporte a este tipo de evaluaciones viene dado a partir de la medición
o predicción del nivel de conocimiento, al igual que la creación, adaptación y/o entrega
de actividades, contenidos y recursos de aprendizaje basados en el perfil del estudiante
y su nivel de rendimiento.
Estudios recientes han empezado a involucrar elementos del contexto con mecanismos
de evaluación (Banno & Yang, 2016; Louhab et al., 2018b), siendo estos elementos
diferenciadores en el proceso, ya que representan la situación actual del estudiante
en el aula de clase. Así, el contexto es un componente clave y de alto desafío para
los investigadores, con el fin de proveer nuevos servicios educativos basados en
la información que pueda ser capturada alrededor del estudiante. Las entidades
en común de las propuestas revisadas corresponden a tiempo, ubicación, físico,
dispositivo y estudiante.
Por otro lado, las técnicas de razonamiento utilizadas para la medición del nivel
de conocimiento y nivel de rendimiento corresponden a modelo Teórico Ítem-
Respuesta, Evaluación basada en Web y Análisis de Pruebas, Reglas Fuzzy, Reglas
de Adaptación basadas en CAT y algoritmos de Extensión del Modelo de Análisis
del Factor de Rendimiento. Así, solo las Reglas de Adaptación basada en CAT y la
extensión del Modelo de Análisis del Factor de Rendimiento consideran elementos
del contexto. La técnica de realimentación más usada de acuerdo a la revisión de la
literatura, es Fuzzy.
Finalmente, los componentes de modelado en Sistemas de Aprendizaje Móvil que
consideran mecanismos de evaluación y uso de la información del contexto, requieren
de módulos para: i) entregar y adaptar contenidos de aprendizaje, ii) crear y actualizar
el perfil del estudiante, iii) capturar y analizar la información del contexto, iv) almacenar
y adaptar preguntas de evaluación, v) medir el nivel de conocimiento y el nivel de
rendimiento y vi) entregar realimentación en tiempo real de manera efectiva.

196 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Referencias
Akharraz, L., El Mezouary, A., & Mahani, Z. (2018). To context-Aware learner modeling
based on ontology. IEEE Global Engineering Education Conference, EDUCON,
1326–1334. [Link]
Baccari, S., & Neji, M. (2016). Design for a context-aware and collaborative mobile
learning system. IEEE International Conference on Computational Intelligence
and Computing Research. [Link]
Banno, S. I., & Yang, Y. (2016). Improving educational assessment in mobile environment.
Proceedings - 2nd International Conference on Computational Intelligence and
Communication Technology, 591–597. [Link]
Broy, M., Deimel, A., Henn, J., Koskimies, K., Plášil, F., Pomberger, G., … Szyperski, C.
(1998). What characterizes a (software) component? Software - Concepts & Tools,
19(1), 49–56. [Link]
Chiu, P., & Huang, Y. (2015). The effectiveness of a meaningful learning-based
evaluation model for context-aware mobile learning. British Journal of Educational
Technology, 46(2), 437–447. [Link]
Chou, C. Y., Lai, K. R., Chao, P. Y., Lan, C. H., & Chen, T. H. (2015). Negotiation based
adaptive learning sequences: Combining adaptivity and adaptability. Computers
and Education, 88, 215–226. [Link]
Chu, H. C., Chen, J. M., Hwang, G. J., & Chen, T. W. (2017). Effects of formative
assessment in an augmented reality approach to conducting ubiquitous learning
activities for architecture courses. Universal Access in the Information Society,
1–10. [Link]
Curum, B., Chellapermal, N., & Khedo, K. K. (2017). A Context-Aware Mobile Learning
System Using Dynamic Content Adaptation for Personalized Learning. Emerging
Trends in Electrical, Electronic and Communications Engineering, 416. https://
[Link]/10.1007/978-3-319-52171-8
Curum, B., Gumbheer, C. P., Khedo, K. K., & Cunairun, R. (2017). A content-adaptation
system for personalized m-learning. 2017 1st International Conference on
Next Generation Computing Applications, 121–128. [Link]
NEXTCOMP.2017.8016186
Dey, A. (2001). Understanding and using context. Personal and Ubiquitous Computing,
4–7. [Link]
El Guabassi, I., Bousalem, Z., Al Achhab, M., Jellouli, I., & El Mohajir, B. E. (2018).
Personalized adaptive content system for context-Aware ubiquitous learning.
Procedia Computer Science, 127, 444–453. [Link]
procs.2018.01.142
Faber, J. M., & Visscher, A. J. (2018). The effects of a digital formative assessment tool
on spelling achievement: Results of a randomized experiment. Computers and
Education, 122, 1–8. [Link]

RISTI, N.º E22, 08/2019 197


Evaluación en Sistemas de Aprendizaje Móvil: una revisión de la literatura

Goldin, I., Narciss, S., Foltz, P., & Bauer, M. (2017). New Directions in Formative
Feedback in Interactive Learning Environments. International Journal of Artificial
Intelligence in Education, 27(3), 385–392. [Link]
0135-7
Harchay, A., Cheniti-Belcadhi, L., & Braham, R. (2014). A Context-Aware Framework
to Provide Personalized Mobile Assessment. Interaction Design and Architecture,
82–97.
Hattie, J. (1999). Influences on Student Learning, 1–25.
Huang, S., Yin, B., & Liu, M. (2017). Research on individualized learner model based on
context-awareness. Proceedings - 2017 International Symposium on Educational
Technology, ISET 2017, 163–167. [Link]
Kalaivani, R., & Sivakumar, R. (2017). A Survey on context-aware ubiquitous learning
systems. International Journal of Control Theory and Applications, 10(23),
111–124.
Khalifa, W. Ben, Souilem, D., & Neji, M. (2018). An evaluation system of students
(Applied in Primary School in Tunisia). Proceedings of IEEE/ACS International
Conference on Computer Systems and Applications AICCSA, 1385–1390. https://
[Link]/10.1109/AICCSA.2017.68
Kitchenham, B. (2007). Procedures for Performing Systematic Literature Reviews in
Software Engineering. Keele University & Durham University, UK.
Kulasegaram, K., & Rangachari, P. K. (2018). Beyond “formative”: assessments to enrich
student learning. Advances in Physiology Education, 42(1), 5–14. [Link]
org/10.1152/advan.00122.2017
Lopes, Á. R., Carvalho De Oliveira, D., & Vaccare Braga, R. T. (2017). Context-aware
Ubiquitous Learning: Literature Systematic Mapping on Ubiquitous Learning
Environments.
Louhab, F. E., Bahnasse, A., & Talea, M. (2018a). Considering mobile device constraints
and context-awareness in adaptive mobile learning for flipped classroom. Education
and Information Technologies, 23(6), 2607–2632. [Link]
s10639-018-9733-3
Louhab, F. E., Bahnasse, A., & Talea, M. (2018b). Towards an Adaptive Formative
Assessment in Context-Aware Mobile Learning. Procedia Computer Science, 135,
441–448. [Link]
Luo, L., Yang, Y., & Wei, Y. (2017). Research on Adaptive Mobile Collaborative
Learning System. Springer Nature Singapore Pte Ltd, 414–423. [Link]
org/10.1007/978-3-319-20424-6
Madhubala, R., & Akila, A. (2017). Context Aware and Adaptive Mobile Learning : A
Survey. Advances in Computational Sciences and Technology, 10(5), 1355–1370.
Retrieved from [Link]

198 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Moebert, T., Zender, R., & Lucke, U. (2016). A Generalized Approach for Context-Aware
Adaptation in Mobile E-Learning Settings (Vol. 406). [Link]
3-319-26518-6
Mutahi, J., Bent, O., Kinai, A., Weldemariam, K., & Sengupta, B. (2015). Capturing
Learner’s Activity Events from a Mobile Learning System Using Adaptive Event
Framework. 2nd ACM International Conference on Mobile Software Engineering
and Systems, 109–112. [Link]
Nikou, S. A., & Economides, A. A. (2017). Mobile-based assessment: Towards a
motivational framework. IEEE Global Engineering Education Conference
EDUCON, 1522–1526. [Link]
Nyland, R. (2017). A Review of Tools and Techniques for Data-Enabled Formative
Assessment. Journal of Educational Technology Systems, 53(5), 004723951774893.
[Link]
Ozdamli, F., & Cavus, N. (2011). Basic elements and characteristics of mobile learning.
Procedia - Social and Behavioral Sciences, 28(December), 937–942. [Link]
org/10.1016/[Link].2011.11.173
Schilit, B., Adams, N., & Want, R. (2008). Context-Aware Computing Applications, 85–
90. [Link]
Tortorella, R., Kinshuk, D., & Chen, N. S. (2018). Framework for designing context-
aware learning systems. Education and Information Technologies, 23(1), 143–164.
[Link]
Unesco. (2013). Directrices para las políticas de aprendizaje móvil. Retrieved from
[Link]
Wang, T. H., Wang, K. H., Wang, W. L., Huang, S. C., & Chen, S. Y. (2004). Web-based
Assessment and Test Analyses (WATA) system: Development and evaluation.
Journal of Computer Assisted Learning, 20(1), 59–71. [Link]
j.1365-2729.2004.00066.x
Wirawan, M. A., & Mahendra, G. (2017). New Concept of Learning Outcomes
Assessment in Adaptive Mobile Learning, 134, 263–268. [Link]
icirad-17.2017.49

RISTI, N.º E22, 08/2019 199


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 11/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 17/07/2019

Wearable devices, the next generation of mobile


devices: Main features and uses

Darwin Suarez1, Santiago Criollo-C2, Ángel Jaramillo-Alcázar3, Sergio Luján-Mora4

[Link]@[Link], [Link]@[Link], [Link]@[Link], sergio.


lujan@[Link]

Facultad de Ingenierías y Ciencias Aplicadas-Universidad de Las Américas, Redondel del Ciclista,


1, 2, 3

Antigua Vía a Nayón, EC170124, Quito, Ecuador. 


4
 Department of Software and Computing Systems-University of Alicante, Carretera San Vicente del Raspeig
s/n 03690, Alicante, Spain.
Pages: 200–214

Abstract: In a world in which students are exposed to all kinds of digital stimuli,
the traditional educational, in which a teacher gives a lesson in front of a class
full of students who listen attentively, may not be very motivating. That is why, in
addition to offering new pedagogical possibilities, and helping teachers to nurture
their students with new skills and competences, technology plays a key role in the
classroom when it comes to generating motivation. In that sense, wearable devices
can be a powerful ally. For this reason, in this article, we will show a classification
of these devices and the analysis of the main parameters of each of them. Several
bibliographical sources were used for this work, such as: research documents,
technical articles and official websites of the wearable devices investigated. Seven
parameters were obtained to analyze by rating scales to optimize the decision of its
possible use.

Keywords: Accessories; devices; e-patches; e-textiles; wearables.

1. Introduction
The growth of wearable technology is increasing considerably as the years go by. The
main reasons for the use of wearable technology in the current technological market
tend to be the problems related to the health and well-being of people. These are
wearable devices that are used in wireless body area network (WBAN), which work in
applications not only related to health, but also in the areas of research, communication,
entertainment, tourism and education. Wearable technology does not focus on the
characteristics of smartphones, although it is true that both have similar functions for
the user, the difference is that wearable devices have as their main objective to make
the user and the device one, with their own characteristics such as their weight, their
comfort and that they can work and provide information even when the user is not active
with the device (Çiçek, 2015). Wearable technology works through WBANs, that are
networks created by mini sensors connected to the human body and that work wirelessly
to provide information.

200 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

The use of wearable devices used in m-learning can be seen in several works. For
example, in the investigation by Santos et al. (2018) an integrated system is proposed
in the form of an intelligent glove that takes advantage of the movement of the body
to create the persistence of the effect of vision. This allows the visualization of letters
and words in literacy activities. Nakasugi and Yamauchi (2002) created a system called
“Viewer of the past”, which uses devices mounted on the head to increase reality and
improve learning by using historical scenes. In the work presented by Yordanova (2008)
the author proposes to develop adaptive learning contents based on metadata (obtained
by wearable devices) that are composed of information related to the profile of the
student. In this context, Jemni and Nasraoui (2009) used web mining techniques and
information retrieval to provide customizable adaptive e-learning experiences.
The analysis of the main parameters of the wearables allows optimizing the choice of
a device for its possible use or application. The sections of this document are detailed
below: section 2, briefly explains what WBAN are and the types of use attributed to this
type of body area networks; in section 3, we will present a brief collection of information
about portable devices, characteristics, classification and applications; in section 4, we
will indicate the method that was used to make tables that show a comparison between
wearable devices in relation to the analysis parameters investigated; in section 5, the
document shows the comparative analysis of the research; and finally in section 6, we will
write the final conclusions of the topic analyzed and how they could improve in the future.

2. Wireless body area network


WBAN are characterized by networks formed by a set of sensors that are linked to
the human body, that is, networks through which wearable devices can communicate
with applications or external systems capable of controlling and providing information
on health issues and well-being such as physical condition, entertainment and
communication (Arefin, Ali, & Haque, 2017). Adding one more definition about WBAN,
we can say that they are networks of a set of portable devices that control the user’s
direct environment (Hussain et al., 2017). In this modern world in which we currently
live, it is necessary to implement functionalities in remote health operability techniques;
however, the size, processing speed and response times in this type of networks composed
of small or portable sensors are inaccurate and slow until now.
WBAN offer a short-range communication and are based on standards, technologies
and requirements that conform to the specifications of a wireless local area network
(WLAN). The most widely used technologies and standards are: Bluetooth, Wi-Fi,
ZigBee and the IEEE 802.15.6 standard (Arefin et al., 2017). Bluetooth is used for its
low power consumption, comes from the 802.15.1 standard and provides some security
because it can create master-slave nodes, which allows simultaneous communication
between devices, and it is suitable for short communication distances. On the other
hand, Wi-Fi technology is very desirable in this type of networks, since it has the ability
to create multiple nodes and users can connect at the same time using an access point
(AP), however, one of the disadvantages of this type of technological standard (802.11 a,
b, g, n) is its high-power consumption. With respect to the technology standard 802.15.6,

RISTI, N.º E22, 08/2019 201


Wearable devices, the next generation of mobile devices: Main features and uses

the requirements that define Kaschel, Alvarado and Torres (2014) must be taken into
account. Examples of these are: the latency in medical applications must be less than 125
ms and in other applications less than 250 ms, they must have Quality of services (QoS),
the WBAN must be able to support up to 256 nodes in a network, the bit rate must be in
the range of 10 Kbps to 10 Mbps, etc. The main objective of the 802.15.6 standard is to
provide a network that can use low power, short distances and wireless communication
that is reliable enough to be used in the human body (Kaschel et al., 2014; Ravi, Wong,
Lo, & Yang, 2017).

3. Wearable devices
Wearable devices are those devices that can be linked in the human body, that is, they
can be used literally as garments in the human body. In 1966, when a professor from
the Massachusetts Institute of Technology created a pair of smart shoes that cheated
in a game (roulette), it was listed as the first wearable device in the world (Jiang et al.,
2015). Although many meanings and definitions are attributed to wearable technology,
it is important to understand that they are tangible devices that interact with or without
smartphones through a WBAN to provide specific information to the user (Çiçek, 2015).
The classification of wearable devices mentioned by Kalantari (2017) can be divided into
two large groups: product forms and product function. However, there are researchers
and scientists who classify portable devices in: accessories, electronic textiles and
electronic patches (Seneviratne et al., 2017).

3.1. Accesories
The accessories correspond to the group of wearable devices that can be used as
accessories in the human body, such as: those worn on the wrist called wrist-worn, those
that are used on the face and head called head-mounted and others jewelry and belts
(Seneviratne et al., 2017).

3.2. E-Textiles
Electronic textiles come from the classification of wearable devices that can be used
as clothing. Most are used in therapeutic environments, such as physiology in sports
and health, and are also used in psychological problems such as stress, because, the
clothing is capable of offering therapeutic massage and also its scope extends to military
applications (Gonçalves, Ferreira da Silva, Gomes, & Simoes, 2018).

3.3. E-Patches
This classification arises with the appearance of intelligent electronic patches able to
adhere adequately to human skin. Its main use is the surveillance of human physiological
problems and treatments of the skin for haptic purposes. They are not easy to find in the
market, since having such small sensors, their development tends to be very difficult,
very few of these patches are sold to the general public (Kilic, Brunner, Audoly, &
Carrara, 2017).

202 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

4. Method
For the development of this article, it was necessary to focus on the published research
articles on the subject and the scientific documents on the web that address the main
parameters to be analyzed. According to the research by Seneviratne et al., (2017), the
factors that should be taken more into account when choosing a device are: the type of
connectivity, the battery life, memory, application of use and price, but also highlight
parameters much deeper as the type of battery, processors, frequencies or cycles of clock,
brand and CPU. On the other hand, an equally important factor is security, in the studies
conducted in (Chuan, 2016; Saa & Lujan-mora, 2017) it can be shown that vulnerabilities
at the time of communication made by wearable devices used in WBAN are very
common. For example, when making payments using Near Field Communication (NFC)
technology, credit card data and access passwords may be exposed. In the investigation
(Khakurel, Porras, & Pöysä, 2018) the parameters that influence the acquisition or not
of a wearable device are a matter of the size and duration of the battery. Users of these
studies filed complaints, but investigations continue to improve these features quickly.
This article will not develop parameters such as the ability to add sensors, software and
firmware compatibility explained in (Haghi, Thurow, & Stoll, 2017) since it is designed
to have a much more general vision from the point of view of the different requirements
that users can have. Finally, the parameters to analyze are the following: Type of
connectivity, battery life, application, price, security, size and type of device. Below,
these parameters are detailed.

4.1. Type of connectivity


This parameter describes the behavior of each wearable device in relation to connectivity.
We must take into account the way in which they connect to the network, it should be
emphasized that each type of connectivity has different characteristics, advantages and
disadvantages, some may be better in the transmission speed, others can be better in
energy consumption. The important thing here is to classify them and that the reader
feels what is convenient for them. For this reason, the following types of connectivity
are contemplated: BLE (Bluetooth Low Energy), BT (4.0, 4.1), Wifi, NFC (Near Field
Communication), CDMA (1.9 PCS GHz and 800 MHz).

4.2. Battery Life


The battery life is one of the most important parameters to analyze, since it depends on
the use of a device. Users want extensive battery life due to the ubiquity that the portable
devices guarantee. For this reason, there are efforts that could solve this problem; they are
known as energy replenishment techniques. One of them is the solar energy harvesting
(SEH): Collection of solar energy, consists of the capture of solar energy from ultraviolet
rays, transforming it into electrical voltage to power the batteries, an example of a device
that performs this action is the SEIKO watch. Another example is kinetic energy harvesting
(KEH): Collection of kinetic energy. It works by the principle of human movement, the
sensors located in specific places in the wearable device and the movements of the body
react to this kinetic energy, some smart shoes for athletes use this principle. In the research
(Seneviratne et al., 2017) it is shown that 500 mV of root mean square (RMS) voltage
can be generated with a frequency of 5 Hz. Finally, the thermoelectric energy harvesting

RISTI, N.º E22, 08/2019 203


Wearable devices, the next generation of mobile devices: Main features and uses

(TEH): Collection of thermoelectric energy is another technique that bases its principle
on the transformation or conversion of the internal temperature of the human body with
the external temperature of the environment. Most studies of this nature were done with
smart watches (Khakurel et al., 2018; Seneviratne et al., 2017).
The representation of the parameter to measure the battery life is as follows:

Battery life Short Medium Long


Wrist type 1 - 3 days 4 - 9 days 10 - n days
Head-mounted type 2 - 4 hours 5 - 10 hours 11 - n hours
Other types of accessories 4 hours - 1 days 2 - 5 days 6 days - n month
E-Textiles 8 hours - 2 days 3 - 10 days 11 - n days
E-Patches 9 hours - 3 days 4 - 7 days 8 days - n weeks

Table 1 - Representation of the parameter to measure the battery life

4.3. Applications
This parameter that indicates the place or places where a wearable device acts, in this
way, it is possible to choose with greater precision the device that best suits the needs.
The analysis parameter will be divided into: Health and medicine, industrial, military,
tourism and informationt. This is because they are the most common applications in
which wearable devices work (Smita Jhajharia, S. K. Pal, & Seema Verma, 2014).

4.4. Price
The price factor is the most common when it comes to analyzing the aspects related to
the acquisition of goods or material services, and technology is no exception. The prices
in this field are too high, but it is very important to analyze them in order to get closer
to the correct device. Obviously, prices will depend on the region in which the buyer is
located; this document takes as reference the prices of the US market.

Moderately Very
  Cheap Expensive
expensive expensive
Smart watches 150 - 230 231 - 300 301 - 350 351 - n
Wristbands 23 - 50 51 - 100 101 - 300 301 - n
Smart eyewear 100 - 250 251 - 450 451 - 700 701 - n
Smart headsets 88 - 100 101 - 200 201 - 300 301 - n
Smart Jewelry 20 - 80 81 - 130 131 - 190 191 - n
Smart belts 75 - 150 151 - 250 251 - 530 531 - n
Smart Garments 70 - 200 201 - 350 351 - 500 501 - n
Shoes / Socks / Smart
75 - 150 151 - 300 301 - 350 351 - n
Gloves

Table 2 – Representation of the parameter to measure the price (USD)

204 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Price of e-patches, due to the limited price information about electronic patches, it has
been decided to place only the reference of known prices for the devices Valedo Back
Therapy and Thync.

4.5. Security
Security is the most important parameter to analyze, because wearable devices connect
and transmit information wirelessly. The efforts must be reflected in order to guarantee
confidentiality, integrity and availability of the information generated by these devices.
Although we only start with the research and development of these devices, there are ways
to mitigate current vulnerabilities (Ching & Singh, 2016). According to the level of security
found for each of the devices analyzed, one of the following values can be taken: low, medium
and high. Low, if it has low security features such as authentication. Medium, if the values are
more advanced; and high, if the security of the wearable device in terms of communication
flows through the servers within independent companies that guarantee the security service.

4.6. Size
To analyze a wearable device, an important parameter to include and detail is the size of
it. Information was collected on the different wearable devices of watches and glasses in
their official web pages to take into account the dimensions they provide, in height, width
and depth, basically the three axes that govern the 3 dimensions. The size also implies the
weight that the devices have, however, in this article we will provide general information
about the size in relation to the dimensions. If a wearable device is very small, as is the
case with smart jewelry, the user cannot expect very complex functionalities.
Due to this, the size is divided into: small, medium and large. If any user is willing to
choose a wearable device whose characteristics and functions are multiple, deep and
complex, then it would have to be made of a wearable device with large dimensions. We
will consider the size of an electronic band-aid patch as small, the medium size would
take into account the physical dimensions of smart watches and wristbands, and the
large size would take the physical dimensions of intelligent clothing, helmets and straps.

4.7. Type of wearable device


It is difficult to compare a smart watch with smart glasses, although both use the same
functionalities, they are totally different products, the characteristics could be different
between both. This parameter will help us simplify the search in decision making
during the execution of an election. We will divide the parameter using the classification
developed by Seneviratne et al. (2017) what corresponds to wearable devices type
accessories of the subgroups that are: Accessories (watches, bracelets, headphones,
glasses, belts and jewelry), e-textiles (clothes and shoes/ socks/gloves) and e-patches
(sensor patches and tattoos/skin patches).

5. Comparative analysis
The main objective of the comparative analysis of this section is the creation and
construction of comparative tables of all wearables, for which the parameters developed

RISTI, N.º E22, 08/2019 205


Wearable devices, the next generation of mobile devices: Main features and uses

in section 4 of this article will be used. To facilitate the reading of the tables, we have
indicates with a letter (X) if the device has the characteristic according to the analysis
parameter, otherwise the information about that characteristic could not be found in the
research carried out. The most representative devices (the best known and most sold)
of each category were chosen for this analysis. These data were taken from the websites
of Amazon, Ebay and Wish. The search of the different devices was ordered using the
following options:
•• Average customer opinion, and
•• Featured articles.

Type/subtype Accessories / used on wrist (watches)

Apple Motorola Samsung Huawei Fitbit


Device
Watch Moto 360 Gear S2 Watch Surge
BLE          
BT X X X X X
Connectivity
Wi-Fi X X X X X
NFC X X X X X
Short X X X X  
Battery
duration
Medium         X

Long          
Health and medicine X X X X X
Industrial X        
Application Military          
Tourism   X      
Information X X X X  
Cheap        
Moderately expensive     X
Price
Expensive X X X X  
Very expensive          
Low X X X X
Security Medium X
High
Small         X

Size Medium X X X X  
Big          

Table 3 – Smart watches

206 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Type/subtype Accessories / Smart wristbands


Sony Mi Empatica
LG FitBit
Device Smartband Band E4
Gizmopal 2 Flex 2
2 2 Wristband
BLE   X   X  
BT X X     X
Connectivity Wifi          
NFC          
CDMA     X    
Short     X
Battery
Medium X   X X  
duration
Long   X      
Health and medicine X X X X X
Industrial X       X
Application Military          
Tourism          
Information X X   X X
Cheap   X      
Moderately expensive X   X    
Price
Expensive       X  
Very expensive         X
Low    
Security Medium X  
High   X
Small   X X X  
Size Medium X       X
Big          

Table 4 – Smart wristbands

Type/subtype Accessories / smart glasses


FUNKI
Microsoft Google
Device Ambient Recon Jet
HoloLens Glass
Glasses
BLE   X    
BT   X X X
Connectivity
Wifi X   X X
NFC        

RISTI, N.º E22, 08/2019 207


Wearable devices, the next generation of mobile devices: Main features and uses

Short X
Battery
Medium   X
duration
Long    
Health and medicine   X    
Industrial        
Application Military        
Tourism  X      X
Information X X X X
Cheap   X    
Moderately expensive        
Price
Expensive     X  
Very expensive X     X
Low    
Security Medium X X X  
High   X
Small        
Size Medium   X X X
Big X      

Table 5 – Smart glasses

Type/subtype Accessories / smart jewelry


NFC Smarty Motiv Bellabeat CliMate
Device Nod
Ring Ring Ring Leaf Clip-on
BLE
BT X X X X
Connectivity
Wifi
NFC X
Short X X
Battery
Medium X
duration
Long X X
Health and medicine X X X
Industrial X
Application Military
Tourism
Information X X X X

208 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Type/subtype Accessories / smart jewelry


NFC Smarty Motiv Bellabeat CliMate
Device Nod
Ring Ring Ring Leaf Clip-on
Cheap X
Moderately expensive
Price
Expensive
Very expensive X X
Low X X X X X
Security Medium
High
Small X X X X X
Size Medium X
Big

Table 6 – Smart jewelry

Type/subtype E-textile / Smart clothes


Hug T Solar
Device Hovding Athos OmSignal
Shirt Jacket Shirt
BLE
BT X X X X
Connectivity
Wifi
NFC
Short X X X
Battery
Medium
duration
Long X
Health and medicine X X X X
Industrial X X
Application Military
Tourism
Information X
Cheap X
Moderately expensive X X
Price
Expensive
Very expensive X
Low
Security Medium X
High
Small X X
Size Medium X
Big X X X

Table 7 – Smart clothes

RISTI, N.º E22, 08/2019 209


Wearable devices, the next generation of mobile devices: Main features and uses

Type/subtype e-patches / Smart patches


Proteus Health Valedo
Chrono
Device Health Patch Thync Back
Therapeutics
Patch MD Therapy
BLE X
BT X
Connectivity
Wifi X
NFC
Short X X X
Battery
Medium X
duration
Long X
Health and medicine X X X X X
Industrial
Application Military
Tourism
Information
Cheap
Moderately
Price expensive
Expensive
Very expensive X X
Low
Security Medium
High X
Small X
Size Medium X X X X
Big          

Table 8 – Smart patches

Type/subtype E-textile / smart shoes, gloves and socks


Owlet
GPS Samsung
Device ProGlove Sensoria Smart
Smartsole IOFIT
Sock
BLE
BT X X X
Connectivity Wifi X X
NFC
GPS X

210 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Type/subtype E-textile / smart shoes, gloves and socks


Owlet
GPS Samsung
Device ProGlove Sensoria Smart
Smartsole IOFIT
Sock
Short X X X
Battery
Medium X
duration
Long X
Health and
X X X
medicine
Industrial X
Application
Military
Tourism
Information X
Cheap
Moderately
X
Price expensive
Expensive X X
Very expensive X
Low
Security Medium X
High X
Small X X
Medium X
Size
Big
X X

Tabla 9 – Smart shoes, gloves and socks

6. Analysis of results
The results that the research shows are the following: Table 3 indicates that there is
a great similarity in security and prices between Apple Watch, Samsung Gear S2 and
Huawei Watch. Table 4 indicates that the Mi Band 2 is the most expensive accessory.
Table 5 shows that Google Glass is the security. In table 6 can see that all smart jewelry
has a very low level of security. Table 7, 8 and 9 show us that smart clothes and patches
are used more frequently in health and medicine. These findings can facilitate the
decision to purchase for personal, academic or research use of each wearable device
based on its characteristics

7. Conclusions
As time passes wearable devices have been introduced little by little in the commercial,
industrial, health and communication markets. The arrival of these devices creates interesting

RISTI, N.º E22, 08/2019 211


Wearable devices, the next generation of mobile devices: Main features and uses

challenges that must be resolved, such as battery life and communication security, which
were analyzed in this document and that are intended to be improved to help create greater
confidence in the adoption of a device. The different applications provided by the devices
make their adoption more feasible, however, the price factor is one of the most worrying for
users. The document covers the topics of WBAN, their main uses and characteristics, as well
as portable devices in which they show their definition, classification and types.
The weakest link when talking about wearable devices is the connection to the mobile
phone. This is because it is usual for both devices to be paired through a short-range
wireless connection known as Bluetooth. Malicious people can introduce malware and
use malicious applications to do a variety of things from calling, sending and receiving
texts and extracting personal information, etc. They can also know what the location is
through GPS and record any health problems that have put in the wearable device. The
danger is: once they have access to another person’s mobile device, they will have control
and a large number of resources at their fingertips. Two tips to implement security are:
first, use a personal identification number (PIN), all mobile devices should have a PIN;
secondly, set limits on the information to be shared.
We have given an idea and we have clarified the panorama to people, working groups,
entities and others so that they can choose the best option of wearable device according
to the requirement or the existing need. In this article, easy-to-read and interpretable
comparison tables were created for wearable devices that are worn on the wrist as smart
watches and used on the head and face as smart glasses, each comparing them by the
same type of device, along with the analyzed factors such as connectivity, battery life,
price, security, size and application. Finally, we hope that this article optimizes the
selection of a wearable device and helps future research on related topics.
Currently, with the rapid growth of the Internet of Things (IoT), wearable technologies
have begun to be used in various scenarios such as research, health, etc. In the field of
learning, Azzabi, Kouki and Jemni (2018) present a framework for mobile learning using
wearable technology. Despite the importance of these technologies to improve learning
experiences, they are not well explored yet in educational situations. In this context, the
findings of this study can help researchers and professionals to better design educational
experiences based on the individual characteristics of each wearable device.

References
Arefin, M. T., Ali, M. H., & Haque, A. K. M. F. (2017). Wireless Body Area Network: An
Overview and Various Applications. Journal of Computer and Communications,
05(07), 53–64. [Link]
Azzabi, M. S., Kouki, S., & Jemni, M. (2018). Towards using wearable technologies
in mobile learning. 2017 6th International Conference on Information and
Communication Technology and Accessbility, ICTA, 1–6. [Link]
ICTA.2017.8336065
Ching, K. W., & Singh, M. M. (2016). Wearable Technology Devices Security and
Privacy Vulnerability Analysis. International Journal of Network Security & Its
Applications, 8(3), 19–30. [Link]

212 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Chuan, C. (2016). Designing SmartSignPlay : An Interactive and Intelligent American


Sign Language App for Children who are Deaf or Hard of Hearing and their
Families. International Conference on Intelligent User Interfaces, 45–48. https://
[Link]/10.1145/2876456.2879483
Çiçek, M. (2015). Wearable Technologies and Its Future Applications. ISER Science Plus
International Conference. Retrieved from [Link]
[Link]
Gonçalves, C., Ferreira da Silva, A., Gomes, J., & Simoes, R. (2018). Wearable E-Textile
Technologies: A Review on Sensors, Actuators and Control Elements. Inventions,
3(1), 14. [Link]
Haghi, M., Thurow, K., & Stoll, R. (2017). Wearable devices in medical internet of things:
Scientific research and commercially available devices. Healthcare Informatics
Research, 23(1), 4–15. [Link]
Hussain, J., Ahmed, S., Ahmed, N., Shah, R., Bhutto, Z., & Ali, R. (2017). Conceptual
Model for WWBAN (Wearable Wireless Body Area Network). International Journal
of Advanced Computer Science and Applications, 8(1). [Link]
ijacsa.2017.080147
Jemni, M., & Nasraoui, O. (2009). Automatic Recommendations for E-Learning
Personalization Based on Web. Educational Technology & Society, 12, 30–42.
Jiang, H., Chen, X., Zhang, S., Zhang, X., Kong, W., & Zhang, T. (2015). Software for
wearable devices: Challenges and opportunities. Proceedings - International
Computer Software and Applications Conference, 592–597. [Link]
org/10.1109/COMPSAC.2015.269
Kaschel, H., Alvarado, J., & Torres, V. (2014). Redes de Area Corporal Inalámbricos :
Requisitos, Desafíos e Interferencias. Congreso Internacional De
Telecomunicaciones Senacitel. Retrieved from [Link]
publication/284174458%0D
Khakurel, J., Porras, J., & Pöysä, S. (2018). The Use of Wearable Devices in the Workplace
- A Systematic Literature Review, 233(October). [Link]
319-76111-4
Kilic, T., Brunner, V., Audoly, L., & Carrara, S. (2017). Smart e-Patch for drugs monitoring
in schizophrenia. International Conference on Electronics, Circuits and Systems,
ICECS, 57–60. [Link]
Nakasugi, H., & Yamauchi, Y. (2002). Past viewer: Development of wearable learning
system for history education. Proceedings - International Conference on Computers
in Education, ICCE, 1311–1312. [Link]
Ravi, D., Wong, C., Lo, B., & Yang, G. (2017). reporting : The construction of a culture-
specific, 12(1), 106–137. [Link]

RISTI, N.º E22, 08/2019 213


Wearable devices, the next generation of mobile devices: Main features and uses

Saa, P., Mosocoso-Zea, O., & Lujan-mora, S. (2017). Bring Your Own Device ( BYOD ):
Students Perception - Privacy Issues A new trend in education ? In Information
Technology Based Higher Education and Training (ITHET) doi: 10.1109/
ITHET.2017.8067824.
Santos, D. A. A., Szturm, D. R., Castro, L. X., Hannum, J. S. S., & Barbosa, T. A.
(2018). Wearable device for literacy activities with people with down syndrome.
2017 Undergraduate Research Technology Conference, URTC 1–4. [Link]
org/10.1109/URTC.2017.8284204
Seneviratne, S., Hu, Y., Nguyen, T., Lan, G., Khalifa, S., Thilakarathna, K., … Seneviratne,
A. (2017). A Survey of Wearable Devices and Challenges. Communications Surveys
and Tutorials, 19(4), 2573–2620. [Link]
Smita Jhajharia, S. K. Pal, & Seema Verma. (2014). Wearable Computing and its
Application. International Journal of Computer Science and Information
Technologies, Vol. 5(4), 1–6. Retrieved from [Link] 5/
vol5issue04/[Link]
Yordanova, K. (2008). Mobile learning and integration of advanced technologies in
education, 1. [Link]

214 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 17/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 19/07/2019

Algoritmo para la selección de instancias en


problemas de clasificación basado en arreglos de
cobertura

Jhonattan Solarte-Martinez, Carlos Cobos, Martha Mendoza

josoma@[Link], ccobos@[Link], mmendoza@[Link]

Grupo de I+D en Tecnologías de la Información (GTI), Universidad del Cauca, Sector Tulcán Edificio FIET
Oficina 422, Popayán, Colombia
Pages: 215–229

Resumen: En minería de datos y big data, contar con datos de buena calidad es
muy importante, por esto en la preparación de estos se contempla entre otras, con
la actividad de selección de instancias. Este artículo presenta un nuevo método de
selección de instancias basado en arreglos de cobertura. El método propuesto se
evaluó y comparó frente a dos clasificadores tradicionales del área, C4.5 (J48 de Weka)
y KNN sobre 26 datasets completos (sin reducción). Los resultados experimentales
son mejores, tanto en la calidad de la clasificación como en el porcentaje de reducción
de instancias, ya que, usando el algoritmo propuesto se logró disminuir el error
de clasificación de 19,4% a 16,9% con fuerza 2 y a 17,6% con fuerza 3, y reducir el
porcentaje de instancias en promedio en un 39.6% (fuerza 2) y un 43.7% (fuerza 3)
para C4.5. Resultados que son similares a los obtenidos para KNN.
Palabras-clave: Algoritmos de clasificación; arreglos de cobertura; Selección de
instancias; KNN; C4.5.

Algorithm for instance selection in classification problems based on


Covering Arrays

Abstract: In data mining and big data, having good quality data is very important,
therefore in the preparation of these is contemplated among others, with the activity
of instance selection. This paper presents a new method for instance selection based
on covering arrays. The proposed method was evaluated and compared against
two traditional classifiers, C4.5 (J48 in Weka) and KNN over 26 complete datasets
(without reduction). The experimental results are better, both in the quality of the
classification and in the percentage of reduction of instances, since the classification
error was reduced from 19.4% to 16.9% with strength 2 and to 17.6% with strength
3, and reducing the percentage of instances on average by 39.6% (strength 2) and
43.7% (strength 3) for C4.5. Results that are similar to those obtained for KNN.
Keywords: Classification algorithms; Covering Arrays; Instance selection;
KNN; C4.5.

RISTI, N.º E22, 08/2019 215


Algoritmo para la selección de instancias en problemas de clasificación basado en arreglos de cobertura

1. Introducción
El descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases,
KDD) es el área donde se busca extraer conocimiento útil de grandes conjuntos de datos,
pero los datos primero deben ser pre procesados o depurados. Uno de los pasos más
importantes del preprocesamiento en KDD es la selección de instancias o selección de filas.
El problema de selección de instancias, busca eliminar instancias (filas o registros)
ruidosas, repetidas, erróneas o poco útiles, creando un conjunto de datos más pequeño
que permite predecir la clase de una instancia nueva con la misma precisión (o más alta)
que con el conjunto original completo (Blachnik, 2019). Este proceso de reducción de
datos se vuelve cada vez más importante en muchas aplicaciones, debido a la necesidad
de eficiencia de procesamiento y de almacenamiento (Huan & Motoda, 2001).
El algoritmo KNN, es uno de los más importantes en el aprendizaje automático. Este
algoritmo calcula la distancia entre una instancia a clasificar y cada instancia del conjunto
de entrenamiento. A la nueva instancia a clasificar se le asigna la clase predominante
de las K instancias más cercanas o vecinas. El algoritmo KNN no es practico para
trabajar con dataset grandes, ya que este demanda muchos recursos computacionales
en almacenamiento y tiempo de procesamiento (Wu et al., 2008). En el estado del arte
se presentan diferentes estrategias o métodos para la selección de instancias, muchos
de ellos aplicados a KNN, estos métodos se organizan en dos grupos principales, los
basados en muestreo y los basados en selección de prototipos.
Teniendo en cuenta que uno de los enfoques de solución para la selección de instancias
es el muestreo, en este trabajo se considera el uso de los arreglos de cobertura como
una alternativa factible para proponer un nuevo método. Los arreglos de cobertura
denotados como CA (Covering Arrays), son objetos combinatorios derivados de los
arreglos ortogonales que pueden ser usados para diversos fines (Timaná-Peña, Cobos,
& Torres-Jimenez, 2016), entre ellos, el diseño de experimentos y la automatización de
pruebas de hardware y software.
Los CA permiten generar el menor número de casos de prueba para cubrir todos los
conjuntos de interacciones entre los parámetros objeto de estudio. Estos arreglos tienen
cardinalidad mínima (reducen al mínimo el número de casos de prueba) y cobertura
máxima (garantizan cubrir todas las combinaciones entre los parámetros de entrada
basado en un parámetro denominado fuerza, que define el nivel de la interacción que
se desee cubrir) (Timaná-Peña et al., 2016). Por esto último, es que se les considera una
estrategia viable para la selección de instancias.
En este artículo, se propone un método para selección de instancias basado en arreglos
de cobertura, teniendo en cuenta diferentes niveles de interacción (fuerza) entre las
diferentes instancias del dataset y con la habilidad de trabajar sobre grandes volúmenes
de datos, buscando mantener o mejorar la calidad de la clasificación y reducir
significativamente el tamaño del dataset. Los resultados experimentales muestran que
el método propuesto tiene un buen desempeño en términos de precisión de clasificación
y tasa de reducción de instancias.

216 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

El resto del documento se organiza de la siguiente manera. La sección 2 presenta un


resumen del estado del arte en selección de instancias. Luego en la sección 3 se presentan
formalmente los arreglos de cobertura. Después en la sección 4 se describe el método
propuesto para selección de instancias basado en arreglos de cobertura. A continuación,
en la sección 5 se muestran los resultados experimentales y se discuten los mismos.
Finalmente, en la sección 6 se presentan las conclusiones y el trabajo que el grupo de
investigación espera desarrollar en el futuro cercano.

2. Trabajos relacionados
A continuación, se presentan los trabajos relacionados (estado del arte) más importantes
en la selección de instancias teniendo en cuenta las dos estrategias principales: Muestreo
y selección de prototipos (Blachnik, 2019)(Olvera-López, Carrasco-Ochoa, Martínez-
Trinidad, & Kittler, 2010).

2.1. Muestreo
El objetivo de las técnicas de muestreo es obtener una muestra representativa, es decir,
una muestra en la que las instancias seleccionadas representen con precisión la población,
donde la aleatoriedad tiene un papel importante. Por supuesto, obtener una muestra
representativa de un gran volumen de datos, es una tarea especialmente desafiante, dada
su naturaleza cambiante y su complejidad cada vez mayor en relación con el número de
instancias. Sin embargo, los métodos ampliamente aceptados para obtener muestras
son múltiples, incluyendo (Webb & Wang, 2016): muestreo aleatorio donde resalta la
propuesta Random Mutation Hill Climbing (RMHC), muestreo estratificado, muestreo
por agrupamiento, muestreo sistemático, muestreo de múltiples capas, muestreo doble
o en dos fases y muestreo progresivo.

2.2. Selección de Prototipos


Los métodos de selección de prototipos reducen el conjunto de entrenamiento a pocas
muestras altamente representativas. Esta técnica de selección de instancias busca crear
subconjuntos de instancias que tengan mejores porcentajes de clasificación empleando
la regla del vecino más cercano (NN) (Ramírez-Gallego, Krawczyk, García, Woźniak,
& Herrera, 2017), se dividen en 4 grupos principales: basado en reglas del vecino más
cercano, basados en eliminación ordenada, basados en algoritmos evolutivos y basados
en longitud de codificación.
Selección basada en reglas del vecino más cercano (NN): Un algoritmo NN
(nearest neighbors) busca conseguir un subconjunto del dataset de entrenamiento, que
sirva para obtener la tasa de clasificación máxima con el clasificador KNN. Las desventajas
más importantes de estos algoritmos incluyen: No obtienen buenos resultados con
valores ruidosos ni con atributos irrelevantes; Son computacionalmente costosos, ya que
guardan todas las instancias de entrenamiento; y el rendimiento depende de la elección

RISTI, N.º E22, 08/2019 217


Algoritmo para la selección de instancias en problemas de clasificación basado en arreglos de cobertura

de la función de similitud para calcular la distancia entre dos instancias. A continuación,


se presentan los algoritmos más relevantes basados en NN (Cano, Herrera, & Lozano,
2003):
•• Vecino más cercano condensado (CNN): CNN o Condensed Nearest
Neighbour busca un subconjunto S que logre clasificar correctamente todos los
datos restantes en el conjunto de muestra T. Este algoritmo elige aleatoriamente
una instancia de cada clase y las agrega a S (que al inicio está vació). Luego,
cada instancia en T se clasifica con KNN usando solamente las instancias de S y
si se clasifica incorrectamente se adiciona a S. El proceso se repite hasta que no
existan instancias en el subconjunto T que se clasifiquen incorrectamente (Hart,
2004). CNN se ha convertido en un punto de referencia con el que se comparan
la mayoría de los otros algoritmos.
•• Vecino cercano selectivo (SNN): Ritter et al (Ritter, Woodruff, Lowry, &
Isenhour, 1975) extendieron el método CNN creando Selective Nearest Neighbor
o SNN, de manera que cada miembro de T debe estar más cerca de un miembro
de S de la misma clase que de cualquier miembro de T de una clase diferente. El
método garantiza un subconjunto mínimo que satisface estas condiciones.
•• Aprendizaje basado en instancias (IBL, IB2, IB3, TIBL, BIBL):
Los algoritmos IBL (Instance Based Learning) no mantienen un conjunto de
abstracciones del modelo creado a partir de las instancias, en lugar de eso, analizan
cómo se puede reducir significativamente el requisito de almacenamiento, con
la menor pérdida en la velocidad de aprendizaje y la precisión. Además, busca
que se logre trabajar con instancias ruidosas, ya que muchos conjuntos de datos
de la vida real tienen instancias de entrenamiento muy diferentes y KNN no
funcionan bien con el ruido (Kibler & Aha, 2014).
•• Filtrado iterativo de casos (ICF): ICF (Iterative Case Filtering) busca
seleccionar las instancias que clasifican más prototipos correctamente. Este
algoritmo utiliza la cobertura y otros conceptos accesibles para llevar a cabo la
selección (Brighton & Mellish, 2002). ICF elimina las instancias cuyo alcance sea
mayor a su cobertura, es decir, una instancia I se elimina cuando otras instancias
brindan la misma información que I. ICF filtra las muestras empleando ENN.
Selección basada en eliminación ordenada: Esta técnica busca la reducción de
instancias tolerando el ruido, alta precisión de generalización, insensibilidad al orden
de presentación de las instancias y significativa reducción de almacenamiento, que a su
vez mejora la velocidad de generalización (Wilson & Martinez, 2000)and can cause an
oversensitivity to noise. This paper has two main purposes. First, it provides a survey
of existing algorithms used to reduce storage requirements in instance-based learning
algorithms and other exemplar-based algorithms. Second, it proposes six additional
reduction algorithms called DROP1–DROP5 and DEL (three of which were first described
inWilson & Martinez, 1997c, as RT1–RT3. Los algoritmos DROP1 a DROP5, se basan en
la eliminación ordenada de instancias. Esta colección de heurísticas se utiliza para decidir
qué instancias se deben mantener y qué instancias se deben eliminar de un conjunto
de entrenamiento. A diferencia de los métodos anteriores, estos algoritmos toman una
cuidadosa nota del orden en que se eliminan las instancias (Wilson & Martinez, 2000)

218 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

and can cause an oversensitivity to noise. This paper has two main purposes. First, it
provides a survey of existing algorithms used to reduce storage requirements in instance-
based learning algorithms and other exemplar-based algorithms. Second, it proposes six
additional reduction algorithms called DROP1–DROP5 and DEL (three of which were
first described inWilson & Martinez, 1997c, as RT1–RT3.
Selección basada en algoritmos evolutivos: Como la reducción de datos se puede
ver como un problema de búsqueda, este se puede resolver utilizando algoritmos
evolutivos (Cano et al., 2003). La idea básica es mantener una población de cromosomas
(individuos), que representan soluciones plausibles al problema que evolucionan con el
tiempo a través de un proceso de competencia y variación controlada. Los algoritmos
evolutivos han obtenido resultados prometedores en la selección de instancias (Reeves
& Bush, 2001). Uno de los algoritmos representativos de este enfoque en selección
de instancias es Cross generational elitist selection Heterogeneous recombination
Cataclysmic mutation algorithm (CHC).
Selección basada en longitud de codificación (EL): estos algoritmos se inspiraron
en el principio de Encoding Length o EL de Cameron-Jones (Cameron-Jones, 1995), el
cual determina qué tan bueno es el subconjunto S al describir T. El algoritmo básico
comienza con una fase de crecimiento que toma cada instancia i en T y la agrega a S, si eso
da lugar a un costo menor que al no agregarla. Al igual que con IB3, la fase de crecimiento
puede verse afectada por el orden de presentación de las instancias (Wilson & Martinez,
2000)and can cause an oversensitivity to noise. This paper has two main purposes.
First, it provides a survey of existing algorithms used to reduce storage requirements
in instance-based learning algorithms and other exemplar-based algorithms. Second,
it proposes six additional reduction algorithms called DROP1–DROP5 and DEL (three
of which were first described inWilson & Martinez, 1997c, as RT1–RT3. El método
Encoding Length Grow (ELGrow) realiza la reducción de instancias, eliminando cada
instancia i en S, sólo si al hacerlo se reduce el costo del clasificador. El método Explore
comienza con el crecimiento y la reducción de S utilizando el método ElGrow, y luego
realiza 1000 mutaciones para tratar de mejorar el clasificador. Cada mutación intenta
agregar una instancia a S, eliminando una de S o intercambiando una en S con una en
T - S, y mantiene el cambio si no aumenta el costo del clasificador.

3. Arreglos de cobertura
Los Arreglos de cobertura son objetos matemáticos en los que se evalúan varios
factores, parámetros o variables de interés, en donde cada factor contiene un cierto
número de posibilidades o valores. Sus aplicaciones abarcan el diseño de experimentos,
biología, análisis de fallas en ingeniería, entre otras (Timaná-Peña et al., 2016), y más
recientemente las pruebas de calidad de software y hardware y el proceso de selección
de características en minería de datos (Dorado, Cobos, Torres-Jimenez, Jimenez, &
Mendoza, 2018; Villegas, Cobos, Mendoza, & Herrera-Viedma, 2018; Vivas, Cobos, &
Mendoza, 2019).
Un CA se denota por CA(N; k, v, t), que corresponde a una matriz de N filas y k columnas,
donde N es el número de experimentos o pruebas, k el número de factores o parámetros,

RISTI, N.º E22, 08/2019 219


Algoritmo para la selección de instancias en problemas de clasificación basado en arreglos de cobertura

v es el número de símbolos (valores posibles) por cada parámetro, conocido también


como alfabeto y t es el grado de interacción entre los parámetros, denominado fuerza.
La Ilustración 1 muestra el CA (5; 2, 4, 2), lo cual indica que es una matriz de 5 filas o
casos de prueba (N = 5); cuatro factores (k = 4); alfabeto binario (v = 2), es decir cada
celda solo tiene los valores de 0 o de 1; y que tiene fuerza dos (t = 2). La característica
especial que tienen los CA es que cualquier conjunto t de columnas que se extraigan del
arreglo, contiene todas las combinaciones posibles de vt tuplas en al menos una de las
filas, que para este caso significa que siempre existen las posibles tuplas [(0,0), (0,1),
(1,0) y (1,1)] en cualquier combinación de a 2 columnas (fuerza 2).

Ilustración 1 – Ejemplo de un CA binario de fuerza 2.

Respecto a los CAs y la selección de instancias, en esta investigación se establece que


usando un CA binario, el valor de 0 representa la ausencia de una instancia y el valor de
1 la presencia de esta en el dataset de muestra, en este sentido, cada fila de un CA binario
se utiliza como una referencia que sugiere un subconjunto de instancias candidatas a ser
parte de un conjunto de entrada a un Modelo de Aprendizaje Supervisado (MAS), que
en este caso puede ser cualquiera, no solamente KNN, de manera que sí se construyen
varios modelos dados por dichos subconjuntos y se evalúan con un criterio de calidad
apropiado, se cuenta con un nuevo algoritmo de selección de instancias que utiliza como
criterio de búsqueda un CA binario. El éxito de encontrar el mejor subconjunto depende
en este caso del número de interacciones posibles que el arreglo haya tomado en cuenta,
lo cual puede ser controlado con el parámetro fuerza (t).
El CA de la Ilustración 1 tiene cuatro factores (k=4), lo que indica que sirve para
trabajar con datasets de hasta 4 instancias (filas o registros). Por ejemplo, si un dataset
tiene las siguientes instancias: {carro; avión; bicicleta; motocicleta}. El CA genera 5
casos de prueba: {}, {avión; bicicleta; motocicleta}, {carro; bicicleta; motocicleta},
{carro; avión}, {carro; avión; bicicleta}. El tercer caso de prueba del CA es {1,0,1,1}, en
esta investigación el 1 representa la presencia de la instancia, es por ello, que el caso de
prueba resultante es {carro; bicicleta; motocicleta}.

4. Algoritmo propuesto
El algoritmo propuesto toma el dataset T, calcula el número de filas, busca en un
repositorio (base de datos), el CA que cuente con la cobertura apropiada para este
dataset con base en la fuerza f que el usuario defina. Después recorre una a una, las filas
del CA, creando un dataset S basado en la configuración de cada fila del CA (este define
qué instancias se incluyen o no en el nuevo dataset). Sobre cada dataset se ejecuta el

220 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

algoritmo de clasificación o MAS seleccionado (KNN, C4.5, Random Forest o cualquier


otro), guardando el resultado de la ejecución y pasa a la siguiente fila del CA. Al terminar
de recorrer todas las filas del CA, ordena los resultados utilizando el frente de Pareto
para seleccionar las mejores soluciones y deja al usuario la decisión de escoger cual
considera la mejor.
En la experimentación se asume que el usuario escoge aquella solución que tiene el
menor porcentaje de instancias incorrectamente clasificadas (pct) y el mejor número de
registros (mayor reducción del dataset), teniendo en cuenta el mismo peso para ambos
criterios, aunque el usuario en la vida real puede determinar dar mayor peso a uno
de estos dos criterios. La Tabla 1 resume el algoritmo para la selección de instancias
basado en arreglos de cobertura.
La función ObtenerCoveringArray (T, f), recibe como parámetro el dataset completo y
la fuerza del CA. Esta función permite identificar cual CA del repositorio (actualmente se
cuenta con CAs binarios de fuerza 2 a 6 hasta con 24310 filas para fuerza 2, hasta 10648
filas para fuerza 3 y así sucesivamente hasta 1373 filas para fuerza 6) se selecciona teniendo
en cuenta la fuerza seleccionada y el número de registros del dataset. Si un dataset tiene
un tamaño que supera el CA que provee el máximo número de casos de prueba, se debe
dividir dicho dataset y buscar el CA ideal para cada partición, lo que implica ejecutar el
mismo proceso de selección de instancias por cada partición (a la fecha esto no ha sido
evaluado con la experimentación realizada y se establece como trabajo futuro).
La función crearCasoPrueba (T, fila), recibe como parámetro el dataset completo y una
fila del CA, dicha fila está compuesta por columnas binarias, las cuales indican presencia
o ausencia de una instancia. La función lee cada columna de la fila actual del CA, y si el
valor es 1, indica que la instancia de la misma posición debe estar presente en el nuevo
caso de prueba o dataset.
Otra función importante en el algoritmo se denomina seleccionarResultados
(listaResultados). Esta rutina permite identificar cual es la mejor solución obtenida
entre todos los casos de prueba, para ello utiliza un frente de Pareto como se muestra
en Ilustración 2. En donde el eje Y, corresponde al porcentaje de error (instancias
incorrectamente clasificadas), y el eje X, muestra el porcentaje del tamaño original del
dataset, es decir, si el dataset original tiene 1000 instancias, y se genera un dataset de
350 instancias, este tendrá un 35% del tamaño original. Los puntos representan los
casos de prueba (datasets reducidos) que se generaron a partir de las filas del CA. El
punto C no está en el Frente de Pareto dado que es dominado por A y B, los cuales a
su vez no son dominados por ningún otro punto, por lo tanto, están en el Frente. Para
los experimentos, el punto seleccionado como el mejor, será aquel que tenga la menor
distancia Euclidiana al origen, en este caso es el punto B.

Entradas: T Dataset de entrenamiento con todos los datos


f Fuerza requerida para el arreglo de cobertura
MAS Algoritmo de clasificación a ejecutar
Salida: Un dataset S con el dataset de muestra seleccionado y el porcentaje de
instancias correctamente clasificadas (pct), y el número de instancias
seleccionadas en S.

RISTI, N.º E22, 08/2019 221


Algoritmo para la selección de instancias en problemas de clasificación basado en arreglos de cobertura

Inicio
listaResultados = Vacío
coveringArray = ObtenerCoveringArray (T, f)
Para cada fila ∈ coveringArray haga
S = crearCasoPrueba (T, fila)
pct = ejecutarAlgoritmoClasificacion (S, MAS)
Agregar pct, S y |S| a listaResultados
Fin Para
mejoresResultados = seleccionarResultados (listaResultados)
Fin

Tabla 1 – Algoritmo de reducción de instancias basado en arreglos de cobertura

Ilustración 2 – Frente de Pareto.

El algoritmo retorna la lista de las mejores soluciones (frente de Pareto), aunque es


una decisión que se le puede dejar al usuario, como se mencionó previamente, para
efectos de dar una única respuesta en la experimentación, en este trabajo se selecciona
como mejor, la que tenga menor distancia euclidiana al origen (Zille, Kottenhahn, &
Mostaghim, 2017) (igual ponderación para los dos criterios).

5. Experimentación
La experimentación se realizó utilizando 26 datasets reconocidos como conjuntos
de prueba en varios estudios, a saber: Banknote, Blood, Car, Climate, Contraceptive,
Dermatology, Diabetes, Ecoli, Fertility, Glass, Haberman, Ionosphere, Iris, Leaf, Libras,
Planning, Qsarbiodegradation, Seeds, Segment, Sonar, Soybean, Spectf, Vowel, Wine,
Yeast y Zoo. La descripción detallada de estos se encuentra en el Repositorio de la
Universidad de California en Irvine (UCI) (Merz & Murphy, 1998).

222 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Para generar los casos de prueba basados en los CA, se usó una fuerza de 2 y de 3, ya
que estas fuerzas han mostrado resultados satisfactorios en términos de efectividad, en
experimentos similares en otras áreas, por ejemplo, una investigación del NIST (National
Institute of Standards and Technology) desarrollada entre 1999 y 2004 reporta que la
mayoría de los errores y fallas del software son causados por uno o dos parámetros, y
muchos menos por tres o más. A este hallazgo se le conoce como la regla de la interacción
y en concreto en pruebas de software implica que con fuerza 3 se logra una detección de
errores y fallos entre el 75% y 98% y con fuerza 6 se logra una virtual detección del 100%
(Kuhn, Kacker, & Lei, 2010). Experimentos futuros incluirán la evaluación de mayores
niveles de fuerza.
Teniendo en cuenta, que este algoritmo es sensible al orden de los datos, se decide
realizar 31 repeticiones del experimento por cada dataset, tomando diferente orden
en las filas y así calcular un valor promedio válido de error y reducción de instancias
(promedios que cumplan con el teorema del límite central).
En la Ilustración 3, se presenta el resumen de los resultados sobre los 26 datasets. El
promedio del porcentaje de error y el promedio del tamaño del dataset original usando
el algoritmo propuesto con fuerza 2 (f2) y fuerza 3(f3) con los clasificadores C4.5 (J48 de
Weka) y 1NN (KNN con k=1 en Weka) y el valor de error obtenido por los clasificadores
con el dataset completo. El menor promedio del porcentaje de error para cada dataset
se indica con negrita. Los promedios de error logrados con el algoritmo propuesto
que son menores al error del dataset completo se resaltan en amarillo, es decir, que la
propuesta aquí planteada mejoró la calidad de los resultados, disminuyendo el error,
y además el número de instancias. Por ejemplo, los resultados del dataset Blood al
aplicar la propuesta aquí planteada con CA de fuerza 2 y 3, y ejecutando el algoritmo
C4.5 obtiene los promedios de error 19,2% y 19,1% respectivamente, estos valores son
menores que el error obtenido al ejecutar el algoritmo C4.5 sobre el dataset completo
(22.7%), además se logra obtener un dataset con sólo el 41,4% (f2) y 45,4% (f3) del
tamaño del dataset original.
En la Ilustración 3 se muestra que el algoritmo aquí propuesto obtuvo para varios
datasets un promedio de porcentaje de error igual o menor que el porcentaje de error
utilizando el algoritmo de clasificación directamente sobre el dataset completo. Se
generaron 104 resultados del promedio de error, para los 26 datasets, con los algoritmos
C4.5, y KNN, con CA de fuerza 2 y 3, de los cuales 72 son menores o iguales (resaltados
en amarillo) que el error obtenido del dataset completo; 38 corresponden a fuerza 2 (18
de C4.5 y 20 de 1NN) y 34 son de fuerza 3 (16 de C4.5 y 18 de 1KK). También se puede
observar que el promedio de los errores obtenidos con los CA de f2 y f3 para el algoritmo
C4.5 son 16,9% y 17.6% respectivamente; de igual manera para el algoritmo 1NN son de
17.3% y 18%. Se puede observar que los resultados del promedio de error, con los CA de
f2 son ligeramente mejores frente a los CA de f3; Además, los CA de f2 obtienen datasets
más pequeños que con f3.

RISTI, N.º E22, 08/2019 223


Algoritmo para la selección de instancias en problemas de clasificación basado en arreglos de cobertura

Ilustración 3 – Resumen de resultados.

Teniendo en cuenta los resultados de C4.5 en la columna “promedio % error”, para el


método propuesto con fuerza 2, fuerza 3 y sin aplicar el método (dataset completo), en
los 26 datasets se realizó el test estadístico no paramétrico de Friedman y el ranking
que se obtuvo ubicó al método propuesto con fuerza 3 en la primera posición, luego el
de fuerza 2 y por último el dataset completo, sin embargo, este ranking no fue válido
estadísticamente hablando dado que el valor p de la prueba no fue menor que 0,05, en
este caso fue de (0,03952). Teniendo en cuenta que las tres opciones son comparables,
se toma como mejor opción al método propuesto con fuerza 2, ya que con este se obtiene
un menor costo computacional y adicionalmente el número de instancias que genera
con respecto al dataset original es menor.
La misma prueba estadística fue usada sobre los resultados de 1NN, en este caso, el
ranking en relación con el “promedio % error” fue el mismo (1-método propuesto fuerza
3, 2-método propuesto fuerza 2 y 3-dataset completo), con un valor p de 0,006 que lo
hace estadísticamente valido. Después se realizó el post hoc de Holm y como resultado

224 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

se obtuvo, que tanto el método en fuerza 3, como en fuerza 2, dominan los resultados
obtenidos con el dataset completo, con un 95% de significancia y que entre ellos (fuerza
3 y fuerza 2) no se puede establecer relación de dominancia. Teniendo en cuenta esto
último, también se seleccionó el método propuesto con fuerza 2 por las mismas razones
expresadas en la prueba estadística de C4.5, ya que usa menos tiempo de ejecución y
reduce más filas del dataset original.
Para mejorar la interpretación de los datos, se realizaron unos diagramas de cajas y
alambres sobre los resultados obtenidos con los CA de f2. Estos diagramas, buscan
resumir visualmente y comparar grupos de datos, utilizando la mediana, los cuartiles,
la dispersión y la simetría de la distribución de los datos. Además, permite identificar
los valores atípicos. Esta técnica permite identificar visualmente patrones que de otra
manera podrían estar ocultos en un conjunto de datos.
La Ilustración 4, muestra un diagrama de cajas y alambres, para los 31 resultados de
nuestra propuesta sobre el dataset Haberman, utilizando CA de fuerza 2 y el algoritmo
de clasificación 1NN. Este diagrama consiste en un rectángulo dividido por una línea
vertical indicando la posición de la mediana, a la derecha el tercer cuartil y a la izquierda
el primer cuartil, el segundo cuartil coincide con la mediana. El diagrama tiene como
extremos el valor mínimo (izquierda) y máximo (derecha) de los resultados. Las líneas
que se extienden del rectángulo, se denominan alambres o bigotes, los cuales tienen
un límite de prolongación. Cada dato que no se encuentre en ese rango, se dibuja
individualmente, como un valor atípico. En esta ilustración, la parte izquierda de la caja
es mayor que la ubicada a la derecha, esto implica que es asimétrica a la izquierda y los
porcentajes de error tienden a estar más entre 24,9699% y 27,0968%. El alambre de
la izquierda muestra el resultado menor esperado 22,2222%, sin embargo, existe un
resultado atípico, que se aleja de los valores esperados, 9,2593%, que es mucho menor a
la mayoría de los resultados.
La Ilustración 5 y la Ilustración 6, representan el resumen del porcentaje de error,
después de las 31 repeticiones de la propuesta planteada, utilizando CA de fuerza 2 y
los algoritmos C4,5 y 1NN. En estas ilustraciones se muestra que, la mayoría de los
resultados del porcentaje de error tienden a estar entre 0% y 30%. Al compararlas por
dataset sin importar el clasificador son bastante similares.

Ilustración 4 – Diagrama de cajas y alambres resultado para el dataset Haberman

RISTI, N.º E22, 08/2019 225


Algoritmo para la selección de instancias en problemas de clasificación basado en arreglos de cobertura

Ilustración 5 – Porcentaje de error con C4.5 usando CAs de fuerza 2

Ilustración 6 – Porcentaje de error con 1NN usando CAs de fuerza 2

En la Ilustración 7 y la Ilustración 8, se muestra el porcentaje de instancias con


respecto al dataset original (a qué porcentaje queda reducido el dataset original?) de
cada uno de los 26 datasets. En ellas se puede observar que el tamaño de cada dataset
resultante tiende al mismo tamaño en todos. Esto se debe, a que en la mayoría de
los casos se usaron CAs óptimos, por lo tanto, la cantidad de filas seleccionadas en
cada registro del CA en general tiende a ser el mismo valor. Por el ello el “Promedio
%Instancias” es muy similar, dando como resultado, datos que tienen medianas muy
similares, y pocos diagramas tienen alambres. Los casos con varianza alta son el
resultado de usar CAs más grandes de lo requerido en el dataset a los cuales se les
quitan algunas columnas y por dicha operación siguen siendo CAs, pero ya no son
óptimos. Para evitar esto se puede considerar un paso previo de optimización del CA
con un algoritmo voraz. En estas ilustraciones se evidencia que el comportamiento es
un tanto diferente de acuerdo con el clasificador que se use.

Ilustración 7 – Porcentaje de instancias con C4.5 usando CAs de fuerza 2

226 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Ilustración 8 – Porcentaje de instancias con 1NN usando CAs de fuerza 2

6. Conclusiones y trabajo futuro


En una era en que aumenta exponencialmente los volúmenes de datos, es vital mejorar
las técnicas de reducción de datos o selección de instancias, con el objetivo de hacer
más eficiente el preprocesamiento de datos en procesos de KDD. En este artículo, se
ha propuesto un algoritmo de selección de instancias enfocado en muestreo basado en
arreglos de cobertura. En los experimentos, se pudo observar que el rendimiento del
clasificador C4.5, en términos de precisión de clasificación y tasas de reducción de datos,
usando el algoritmo propuesto con CAs de fuerza 2 y fuerza 3 lograron disminuir el error
de clasificación de 19,4% a 16,9% (f2) y 17,6% (f3) en los 26 dataset, logrando además
reducir el porcentaje de instancias en promedio en un 39,6% (f2) y 43,7% (f3). Por otro
lado, en el algoritmo 1NN, se logró disminuir el error de clasificación de 20,3% a 17,3%
(f2) y 18% (f3), además los datasets se lograron reducir en un 38,3% (f2) y 42,5% (f3).
Estos resultados permiten afirmar que el algoritmo propuesto logra en promedio reducir
el porcentaje de error y el número de instancias de los datasets al mismo tiempo usando
C4.5 y 1NN. Cabe destacar, que esta propuesta es sensible al orden de las instancias en
los datasets, si este orden se altera, los resultados cambian, pero como se muestra en los
experimentos la variabilidad no es sustancial.
El trabajo futuro incluye: 1) incorporar más dataset de diferentes dominios de aplicación y
en especial que tengan grandes volúmenes de datos para aplicar el método particionando
el dataset. 2) comparar la propuesta con otros algoritmos de clasificación disponibles
en el estado del arte (Random Forest, Naïve Bayes, entre otros) y otros algoritmos de
reducción de instancias (RMHC, Explore, LVQ, MC1, DEL o C-Pruner). 3) realizar
experimentos usando CAs de fuerza 4 y 5 y analizar los resultados en conjunto con los
presentados en este artículo. 4) Evaluar el uso de arreglos de cobertura incrementales
(incremental covering arrays) binarios, que en un solo objeto incluyen diferentes niveles
de fuerza. Y 5) realizar la reducción de instancias usando iterativamente el algoritmo
propuesto, es decir, al resultado del algoritmo, se le aplica nuevamente el mismo
algoritmo y si todavía se mantiene la calidad o se mejora, se vuelve a aplicar hasta que
una medida de calidad detenga el proceso iterativo, esto permitiría obtener datasets
mucho más compactos.

RISTI, N.º E22, 08/2019 227


Algoritmo para la selección de instancias en problemas de clasificación basado en arreglos de cobertura

Referencias
Blachnik, M. (2019). Ensembles of instance selection methods: A comparative study.
International Journal of Applied Mathematics and Computer Science, 29(1),
151–168.
Brighton, H., & Mellish, C. (2002). Advances In Instance Selection For Instance-Based.
Data Mining and Knowledge Discovery, 6(2), 153–172.
Cameron-Jones, R. . (1995). Instance Selection by Encoding Length Heuristic with
Random Mutation Hill Climbing. In Eighth Australian Joint Conference on
Artificial Intelligence, Canberra (pp. 99-106).
Cano, J. R., Herrera, F., & Lozano, M. (2003). Using evolutionary algorithms as instance
selection for data reduction in KDD: An experimental study. IEEE Transactions on
Evolutionary Computation, 7(6), 561–575.
Dorado, H., Cobos, C., Torres-Jimenez, J., Jimenez, D., & Mendoza, M. (2018). A
Proposal to Estimate the Variable Importance Measures in Predictive Models Using
Results from a Wrapper. Lecture Notes in Computer Science, 11308, 369–383.
Hart, P. (2004). The condensed nearest neighbor rule (Corresp.). IEEE Transactions on
Information Theory, 14(3), 515–516.
Huan, L., & Motoda, H. (2001). Instance Selection and Construction for Data Mining.
Springer, Boston, MA. [Link]
Kibler, D., & Aha, D. W. (2014). Learning Representative Exemplars of Concepts:
An Initial Case Study. In Proceedings of the Fourth International Workshop on
Machine Learning (pp. 24–30). [Link]
5.50006-4
Kuhn, D. R., Kacker, R. N., & Lei, Y. (2010). SP 800-142. Practical Combinatorial
Testing. Gaithersburg, MD, United States: National Institute of Standards &
Technology. [Link]
Merz, C. J., & Murphy, P. M. (1998). UCI repository of machine learning databases.
Retrieved November 1, 2018, from [Link]
Olvera-López, J. A., Carrasco-Ochoa, J. A., Martínez-Trinidad, J. F., & Kittler, J. (2010).
A review of instance selection methods. Artificial Intelligence Review, 34(2),
133–143.
Ramírez-Gallego, S., Krawczyk, B., García, S., Woźniak, M., & Herrera, F. (2017). A
survey on data preprocessing for data stream mining: Current status and future
directions. Neurocomputing, 239, 39–57.
Reeves, C. R., & Bush, D. R. (2001). Using Genetic Algorithms for Training Data Selection
in RBF Networks. In Instance Selection and Construction for Data Mining (pp.
339–356). [Link]

228 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Ritter, G. L., Woodruff, H. B., Lowry, S. R., & Isenhour, T. L. (1975). An Algorithm for
a Selective Nearest Neighbor Decision Rule. IEEE Transactions on Information
Theory, 21(6), 665–669.
Timaná-Peña, J., Cobos, C., & Torres-Jimenez, J. (2016). Metaheuristic algorithms for
building Covering Arrays: A review. Revista Facultad de Ingeniería, 25(43), 31–45.
Villegas, J., Cobos, C., Mendoza, M., & Herrera-Viedma, E. (2018). Feature Selection
Using Sampling with Replacement, Covering Arrays and Rule-Induction Techniques
to Aid Polarity Detection in Twitter Sentiment Analysis. Lecture Notes in Computer
Science, 11238, 467–480.
Vivas, S., Cobos, C., & Mendoza, M. (2019). Covering Arrays to Support the Process
of Feature Selection in the Random Forest Classifier. Lecture Notes in Computer
Science, 11331, 64–76.
Webb, L. M., & Wang, Y. (2016). Techniques for Sampling Online Text-Based Data Sets.
In Big Data (pp. 655-675). [Link]
Wilson, D. R., & Martinez, T. R. (2000). Reduction Techniques for Instance-Based
Learning Algorithms. Machine Learning, 38, 257–286.
Wu, X., Kumar, V., Ross Quinlan, J., Ghosh, J., Yang, Q., Motoda, H., … Steinberg, D.
(2008). Top 10 algorithms in data mining. Knowledge and Information Systems,
14(1), 1–37.
Zille, H., Kottenhahn, A., & Mostaghim, S. (2017). Dynamic Distance Minimization
Problems for dynamic multi-objective optimization. In 2017 IEEE Congress on
Evolutionary Computation, CEC 2017 - Proceedings (pp. 952–959). [Link]
org/10.1109/CEC.2017.7969411

RISTI, N.º E22, 08/2019 229


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 29/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 19/07/2019

Modelo de evaluación del Dominio Control de


Acceso de la norma ISO 27002 aplicado al proceso de
Gestión de Bases de Datos

Susana Patiño1, Alexander Caicedo1, Erika Reina Guaña2

[Link]@[Link], romario20030@[Link], ereina2804@[Link]

Pontificia Universidad Católica del Ecuador Sede Esmeraldas, 080100, Esmeraldas, Ecuador.
Unidad Educativa Fiscomisional Sagrado Corazón, 080101, Esmeraldas, Ecuador.
Pages: 230–241

Resumen: en el presente estudio se realizó el análisis de las vulnerabilidades del


proceso de Gestión de bases de datos de dos instituciones basado en el dominio
control de acceso de la norma internacional ISO 27002 y el modelo de madurez de la
administración de la seguridad de la información (ISM3). Se establecieron 14 preguntas
organizadas en 4 categorías: requisitos de negocio para el control de acceso, control de
acceso a sistemas y aplicaciones, responsabilidad del usuario y gestión de acceso de
usuario. Se aplicó tres técnicas: la entrevista, observación y una prueba técnica que se
ejecutó con el fin de evaluar cada una de las categorías. Se evidenció que la empresa
A obtuvo el nivel de madurez controlado, a diferencia de la empresa B que obtuvo
administrado. Por último, se presenta los mecanismos de seguridad que son utilizados
para mitigar las vulnerabilidades del proceso de gestión de bases de datos.
Palabras-clave: gestor de base de datos; control de acceso; vulnerabilidades en
base de datos; ISO 27002; ISO 27001

Abstract: in this study, the analysis of the vulnerabilities of the Database


Management process of two institutions was conducted based on the access control
domain of the international standard ISO 27002 and the maturity model of the
information security administration (ISM3). 14 questions organized in 4 categories
were established: business requirements for access control, access control to
systems and applications, user responsibility and user access management. Three
techniques were applied: the interview, observation and a technical test that was
executed in order to evaluate each of the categories. It was evidenced that company A
obtained the level of maturity controlled, unlike company B that obtained managed.
Finally, the security mechanisms that are used to mitigate the vulnerabilities of the
database management process are presented.
Keywords: database manager; access control; database vulnerabilities; ISO
27002; ISO 27001.

230 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

1. Introducción
Con el surgir de nuevas tecnologías aparecen nuevos ataques que infringen la seguridad
de los sistemas informáticos lo que provoca una mayor demanda de controles o
salvaguardas para la protección de la información. Sin embargo, algunas organizaciones
dejan de lado la seguridad informática, al ser un ámbito de incredulidad por parte de
dueños de las empresas y ejecutivos, al estimar que no les ocurrirá y no proveen posibles
intromisiones a sus sistemas, por esta razón no cuentan con especialistas o herramientas
para detectar el fraude informático (Burgos y Campos, 2008). Por lo tanto, los activos
que almacenan la información crítica de la empresa tienen vulnerabilidades que son
utilizadas por los atacantes informáticos, y su objetivo principal por lo general es el
acceso a las bases de datos de la organización. Saraswat y Tripathi (2014), indican muchas
formas en que una base de datos es comprometida, por esta razón es necesario enfocarse
en un marco de trabajo que proporcione guías de buenas prácticas, que salvaguarden
la gestión de la seguridad de la información de los interesados (Solarte, Enriquez y del
Carmen, 2015).
En respuesta, la Organización Internacional de Estandarización (ISO) propone la
norma ISO 27000 que permite planificar, ejecutar, verificar y proceder ante fallos e
interrupciones en la seguridad de la información de las infraestructuras (Disterer, 2013).
Específicamente, la norma ISO 27002, interviene en el proceso de implementación de un
sistema de gestión de seguridad de la información, mediante restricciones, excepciones
y controles aplicables como medidas de seguridad informática y a la seguridad de la
información en forma de políticas y procedimientos (Valencia y Orozco, 2017; Solarte,
Enriquez y del Carmen, 2015). La norma se diseñó para ser usada como referencia a
la hora de seleccionar controles dentro del proceso de implantación de un Sistema
de Gestión de Seguridad de la Información (SGSI) o bien como documento guía para
organizaciones que implementen controles de seguridad de la información comúnmente
aceptados (ISO/IEC 27002, 2013).
En el presente trabajo se define un modelo de evaluación de acceso a las bases de datos
de acuerdo con los controles propuestos por la norma ISO 27002. El modelo consiste en
un grupo de 4 componentes basados en las categorías del dominio 9 control de acceso,
y ayuda a determina el nivel de madurez de la seguridad de la información que tiene
la administración de las base de datos verificando el cumplimiento y eficiencia de los
controles implementados.
El presente trabajo está estructurado de la siguiente forma: en la Sección 2 se detalla los
trabajos relacionados, Sección 3 el dominio control de acceso basado en la ISO 27002.
Sección 4 se enmarca el modelo de evaluación y la Sección 5 la metodología. Por último,
la Sección 6 los resultados de la evaluación y en la Sección 7 las conclusiones y trabajos
futuros.

2. Trabajos relacionados
Las empresas implementan sistema de base de datos con el fin de administrar sus datos
y proveer la información a los sistemas informáticos que son utilizados por los usuarios
en la ejecución de sus actividades diarias. Si embargo el control de acceso es la principal

RISTI, N.º E22, 08/2019 231


Modelo de evaluación del Dominio Control de Acceso de la norma ISO 27002 aplicado al proceso de Gestión de Bases de Datos

preocupación de las violaciones de seguridad causadas por intrusos. Quisbert (2014), en


su investigación para mitigar las vulnerabilidades que existen en las bases de datos. El
sistema utilizó agentes inteligentes, almacenados en una base de datos de conocimiento,
bajo un patrón de vulnerabilidad, con el fin de avisar a tiempo sobre alguna vulneración.
El autor indicó que el 70% de las vulnerabilidades son internas y el 30% externas.
En el estudio con el tema “Solución basada en el Razonamiento Basado en Casos para el
apoyo a las auditorías informáticas a bases de datos”, de los autores Azán et al. (2014),
se realizó un proceso de auditoría a los Sistemas Gestores de Bases de Datos (SGBD),
en el Departamento de Seguridad Informática a través de matrices de diagnóstico o
listas de chequeo. Los expertos determinaron los niveles de riesgos de la seguridad de
la información en alto, medio y bajo después de un análisis de los SGBD. El estudio
tuvo como resultado la construcción de un sistema que permite monitorear los SGBD:
PostgreSQL, MySQL, SQL Server y Oracle.

3. Dominio Control de Acceso aplicado a la gestión de Base de Datos


La información es el activo más importante en las empresas debido a su uso para la
ejecución normal de las actividades del personal y la fuente para la toma de decisiones
críticas de los stakeholders. Sin embargo, la información más sensible esta almacenada
en los servidores, especialmente en los gestores de base de datos, bajo la responsabilidad
del área de Tecnología de la Información y Comunicación (TIC) y debe ser salvaguardada
adecuadamente contra el robo y manipulación de personal no autorizado.
Por otra parte, la ISO propone la familia 27000, con el fin de proporcionar directrices
para mantener la integridad, confidencialidad y disponibilidad de la información a través
de la implementación de un SGSI. La norma ISO 27001 plantea requisitos tangibles y
obligatorios para la implementación de un SGSI y proporciona una herramienta global
para la instauración de un sistema de alta calidad, indispensable y útil para cualquier
institución (Patiño, Solís, Sang, & Arroyo, 2018). Específicamente la norma ISO 27002 en
su versión 2013 consta de un total de 14 capítulos de controles, 35 categorías principales
y 114 controles, en el capítulo control de acceso contiene los mecanismos necesarios para
salvaguardar el acceso a las aplicaciones, sistemas operativos e información (ISO/IEC
27002, 2013). A continuación, se detallan las 4 categorías del dominio control de acceso
aplicadas a la gestión de base de datos.

3.1. Categoría requisitos de negocio para el control de acceso


Se orienta a limitar el acceso a los recursos de tratamiento de información y a la
información en sí. Por lo tanto, es importante definir políticas de control de acceso que
permita gestionar el derecho de acceso de los usuarios a las bases de datos, así como una
clara segregación de funciones para obtener un control adecuado de los gestores de base
de datos. Es necesario, separar los ambientes de producción y desarrollo, y definir las
funciones para el Administrador de Base de Datos (DBA) y los programadores.
Asimismo, se debe especificar en las reglas de negocio los cambios de los permisos
de los usuarios iniciados automáticamente por el sistema y aquellos iniciados por

232 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

el administrador de sistema gestor de base de datos. Además, las reglas deben estar
especificadas en procedimientos formales, así como las responsabilidades del DBA.

3.2. Categoría gestión de acceso de usuario


Consiste en garantizar el acceso de usuarios autorizados y evitar el acceso no autorizado
a los sistemas y servicios. Debe implantarse un procedimiento formal de registro y
retirada de usuarios que haga posible la asignación de los derechos de acceso. Asimismo,
un procedimiento formal para asignar o revocar los derechos de acceso para todos los
tipos de usuarios de todos los sistemas y servicios. La asignación y el uso de privilegios
de acceso debe estar restringida y controlada. La asignación de la información secreta de
autenticación debe ser controlada a través de un proceso formal de gestión.
Los propietarios de los activos deben revisar los derechos de acceso de usuario a
intervalos regulares. Los derechos de acceso de todos los empleados y terceras partes,
a la información y a los recursos de tratamiento de la información deben ser retirados
a la finalización del empleo, del contrato o del acuerdo, o ajustados en caso de cambio.
El acceso y los servicios de red deben ser manejados solo por usuarios autorizados,
principalmente que no existan identificadores redundantes, es decir, no proveer a varios
usuarios las mismas credenciales para el acceso a los datos. Por lo tanto, se recomienda
realizar un procedimiento formal que controle la asignación y revocación de privilegios
de los usuarios luego de la salida y término de sus actividades profesionales en la empresa
(ISO/IEC 27002, 2013).
Además, es necesario evitar la elevación de privilegios no autorizados, es decir el DBA
podría elevar accesos de un usuario normal a uno tipo administrador del sistema.
Por ejemplo, en MySQL se puede usar los comandos show grants para verificar qué
cuentas tienen acceso a qué. Luego usar revoke para eliminar los privilegios que no son
necesarios. De igual manera SQL Server utiliza la declaración revoke para revocar los
privilegios.
Las entidades deben realizar un proceso formal de gestión de información secreta de
autenticación de los usuarios, para poder llevar de mejor manera dicha información.

3.3. Categoría responsabilidad del usuario


Se debe requerir a los usuarios que sigan las prácticas de la organización en el uso de la
información secreta de autenticación, es decir la forma cómo los usuarios salvaguardan
la información de autentificación a los sistemas, así como establecer contraseñas de
calidad, las cuales deben ser cambiadas periódicamente. Por lo tanto, el gestor de base
de datos debe contar con un método de autenticación seguro que exija el ingreso de una
contraseña para acceder al gestor de base de datos de la empresa.

3.4. Categoría control de acceso a sistemas y aplicaciones


Es importante prevenir el acceso no autorizado a los sistemas y aplicaciones de acuerdo
con la política de control de acceso previamente definida. Sin embargo, es necesario la
definición de un procedimiento seguro de inicio de sesión con adecuados controles de
aplicación implementados.

RISTI, N.º E22, 08/2019 233


Modelo de evaluación del Dominio Control de Acceso de la norma ISO 27002 aplicado al proceso de Gestión de Bases de Datos

Si existe acceso al gestor de base de datos por medio de la red, debe configurarse la
contraseña a través de un mecanismo de encriptación para evitar que sea escuchada
por usuarios no autorizados. Además, se debe almacenar las acciones de inserción,
modificación, eliminación y lectura de registros de los usuarios por medio de registros
de auditoria para ayudar a detectar de una manera eficaz si se está vulnerando el gestor
de base de datos.
Por otra parte, el gestor de base de datos no debe permitir ver la contraseña al momento de
escribirla, así como configurar un mínimo de tiempo posible de duración de las sesiones
que están inactivas durante un determinado tiempo. Además, evitar configuraciones por
defectos o situar la contraseña en los códigos fuente de los sitios web de la empresa.

4. Modelo de Evaluación de la Seguridad en la gestión de Base de Datos


En esta sección se aborda el modelo de evaluación a través de las 4 categorías del dominio
de control de acceso de la norma ISO 27002 y el modelo de madurez ISM3.

4.1. Elementos del Modelo de Evaluación


Los elementos del modelo son las 4 categorías del dominio 9 control de acceso de la
norma ISO 27002. A partir de los controles propuestos en el dominio, se diseñó un
cuestionario de 14 preguntas (Tabla 1).
Categorías Preguntas Técnica de Evidencia
del Dominio Recolección
9 Control de de
Acceso de la información
norma ISO
27002
1. ¿Cuenta con una política de control de
Entrevista DBA
9.1 Requisitos de acceso basada en los requisitos de negocio y de
Observación Documento
negocio para el seguridad de la información?
control de acceso 2. ¿El acceso a las redes y servicios en red lo Prueba de
Servicios Web
realizan solo los usuarios autorizados? penetración
3. ¿Cuenta con un procedimiento de asignación
Entrevista DBA
de derechos de acceso en el que contemple el
Observación Documento
registro y baja de usuarios?
4. ¿Cuenta con un procedimiento formal para
Entrevista DBA
la asignación y revocación de los derechos de
Observación Documento
acceso de los sistemas?
DBA
5. ¿Cuentan con un control en la asignación y Entrevista
Sistema
uso de privilegios de acceso? Observación
9.2 Gestión de Informático
accesos de usuario 6. ¿Cuentan con un proceso de gestión de la DBA
Entrevista
información secreta de autenticación de los Sistema
Observación
usuarios? Informático
7. ¿Realizan revisiones de los derechos de Gestor de Base
Observación
acceso de usuario? de Datos
8. ¿Realizan reasignación o retirada de
los derechos de acceso de usuario cuando Gestor de Base
Observación
un empleado finaliza sus actividades de la de Datos
empresa?

234 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

9. ¿Se realiza controles en el uso de la DBA


9.3 Responsabilidad Entrevista
información secreta de autenticación por parte Sistema
del usuario Observación
del administrador de base de datos? Informático
10. ¿Cuentan con alguna restricción en el
Prueba de
acceso a la información y a las funciones de las Servicios Web
penetración
aplicaciones?
DBA
11. ¿Existe un procedimiento seguro de inicio Entrevista
Gestor de Base
de sesión? Observación
de Datos
9.4 Control de DBA
12. ¿La empresa cuenta con un sistema para la Entrevista
acceso a sistemas y Sistema
gestión de contraseña? Observación
aplicaciones Informático
DBA
13. ¿Existe registros de auditoria donde se Entrevista
Gestor de Base
evidencie las acciones de los usuarios? Observación
de Datos
DBA
14. ¿Existe instalación de actualización del Entrevista
Gestor de Base
gestor de base de datos? Observación
de Datos

Tabla 1 – Elementos del Modelo de Evaluación

4.2. Descripción del nivel de madurez


Como respuesta, el cuestionario tiene un conjunto de opciones basado en una escala del
modelo de madurez. Un modelo de madurez de la seguridad de la información promueve
una correcta utilización de las buenas prácticas debido a que orientan sobre el nivel en
el que se encuentran y así se conduce a un alto nivel de madurez de la seguridad de la
información.

Valor Nivel de madurez Descripción


1 No definido No existe o no se ha considerado.
Las organizaciones documentan y utilizan procesos de seguridad de
2 Definido
la información
Las organizaciones utilizan los resultados de los procesos para
3 Administrado
mejorar los procesos individuales
Se establecen metas específicas y puede predecir con precisión la
4 Controlado
necesidad de recursos
5 Optimizado Es un entorno controlado

Tabla 2 – Nivel de madurez ISM3. Fuente: (Le & Hoang, 2016 )

El modelo de madurez utilizado es el Modelo de Madurez de Gestión de Seguridad de la


Información (ISM3-Information Security Management Maturity Model) debido a que
maneja métricas de Seguridad de la Información, que ayudan a mantener a la organización

RISTI, N.º E22, 08/2019 235


Modelo de evaluación del Dominio Control de Acceso de la norma ISO 27002 aplicado al proceso de Gestión de Bases de Datos

en un nivel de riesgo aceptable, se ajusta tanto a pequeñas como a grandes organizaciones,


es muy utilizado y adaptable para necesidades específicas como ciberseguridad. (Rea-
Guaman, Sánchez-García, San Feliu Gilabert & Calvo-Manzano Villalón, 2017)

5. Metodología de investigación
El modelo se aplicó en dos entidades ubicadas en Ecuador, las cuales estuvieron
de acuerdo en proporcionar información para el presente estudio. Por motivo de
confidencialidad por parte de las empresas colaboradoras, los nombres no son revelados
en el documento por lo tanto se asignó una letra genérica a cada una:
A = Institución privada de 218 empleados en el año 2018. Único responsable de la
administración de las bases de datos. Los gestores de base de datos son SQL Server
estándar con licencia y MySQL.
B = Institución pública de aproximadamente 250 empleados en el año 2018. Posee un
único responsable. Los gestores de base de datos son SQL Server Express y MySQL.

5.1. Recolección de datos


La evaluación consistió en aplicar tres métodos de recolección de datos: entrevista,
observación y prueba técnica. Es decir, se aplicó la entrevista al DBA y se utilizó el
cuestionario detallado en la Tabla 1, posteriormente a través de la observación se analizó
los controles con el fin de evidenciar las respuestas del encuestado y obtener soporte de
lo respondido.

5.1.1. Prueba de Penetración


La tercera técnica de recolección de información fue la ejecución de una prueba de
penetración con el objetivo de identificar las vulnerabilidades y evaluar la eficiencia de
los controles de seguridad en el acceso a sistemas y aplicaciones de la organización.
Primeramente, se identificó y recolectó información del objetivo. En la página oficial
de la empresa se identificó los servicios web vulnerables. La herramienta utilizada fue
SqlMap que permite ejecutar pruebas de inserción de código abierto, con las que se
localiza y aprovecha vulnerabilidades de inyección SQL (Barinas, Alarcón, y Callejas,
2014). Es decir, a través de la herramienta SqlMap se valida cadenas de SQL Injection
que proporciona información que permite identificar el gestor de base de datos u otro
dato como errores de programación interna.
En el análisis de los servicios web de la institución A se identificó que las páginas
tenían protocolos de seguridad https y se verificó que el inicio de sesión contaba con los
controles de aplicación impidiendo el acceso a terceros no autorizados (Figura1).
En la institución B se identificó una página vulnerable, la cual no contaba con el
certificado de seguridad SSL, y se comprobó que la página de inicio de sesión no tiene
controles de aplicación que permita verificar si se está enviando cadenas sql en sus
cajas de texto. Además, a través de la url vulnerable se logró obtener el nombre de 15
bases de datos y después se procedió a obtener de una de ellas el listado de las tablas
(Figura 2).

236 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figura 1 – Ejecución de la prueba en la institución A.

Figura 2 – Ejecución de la prueba en la institución B.

6. Resultado
Una vez realizada todas las preguntas, se evidenció que ambas instituciones tenían
falencias con respecto a la seguridad de la información, debido a que carecen de una
política de control de acceso. Además, los sistemas informáticos son propensos a tener
vulnerabilidades porque sus custodios implementan controles mínimos. Por lo tanto,
los ataques internos se producen por la falta de controles de aplicaciones, es decir tienen
vulnerabilidades que permiten el acceso a las bases de datos, asimismo el descuido del
DBA puede revelar la clave de acceso de los gestores de bases de datos.

RISTI, N.º E22, 08/2019 237


Modelo de evaluación del Dominio Control de Acceso de la norma ISO 27002 aplicado al proceso de Gestión de Bases de Datos

Puntuación
Elementos Preguntas
Empresa A Empresa B
Requisitos de 1. ¿Cuenta con una política de control de 1 1
negocio para el acceso basada en los requisitos de negocio y de No definido No definido
control de acceso seguridad de la información?
2. ¿El acceso a las redes y servicios en red lo 3 1
realizan solo los usuarios autorizados? Administrado No definido
Promedio 2 1
Definido No definido
Gestión de accesos 3. ¿Cuenta con un procedimiento de asignación 3 3
de usuario de derechos de acceso en el que contemple el Administrado Administrado
registro y baja de usuarios?
4. ¿Cuenta con un procedimiento formal para 2 4
la asignación y revocación de los derechos de Definido Controlado
acceso de los sistemas?
5. ¿Cuentan con un control en la asignación y 5 5
uso de privilegios de acceso? Optimizado Optimizado
6. ¿Cuentan con un proceso de gestión de la 4 4
información secreta de autenticación de los Controlado Controlado
usuarios?
7. ¿Realizan revisiones de los derechos de 3 3
acceso de usuario? Administrado Administrado
8. ¿Realizan reasignación o retirada de los 2 5
derechos de acceso de usuario cuando un Definido Optimizado
empleado finaliza sus actividades de la empresa?
Promedio 3.16= 3 3.66= 4
Administrado Controlado
Responsabilidad 9. ¿Se realiza controles en el uso de la 5 5
del usuario información secreta de autenticación por parte Optimizado Optimizado
del administrador de base de datos?
Promedio 5 5
Optimizado Optimizado
Control de acceso 10. ¿Cuentan con alguna restricción en el 3 1
a sistemas y acceso a la información y a las funciones de las Administrado No definido
aplicaciones aplicaciones?
11. ¿Existe un procedimiento seguro de inicio 4 2
de sesión? Controlado Definido
12. ¿La empresa cuenta con un sistema para la 4 2
gestión de contraseña? Controlado Definido
13. ¿Existe registros de auditoria donde se 2 2
evidencie las acciones de los usuarios? Definido Definido
14. ¿Existe instalación de actualización del 5 3
gestor de base de datos? Optimizado Administrado
Promedio 3.6 =4 2
Controlado Definido

Tabla 3 – Nivel de Madurez de los elementos evaluados en la empresa A y B.

6.1. Hallazgos Empresa A


Como se muestra en la Tabla 3, la media de todos los factores fue superior 3 a excepción
del primer elemento (requisitos de negocio para el control de acceso), lo que indica que
no se tiene una política para controlar el acceso de los usuarios a los recursos informáticos.

238 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

El elemento gestión de accesos de usuario tiene un valor de 3 es decir administrado


debido a que el departamento de Recursos Humanos emite un comunicado al área de TIC
sobre el cambio de privilegios de acceso de un usuario. Además, el único identificador de
usuario (IDs) es creado a partir del primer nombre y primer apellido, y la contraseña es
una combinación de letras, número y caracteres especiales.
El elemento con un mayor nivel de madurez (5- optimizado) es responsabilidad del
usuario debido a que el DBA es el custodio de la cuenta tipo administrador de la base
de datos.
Por último, el elemento control de acceso a sistemas y aplicaciones obtuvo un nivel
controlado (4) debido a que sus servicios web si contaban con controles que prevenían
el envío de mensaje de error que informara sobre sus características o configuración.
También tiene un sistema automático de gestión de contraseñas y un registro de
auditoria en el gestor de base de datos.

6.2. Hallazgos Empresa B


La empresa B en el elemento requisitos de negocio para el control de acceso obtuvo un
valor de 1 (no definido), es el nivel más bajo en la escala. Es decir, no se tiene creada una
política de control de acceso. Por lo tanto, se desconoce las directrices o controles que
deben implementarse en las redes y los servicios para evitar a los usuarios no autorizados
o atacantes. Otro aspecto relevante fue la prueba de penetración realizada a los servicios
web que evidenciaron la falta de mecanismos de seguridad.
El elemento gestión de accesos de usuario obtuvo un valor de 3.66 lo que indica que está en
un nivel entre administrado y controlado, debido a que su IDs es creado a partir del primer
nombre y primer apellido, y la contraseña es una combinación de letras, número y caracteres
especiales. Por otra parte, la asignación y habilitación, o la revocación de un IDs es automática
debido a que se ingresa la fecha de inicio y salida del empleado en el sistema informático.
El elemento responsabilidad del usuario tiene un nivel 5 (optimizado), debido a que
solo el administrador de las bases de datos cuenta con las claves de los gestores de bases
de datos. Además, no se encontró expuesta en el escritorio de trabajo del DBA.
Por último, el elemento control de acceso a sistemas y aplicaciones se ubicó en el nivel
2 (definido), en comparación con la Empresa A el nivel es menor debido a que tiene
menores restricciones y ningún control en los mensajes de error.

6.3. Mecanismos de Seguridad para el Proceso de Gestión de Base de Datos


El principal control es la redacción y revisión constante de una política de control de
acceso que establezca los lineamientos que deben seguirse por parte del personal de
la empresa.
Se debe implementar un procedimiento formal de registro y retirada de usuarios que
haga posible la asignación de derechos de acceso. Conocer el sistema de control de acceso,
utilizar las instrucciones grant y revoke para controlar el acceso a la base de datos. Tanto
como en SQL Server y MySQL utilizan la declaración grant para asignar privilegios en
las bases de datos. Usar la declaración show grants, para verificar los permisos de las

RISTI, N.º E22, 08/2019 239


Modelo de evaluación del Dominio Control de Acceso de la norma ISO 27002 aplicado al proceso de Gestión de Bases de Datos

cuentas. Evitar almacenar contraseñas en texto plano. Se debe contar con sistemas de
gestión de contraseñas que sean interactivos y que aseguraren contraseñas robustas.
Los registros de auditorías son datos que se almacenan en archivos de auditoría y
describen un único evento. Para implementar los controles de autoría se debe revisar
y evaluar el control interno del entorno en que se desarrolla la base de datos. Para
monitorear el acceso. Microsoft Sql Server utiliza la herramienta Sql Server Audit, la cual
permite realizar auditoría en la base de datos a través de la creación de la descripción de
las acciones de los usuarios al realizar modificaciones, esto solo es posible en versiones
de SQL Server Enterprise y Develope.
Los DBA deben revisar los derechos de acceso de usuario en determinados tiempos.
Restringir y comprobar el acceso a usuarios en la tabla user de la base de datos MySQL
como root. Es importante definir una contraseña a root debido a que, por defecto la
cuenta viene sin contraseña.
Además, se debe realizar la retira de los derechos de acceso a la información y a las
instalaciones del procesamiento de información cuando se ha finalizado el contrato de
los empleados y terceras partes como proveedores.

7. Conclusiones
En el presente trabajo se describió un modelo de evaluación que permite conocer el nivel
de madurez de los controles de acceso en la gestión de base de datos, el cual proporciona
un conjunto de preguntas que pueden ser adaptadas a diferentes contextos. Los resultados
determinaron que el modelo de madurez basado en ISM3 logra identificar un correcto
nivel de cada uno de los elementos del modelo propuesto. Además, la triangulación de las
técnicas entrevista, observación y prueba técnica contribuyen a un resultado más preciso
en la evaluación, especialmente la utilización de herramientas como SqlMap. Por último, la
aplicación del modelo de evaluación en las dos empresas evidenció que la empresa A obtuvo
el nivel de madurez Controlado, a diferencia de la empresa B que obtuvo Administrado.

Trabajos futuros
Se considera como trabajos futuros el acoplamiento al modelo de evaluación a los
demás dominios de la norma con el fin de ser ajustados para brindar mayor facilidad de
implementación de controles.

Referencias
Azán, Y., Bravo, L., Rosales, W., Trujillo, D., Garcia, E., & Pimentel, A. (2014). Solución
basada en el Razonamiento Basado en Casos para el apoyo a las auditorías
informáticas a bases de datos. Revista Cubana de Ciencias Informáticas, 8(2),
52–69. Retrieved from [Link]
Barinas, A., Alarcón, A., y Callejas, M. (2014). Vulnerabilidad de ambientes virtuales de
aprendizaje utilizando SQLMap, RIPS, W3AF y Nessus. Ventana Informática. (30).
doi: [Link]

240 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Burgos, J. y Campos, P. (2008). Modelo para Seguridad de la Información en TIC.


Concepción, Chile: Universidad del Bío-Bío. Recuperado: [Link]
488/[Link]
Caicedo Alcivar, A. R. (2018). Informe Estudio de Caso: Análisis de las Vulnerabilidades
en Gestores de Base de Datos utilizando el dominio “Control De Acceso” de ISO
27002. Pontifica Universidad Católica del Ecuador Sede Esmeraldas.
Disterer, G. (2013). ISO/IEC 27000, 27001 and 27002 for information security management.
Journal of Information Security, 4(2), 92–100. doi: 10.4236/jis.2013.42011
ISO/IEC 27002. (2013). International Standard Iso/Iec 27002:[Link]ía de
la Información. Técnicas de seguridad. Código de prácticas para los controles de
seguridad de la información.
Le, N. T., & Hoang, D. B. (2016). Can maturity models support cyber security?. 2016
IEEE 35th International Performance Computing and Communications Conference
(IPCCC). Recuperado: doi:10.1109/pccc.2016.7820663
Patiño, S., Solís, E., Sang, G. Y., y Arroyo, R. (2018). ICT Risk Management Methodology
Proposal for Governmental Entities based on ISO / IEC 27005. 2018 Fifth
International Conference on EDemocracy & EGovernment
(ICEDEG), 75–82. Recuperado: [Link]
Quisbert, A. (2014). REVISTA PGI -INVESTIGACIÓN, CIENCIA Y TECNOLOGÍA
Modelo de Sistemas Multi-Agentes para Percibir, Evaluar y Alertar Ex-Antes los
Accesos no Autorizados a Repositorios de Base de Datos. Recuperado:[Link]
[Link]/pdf/rpgi/n1/n1_a24.pdf
Rea-Guaman, Á. M., Sánchez-García, I. D., San Feliu Gilabert, T., & Calvo-Manzano
Villalón, J. A. (2017). Modelos de madurez en ciberseguridad: una revisión sistemática.
Saraswat, D., y Tripathi, P. (2014). International Journal of Advanced Research in Computer
Science and Software Engineering. International Journal of Advanced Research in
Computer Science and Software Engineering, 4(5), 442–458. Recuperado:
[Link] V3I5-
[Link]
Solarte, F., Enriquez, E., y del Carmen, M. (2015). Metodología de análisis y evaluación
de riesgos aplicados a la seguridad informática y de información bajo la norma ISO/
IEC 27001. Revista Tecnológica-ESPOL, 28(5).
Recuperado: [Link]
Valencia, F. y Orozco, M. (2017). Metodología para la implementación de un Sistema
de Gestión de Seguridad de la Información basado en la familia de normas ISO/
IEC 27000. RISTI-Revista Ibérica de Sistemas e Tecnologias de Informação, (22),
73–88. doi: [Link]

RISTI, N.º E22, 08/2019 241


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 15/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 09/07/2019

Optimization-based algorithms applied in


photovoltaic systems

Yasmany Fernández Fernández1, Ana Cabrera Tobar2, Diego H. Peluffo-Ordóñez1,3,


Teresa Sánchez Manosalvas4, and Ridelio Miranda5

yasmanighters@[Link],akcabrera@[Link], [Link]@sdas-group.
com,teresasanchez@[Link], rmiranda@[Link]
1
SDAS Group, Urcuqui, Ecuador.
2
Universidad Técnica del Norte, Ibarra, Ecuador,.
3
Universidad Yachay Tech, Urcuquí, Ecuador
4
Universidad Indoamericana, Quito, Ecuador.
5
Universidad de Cienfuegos, Cienfuegos, Cuba.
Pages: 242–255

Abstract: Network codes have been developed to facilitate the integration of power
plants into the electrical system; a specific case is that concerning the performance
of large scale photovoltaic power plants, which represents a drawback for operators
of transmission systems due to the way in which solar irradiance varies during the
day. The present study is focused on a group of models that are based on dynamic
programming with recursive algorithms. Broadly, such algorithms may significantly
benefit to the decision making in the field of the optimization of the photovoltaic
systems. The main contribution of this work lies on the the compilation of a group
of models whose recursive algorithms allow evaluating each stage of a given process
and related to a group of parameters that can be controlled within a dynamic model
whose nuances vary depending on other submodels associated with some families
of classic models of linear and nonlinear programming.

Keywords: algorithms; dynamic programming; photovoltaic energy.

1. Introduction
There are many problems that can be addressed in the field of electrical engineering
from the point of view of optimization (Kamaruzzaman, 2015), however, the issue is
little known and even in the electrical engineering classrooms the various models of
operations research are not socialized that could greatly expedite the use of resources and
the optimization of parameters associated with the different branches of the discipline.

1.1. Problems of the Photovoltaic Field


Below are some of the most classic problems in photovoltaics:

242 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Tracking the Maximum Power Point: Solar panels are an arrangement of several cells
or cells that transform the radiation caused by the sun into electrical energy. Each
photovoltaic cell has a single optimum point of operation, in which the product of the
current by the voltage is maximum and is called as point of maximum power. This
point changes rapidly depending on factors externalities such as temperature and solar
radiation, which makes the tracking of the maximum power point or MPPT (Maximum
Power Point Tracking) an essential part in a photovoltaic system. Photovoltaic power
plants present some problems such as static and dynamic shading that can considerably
reduce their performance. In particular, the effect of dynamic shading due to cloudiness
is often forgotten in the optimal design stage (Kamaruzzaman, 2015).
Operation in Micro Grids: Trough the automatic management of photovoltaic panels,
it is prioritized the improvement of the energy efficiency of the photovoltaic generation
which acts on the investors and depend on the favorable meteorological conditions.
In this way we can operate in the working area of the inverters by connecting and
disconnecting solar panels depending on the different hours of the day and unfavorable
weather conditions (Nagalaxmi & Chary, 2013).
Optimal design of PV systems. Photovoltaic systems connected to a network with solar
tracking often have losses due to the Joule effect produced in the connected conductors
of the network. The problem of minimizing said losses through the design and sizing of
said photovoltaic system is of interest due to the various ways in which the monitoring
structures can be dimensioned with their respective typology and distribution in the
terrain studied (Mellit, 2007).

1.2. Algorithms with Focus on the Use of Solar Energy


In (Charron & Athienitis, 2006) a special reference is made to the two fundamental
ways to convert solar radiation into energy known as active and passive solar design.
These energy transformation techniques are used in the use of solar energy efficiency
in homes where the most frequent parameters are subject to optimization, that is; the
consumption of energy, cost, environment and others (Diakaki et al., 2010; Kilkis,
2004). In (Bosch, López, & Batlles, 2008) an artificial intelligence technique based on
artificial neural network is presented to calculate the solar radiation levels in irregular
terrains. Other algorithms that include artificial neural network and neuro fuzzy
inference systems (Cao & Lin, 2008; Sarimveis, Palyvos, & Markatos, 2008) focus on
the prediction of solar irradiation (Mellit, Kalogirou, Shaari, Salhi, & Hadj Arab, 2008).
Table 1 summarizes the generic problems referring to the use of solar energy, its main
purpose and the models, methods and methodologies that are used to address them.
Objective to solve Methods to approach the solution
i. Tracking the Maximum Power Point
- Perturbe & Observe (Atallah, Abdelaziz, & Jumaah,
2014; Patel, Sahu, & Tirkey, 2013; Sahu, Dixit, &
Kumar, 2014).
- Hill Climbing (Bahari, Tarassodi, Naeini, Khalilabad,
& Shirazi, 2016; Comparative Study of Different
Hill Climbing MPPT through Simulation and
Experimental Test Bed, 2014; Hill climbing
techniques for tracking maximum power point in
solar photovoltaic systems - A review, 2013).

RISTI, N.º E22, 08/2019 243


Optimization-based algorithms applied in photovoltaic systems

- Incremental Conductance (Lokanadham, Student, &


Bhaskar, 2012; Putri, Wibowo, & Rifa’i, 2015; Safari
& Mekhilef, 2011).
- Fuzzy Logic Controller (Chekired, Larbes, Rekioua, &
Haddad, 2011; Abdullah, Hakim, & Nandiyanto, 2018).
- Constant Voltage (Lasheen, Rahman, Abdel-Salam, &
Obtain the highest output power of the panel Ookawara, 2016; Leedy & Aganah, 2012).
(Glaser, 2012). - Short Current (Noguchi, Togashi, & Nakamoto, 2002).
- Open Voltage (Ahmad, 2010; Das, 2016).
- Parasitic Capacitance (Hohm & Ropp, 2003; Rekioua
& Matagne, 2012).
- Neural Network (Bouselham, Hajji, Hajji, & Bouali,
2017; Essefi, Souissi, & Abdallah, 2014; Messalti,
Harrag, & Loukriz, 2015).
- Heuristics (Ghasemi, Mohammadian Foroushani, &
Analysis of the PV-Systems under diverse Parniani, 2016; Zhao, Zhou, Ma, & Liu, 2017).
shading conditions (Effects of partial shading - Layout Optimization (Farhad Azadivar, John(Jian)
on Photovoltaic with advanced MPPT scheme, Wang, 2000; Kiriş, Bingöl, Şenol, & Altintaş, 2016).
2012; Gevorkian, 2016).
- Kernel Algorithm (Lin et al., 2012; Sher et al., 2015;
Wang, Lin, Kim, Chang, & Pedram, 2014).
ii. Operation in Micro Grids.
Distribute the electrical energy to different - Dynamic Programming (Biswas & Mohan, 2015).
areas of consumption (Generation System - an
overview ScienceDirect Topics, 2019). - Greedy Algorithm (Biswas & Mohan, 2015).

- Tri- Positional Control Tracking Strategy (Stamatescu,


Control in photovoltaic systems (Popescu, Făgărăşan, Stamatescu, Arghira, & Iliescu, 2014).
Gharbi, Stefanoiu, & Borne, 2017).
- Energy Balance (Yang, 2013).
- Other Methods (Haes & Ghassan, 2019).
Evaluation of the direct impact of the use of
- Parametric Analysis (Du et al., 2018; Siraganyan,
renewable energy (Akella, Saini, & Sharma, 2009;
Perera, Scartezzini, & Mauree, 2019).
Vezmar, Spajić, Topić, Šljivac, & Jozsa, 2014).
iii. Optimal design of PV systems.
- Data Analysis (Denholm & Margolis, 2007; Stewart,
The study of technical limitations potentially MacPherson, Vasilic, Nakafuji, & Aukai, 2013).
occurring during steady state referent to the
- DIgSILENT Model (Heslop, MacGill, Fletcher, &
Lewis, 2014).
- Simulation (Meyer, Sommer, Dildey, Haack, &
high PV penetration (Bank, Mather, Keller, & Ringlstetter, 2016).
Coddington, 2013; Karimi, Mokhlis, Naidu, - Heuristics (Gómez-Lorente, Triguero, Gil, & Espín
Uddin, & Bakar, 2016). Estrella, 2012; Nikhil & Subhakar, 2012).
- Optimized Automated Layout (Patent N.o
Distribution generation (DG) in distribution WO2013040016A1, 2013).
networks with improper planning (Ali, Mohd
- Dish Layout Analysis (Xu et al., 2016).
Nor, Ibrahim, & Fakhizan Romlie, 2018).
- Multi-objective optimization and Life-Cycle
Assessment (Rau, 2013).

Table 1 – Mathematical methods to approach the solution of frequent problems of photo- voltaic energy

244 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Photovoltaic energy has abandoned its first stages of development and is entering
a deployment phase. The following section proposes a basic structure that contains
guidelines for the resolution and implementation of algorithms based on dynamic
models using Wolfram Language. This language evolves on clear principles and a classy
unified symbolic structure to create what is emerging as the world’s most productive
programming language and the first true computational communication language.
However, the most important thing lies in the efficiency and location of problems whose
mathematical models can reflect a situation as close as possible to reality. In this context,
we talk about a data analysis based on the analysis of the states, which is very helpful
when making the decisions under certainty.

2. Richard Bellman’s Principle of Optimality (RB-PO) as a general


basis for the modeling of problems applied to the use of solar energy
in photovoltaic systems.
The resolution of an optimal model through dynamic methods is guaranteed as long as
the solutions of the problem verify Bellman’s optimality principle, which says that an
optimal solution has the property that whatever the initial state and the initial decision,
the decisions for the later stages they must constitute an optimal policy regarding the
state resulting from the first decision (Sniedovich, 1978). The problems studied i) tracking
the maximum power point, ii) operation in microgrids and iii) optimum design of the
photovoltaic system can be analyzed in a general (decision problems in multiple steps).
If each of the problems is considered as a process and these are examined periodically at
time . As a result of this examination the value of a variable is obtained
(or a vector) that serves to judge the status of the process. To the pair we
call it a state. After each observation x, a corrective action must be taken, taken from
a set of possible decisions . The choice of a particular decision generates a
transformation T that results in a new state:

(1)

and associated with a cost c (u,d).


A function that indicates for each state or a specific decision to take; is called a policy.
We want to find a policy that minimizes the sum of the costs of the transformations
engendered by successive decisions. A policy of these characteristics is called optimal
policy. If we focus on the case in which the process ends in a time N, the analogy between
the general approach of the dynamic problem and the particular case of the problem
is immediate and allows us to think that the successive transformations form a path,
passing from a state to a another, at a later time.
Following this idea, we have that if we call d the policy used, starting in a state a path
is formed as shown below:

(2)

RISTI, N.º E22, 08/2019 245


Optimization-based algorithms applied in photovoltaic systems

...

(3)
...

(4)

(5)

An optimal policy has the property that whatever the initial state and decision, the
following decisions constitute an optimal policy with respect to the state resulting from
the first decision. If we call f the cost function corresponding to the optimal policy, the
principle of optimality can be expressed as follows:

(6)

where Bellman’s optimality principle allows us to establish the following functional


equation:

(7)

2.1. Algorithm used in a simulation of power curtailment in a photovoltaic


system (A case study in Ibarra, Ecuador)
Sometimes it is necessary to set a reduction in the output of a generator from what it
could otherwise produce given available resources, typically on an involuntary basis.
Curtailment is one among many tools to maintain system energy balance, which can
also include grid capacity, hydropower and thermal generation, demand response,
storage, and institutional changes. Deciding which method to use is primarily a matter
of economics and operational practice.
The following algorithm tries to decide what should be the suggested power value in
the next N stages of the day, assuming a starting part of the initial state t = 0. The code
segment has been processed in Wolfram Mathematica:

246 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

For this case we assume that the optimal decision of the power curtailment will be given
in the form:

 (8)

The previous eq. (8) represents a solution algorithm applied in other spaces to obtain
a power reduction according to the existing cloudiness, however by its analogy with
the aforementioned dynamic models, it is valid to analyze the optimality principle of
Bellman with respect to the solution algorithm used, which will be a focus of discussion
of the present section. For a better understanding of the relationship between the
solution algorithm and the mathematical model, we assume the following:
For this model, the day will be divided in several parts that are the stages (i) of the model.
Each stage i represents a constant time in which the system calculates the Maximum
Power Point (MPP), if the MPP is calculated every 5 minutes, then is
equivalent to minutes where the system collects MPPT eq. (9).

(9)

The range of active power values that can be signed in the stage i can be given as:

(10)

where is the maximum power point in stage i and is the maximum power point
in stage i+1
Considering the eq. (10), the optimal power function in stage i can be defined
depending on the range of active power and also on the optimized value of active power
for the next stage eq. (11)

 (11)

where, is the contribution to the objective function of stages . If the


system is in the state in stage i, the immediate decision is and from now on optimal
decisions are taken in the form eq. (12):

(12)

Then, the average accumulated contribution of power up to stage is expressed


as follows eq. (13):


13

RISTI, N.º E22, 08/2019 247


Optimization-based algorithms applied in photovoltaic systems

The decision of the maximum value possible between the current power and the
power can be expressed as eq. (14):

(14)

So, the optimal decision for each stage i is written in the form eq. (15):

(15)

The results of a state i are presented in Figure 1 where the decision policy eq. (11) at
this stage is optimal compared to the previous initial stage (6:00 a.m. and 8:00 a.m.),
and with respect to the average of the maximum power values of the stage for which
the curtailment was performed, which satisfies Bellman’s optimality principle. The
algorithm used is based on the previous behavior of solar radiation during a common
day. Its use consists in facilitating continuous decisions in a period of one day of 12 hours
with a frequency of change every two hours.

Figure 1 – Suggested power reference between 8:30 a.m. and 10:30 a.m. considering Kb=0.85

Figure 2 shows the operation of the algorithm using dynamic programming. Each point
corresponds to the maximum power value which is suggested by a tracking system based
on this type of search. The objective of performing curtailment is precisely to set values
that correspond to the balance of the system so that solar energy is harnessed.

248 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figure 2 – Dynamic programming structure for the algorithm build

2.2. Extended analysis of the power curtailment algorithm over a period


In figure 3 it is showing a broader scheme of what the dynamic programming model
represents, whose purpose is the prediction of the power which a photo- voltaic plant
should work to maximize solar energy variations and considering changes in the cloud
factor. The values obtained are shown for a given cloudiness parameter (Kb), which is not
the object of study in this article, only to refer that its calculation is taken into account as
a probability value between 0 and 1. The evolution of the system only considers its initial
conditions. This means that from any initial state the subsequent states can be obtained
and for them an adequate power value for each stage of the period.
The curtailment process is usually done based on empirical phenomena, which are often
limited to setting an average value between the maximum power values of the stage in question.

Figure 3 – Curtailment referring to a day

RISTI, N.º E22, 08/2019 249


Optimization-based algorithms applied in photovoltaic systems

The result of this decision is a recursive function eq. (15) indicates the new active power
value that the PV generator must follow for each stage. This model is considering the
possible maximum power for each solar irradiance at each stage and the optimal possible
power considering different sky conditions.
The proposed model and the data from the PVPP are introduced in the software
“Wolfram Mathematica 11.2”. To simulate the model, the day (from 6h30 to 18h30) is
divided in six parts of two hours each one. As two hours is considered and the data taken
is every five minutes, the number of stages is 24. So, the model has to choose the optimal
solution considering the maximum power forecasted for every five minutes for the next
two hours and the cloudiness. In this case the assumed clarity index is 0.78.
For instance, the maximum power that the PVPP generates from 8:30 to 10:30 is
plotted in Figure 3. It can be seen that the active power varies each five minutes that
depends on the solar irradiance. Applying, the optimization tool created and considering
the cloudiness, the new active power reference for these two hours is 0.5 p.u as it is
illustrated in Figure.

3. Conclusions
Regardless of the models used to treat the problems in the use of solar energy in the
photovoltaic field, there is a possibility to analyze the problems presented from the point
of view of the analysis of dynamic models using recursive algorithms to obtain optimum
policies in short time intervals.
If, given a subsequence of decisions, it is always known which is the decision that must
be taken next to obtain the optimal sequence, the problem is elementary and is solved
trivially taking one decision after another, what is known as voracious strategy.
If we can identify any subsequence of decisions, that have the same final state then it
must also be optimal with respect to the corresponding subproblem as affirmed by the
principle of optimality of Richard-Bellman.
Finally, the proposed study case is part of a group of experiments carried out in Ibarra,
Ecuador, in order to optimize the energy resources of the photovoltaic field.

4. Future work.
Future work aims to solve various problems of the here raised through a dynamic model
whose purpose is to reduce costs without losing quality in the use of solar energy.

References
Ahmad, J. (2010). A fractional open circuit voltage based maximum power point
tracker for photovoltaic arrays. 2010 2nd International Conference on Software
Technology and Engineering, 1, V1–247–V1–250. [Link]
ICSTE.2010.5608868

250 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Akella, A. K., Saini, R. P., & Sharma, M. P. (2009). Social, economical and environmental
impacts of renewable energy systems. Renewable Energy, 34(2), 390–396. https://
[Link]/10.1016/[Link].2008.05.002
Ali, A., Mohd Nor, N., Ibrahim, T., & Fakhizan Romlie, M. (2018). Sizing and
placement of solar photovoltaic plants by using time-series historical weather
data. Journal of Renewable and Sustainable Energy, 10(2), 023702. [Link]
org/10.1063/1.4994728
Atallah, A. M., Abdelaziz, A. Y., & Jumaah, R. S. (2014). IMPLEMENTATION OF
PERTURB AND OBSERVE MPPT OF PV SYSTEM WITH DIRECT CONTROL
METHOD USING BUCK AND BUCK- BOOST CONVERTERS. 1(1), 14.
Bahari, M. I., Tarassodi, P., Naeini, Y. M., Khalilabad, A. K., & Shirazi, P. (2016).
Modeling and simulation of hill climbing MPPT algorithm for photovoltaic
application. 2016 International Symposium on Power Electronics, Electrical
Drives, Automation and Motion (SPEEDAM), 1041–1044. [Link]
SPEEDAM.2016.7525990
Bank, J., Mather, B., Keller, J., & Coddington, M. (2013). High Penetration
Photovoltaic Case Study Report (N.o NREL/TP-5500-54742, 1062441). https://
[Link]/10.2172/1062441
Biswas, M., & Mohan, C. K. (2015). Algorithms for the Implementation of a Dynamic
Electrical Energy Pricing Policy. Procedia Computer Science, 70, 668–675. https://
[Link]/10.1016/[Link].2015.10.103
Bosch, J. L., López, G., & Batlles, F. J. (2008). Daily solar irradiation estimation over
a mountainous area using artificial neural networks. Renewable Energy, 33(7),
1622–1628. [Link]
Bouselham, L., Hajji, M., Hajji, B., & Bouali, H. (2017). A New MPPT-based ANN for
Photovoltaic System under Partial Shading Conditions. Energy Procedia, 111, 924–
933. [Link]
Cao, J., & Lin, X. (2008). Application of the diagonal recurrent wavelet neural
network to solar irradiation forecast assisted with fuzzy technique. Engineering
Applications of Artificial Intelligence, 21(8), 1255–1263. [Link]
engappai.2008.02.003
Charron, R., & Athienitis, A. (2006). Design and Optimization of Net Zero Energy Solar
Homes. ASHRAE Transactions, 12.
Chekired, F., Larbes, C., Rekioua, D., & Haddad, F. (2011). Implementation of a MPPT
fuzzy controller for photovoltaic systems on FPGA circuit. Energy Procedia, 6, 541–
549. [Link]
Comparative Study of Different Hill Climbing MPPT through Simulation and
Experimental Test Bed. (2014). Recuperado de [Link]
publication/280245647_Comparative_Study_of_Different_Hill_Climbing_
MPPT_through_Simulation_and_Experimental_Test_Bed

RISTI, N.º E22, 08/2019 251


Optimization-based algorithms applied in photovoltaic systems

Das, P. (2016). Maximum Power Tracking Based Open Circuit Voltage Method for PV
System. Energy Procedia, 90, 2–13. [Link]
Denholm, P., & Margolis, R. M. (2007). Evaluating the limits of solar photovoltaics (PV)
in traditional electric power systems. Energy Policy, 35(5), 2852–2861. https://
[Link]/10.1016/[Link].2006.10.014
DERSHOWITZ, M., Ilsen, K., & ZAUHAR, R. J. (2013). Patent N.o WO2013040016A1.
Recuperado de [Link]
Diakaki, C., Grigoroudis, E., Kabelis, N., Kolokotsa, D., Kalaitzakis, K., & Stavrakakis,
G. (2010). A multi-objective decision model for the improvement of energy
efficiency in buildings. Energy, 35(12), 5483–5496. [Link]
energy.2010.05.012
Du, E., Zhang, N., Hodge, B.-M., Kang, C., Kroposki, B., & Xia, Q. (2018). Economic
justification of concentrating solar power in high renewable energy penetrated
power systems. Applied Energy, 222, 649–661. [Link]
apenergy.2018.03.161
Effects of partial shading on Photovoltaic with advanced MPPT scheme. (2012).
Recuperado de [Link]
of_partial_shading_on_Photovoltaic_with_advanced_MPPT_scheme
Essefi, R. M., Souissi, M., & Abdallah, H. H. (2014). Maximum Power Point Tracking
Control Using Neural Networks for Stand-Alone Photovoltaic Systems. International
Journal of Modern Nonlinear Theory and Application, 03(03), 53–65. [Link]
org/10.4236/ijmnta.2014.33008
Farhad Azadivar, John(Jian) Wang. (2000). Facility layout optimization using
simulation and genetic algorithms: International Journal of Production
Research: Vol 38, No 17. Recuperado de [Link]
abs/10.1080/00207540050205154?journalCode=tprs20
Generation System - an overview ScienceDirect Topics. (2019). Recuperado de https://
[Link]/topics/engineering/generation-system
Gevorkian, P. (2016). Solar Power Generation Problems, Solutions and Monitoring.
Cambridge University Press.
Ghasemi, M. A., Mohammadian Foroushani, H., & Parniani, M. (2016). Partial Shading
Detection and Smooth Maximum Power Point Tracking of PV Arrays Under
PSC. IEEE Transactions on Power Electronics, 31(9), 6281–6292. [Link]
org/10.1109/TPEL.2015.2504515
Glaser, C. (2012). Easy solar-panel maximum-power-point tracking for pulsed-load
applications. 5.
Gómez-Lorente, D., Triguero, I., Gil, C., & Espín Estrella, A. (2012). Evolutionary
algorithms for the design of grid-connected PV-systems. Expert Systems with
Applications, 39(9), 8086–8094. [Link]

252 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Haes, A., Hassan, & Ghassan, H. (2019). Handbook of Research on Smart Power System
Operation and Control. IGI Global.
Heslop, S., MacGill, I., Fletcher, J., & Lewis, S. (2014). Method for Determining a PV
Generation Limit on Low Voltage Feeders for Evenly Distributed PV and Load.
Energy Procedia, 57, 207–216. [Link]
Hill climbing techniques for tracking maximum power point in solar photovoltaic
systems - A review. (2013). Recuperado de [Link]
publication/288128372_Hill_climbing_techniques_for_tracking_maximum_
power_point_in_solar_photovoltaic_systems_-_A_review
Hohm, D. P., & Ropp, M. E. (2003). Comparative study of maximum power point
tracking algorithms. Progress in Photovoltaics: Research and Applications, 11(1),
47–62. [Link]
Kamaruzzaman, Z. (2015). Effect of grid-connected photovoltaic systems on static
and dynamic voltage stability with analysis techniques - a review. PRZEGLĄD
ELEKTROTECHNICZNY, 1(6), 136–140. [Link]
Karimi, M., Mokhlis, H., Naidu, K., Uddin, S., & Bakar, A. H. A. (2016). Photovoltaic
penetration issues and impacts in distribution network – A review. Renewable
and Sustainable Energy Reviews, 53, 594–605. [Link]
rser.2015.08.042
Kilkis, B. I. (2004). An Exergy Aware Optimization and Control Algorithm for Sustainable
Buildings. International Journal of Green Energy, 1(1), 65–77. [Link]
org/10.1081/GE-120027884
Kiriş, B., Bingöl, O., Şenol, R., & Altintaş, A. (2016). Solar Array System Layout
Optimization for Reducing Partial Shading Effect. Acta Physica Polonica A, 130(1),
55–59. [Link]
Lasheen, M., Rahman, A. K. A., Abdel-Salam, M., & Ookawara, S. (2016). Performance
Enhancement of Constant Voltage Based MPPT for Photovoltaic Applications Using
Genetic Algorithm. Energy Procedia, 100, 217–222. [Link]
egypro.2016.10.168
Leedy, A. W., & Aganah, and K. A. (2012). A constant voltage MPPT method for a
solar powered boost converter with DC motor load. 2012 Proceedings of IEEE
Southeastcon, 1–6. [Link]
Lin, X., Wang, Y., Yue, S., Shin, D., Chang, N., & Pedram, M. (2012). Near-optimal,
dynamic module reconfiguration in a photovoltaic system to combat partial shading
effects. Proceedings of the 49th Annual Design Automation Conference on - DAC
’12, 516. [Link]
Lokanadham, M., Student, P., & Bhaskar, K. V. (2012). Incremental Conductance Based
Maximum Power Point Tracking (MPPT) for Photovoltaic System. International
Journal of Engineering Research And, 2(2), 5.
Mellit, A. (2007). Sizing of photovoltaic systems: a review. 10.

RISTI, N.º E22, 08/2019 253


Optimization-based algorithms applied in photovoltaic systems

Mellit, A., Kalogirou, S. A., Shaari, S., Salhi, H., & Hadj Arab, A. (2008). Methodology
for predicting sequences of mean monthly clearness index and daily solar radiation
data in remote areas: Application for sizing a stand-alone PV system. Renewable
Energy, 33(7), 1570–1590. [Link]
Messalti, S., Harrag, A. G., & Loukriz, A. E. (2015). A new neural networks MPPT
controller for PV systems. IREC2015 The Sixth International Renewable Energy
Congress, 1–6. [Link]
Meyer, R., Sommer, L., Dildey, F., Haack, L., & Ringlstetter, S. N. (2016). Techno-
Economic Optimization of Photovoltaic Plant Layout by Using Design of Experiments
Techniques. 32nd European Photovoltaic Solar Energy Conference and Exhibition,
2432–2435. [Link]
Nagalaxmi, P., & Chary, M. V. (2013). Efficient Energy Management System with Solar
Energy. 3(5), 4.
Nikhil, P. G., & Subhakar, D. (2012). An improved algorithm for photovoltaic system sizing.
Energy Procedia, 14, 1134–1142. [Link]
Noguchi, T., Togashi, S., & Nakamoto, R. (2002). Short-current pulse-based maximum-
power-point tracking method for multiple photovoltaic-and-converter module
system. IEEE Transactions on Industrial Electronics, 49(1), 217–223. [Link]
org/10.1109/41.982265
Patel, U., Sahu, D., & Tirkey, D. (2013). Maximum Power Point Tracking Using Perturb
& Observe Algorithm and Compare With another Algorithm. 2(2), 8.
Popescu, D., Gharbi, A., Stefanoiu, D., & Borne, P. (2017). Process Control Design for
Industrial Applications. John Wiley & Sons.
Putri, R. I., Wibowo, S., & Rifa’i, M. (2015). Maximum Power Point Tracking for
Photovoltaic Using Incremental Conductance Method. Energy Procedia, 68, 22–
30. [Link]
Rau, J. (2013). Ecodesign of large-scale photovoltaic (PV) systems with multi-objective
optimization and Life-Cycle Assessment (LCA). 136.
Rekioua, D., & Matagne, E. (2012). Optimization of Photovoltaic Power Systems:
Modelization, Simulation and Control. Springer Science & Business Media.
Safari, A., & Mekhilef, S. (2011). Incremental conductance MPPT method for PV systems.
2011 24th Canadian Conference on Electrical and Computer Engineering(CCECE),
000345–000347. [Link]
Sahu, T. P., Dixit, T. V., & Kumar, R. (2014). Simulation and Analysis of Perturb and
Observe MPPT Algorithm for PV Array Using ĊUK Converter. 12.
Siraganyan, K., Perera, A. T. D., Scartezzini, J.-L., & Mauree, D. (2019). Eco-Sim: A
Parametric Tool to Evaluate the Environmental and Economic Feasibility of
Decentralized Energy Systems. Energies, 12(5), 776. [Link]
en12050776

254 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Sniedovich, M. (1978). Dynamic programming and principles of optimality. Journal


of Mathematical Analysis and Applications, 65(3), 586–606. [Link]
org/10.1016/0022-247X(78)90166-X
Stamatescu, I., Făgărăşan, I., Stamatescu, G., Arghira, N., & Iliescu, S. S. (2014). Design
and Implementation of a Solar-tracking Algorithm. Procedia Engineering, 69,
500–507. [Link]
Stewart, E., MacPherson, J., Vasilic, S., Nakafuji, D., & Aukai, T. (2013). Analysis of
High-Penetration Levels of Photovoltaics into the Distribution Grid on Oahu,
Hawaii: Detailed Analysis of HECO Feeder WF1 (N.o NREL/SR-5500-54494,
1083363). [Link]
Vezmar, S., Spajić, A., Topić, D., Šljivac, D., & Jozsa, L. (2014). Positive and Negative
Impacts of Renewable Energy Sources. International Journal of Electrical and
Computer Engineering Systems (IJECES), 5(2), 47–55.
Wang, Y., Lin, X., Kim, Y., Chang, N., & Pedram, M. (2014). Architecture and Control
Algorithms for Combating Partial Shading in Photovoltaic Systems. IEEE
Transactions on Computer-Aided Design of Integrated Circuits and Systems,
33(6), 917–930. [Link]
Xu, J., Gan, S., Li, S., Ruan, Z., Chen, S., Wang, Y., … Wan, B. (2016). Dish layouts
analysis method for concentrative solar power plant. Springerplus, 5(1). https://
[Link]/10.1186/s40064-016-3540-3
Yan, S., Yuan, J., & Xu, L. (2012). Fuzzy logic control of MPPT for photovoltaic power
system. 2012 9th International Conference on Fuzzy Systems and Knowledge
Discovery, 448–451. [Link]
Yang, S. (2013). Solar Energy Control System Design. 72.

RISTI, N.º E22, 08/2019 255


Revista
Revista Ibérica
Ibérica de
de Sistemas
Sistemas ee Tecnologias
Tecnologias de
de Informação
Informação Recebido/Submission: 05/04/2019
Iberian
Iberian Journal
Journal of
of Information
Information Systems
Systems and
and Technologies
Technologies Aceitação/Acceptance: 09/07/2019

Análisis de la eficiencia de desempeño en


aplicaciones de Realidad Aumentada utilizando la
normativa ISO/IEC/25010 

Fausto A. Salazar Fierro1, Carpio A. Pineda Manosalvas1, Nancy N. Cervantes Rodríguez1,


Pablo Landeta1

fasalazar@[Link], capineda@[Link], nncervantes@[Link], palandeta@[Link]

1
Universidad Técnica del Norte, Av. 17 de julio, 1001051, Ibarra, Ecuador.
Pages: 256–267

Resumen: El creciente desarrollo de tecnologías de realidad aumentada, ha


influido en el aparecimiento de aplicaciones y herramientas de desarrollo RA con
características que se adaptan a las nuevas necesidades de los usuarios finales, por
lo que elegir una herramienta entre el amplio bagaje de posibilidades representa
un inconveniente que conlleva tiempo de experimentación y selección de prueba
y error. El objetivo de esta investigación fue realizar el análisis de la eficiencia de
desempeño de dos apps RA desarrolladas en: Vuforia y Wikitude con la normativa
ISO/IEC/25010. Se usó la experimentación como método de investigación en un
ambiente controlado y se identificó como resultado que la herramienta Vuforia con
relación a la eficiencia de desempeño obtuvo un valor de 9,66/10 respecto a Wikitude
que fue valorada con 7.86, llegando a la conclusión de que Vuforia es la herramienta
a elegir cuando la velocidad y rendimiento de la app sean factores determinantes.
Palabras-clave: Realidad Aumentada, Normativa ISO/IEC/25010, Calidad de
software, Eficiencia de desempeño.

Performance efficiency analysis in Augmented Reality applications


using the ISO / IEC / 25010 standard

Abstract: The growing development of augmented reality technologies has


influenced the creation of applications and RA development tools with features
that adapt to the new needs of end users. Choosing a tool among the wide range of
possibilities represents a problem that involves experimentation time resources.
The objective of this research was to perform the performance efficiency analysis of
two RA apps developed with Vuforia and Wikitude using ISO / IEC / 25010 standard
and experimentation as research method in a controlled environment. The results
show that considering performance efficiency, Vuforia tool obtained a value of 9.66 /
10 compared to Wikitude that was valued at 7.86, concluding that Vuforia is the
best tool when the speed and performance of the app is a determining factor.
Keywords: Augmented Reality, Normative ISO/IEC/25010, Software quality,
Performance efficiency.

256 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

1. Introducción
La realidad aumentada (AR) es una tecnología emergente que a través de la superposición
de contenido virtual asociado a la vista de la cámara de un dispositivo (Zhang, Han, &
Hui, 2018) permite visualizar imágenes en dos o tres dimensiones con las cuales pueden
interactuar los usuarios (Jamali, Shiratuddin, Wong, & Oskam, 2015); sus inicios se
evocan a la década de los años 60 (Bond et al., 2019). Actualmente se están desarrollando
proyectos de AR en diferentes áreas; así en medicina se ha construido un demo en un
cartel de forma humana en la que se pueden ver datos relacionados con la salud (Colley,
2015); en arquitectura se identifican problemas y mejoras con juegos de AR basados
en la ubicación mediante la investigación de Kkongalmon (Youm, Seo, & Kim, 2019);
en el ámbito educativo se han construido varias aplicaciones para áreas distintas, tal
es el caso de una app que facilita el aprendizaje en la botánica (Nobnop, Wongwatktit,
Wongta, & Soponronnarit, 2018) o en el área de informática una metodología para el
desarrollo del aprendizaje en programación (Daniela & Velasco, 2019); en mecánica
se ha realizado un motor de gasolina que simula la combustión (Abdullah, Mulyanti, &
Rohendi, 2018); éstas entre otras que evidencian el uso versátil de esta tecnología; sin
embargo la elección de la herramienta RA para construir los productos representa una
difícil decisión.
Frente a la variedad y creciente desarrollo de apps RA, esta investigación se enfoca en
la calidad de software, tema de gran importancia en el ciclo de vida de un producto
(Yang, 2012); en este sentido se han desarrollado estudios con el estándar International
Organization for Standardization (ISO) específicamente con la norma ISO/IEC 25000
conocida como SQuaRE (Software Product Quality Requirements and Evaluation) la
cual constituye una evolución de la norma ISO/IEC 9126 (Calabrese et al., 2018) con
el objetivo de evaluar la calidad del producto de software, aplicando la verificación y
validación de algunas características seleccionadas (Mendoza, Kalinowski, Souza, &
Felderer, 2019). La familia de normas ISO / IEC 25010 ha sido adoptada en distintos
proyectos, (Karnouskos, Sinha, Leitao, Ribeiro, & Strasser, 2018) lo aplican en su
investigación como paso inicial para la automatización industrial.
El objetivo de la investigación se centró en la utilización de la norma ISO/IEC 25010
sobre dos aplicaciones creadas en herramientas RA distintas: Vuforia y Wikitude y
desarrolladas con el motor de programación Unity, para identificar la eficiencia en el
desempeño a través de sus subcaracterísticas: Comportamiento en el tiempo y utilización
de recursos, con el afán de identificar la herramienta RA que tiene mejor rendimiento en
la ejecución de aplicaciones RA, proporcionando información que debería considerarse
a la hora de elegir una herramienta para la creación de productos.

2.1. Materiales y Métodos


Para la experimentación en esta investigación se seleccionaron dos herramientas RA:
Vuforia y Wikitude, las que a través de análisis previos realizados por los autores en
función de la presencia y ausencia de las características de software requeridas en las
aplicaciones RA (Salazar, Pineda, Arciniega, & Cervantes, 2019) y con una posterior
competitive benchmarking considerando aspectos claves como: Plataforma, acceso

RISTI, N.º E22, 08/2019 257


Análisis de la eficiencia de desempeño en aplicaciones de Realidad Aumentada utilizando la normativa ISO/IEC/25010 

a GPS, reconocimiento de imágenes 2D, 3D y video, documentación disponible y


frameworks (Salazar et al., 2019), ofrecen las mejores prestaciones para el desarrollo
de productos de realidad aumentada. Adicionalmente se utilizó Unity como el motor de
desarrollo.
Considerado como tema de las aplicaciones RA la difusión de sitios turísticos se crearon
sendas aplicaciones en las dos herramientas seleccionadas y descritas anteriormente. Las
aplicaciones creadas son exactamente iguales: i) inician con un menú de dos opciones
a través de botones de acceso; ii) el botón uno permite la visualización de un objeto 3D;
iii) el botón dos reproduce un video que incluye sonido; en los dos casos se aplica el
reconocimiento de marcas y muestran la laguna de Yahuarcocha, Ibarra – Ecuador. Las
apk fueron instaladas en un smartphone Xperia considerando que las características del
dispositivo tendrán influencia en el proceso de evaluación.
Pantalla 1080p de 5.2 pulgadas, procesador Snapdragon 810 octa-core, 3GB de RAM, 32
Gb de almacenamiento interno y cámara principal de 23 megapixels.

2.1. Modelos de calidad: estándar ISO/IEC/25010


La calidad de software para dispositivos móviles ha sido un tema de interés tratado en
varios trabajos (Idri, A; Bachiri, M; Fernandez & Toval) en los que se ha aplicado tanto
el standard ISO/IEC9126 o su evolución la ISO/IEC/25000. La ISO/IEC/25010 que es
la que se aplica en este trabajo es un conjunto de estándares de calidad para evaluar
productos de software (Karnouskos et al., 2018) por medio de la evaluación de varias
características: adecuación funcional, compatibilidad, usabilidad, fiabilidad, seguridad,
mantenibilidad, portabilidad y eficiencia en el desempeño, siendo justamente esta última
la característica central de la investigación, especificando que el proyecto se realizó bajo
la premisa de que el principal interés de los usuarios finales constituyen la rapidez en
los tiempos de respuesta y el uso de memoria RAM en la ejecución de sus aplicaciones.

2.2. Métricas de la ISO/IEC/25010


La característica eficiencia de desempeño está relacionada con el rendimiento de un
dispositivo en función de su comportamiento temporal, el uso de recursos y la capacidad
o límites máximos de funcionamiento.
Comportamiento en el tiempo
Esta subcaracterística está constituida por los tiempos de respuesta y procesamiento
de una aplicación en ejecución en condiciones determinadas, su valoración se obtiene
a través de tres métricas: i) tiempo de respuesta, ii) tiempo de espera, iii) rendimiento
en una unidad de tiempo. Para la toma de datos de todas estas métricas se utilizó un
cronómetro digital que permite capturar varios tiempos parciales de forma más precisa.
Las ecuaciones que se utilizaron en este proyecto fueron obtenidas del estándar ISO/
EC/25010. (ISO, 2019)
Métrica: Tiempo de respuesta
Propósito: Obtener el tiempo estimado para completar una tarea 

258 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Método de aplicación: Tomar el tiempo desde que se envía la petición hasta obtener la


respuesta. 
Entradas: A = Tiempo de envío de petición, B = Tiempo en recibir la primera respuesta 

Ecuación:  (1)

En el caso de la app constituye el tiempo que transcurre desde que se activa la cámara
(pantalla negra) hasta que se visualiza el objeto 3D.
Métrica: Tiempo de espera 
Propósito: Obtener el tiempo desde que se envía una instrucción para que inicie un
trabajo, hasta que lo completa 
Método de aplicación: Tomar el tiempo desde que se inicia un trabajo hasta completarlo. 
Entradas:  A= Tiempo cuando se inicia un trabajo, B = Tiempo en completar el trabajo 

Ecuación:  (2)

En el experimento representa el tiempo que transcurre desde que se presiona sobre el


botón “Objeto 3D” hasta que se visualiza el objeto. 
Métrica: Rendimiento 
Propósito: Contar el número de tareas procesadas en una unidad de tiempo 
Método de aplicación: Contar el número de tareas realizadas en un intervalo de tiempo. 
Entradas:  A= Número de tareas completadas, T = Intervalo de tiempo

Ecuación:  (3)

En el proceso de experimentación con las apps se consideró 30 segundos como unidad


de tiempo, durante los cuales se accionó el botón “Objeto 3D”, se visualizó el objeto y se
regresó a la ventana de inicio, varias veces durante el lapso fijado.  
Utilización de recursos
Esta subcaracterística se refiere al uso de éstos durante la ejecución de una tarea en
condiciones preestablecidas. Se mide a través de cuatro métricas: i) líneas de código
(N/A), ii) uso de CPU, iii) uso de memoria y iv) utilización de dispositivos E/S.  
Para obtener datos sobre el uso del CPU se ensayó con ocho herramientas: Antutu, CPU
Gauge, CPU Meter, CPU-Indicator, CPU-X, CPU-Z, Game Booster e Información del

RISTI, N.º E22, 08/2019 259


Análisis de la eficiencia de desempeño en aplicaciones de Realidad Aumentada utilizando la normativa ISO/IEC/25010 

Hardware. Adicionalmente se verificó el uso de CPU con una prueba de Robo con la
herramienta integrada en Firebase Test Lab para Android; sin embargo, ninguna de las
apps señaladas permitió obtener el valor especificado en el estándar para la aplicación RA,
ya que no permiten separar las operaciones internas del dispositivo de las aplicaciones
adicionales en ejecución, generando valores variados e inestables.
Para la obtención de datos del uso de memoria se experimentó con siete herramientas
gratuitas descargadas de Google Play para el sistema operativo Android: All-In-
One Toolbox, Antutu, Memory info, CPU Indicator, Cpu Meter, CPU-Z, Información del
Hardware, de las cuales se seleccionó CPU Indicator ya que ésta muestra el consumo
de memoria en la misma pantalla que utilizan las aplicaciones de RA. 

Métrica: Uso de la memoria 
Propósito: Verificar la cantidad de memoria usada para realizar una tarea. 
Método de aplicación: Medir la cantidad total de memoria y la cantidad de espacios de
memoria que realmente es usado para realizar una tarea. 
Valores de entrada:  A = Cantidad de espacios de memoria que realmente es usado para
realizar una tarea, B = Cantidad total de espacios de memoria 

Ecuación:  (4)

Para la obtención de este valor se utilizó la app CPU Indicator, la cual permite identificar
el porcentaje de memoria usada al activar la app RA. Dado que la métrica exige un valor,
se utiliza una regla de tres simple para obtener el valor requerido. Se registra el uso de
memoria antes de abrir la app y el uso de memoria una vez que se visualiza el objeto 3D. 
Capacidad o límites máximos de funcionamiento
Esta característica se refiere a la capacidad de respuesta del software cuando funciona
en línea. Se mide a través de tres métricas: i) número de peticiones en línea, ii) número
de accesos simultáneos y iii) el ancho de banda. Cabe indicar que esta característica no
es parte de este estudio ya que las aplicaciones no se ejecutan en línea, sino que debe ser
instalado en el dispositivo móvil.

2.3. Asignación de pesos


Una vez definidos los valores a ser obtenidos se crearon las matrices en las cuales se
registraron los datos resultantes de la experimentación. Se realizaron treinta y una tomas
de datos para satisfacer las métricas de las características de cada una de las herramientas
de RA con el smartphone Sony Xperia Z5 y se asignó pesos porcentuales iguales a las
cuatro subcaracterísticas factibles de análisis, tal y como aparece en la Tabla 1.

260 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Característica Importancia Métrica % Total


Tiempo de espera 25%
Comportamiento del tiempo Alta Tiempo de respuesta 25%
Rendimiento 25%
Uso de CPU 0%
100%
Uso de memoria 25%
Utilización de recursos Baja
Utilización de los
0%
dispositivos de E/S
Capacidad No Aplica 0%

Tabla 1 – Asignación de pesos de la característica eficiencia en el desempeño

2.4. Pruebas estadísticas


Una vez obtenidos los valores experimentales se utilizó la herramienta R Studio, dentro
de la cual se realizó el análisis de normalidad con la prueba de Shapiro Wilk, obteniéndose
los datos que aparecen en la Tabla 2.

Unidad de Medida P- Value Vuforia P-Value Wikitude


Tiempo de respuesta 0.06484 0.001016
Tiempo de espera 0.1244 0.1652
Rendimiento 0.0004911 0.00002172
Utilización de la memoria 0.0002844 0.00006404

Tabla 2 – Análisis de datos con el test de normalidad Shapiro Wilk

De acuerdo con los resultados obtenidos, se puede observar que únicamente la variable
tiempo de espera en las dos herramientas RA y tiempo de respuesta en Vuforia alcanzan
un valor mayor o igual a 0,05, por lo que para la presentación de resultados se aplica
la estadística descriptiva de la media y mediana. El gráfico 1 corrobora los resultados
obtenidos con la prueba de Shapiro Wilk.

3. Resultados
Para obtener los resultados respecto a la eficiencia de desempeño aplicando la normativa
ISO/IEC/25010 se definieron los valores de algunos parámetros de acuerdo a los datos
obtenidos en la fase experimental para cada una de las subcaracterísticas, adecuándolos
a la funcionalidad de las aplicaciones desarrolladas. A continuación, se detallan los
campos requeridos en la normativa para generar la valoración de calidad.

RISTI, N.º E22, 08/2019 261


Análisis de la eficiencia de desempeño en aplicaciones de Realidad Aumentada utilizando la normativa ISO/IEC/25010 

Figura 1 – Resultado de test de Shapiro Wilk

Peor caso: el cual se identifica de acuerdo a los valores obtenidos en el experimento o


determinando la peor situación que podría producirse para la subcaracterística evaluada.
Valor deseado: que representa el valor que se consideraría como aceptable para la
aplicación. También se obtiene en función de los eventos producidos durante la
experimentación
Variables y Valor obtenido: constituye la media aritmética de los valores de entrada
obtenidos para las variables A, B y T (entradas) y la media de los resultados obtenidos
para X (salida), detallados en el acápite 2.
Valor Métrica: es la relación sobre diez considerando el valor obtenido X respecto al
valor deseado.
Final subcaracterística: es el total parcial obtenido por la subcaracterística teniendo en
cuenta el peso asignado a cada métrica.
La tabla 3 muestra los resultados de la normativa aplicada sobre la app desarrollada en
Vuforia, que obtiene un resultado de 9,66 puntos sobre 10, por lo que de acuerdo a la
normativa cumple con los requisitos y alcanza un grado de satisfacción Muy Aceptable.

262 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Sub Métrica Peor Valor Aplica Entradas Salida Métrica Sub Total
Caracte- caso Esperado /10 total
rística A B T X
Tiempo de >10 0.20 seg Si 2,53 2,79   0,26 9,74
respuesta seg
Comportamiento

Tiempo de >10 4 seg Si 0,00 2,79   2,79 10,00


del tiempo

espera seg
Rendimi- 0 =30 Seg Si 11,00   30 0,37 9,17 7,23
ento

9,66
Utilización     No          
de CPU
Utilización de

Utilización > 0.5 0.25 GB Si 1,71 2,00   0,29 9,71


recursos

memoria GB 2,43
Utilización     No          
dispositi-
vos de E/S

Tabla 3 – Valores de las métricas de la herramienta Vuforia.

De igual forma la tabla 4 muestra los resultados de la normativa aplicada sobre la app
desarrollada en Wikitude, que obtiene un resultado de 7,86 puntos sobre 10, alcanzando
un nivel de calificación Aceptable y un grado de satisfacción Satisfactorio.

Sub Métrica Peor Valor Aplica Entradas Salida Métrica Sub Total
Caracte- caso Esperado /10 total
rística
A B T X
Tiempo de >1 seg 0.5 seg Si 2,22 3,15   0,93 9,07
Comportamiento

respuesta
Tiempo de >10 4 seg Si 0,00 3,15   3,15 6,85
del tiempo

5,44
espera seg
Rendimi- 0 =30 Seg Si 7,00   30 0,23 5,83
ento
Utilización     No           7,86
de CPU
Utilización > 0.5 0.25 GB Si 1,91 2,24   0,33 9,67
Utilización de

memoria GB 2,42
recursos

Utilización     No          
dispositi-
vos de E/S

Tabla 4 – Valores de las métricas de la herramienta Wikitude.

RISTI, N.º E22, 08/2019 263


Análisis de la eficiencia de desempeño en aplicaciones de Realidad Aumentada utilizando la normativa ISO/IEC/25010 

Los resultados obtenidos a través de la norma pueden también ser observados en la


gráfica de bigotes representada en la Figura 2, en la que se representan las medianas,
para las cuatro métricas valoradas. Así, para el tiempo de respuesta la mediana alcanzada
por la app de Vuforia es 0,25s, valor bajo respecto a los 0,95s obtenidos por la app de
Wikitude. Sucede lo mismo respecto al tiempo de espera, cuya mediana en Vuforia es
2,78s frente a los 4,65s de Wikitude.

Figura 2 – Gráfica de Bigotes de las Medianas de las métricas

Los tiempos más bajos obtenidos en Vuforia influyen sobre el rendimiento, en una
relación inversamente proporcional, ya que mientras en Vuforia se pueden ejecutar
una mediana de 12 tareas en 30s, en Wikitude alcanza únicamente 8. En el caso de la
memoria también Vuforia usa menos espacios memoria 0,27GB respecto a los 0,33Gb
de Wikitude.
En la Figura 3 se puede visualizar como las medias de las variables medidas en Vuforia
son menores a las obtenidas con Wikitude.

264 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figura 3 – Medias de las métricas

En bibliografía especializada se encontraron recientes estudios similares al que se


presenta en este trabajo, aunque en áreas diferentes a la turística y no se encontró
ninguno sobre aplicaciones de realidad aumentada.
El trabajo realizado por (Idri, A; Bachiri, M; Fernandez & Toval) se enfoca al igual
que la presente investigación en la calidad externa de 14 apps gratuitas ya existentes
relacionadas con el monitoreo del embarazo entre las que se incluye la características
eficiencia del desempeño y se evalúa por medio de la asignación de pesos según el criterio
de dos evaluadores. El presente trabajo se diferencia porque se centra únicamente en
la característica de eficiencia y obtiene datos para la evaluación de la calidad a partir
de la experimentación en un medio controlado sin que interfiera el criterio de los
investigadores; además de la temática, para este trabajo se crearon las aplicaciones
RA con elementos requeridos en una app de realidad aumentada tales como: imagen
3D, video 3D y georreferenciación en la app de Vuforia, no así en Wikitude, ya que al
momento de la creación, el SDK de este software para Unity no soporta la geo localización
mediante GPS, por lo que las pruebas se realizan únicamente con imagen 3D y video,
para mantener las condiciones de igualdad entre las dos aplicaciones.

4. Conclusiones
Al ser la eficiencia de desempeño un factor importante que forma parte de la calidad de
software se observa que Vuforia, genera tiempos de respuesta y de espera que cumplen

RISTI, N.º E22, 08/2019 265


Análisis de la eficiencia de desempeño en aplicaciones de Realidad Aumentada utilizando la normativa ISO/IEC/25010 

con los valores deseados y que influyen en un mejor rendimiento, utilizando menos
espacios memoria, recurso importante en los dispositivos móviles.
Es importante señalar que, pese a que en el proyecto se especifica el uso de un único
smartphone, se realizaron pruebas con dos dispositivos adicionales, uno de mejores
características y otro de especificaciones menores, pero con resultados similares.

Referencias
Abdullah, A. G., Mulyanti, B., & Rohendi, D. (2018). Virtual gasoline engine based on
augment reality for mechanical engineering education. 16002, 1–6.
Bond, A., Neville, K., Mercado, J., Massey, L., Wearne, A., & Ogreten, S. (2019).
Evaluating Training Ef fi cacy and Return on Investment for Augmented Reality :
A Theoretical Framework (Vol. 1). [Link]
Calabrese, J., Muñoz, R., Pasini, A., Esponda, S., Boracchia, M., & Pesado, P. (2018).
Assistant for the evaluation of software product quality characteristics proposed by
ISO/IEC 25010 based on GQM-defined metrics. Communications in Computer and
Information Science, 790, 164–175. [Link]
3_16
Colley, A. (2015). Exploring AR Poster as an Interface to Personal Health Data. (Mum),
422–425.
Daniela, G., & Velasco, M. P. (2019). Augmented Reality as a Methodology to Development
of Learning in Programming. 1, 327–340. [Link]
05532-5
ISO, I. O. for. (2019). ISO 25010. Retrieved June 28, 2019, from [Link]
[Link]/normas-iso-25000/iso-25010
Jamali, S. S., Shiratuddin, M. F., Wong, K. W., & Oskam, C. L. (2015). Utilising Mobile-
Augmented Reality for Learning Human Anatomy. Procedia - Social and Behavioral
Sciences, 197(February), 659–668. [Link]
Karnouskos, S., Sinha, R., Leitao, P., Ribeiro, L., & Strasser, T. I. (2018). Assessing
the Integration of Software Agents and Industrial Automation Systems with ISO/
IEC 25010. Proceedings - IEEE 16th International Conference on Industrial
Informatics, INDIN 2018, 61–66. [Link]
Mendoza, I., Kalinowski, M., Souza, U., & Felderer, M. (2019). Relating Verification
and Validation Methods to Software Product Quality Characteristics: Results of
an Expert Survey. [Link]
Nobnop, R., Wongwatktit, C., Wongta, J., & Soponronnarit, K. (2018). A Development
of 3D Augmented Reality Mobile Application to Facilitating Ecotourism-based
Herbal Learning in MFU Botanical Garden. The 26th International Conference on
Computers in Education, 563902.

266 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Salazar, F., Pineda, C., Arciniega, S., & Cervantes, N. (2019). Comparativa Técnica De
Herramientas Para Realidad Aumentada: Wikitude, Vuforia Y Artoolkit. Axioma,
2(19), 86–96. [Link]
Yang, H. (2012). Measuring software product quality with ISO standards base on fuzzy
logic technique. Advances in Intelligent and Soft Computing, 137 AISC, 59–67.
[Link]
Youm, D., Seo, S., & Kim, J.-Y. (2019). Design and development methodologies of
Kkongalmon, a location-based augmented reality game using mobile geographic
information. EURASIP Journal on Image and Video Processing, 2019(1), 1. https://
[Link]/10.1186/s13640-018-0395-2
Zhang, W., Han, B., & Hui, P. (2018). Demo: Low Latency Mobile Augmented Reality
with Flexible. 829–831. [Link]

RISTI, N.º E22, 08/2019 267


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 16/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 02/07/2019

Análisis comparativo de algoritmos de aprendizaje


supervisado para la detección de caídas

Santiago Solórzano1, David Pozo1, Luis Morales2, Claudia Villalonga3

{[Link], [Link]}@[Link], [Link]@[Link], claudia.


villalonga@[Link]

1
Facultad de Ingeniería y Ciencias Aplicadas, Universidad de las Américas, 170122, Quito, Ecuador.
2
Departamento de Automatización y Control, Escuela Politécnica Nacional, 170525, Quito, Ecuador.
3
Escuela Superior de Ingeniería y Tecnología, Universidad Internacional de La Rioja, 26006, Logroño,
España.
Pages: 269–281

Resumen: La naturaleza y las condiciones propias del adulto mayor hacen que
éste sea propenso a enfermedades y situaciones en donde su integridad física puede
verse afectada; donde, las caídas son uno de los factores de mayor riesgo. En este
artículo como principal aporte, se realiza un análisis sobre el efecto de la reducción
del espacio de características usadas para el proceso de clasificación mediante la
aplicación de la Matriz de Pearson. Para tal efecto, se presenta un análisis comparativo
mediante métricas de 3 algoritmos: naive bayes, máquinas de soporte vectorial y
redes neuronales en la detección de caídas. Las señales utilizadas son aceleraciones
en tres ejes obtenidas de la base de datos del Institute of Communications and
Navigations correspondiente a muestras de 16 sujetos masculinos y femeninos de
entre 23 y 50 años. Los resultados muestran que naive bayes presenta el mejor
desempeño considerando una reducción en las características.
Palabras-clave: ANN, SVM, Naive Bayes, Matriz de Pearson, Acelerómetros.

Comparative analysis of supervised learning algorithms for the


detection of falls

Abstract: The nature and conditions of the elderly make it prone to diseases and
situations where their physical integrity may be affected; where falls are one of the
highest risk factors. In this article as a main contribution, an analysis is carried
out on the effect of the reduction of the space of characteristics in the classification
process through the application of the Pearson Matrix. For this purpose, a
comparative analysis based on metrics of 3 algorithms is presented: naive bayes,
vector support machines and neural networks in the detection of falls. The signals
used are accelerations in three axes obtained from the database of the Institute of
Communications and Navigations corresponding to samples of 16 male and female
subjects between 23 and 50 years old. The results show that naive bayes has the best
performance considering the reduction in the characteristics.

RISTI, N.º E22, 08/2019 269


Análisis comparativo de algoritmos de aprendizaje supervisado para la detección de caídas

Keywords: ANN, SVM, Naive Bayes, Pearson Matrix, Accelerometer.

1. Introducción
Las caídas se consideran uno de los incidentes más peligrosos que afectan a las
personas mayores, causando problemas fisiológicos y psicológicos. Es así que, el 47%
de las personas que han sufrido caídas y que no sufren lesiones, no pueden levantarse
sin ayuda (Yu et al., 2013) y se considera que las caídas también son la segunda causa
de muerte no intencional con un estimado de 424.000 muertes en todo el mundo
(Chaccour et al., 2017). La pronta detección de una caída y la asistencia por parte de
personal de emergencia o familiares puede reducir el riesgo de mortalidad y aumentar
las posibilidades de sobrevivir al incidente (Solórzano, Rojas-Ortiz, López-Molina,
Clairand, & Pozo-Espín, 2018), (Santiago, Cotto, Jaimes, & Vergara-Laurens, 2017).
Existen varios métodos para la detección de caídas, entre los cuales se pueden mencionar:
los basados en sensores inerciales como acelerómetros y giróscopos, collares, pulseras
o botones que deben ser activados por el paciente y dispositivos que integran cámaras
para detección por medio de visión artificial, entre otros (Garripoli et al., 2015). Por
otra parte en (OMS, 2018) ( Harrou, Zerrouki, Sun, & Houacine, 2017), el estudio de
tecnologías no invasivas “no wearable”, ha tomado gran fuerza, debido a la poca o nula
influencia que estos presentan sobre el adulto mayor.
La detección de caídas y la tecnología asociada a sensores inerciales es prometedora, sin
embargo, aún existen retos y problemas relacionados a los procedimientos generados
para la detección de caídas en base al uso de la información proveniente de sensores y
la aplicación de algoritmos de clasificación, especialmente debido al poco conocimiento
del modelo de la dinámica que esto involucra. Algunos investigadores han intentado
definir la acción de la caída humana basándose en umbrales con la detección de picos
de la señal de los sensores inerciales (Xu, Zhou, & Zhu, 2018). Sin embargo, gracias a
la evolución de la inteligencia artificial (IA) y algoritmos de aprendizaje automático es
posible mejorar estos sistemas, permitiendo identificar Actividades de la Vida Diaria
(ADL) de manera más robusta. En el caso de caídas, se pueden disminuir las falsas
alarmas y realizar una pronta detección para reducir el tiempo de respuesta del personal
sanitario (Guerrero, 2016).
En (Xu et al., 2018) se realiza una comparativa entre los algoritmos y dispositivos
más utilizados para la detección de caídas, ésta información es recopilada de trabajos
de investigación y fueron divididos en tres principales categorías: basadas en visión
(Kinect, cámaras, etc.), uso de acelerómetro (incorporados en teléfonos, IMU, etc.) y
sensores de radio frecuencia (Wi-Fi y Radar). Antes del 2014 el uso del acelerómetro
representó el 55% en detección de caídas, mientras que el uso de cámaras fue solo de
36%. Después del 2014 aparecen tecnologías como Kinect con 30% de aplicaciones para
detención de caídas, cámaras 5%, Wifi 15%, una fusión entre Kinect y acelerómetros 15%.
Los acelerómetros por sí solos representan un 35% de las aplicaciones, evidenciando su
importancia debido al bajo consumo de energía, fiabilidad, tamaño y portabilidad.
Debido a los resultados presentados en (Shahzad & Kim, 2018), (Xu et al., 2018) y
(Saleh, 2018), en este trabajo se plantea la implementación y análisis de desempeño de

270 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

los algoritmos clasificadores: Naive Bayes (NB), Máquinas de Soporte Vectorial (SVM)
y Redes Neuronales (ANN) aplicados en la tarea de identificación de caídas. El análisis
realizado en Python abarca la preparación de datos, extracción de sus características y
evaluación del rendimiento de los clasificadores. Las métricas de desempeño evaluadas
son: precisión, exactitud, sensibilidad (recall) y F1-score. Además, se realiza un análisis
del efecto de la reducción de características a ser utilizadas en los distintos algoritmos
con el fin de determinar el nivel de influencia que tienen y como afecta al desempeño en
el proceso de clasificación. Para tal objetivo, se utiliza la base de datos de aceleraciones
disponible del Institute of Communications and Navigations correspondiente a muestras
de 16 sujetos masculinos y femeninos de entre 23 y 50 años (Institute of Communications
and Navigation, 2018).

2. Literatura relacionada
En la actualidad han surgido varios proyectos de investigación, así como también
empresas dedicadas al cuidado y mejora de la calidad de vida de los adultos mayores.
Es así que, la compañía sense4care especializada en el diseño de dispositivos médicos,
ha creado el ANGEL4 (sense4care, 2018), un detector de caídas muy sensible basado
en un acelerómetro triaxial y un algoritmo especifico desarrollado y aprobado por el
Centro de Estudios Tecnológicos para la Dependencia y la Vida Autónoma (CETpD) de
la Universidad Politécnica de Catalunya. ANGEL4 es un pequeño sensor que se coloca
en la cintura mediante la sujeción con un cinturón y se conecta al móvil mediante
bluetooth. Al momento que se registra una caída, el sistema realiza una llamada de
emergencia y envía varios SMS indicando la situación y ubicación GPS de la persona.
La compañía Vigilio Telemedical dispone de VIGI FALL (Vigilio Telemedical, 2018), un
parche que el adulto mayor puede colocarse en el pecho, el sistema incorpora sensores
de detección de movimiento que trabajan con el parche para evitar errores de caídas
falsas, está complementado con un programa experto que tiene conexión vía telefónica
para alertar en caso de una caída.
En (De Falco, De Pietro, & Sannino, 2019) se realiza una comparativa con 22
clasificadores entre ellos (SVM, Naive Bayes, Dynamic Time Warping (DTM), Modelos
de Markov (HMMS)) donde se trabaja con 17 clases de Actividades de la Vida Diaria
(ADLs) y la base de datos (UniMiB SHAR) de 30 personas, siendo el mecanismo para la
recolección de datos un móvil Samsung Galaxy Nexus equipado con un sensor triaxial.
En (Saleh, 2018) se ha planteado trabajar con los registros de aceleración triaxial (x, y,
z) para un tipo de caída o ADL; de estas aceleraciones se calcula el módulo o magnitud.
Al utilizar la información proveniente solamente de uno de los ejes o con umbrales,
estos datos no resultan fiables, ya que conducen a una sensibilidad y especificidad
baja; como resultado el rendimiento de los algoritmos basados en umbrales es débil.
Este proyecto propuso la clasificación de caídas basada en tres métodos de aprendizaje
supervisado KNN (K-nearest neighbors), ANN (Artificial Neural Network) y SVM
(Support Vector Machine) y para evaluar su rendimiento se usaron tres criterios
precisión, sensibilidad y especificidad, esta investigación ha reportado una precisión en
la detección de caídas superior al 99%. En (Rosero-Montalvo et al., 2017) se plantea la
implementación de un sistema embebido portable con el uso de señales de aceleración

RISTI, N.º E22, 08/2019 271


Análisis comparativo de algoritmos de aprendizaje supervisado para la detección de caídas

junto con la técnica de KNN, el cual tiene una exactitud del 95% y un reconocimiento
de caídas positivas de un 92%.
Existen contribuciones en el tema de detección de caídas, como CMDFALL (Tran, Le,
Pham, & Hoang, 2018), cuyos datos fueron obtenidos capturando las actividades de 50
personas que realizaron 20 actividades cada una, incluyendo 8 caídas de diferentes estilos
y 12 actividades diarias. En este proyecto se utilizó el sensor Kinect y acelerómetros. Los
algoritmos utilizados para la detección fueron C3C (3D Convolutional Neural Network
form RGB), DMM-KDES (Deph MotionMap and Kernel Descriptor for Depth modality),
entre otros. FallDroid (Shahzad & Kim, 2018), está diseñado como un sistema autónomo
e independiente del usuario para la detección de caídas cuya propuesta está basada en
la unión de algoritmos de clasificación MKL-SVM (multiple kernel learning and support
vector machine). Además, los algoritmos de SVM, ANN, k-NN, Naive Bayes de igual
forma fueron evaluados con tres criterios precisión, sensibilidad y especificidad.
En (Pierleoni et al., 2016) se desarrolló un dispositivo no invasivo basado en sensores
inerciales que propone el uso de SVM para la detección de caídas. Las métricas para la
evaluación del rendimiento del algoritmo fueron precisión, sensibilidad y especificidad
y su diferencia con las anteriores investigaciones es que ésta propuesta constituyó el
desarrollo del producto de forma embebida. Por otra parte, una extracción adecuada
de las características más representativas del sistema a modelar permitirá un mejor
desempeño del algoritmo clasificador. Entre las características más utilizadas se pueden
mencionar: Valor medio absoluto (MAV), Cuadrado medio raíz (RMS), Número de
cruce por cero (NZC), Desviación (VAR), Desviación Estándar (STD), Potencia Entropía

Figura 1 – Esquema del proceso de extracción de características y entrenamiento del sistema

272 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Espectral (PSD), Funciones Ortogonales Empíricas (EOF), Willson Amplitude (WA)


entre otros (Morales & Pozo, 2018).

3. Metodología
En el esquema general (Figura 1) se aprecian dos etapas para la detección de caídas:
entrenamiento y evaluación. En cada una de estas, se realiza un proceso de adquisición
de datos, procesamiento y extracción de características previo a su aplicación en los
clasificadores de NB, SVM y ANN.
3.1. Adquisición y procesamiento de datos.
Los datos de aceleración en coordenadas x,y,z son obtenidos de la base de datos “ARS_
DLR_DataSet del Institute of Communications and Navigation DLR”. Con el fin de que
los datos de aceleración utilizados sean independientes de la orientación del sensor,
en este trabajo se utiliza la magnitud de los valores de las aceleraciones mediante la
ecuación (1). Esta técnica es usada comúnmente en la detección de caídas en base al uso
de acelerómetros (Saleh, 2018).

(1)

Donde y es el número total de muestras de todos los eventos registrados


en la base de datos para cada actividad.
Además, con el fin de realizar una validación multiclase de los clasificadores se ha
escogido 3 actividades comúnmente presentes en la vida diaria: RUN, FALL y WALK.
En la Tabla 1 se presentan el número de datos y eventos con los cuales se realizará el
proceso de entrenamiento y validación para la detección de caídas, siendo 99 el total de
eventos utilizados para el estudio.

Fichero Datos Eventos Actividades


Data 6037 32 FALL

RUN 63476 25 RUN

WALK 180016 42 WALK

Tabla 1 – Ficheros para las clases RUN, WALK y FALL

En la Figura 2 se presenta un evento aislado de caída (pico de la curva) en base a las


magnitudes de cada muestra.

RISTI, N.º E22, 08/2019 273


Análisis comparativo de algoritmos de aprendizaje supervisado para la detección de caídas

Figura 2 – Muestras correspondientes a un evento de caída basado en magnitudes.

Una vez que una actividad puede ser representada como una serie discreta en función de
las magnitudes del vector aceleración, se procede a realizar la transformada Discreta de
Fourier (DFT). El análisis frecuencial permite establecer las frecuencias que mayor peso
tienen en la señal discreta como se muestra en la Figura 3.

Figura 3 – Análisis frecuencial de un evento de caída.

En la Figura 3 se puede observar que el rango de frecuencias que identifican una caída
se encuentra principalmente entre los 0.5Hz hasta los 25Hz, en base a lo cual se plantea
la aplicación de un filtro pasa banda. El rango inferior del filtro tiene por objeto eliminar
la componente de DC de la magnitud de la aceleración, que en este caso corresponde a
la componente gravitacional. Por otra parte, el rango superior del filtro está asociado
directamente a la eliminación de ruido en la señal.
Finalmente, se ha empleado un filtro digital butterworth de orden 5 en Python con
frecuencia de corte inferior: 0.5 Hz, frecuencia de corte superior: 25 Hz y se considera

274 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

que la señal tiene un tiempo de muestreo de 10ms o una frecuencia de 100 Hz. El
resultado de la señal filtrada se presenta en la Figura 4.
Una vez obtenidos los datos filtrados, se ha considerado que éstos corresponden a
diferentes personas con características físicas distintas, lo que puede ocasionar que
las amplitudes en las caídas de distintos usuarios reflejen valores máximos o mínimos
variables. Con el fin de que los datos de las distintas caídas sean uniformes en cuanto
a valores máximos, se realiza un proceso de normalización en el rango de [-1;1] de los
datos de la magnitud (ver Figura 5).

Figura 4 – Señal de un evento caída con filtro pasa banda 0.5Hz -25Hz.

Figura 5 – Valores normalizados de las magnitudes de un evento caída.

RISTI, N.º E22, 08/2019 275


Análisis comparativo de algoritmos de aprendizaje supervisado para la detección de caídas

3.2. Extracción de características y aplicación de algoritmos de clasificación


Con el uso de la estadística descriptiva se ordena, describe y sintetiza la información
recogida referente a los valores normalizados de las tres clases RUN, FALL y WALK.
Después de realizar el proceso de ingeniería de descriptores se ha determinado el cálculo
de los siguientes: media, mediana, percentil 25, percentil 75, varianza, desviación
estándar, asimetría, curtosis y rango. Para la aplicación de los algoritmos de clasificación
se parte del Data Set “ARS_DLR_DataSet del Institute of Communications and
Navigation DLR”. Los datos para utilizarse en el proceso de entrenamiento y evaluación
se encuentran resumidos en la Tabla 1.
Para el entrenamiento se ha considerado el 80% del total de datos, mientras que para
evaluación el restante 20%; siendo escogidos de forma aleatoria mediante la técnica
Stratified K-fold de validación cruzada para un K=5. La ventaja de este método es que
todos los datos son eventualmente usados para entrenamiento y evaluación, permitiendo
un análisis de resultados más robusto y no sesgado. representa una métrica en
particular, obteniendo la media M de cada métrica al final de la validación. (ver Figura 6).

Training Set
Training folds
Test fold

1 st iteration M1

2 nd iteration M2
...

i th iteration Mi
...

k th iteration Mk

Figura 6 – Esquema de K-fold de validación cruzada para evaluación de desempeño de algoritmos

Para NB se utiliza una distribución gaussiana, en SVM se utiliza diferentes Kernel (lineal,
polinomial y radial), mientras que en ANN se utiliza una función de activación RELU
con 3 capas en total: 2 capas de 5 nodos y la final de 15 nodos.

4. Pruebas y resultados
Una vez que se procesan los datos y se realiza la extracción de los 9 descriptores
(características), se genera la Matriz de Pearson de la Figura 7. Mediante un análisis
heurístico en base a las correlaciones entre características observadas se establece la
eliminación de 4 de ellas, con lo cual se reduce el espacio de características y se genera
la matriz de Pearson de la Figuran 8.
Finalmente, se realiza una evaluación del comportamiento de los clasificadores frente
a los dos grupos de características propuestos en función de la precisión, exactitud
(accuracy), sensibilidad (recall) y f1-Score.

276 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figura 7 – Matriz de Pearson para 9 características.

Figura 8 – Matriz de Pearson para 9 características.

RISTI, N.º E22, 08/2019 277


Análisis comparativo de algoritmos de aprendizaje supervisado para la detección de caídas

4.1. Evaluación con 9 características


En la Tabla 2 y Tabla 3 se presentan los resultados del desempeño de los clasificadores
utilizados para los grupos de entrenamiento y evaluación, considerando el uso de 9
características. Se puede apreciar que los clasificadores con el mejor rendimiento son
Naive Bayes y Redes Neuronales ANN, mientras que el peor desempeño lo obtuvo SVM
con un Kernel Polinomial. Es importante mencionar que el uso de un Kernel diferente
como radial o lineal provoca cambios son significativos en las métricas de evaluación.

Precisión (%) Exactitud (%) Sensibilidad (%) F1-score (%)


NB 93 92 92 92
SVM -Lineal 91 89 87 88
SVM-Polinomial 51 66 57 52
SVM-Radial 88 85 82 83
ANN 86 96 95 96

Tabla 2 – Evaluación con 9 características para los grupos de entrenamiento

Precisión(%) Exactitud (%) Sensibilidad (%) F1-score (%)


NB 92 90 88 89
SVM -Lineal 92 88 86 86
SVM-Polinomial 51 66 58 51
SVM-Radial 89 83 80 81
ANN 80 91 89 86

Tabla 3 – Evaluación con 9 características para los grupos de prueba

4.1. Evaluación con 5 características


En la Tabla 4 y Tabla 5 se observan los resultados de la evaluación de los clasificadores
con el espacio de características reducido mediante la aplicación de la Matriz de Pearson.
El clasificador con mejor rendimiento es Naive Bayes con una precisión en los datos de
prueba del 94%, exactitud del 94%, sensibilidad del 93% y F1-Score del 93%; valores
superiores a los de ANN y NB con 9 características presentados en la Tabla 3.

Precisión (%) Exactitud (%) Sensibilidad (%) F1-score (%)


NB 94 93 93 93
SVM -Lineal 66 72 67 64
SVM-Polinomial 49 54 45 39
SVM-Radial 78 72 69 68
ANN 69 92 86 91

Tabla 4 – Evaluación con 5 características para los grupos de entrenamiento

278 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Precisión (%) Exactitud (%) Sensibilidad (%) F1-score (%)


NB 94 94 93 93
SVM -Lineal 66 71 66 61
SVM-Polinomial 49 54 45 38
SVM-Radial 78 72 68 67
ANN 66 86 80 84

Tabla 5 – Evaluación con 5 características para los grupos de prueba

5. Conclusiones
El procesamiento de información a partir del Data Set de ADL ha permitido obtener
la información necesaria (características) para el entrenamiento de algoritmos de
aprendizaje supervisado multiclase. Además, en base a la información recopilada y
procesada se establece un procedimiento para el análisis del desempeño de 3 clasificadores:
Naive Bayes, Maquinas de Soporte Vectorial y Redes de Neuronas Artificiales en base a
métricas establecidas como: precisión, exactitud, sensibilidad, y F1 Score.
El análisis realizado muestra como principales resultados que SVM con Kernel
Polinomial fue el que peor resultados obtuvo, sin embargo, los Kernel tipo radial y
lineal ofrecen buenas prestaciones en cuanto a precisión en el grupo de prueba con 9
características. ANN presentó buenos resultados en todas las métricas realizadas y sobre
todo un desempeño bastante favorable con la reducción del espacio de características.
La selección de características mediante el análisis de la matriz de Pearson aportó
información significativa sobre el comportamiento de los clasificadores ante una
reducción en el espacio de características. Se pudo apreciar que el clasificador con base
estadística NB presentó resultados bastante significativos en comparación con el resto
de los clasificadores, los cuales tuvieron una disminución de desempeño en todas las
métricas realizadas.
En este contexto, la disminución de características utilizadas, así como una elección
adecuada de clasificadores, representa una oportunidad para su futura implementación
en sistemas embebidos, donde reducir la carga computacional es un factor primordial.
Además, para futuros trabajos se podría utilizar técnicas como Análisis de componentes
principales PCA para reducir la dimensionalidad del espacio de características sin afectar
considerablemente el desempeño del sistema.

Referencias
Chaccour, K., Member, G. S., Darazi, R., Member, S., Hajjam, A., Hassani, E., & Andrès,
E. (2017). From Fall Detection to Fall Prevention : A Generic Classification of Fall-
Related Systems, 17(3), 812–822.
De Falco, I., De Pietro, G., & Sannino, G. (2019). Evaluation of artificial intelligence
techniques for the classification of different activities of daily living and falls. Neural
Computing and Applications, 1. [Link]

RISTI, N.º E22, 08/2019 279


Análisis comparativo de algoritmos de aprendizaje supervisado para la detección de caídas

Garripoli, C., Mercuri, M., Member, S., Karsmakers, P., Jack, P., Member, S., … Schreurs,
D. (2015). Embedded DSP-Based Telehealth Radar System for Remote In-Door Fall
Detection, 19(1), 92–101.
Guerrero, M. F. T. (2016). Desarrollo de una Herramienta para Detección de
Movimientos de la Vida Cotidiana de Personas Mayores.
Harrou, F., Zerrouki, N., Sun, Y., & Houacine, A. (2017). Vision-Based Fall Detection
System for Improving Safety of Elderly People, (December), 49–55.
Institute of Communications and Navigation. (2018). Data Set. Retrieved from https://
[Link]/kn/en/[Link]/tabid-12705/22182_read-50785/
Morales, L., & Pozo, D. (2018). An experimental comparative analysis among different
classifiers applied to identify hand movements based on sEMG. 2017 IEEE 2nd
Ecuador Technical Chapters Meeting, ETCM 2017, 2017–Janua, 1–6. [Link]
org/10.1109/ETCM.2017.8247504
OMS. (2018). Caídas. Retrieved February 9, 2019, from [Link]
room/fact-sheets/detail/falls
Pierleoni, P., Belli, A., Maurizi, L., Palma, L., Pernini, L., Paniccia, M., & Valenti, S.
(2016). A Wearable Fall Detector for Elderly People Based on AHRS and Barometric
Sensor, 16(17), 6733–6744.
Rosero-Montalvo, P. D., Peluffo-Ordóñez, D. H., Godoy, P., Ponce, K., Rosero, E. A.,
Vásquez, C. A., … Mera, Z. A. (2017). Elderly fall detection using data classification
on a portable embedded system. In 2017 IEEE Second Ecuador Technical Chapters
Meeting (ETCM) (pp. 1–4). [Link]
Saleh, M. (2018). An Efficient Machine Learning-Based Fall Detection Algorithm
using Local Binary Features. 2018 26th European Signal Processing Conference
(EUSIPCO), 672–676.
Santiago, J., Cotto, E., Jaimes, L. G., & Vergara-Laurens, I. (2017). Fall detection system
for the elderly. In 2017 IEEE 7th Annual Computing and Communication Workshop
and Conference (CCWC) (pp. 1–4). [Link]
sense4care. (2018). Detección de Caídas. Retrieved from [Link]
es/
Shahzad, A., & Kim, K. (2018). FallDroid: An Automated Smart Phone based Fall
Detection System using Multiple Kernel Learning. IEEE Transactions on Industrial
Informatics, XX(XX), 1–11. [Link]
Solórzano, S., Rojas-Ortiz, M., López-Molina, R., Clairand, J., & Pozo-Espín, D. (2018).
Home Tele-assistance System for Elderly or Disabled People in Rural Areas. In
2018 International Conference on eDemocracy & eGovernment (ICEDEG) (pp.
380–385). [Link]
Tran, T., Le, T., Pham, D., & Hoang, V. (2018). A multi-modal multi-view dataset
for human fall analysis and preliminary investigation on modality. 2018 24th
International Conference on Pattern Recognition (ICPR), 1947–1952.

280 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Vigilio Telemedical. (2018). Detector de Caída a Distancia. Retrieved from [Link]


[Link]/prod/vigilio-telemedical/[Link]
Xu, T., Zhou, Y., & Zhu, J. (2018). New Advances and Challenges of Fall Detection Systems:
A Survey. Applied Sciences, 8(3), 418. [Link]
Yu, M., Yu, Y., Rhuma, A., Mohsen, S., Naqvi, R., Wang, L., … Chambers, J. A. (2013).
An Online One Class Support Vector Machine-Based Person-Specific Fall Detection
System for Monitoring an Elderly Individual in a Room Environment, 17(6),
1002–1014.

RISTI, N.º E22, 08/2019 281


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 09/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 28/07/2019

Multi-Target Tracking for sperm motility


measurement using the Kalman Filter and JPDAF:
Preliminary Results

Dagoberto Mayorca-Torres1,2, Herman H. Guerrero-Chapal1, Julio E. Mejía-Manzano3,


Diana J. López-Mesa3, Diego H. Peluffo-Ordóñez4,5, José A. Salazar-Castro5

dmayorca@[Link], hhguerrero@[Link], jmejia@[Link],


dlopez@[Link], [Link]@[Link], [Link]@[Link]

1
Facultad de Ingeniería, Universidad Mariana, 520001, Nariño, Colombia.
2
Facultad de Ingeniería, Universidad de Caldas, 170001, Caldas, Colombia
3
Ingeniería Mecatrónica, Corporación Universitaria Comfacauca,190001, Cauca, Colombia
4
Escuela de Ciencias Matemáticas y Computacionales Yachay Tech, 100650, San Miguel de Urcuquí, Ecuador
5
Ingeniería Informática, Corporación Universitaria Autónoma de Nariño, 520001, Nariño, Colombia.
Pages: 282–294

Abstract: The determination of sperm motility characteristics is of great


importance for the specification of fertility in men. The semengram is the main
diagnostic test to confirm semen quality. Currently, many fertility laboratories use
visual assistance techniques to evaluate by using the Makler counting chamber,
where motility and sperm count analysis can be performed. This research project
proposes a method that allows the quantification of motility through the use of the
probabilistic filter (JPDAF) based on the Kalman filter. This research requires the
stages of segmentation, feature extraction and development of tracking algorithms
for the association of sperm trajectories when there are multiple objectives. A total
of 200 individual sperm were selected and the effectiveness for sperm classification
was determined according to the mobility categories established by the WHO,
obtaining an average value of 93.5% for the categories (A, B, C and D).

Keywords: Kalman Filter, JPDAF, morphology, motility, spermatozoa.

1. Introduction
The spermogram is the most important and simple diagnostic test to start the study
of male fertility in which physical aspects of semen are evaluated, such as volume,
pH, viscosity, color and other aspects that require more specialized techniques such
as concentration, motility and morphology (Avendaño, Mata, Sanchez Sarmiento, &
Doncel, 2012; Blomberg Jensen et al., 2011). The development of methods that allow
to determine the degree of fertility in man, is one of the fields that has been widely
studied worldwide, even though the manual procedure is still one of the most used,
it is carried out by experts in specialized clinical laboratories (Asociación Espanola

282 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

de Urología. & SPARC (Organization), 2010; Wang, Fan, Behr, & Quake, 2012). This
is where computer-aided systems (CASA) must respond to market needs in terms of
accessibility and price (Mortimer, van der Horst, & Mortimer, 2015; Sharma, Harlev,
Agarwal, & Esteves, 2016). These systems arose due to the need to perform a quantitative
evaluation of the characteristics of the sperm samples based on the criteria established
by the WHO (World Health Organization), which establishes the minimum amount of
sperm and visual fields to be evaluated (Kobori, Pfanner, Prins, & Niederberger, 2016;
Verón et al., 2018). This research work aims to develop an alternative method of human
sperm analysis using image processing techniques and predictive algorithms based on
probability filters, and thus overcome some limitations of current methods in relation to
the monitoring of multiple sperm (Arasteh, Vosoughi Vahdat, & Salman Yazdi, 2018).
This article describes the design, implementation and experimental validation of an
artificial vision system for the kinematic determination and monitoring of multiple
individual sperm using a Kalman predictor. Given the difficulties of label association
when there are multiple candidates, the technique used is based in JPDAF (The joint
probabilistic data-association filter), a probabilistic filter that makes it possible to
optimally obtain the most likely candidate given a combination of potential candidates
(Urbano, Masson, VerMilyea, & Kam, 2017). The contributions of this work are:
•• Adjustment specifications on tracking algorithm in order to improve robustness
and reduce processing time.
•• Implementation of the Kalman Filter and JPDAF for label association and error
reduction in trajectory prediction.
•• Performance of algorithms for tracking and calculation of parameters in real
time through efficiency study.

2. Materials and methods

2.1. Sample Preparation


To carry out this study, a total of 5 sperm samples were collected through a clinical
laboratory, from which the age range was between [20-35] years. For the collection it
is necessary to follow the WHO standard procedure (Bungum, Bungum, & Giwercman,
2011; Lu, Huang, & Lü, 2010; Pant et al., 2011):
•• The patient is given a clearly written instruction sheet on how to collect the
semen and transport it.
•• The sample must be collected after 48 hours and no more than seven days of
sexual abstinence.
•• To make the initial evaluation, two samples of semen should be studied. These
should not be older than 7 days.
•• The sample must be obtained through masturbation and ejaculate in a wide-
mouth plastic container at a temperature between 20°- 40°C.
The samples were processed by the Microscopy Unit of the University of Cauca and
each sample was liquefied at an ambient temperature of 20 ° C and separated from the
seminal plasma in three cycles of centrifugation. The evaluation technique was optical
microscopy and it was necessary to increase the contrast of the samples by means of the

RISTI, N.º E22, 08/2019 283


Multi-Target Tracking for sperm motility measurement using the Kalman Filter and JPDAF: Preliminary Results

simple staining method, whose preparation consists in adding a mixture of eosin at 5%


and two drops of nigrosin on 3mL of semen sample (Esteves, 2014). To guarantee the
reliability of the analysis, two samples must be prepared given the previous procedure
and once they are evaluated the results are compared with tables that allow establishing
the degree of reliability, which must be higher than 95%. If it is less than this value, the
procedure for sample preparation must be repeated (Esteves, 2014; Imani, Teyfouri,
Ahmadzadeh, & Golabbakhsh, 2014; Sharma et al., 2016).

2.2. Image acquisition


Because it requires counting, morphological analysis and mobility, it is necessary to
capture 20-second video sequences in two different fields in order to guarantee the
reliability of the process. For this, the Nikon-Eclipse reference optical microscope with
10x and 40x lenses was used, by controlling the temperature of the sample at 37 ° C.
The videos were stored and sent to the computer in MJPG format, at a rate of 30 FPS
(frames per second), with a resolution of 1920 x 1080 pixels. The process of calibration
and adjustment of the distances used the standardized 100mm grids used in the Makler
counting chamber (Kobori et al., 2016).

2.3. Calculation of mobility parameters


The World Health Organization (WHO) has defined male fertility based on concentration,
percentage of normality and sperm motility. In the evaluation of the reproductive
capacity, mobility is a determining criterion for its evaluation, it is necessary to analyze
a total of 200 spermatozoa in 2 different samples in order to make the examination
reliable (Verón et al., 2018). WHO classifies mobility into four categories, which are
described by the values referenced in the table 1. The kinematic parameters calculated by
a CASA system are the description of a series of geometrical measurements that depend
on time and show information about the speed of movement of the sperm, as well as the
beat frequency [Hz], changes of direction and amplitude of the trajectory described by
the sperm head.

Type Description Speed

A Progressive greater than 20 µm/s

B Circular movements 5 µm /s - 20 µm /s

C Slow and no progress 1 µm /s – 5 µm /s

D Static or motionless Less than 1 µm /s

Table 1 – Motility Classification WHO 2010 (WHO values).

Because the frequency of oscillation of the flagellum is around 80 Hz it is necessary


to capture the images at least twice the frequency (160 Hz) to obtain its kinematics.
The head is taken as geometrical center The parameters to calculate are shown below
(Urbano et al., 2017):

284 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

•• Curvilinear velocity (VCL): Velocity, in µm /s, of the sperm in its curvilinear


trajectory, this being the two-dimensional projection of the real three-
dimensional trajectory of the same defined as the ratio between travel and time.
•• Linear velocity (VSL): Speed, in µm /s, of the sperm in its rectilinear trajectory,
this being the result of joining the first and last point of the curvilinear trajectory
during the observation period.
•• Average speed (VAP): Speed, in µm /s, of the sperm in its average trajectory
during the observation period; the average trajectory being indicative of the
average direction of displacement of the sperm cell, its points are obtained from
the average value of the coordinates of the points of the adjacent circular path.
•• Linearity Index (LIN): The percentage relationship between the VSL and the
VCL given by the relationship LIN= (VSL/VCL) *100 indicates how close the
circular path of the sperm is to a straight line. The circular paths have a low LIN,
since the circular path will be much greater than the net space gained.
The mobility parameters are estimated from a set of points and time measures associated
with each of the positions. Algorithms are implemented to act under changes of sperm
direction, as well as oscillation around trajectory.

2.4. Image Processing


For implementation and description of the proposed model, the OpenCV library was
used in the C ++ programming language. The stages of system development are shown
below:

Figure 1 – Block diagram of the processing performed on the sequence of images.

Morphometric calibration: For this stage we proceeded to make the measurement


of the reference rules in order to determine the pixel-distance relationship and its
disposition was on the horizontal and vertical axis of the microscope because the
resolution can differ by a small amount (Arasteh et al., 2018).
Image filtering: One of the main stages in the systems of artificial vision is the
improvement of the characteristics to be determined, because this can simplify the
processing techniques to be applied. One of the characteristics observed on the images
is the high contrast. This factor may be convenient, but in excess it incorporates artifacts
for further processing. For this type of noise, it is essential to apply a smoothing filter,
but given the high contrast, linear smoothing filters tend to “blur the axes” because
the high frequencies of an image are attenuated (Guerrero González, Cardona Maya,
& Morantes Guzmán, 2007). When the objective is to have greater noise reduction

RISTI, N.º E22, 08/2019 285


Multi-Target Tracking for sperm motility measurement using the Kalman Filter and JPDAF: Preliminary Results

without affecting the edges of the image, non-linear filters are used, which represents an
alternative. In this case, the filter used is called Kuwahara, which consists of the use of
a window divided into 4 sectors to which the value of mean and variance is calculated.
Finally, the measure of least variance is used as the representative value of that window
(Sarabia & Munuce, 2011).
Segmentation of the images: Once the improvement of the characteristics has been
made, the segmentation process is carried out, which consists of separating the sperm
from the bottom. Given the changes of illumination in the images, it is decided to use
the Mixtures of Gaussians method, a process that consists in accessing the intensity level
values of each pixel in each channel (Giaretta et al., 2017; Ravanfar et al., 2014). Given
a value of random X, it is possible to determine the probability that a pixel belongs to
the object of interest (different from the background) and is it given by the following
distribution:

 (1)

where from the equation (1) it is established that k is the number of regions to use, and Pi
> 0 and where the sum of all the probabilities will be determined by .

 (2)

Equation 2 shows the probability distribution function, where y correspond to


mean and standard deviation respectively. For an image the data is determined
on the basis of the model, the number of regions to divide the image in relation to the
value of the histogram.
Extraction of morphological parameters: After the segmentation process, each
object found is then labeled for subsequent monitoring. The next process is to determine
those candidates that have the characteristics of the object of interest. For this, color
and texture characteristics are extracted to allow the differentiation of live sperm from
dead sperm. After the analysis of the color planes, the conversion to the HLS plane (Hue,
Luminance, Saturation) is established, since the staining allows to reliably determine
the tonality changes of the live and dead sperm. The texture characteristics such as
(entropy and similarity) allow the separation of sperm from the other objects present
in the sample.
Tracking and label association based on Kalman and JPDAF: This section
shows the development of mathematical modeling and notations developed by JPDAF
that denote the position of an individual sperm in a frame k given by the prediction of
the state, prediction of the covariance and prediction of the measurement, determined
by the following equations (3), (4), (5) and (6) :

 (3)

286 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

 (4)

 (5)

 (6)

The index tj denotes the objective t that associates a measure j. For the realization of
the speed measurement validation, the noise measure of the covariance given by the
equations (7) and (8) is used:

 (7)

 (8)

where C1, C2 and C3 are the memory decay coefficients. Finally, a comparison was
made between the manual measurement and the algorithm implemented in order to
find from the confusion matrix the accuracy of the counting classifier. The statistical
analysis was carried out using software Gnu PSPP 0.10.12. Normality tests were
applied applying Ryan-Joiner’s statistical test for the analysis variables. The following
calculations were made:
•• Mean and standard deviation for the parameters VCL, VSL, VAP, LIN, STR y
WOB.
•• Dispersion charts (VSL vs VCL), (LIN vs ALH), (VSL vs WOB) y (MAD vs LIN).
•• Confusion analysis for comparison between classification data calculated by the
mobility algorithm (A, B, C and D) regarding those classified by expert.
To establish the differences of the trajectory points obtained by algorithm tracking and
association of labels (Kalman and JPDAF) regarding those extracted by expert using
a manual tool, a Wilcoxon statistical test was used for related samples and a value of
p<0.05 was considered as a value of statistical significance.

3. Results and Analysis


In this section, we present the results obtained in the process of segmentation and
development of the individual sperm tracking algorithm, where predictive and
probability techniques were used to associate trajectories. Once obtained, the motility
parameters established by the WHO are extracted. One of the main achievements was
to improve the effectiveness of the tracking algorithm, which allows the association of
multi-objective tags, that is, it allows solving the cases of intersection of trajectories
described by sperm.

RISTI, N.º E22, 08/2019 287


Multi-Target Tracking for sperm motility measurement using the Kalman Filter and JPDAF: Preliminary Results

3.1. Reliability of the tracking algorithm


In this section we present the monitoring results obtained by applying the algorithm
of JPDAF and Kalman for multiple objective scenarios. From the analysis of 200
spermatozoa from samples A and B, a total of 10 intersections of 2 spermatozoa and 6
intersections of 3 spermatozoa were identified. Figure 2 shows some trajectories taken
from the videos captured. For these scenarios the efficiency of the algorithm is estimated.

Figure 2 – Correct tracking of trajectories of 2 sperm.

The results show a small improvement to solve individual sperm crosses. In some cases
where the trajectories present a very large variability, the JPDAF algorithm does not
solve the crosses. Table 2 shows the percentage of reliability for each of the methods
used for the identification of intersections.

Number Scenario Kalman Filter Kalman Filter+JPDAF


10 Intersection of 2 sperm trajectories 60% 80.0%
6 Intersection of 3 sperm trajectories 50% 83.3%

Table 2 – Reliability of the algorithms for the monitoring of sperm

3.2. Motility Analysis of Sperm Samples


The kinematic parameters analyzed are part of 2 samples collected from 200 sperm for
a 100x lens, the measurement was validated by inspection of the samples duplicated
by the expert in order to guarantee reliability of the test. In addition, it was necessary
to perform a normality test on the data to determine the values of mean and standard
deviation. The statistical test used was that of Ryan-Joiner where the correlation value
of (p<0.05,ES=0.825) is close to 1 is approved for the parameters VCL, VSL, LIN, ALH

288 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

and WOB were calculated and correlated in scatter plots, these are indicated in Fig. 3
and Figure 4 for two samples A and B respectively.

Figure 3 – Motility parameters for sample A.

As it is possible to observe in Figure 3, there is a high consistency between the VSL


values ​​vs. VCL, unlike VSL vs. data. WOB where data is more dispersed. Figure 4 shows
a greater consistency in the VSL vs. data. VC and VSL vs. WOB These graphs give us
indications about the behavior of these variables over time.

Figure 4 – Motility parameters for sample B.

The mobility parameters for sample A, such as VCL, VSL, LIN, ALH y WOB and
were calculated and plotted. The expert using the Makler counter obtained average
concentration values of 30.6x10-6 sperm / ml. A total of 200 sperm were counted in two
samples (A and B) and identification and monitoring software was used. Table 3 shows
the average values ​​and the standard deviation of the speed of sample A. While the data
measured for sample B is 20.6x10-6 sperm / ml, the average values ​​and the standard
deviation of velocity can be seen in Table 4.

RISTI, N.º E22, 08/2019 289


Multi-Target Tracking for sperm motility measurement using the Kalman Filter and JPDAF: Preliminary Results

Type Number of Average Speed Standard Deviation


Spermatozoa (µm / s) Speed (µm / s)
A 41 45 10
B 20 13 3
C 43 7 2
D 87 0 0
Total 191

Table 3 – Sample speed values A

The data obtained for sample A are larger than for sample B, after the sperm identification
process, the follow-up algorithm based on minimum distance criteria is applied.
Type Number of Average Speed Standard Deviation
Spermatozoa (µm / s) Speed (µm / s)
A 41 38 11
B 23 8 4
C 38 5 3
D 88 0 0
Total 190

Table 4 – Sample speed values B

It was applied for a sequence of 10 seconds and the extraction of the kinematic parameters
was performed, resulting in a curve that describes the trajectory of the sperm around a
line that determines the degree of deviation. This behavior can be observed in figure 5.

Figure 5 – Identification and tracking of individual sperm for an image of the sample.

Once the kinematic parameters are obtained, this information is correlated with the data
obtained in the manual assessment by the expert in the confusion matrix in Table 5 and
Table 6, for samples A and B respectively.

290 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Type Expert Software Reliability %


A 45 41 91.1
B 22 20 90,9
C 45 43 95.4
D 88 87 98.7
Total 200 191

Table 5 – Reliability of sperm motility classification of sample A.

Type Software Expert Reliability %


A 40 41 97.5
B 22 23 95,5
C 46 38 82.6
D 92 88 95.7
Total 200 190

Table 6 – Reliability of sperm motility classification of sample B.

The data obtained allow finding reliability percentages above the values referenced
by the WHO, and it is also possible to observe from the confusion matrix that errors
are established for underlying categories. Category A is confused with B for some
classifications and this may be due to a hysteresis problem since most of the errors
are those that are at a speed that oscillates around the defined threshold within the
uncertainty of the measurement value. Regarding the comparison of the manual method
with respect to that achieved with the tracking algorithm using the Wicolson coefficient,
it was possible to find a correlation of (p <0.05, ES = 92), values that allowed to
establish the degree of reliability in the tag assignment and demonstrate the reliability in
determining trajectories when there are bifurcations, given the overlap of spermatozoa
in the seminal fluid.

4. Conclusions
The system allowed tracking up to 200 individual sperms in real time by means of the
JPDAF algorithm, and measuring the average speed, displacement, distance traveled
and frequency with a resolution level of 10 microns. The preliminary results of the
system allowed the identification and classification of the categories defined by the WHO
based on an expert system, obtaining an accuracy in the results for the identification of
sperm of 95.5%, and 95.7% for the dead sperm count (data that can be deduced from
D motility category). Finally, for motility, the percentage of reliability was established
above 90.9% for categories A and B. It was possible to demonstrate the efficiency for at
least 200 individual trajectories, by non-parametric Wicolxon correlation coefficient in
a value greater than 86%. At least for the 12 trajectories of a total of 16 that presented

RISTI, N.º E22, 08/2019 291


Multi-Target Tracking for sperm motility measurement using the Kalman Filter and JPDAF: Preliminary Results

the crossing of two and three spermatozoids, separation was achieved in an adequate
manner. It was possible to find correlations between the trajectory descriptive data
allowing to understand the behavior of the variables when the fertility index is higher, a
criterion that allows to give clues about the behavior of the sperm given the conditions
of normality. The software showed a good performance in relation to the data obtained
by the expert. However, for a more efficient validation it is necessary to take a larger
number of samples for study in specialized centers. The main objective, which is the
implementation of a low-cost and user-friendly support tool is achieved.

Acknowledgements
This research work is supported by the Mechatronic Engineering research Group of the
Mariana University. Also, the authors are very grateful for the valuable support given by
SDAS Research Group ([Link]).

References
Amann, R. P., & Waberski, D. (2014). Computer-assisted sperm analysis (CASA):
Capabilities and potential developments. Theriogenology, 81(1), 5-17.e3. https://
[Link]/10.1016/[Link].2013.09.004
Arasteh, A., Vosoughi Vahdat, B., & Salman Yazdi, R. (2018). Multi-Target Tracking
of Human Spermatozoa in Phase-Contrast Microscopy Image Sequences using a
Hybrid Dynamic Bayesian Network. Scientific Reports, 8(1), 5068. [Link]
org/10.1038/s41598-018-23435-x
Asociación Espanola de Urología., W., & SPARC (Organization). (2010).̃Actas
Urológicas Españolas (Vol. 34). Retrieved from: [Link]
php?script=sci_arttext&pid=S0210-48062010000700001
Avendaño, C., Mata, A., Sanchez Sarmiento, C. A., & Doncel, G. F. (2012). Use of laptop
computers connected to internet through Wi-Fi decreases human sperm motility
and increases sperm DNA fragmentation. Fertility and Sterility, 97(1), 39-45.e2.
[Link]
Beresford-Smith, B., & Van Helden, D. F. (1994). Applications of radar tracking algorithms
to motion analysis in biomedical images. In Proceedings of 1st International
Conference on Image Processing (Vol. 1, pp. 411–415). IEEE Comput. Soc. Press.
[Link]
Blomberg Jensen, M., Bjerrum, P. J., Jessen, T. E., Nielsen, J. E., Joensen, U. N., Olesen,
I. A., Jorgensen, N. (2011). Vitamin D is positively associated with sperm motility
and increases intracellular calcium in human spermatozoa. Human Reproduction,
26(6), 1307–1317.
Bungum, M., Bungum, L., & Giwercman, A. (2011). Sperm chromatin structure assay
(SCSA): a tool in diagnosis and treatment of infertility. Asian Journal of Andrology,
13(1), 69–75. [Link]

292 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Esteves, S. C. (2014). Clinical relevance of routine semen analysis and controversies


surrounding the 2010 World Health Organization criteria for semen examination.
International braz j urol, 40(4), 433-453. [Link]
IBJU.2014.04.02
García-Fernández, Á. F., Svensson, L., & Morelande, M. R. (2016). Multiple target tracking
based on sets of trajectories. Retrieved from [Link]
Giaretta, E., Munerato, M., Yeste, M., Galeati, G., Spinaci, M., Tamanini, C.,
… Bucci, D. (2017). Implementing an open-access CASA software for the
assessment of stallion sperm motility: Relationship with other sperm quality
parameters. Animal Reproduction Science, 176, 11–19. [Link]
anireprosci.2016.11.003
Guerrero, E. R., Mancera, F. C., González, N. G., Maya, W. C., & Guzmán, L. M. (2013).
Evaluación asistida por computador de la viabilidad espermática en humanos.
Revista Ingeniería Biomédica, 6(12), 17-28.
Imani, Y., Teyfouri, N., Ahmadzadeh, M. R., & Golabbakhsh, M. (2014). A new method
for multiple sperm cells tracking. Journal of Medical Signals and Sensors, 4(1),
35–42. Retrieved from [Link]
Kobori, Y., Pfanner, P., Prins, G. S., & Niederberger, C. (2016). Novel device for male
infertility screening with single-ball lens microscope and smartphone. Fertility and
Sterility, 106(3), 574–578. [Link]
Lu, J.-C., Huang, Y.-F., & Lü, N.-Q. (2010). [WHO Laboratory Manual for the
Examination and Processing of Human Semen]. Zhonghua Nan Ke Xue = National
Journal of Andrology, 16(10), 867–871. Retrieved from [Link]
gov/pubmed/21243747
Mortimer, S. T., van der Horst, G., & Mortimer, D. (2015). The future of computeraided
sperm analysis. Asian Journal of Andrology, 17(4), 545–553. [Link]
org/10.4103/1008-682X.154312
Pant, N., Pant, A., Shukla, M., Mathur, N., Gupta, Y., & Saxena, D. (2011). Environmental
and experimental exposure of phthalate esters: The toxicological consequence on
human sperm. Human & Experimental Toxicology, 30(6), 507–514. [Link]
org/10.1177/0960327110374205
Ravanfar, M., Azinfar, L., Moradi, M. H., Fazel-Rezai, R., Ravanfar, M., Azinfar, L.,
Fazel-Rezai, R. (2014). Occlusion Robust Low-Contrast Sperm Tracking Using
Switchable Weight Particle Filtering. Advances in Sexual Medicine, 04(03), 42–54.
[Link]
Rivera-Acosta, M., Ortega-Cisneros, S., Gongora, M. C., Biswas, R., Rios, Y. Y., Sanchez,
E. N., & Garcia, F. J. (2017). Identification of the morphological defects present in the
pattern of spermatozoa using a reconfigurable device. In 2017 IEEE International
Autumn Meeting on Power, Electronics and Computing (ROPEC) (pp. 1–5). IEEE.
[Link]

RISTI, N.º E22, 08/2019 293


Multi-Target Tracking for sperm motility measurement using the Kalman Filter and JPDAF: Preliminary Results

Sarabia, L., & Munuce, M. J. (2011). Nuevos valores para el espermiograma OMS
2010. Revista Médica de Chile, 139(4), 548–549. [Link]
98872011000400020
Shaker, F., Monadjemi, S. A., & Naghsh-Nilchi, A. R. (2016). Automatic detection and
segmentation of sperm head, acrosome and nucleus in microscopic images of
human semen smears. Computer Methods and Programs in Biomedicine, 132, 11–
20. [Link]
Sharma, R., Harlev, A., Agarwal, A., & Esteves, S. C. (2016). Cigarette Smoking and
Semen Quality: A New Meta-analysis Examining the Effect of the 2010 World
Health Organization Laboratory Methods for the Examination of Human Semen.
European Urology, 70(4), 635–645. [Link]
Sikka, S. C., & Hellstrom, W. J. (2016). Current updates on laboratory techniques for
the diagnosis of male reproductive failure. Asian Journal of Andrology, 18(3), 392.
[Link]
Urbano, L. F. (2014). Robust Automatic Multi-Sperm Tracking in Time-Lapse Images.
Drexel University, (May).
Urbano, L. F., Masson, P., VerMilyea, M., & Kam, M. (2017). Automatic Tracking and
Motility Analysis of Human Sperm in Time-Lapse Images. IEEE Transactions on
Medical Imaging, 36(3), 792–801. [Link]
Verón, G. L., Tissera, A. D., Bello, R., Beltramone, F., Estofan, G., Molina, R. I., &
Vazquez-Levin, M. H. (2018). Impact of age, clinical conditions, and lifestyle on
routine semen parameters and sperm kinematics. Fertility and Sterility, 110(1), 68-
75.e4. [Link]
Wang, J., Fan, H. C., Behr, B., & Quake, S. R. (2012). Genome-wide Single-Cell Analysis
of Recombination Activity and De Novo Mutation Rates in Human Sperm. Cell,
150(2), 402–412. [Link]

294 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 07/04/2019
Iberian Journal of Information y S stems and Technologies Aceitação/Acceptance: 20/07/2019

Publicando datos abiertos considerando criterios de


calidad

Susana Cadena-Vela1, Andrés Fuster-Guilló2, Jose-Norberto Mazón2

scadena@[Link], fuster@[Link], jnmazon@[Link]

1
Universidad Central del Ecuador, Quito, Ecuador.
2
universidad de Alicante, Alicante, España.
Pages: 295–308

Resumen: Los datos abiertos son considerados un mecanismo de democratización


en el acceso a la información generada por organizaciones del sector público y
para el desarrollo de servicios digitales generados por el sector infomediario. Sin
embargo, esta tendencia ha presentado algunas barreras que van desde la calidad
insuficiente de los datos publicados hasta la falta de mantenimiento de los portales
donde se publican. Esta investigación realiza un análisis del estado de la cuestión
en el ámbito de los datos abiertos, así como de los estándares internacionales y
buenas prácticas de calidad de datos con el fin de proponer un marco de referencia
que posibilite la publicación de datos abiertos con un nivel de calidad adecuado.
El marco de referencia fue validado utilizando un caso de estudio mediante la
metodología de investigación en acción.
Palabras-clave: Datos abiertos, calidad de datos, reutilización información pública.

Publishing open data considering quality criteria.

Abstract: Open data is considered a mechanism of democratization in the access


to information generated by public sector organizations and for the development of
digital services generated by the infomediary sector. However, this trend has presented
some barriers ranging from the insufficient quality of the data published to the lack
of maintenance of the portals where they are published. This research carries out an
analysis of the state of the issue in the field of open data, as well as of international
standards and best practices in data quality in order to propose a frame of reference that
enables the publication of open data with an adequate level of quality. The framework
of reference was validated using a case study using action research methodology.
Keywords: Open data, data quality, reuse of public information

1. Introducción
Durante los últimos años, la cantidad y variedad de datos abiertos publicados por las
administraciones públicas en todo el mundo ha sido creciente. Esta tendencia responde

RISTI, N.º E22, 08/2019 295


Publicando datos abiertos considerando criterios de calidad

a la constante evolución de la tecnología marcada fuertemente por la expansión de


Internet (Ramos Simón et al., 2012). De hecho el uso de datos abiertos es considerado
una oportunidad para el desarrollo económico, ya que su reutilización ha permitido el
desarrollo de soluciones tecnológicas en áreas como biología, salud, geografía, turismo,
entre otras (Pirozzi & Scarano, 2016).
El concepto de datos abiertos representa una oportunidad para que la sociedad pueda
reutilizar e incluso, idealmente innovar, impulsando a que los gobiernos continúen
proponiendo proyectos de apertura de datos con el fin de garantizar el acceso a
información pública por parte de la ciudadanía (Garriga-Portolà, 2011), (Benson, 2008).
Esta tendencia ha presentado barreras como la insuficiente calidad de los datos que
afecta negativamente al proceso de reutilización, ocasionando que la ciudadanía invierta
tiempo en comprobar y aumentar la calidad de forma descentralizada y descoordinada
(Vetrò et al., 2016), lo que conlleva que se abandonen los proyectos de portales de datos
abiertos, tan pronto como son implantados para la publicación de datos.
La calidad de datos en formatos abiertos tiene varias dimensiones : (1) exactitud, es
decir, datos que representan correctamente la entidad o evento del mundo real, (2)
puntualidad, datos que representan la situación real y la agilidad en la publicación
(3) consistencia, no contienen contradicciones, (4) exhaustividad, incluyen todos los
elementos de datos que representan a la entidad o evento, (5) disponibilidad, accesibles
ahora y con el tiempo, (6) conformidad, siguen las normas aceptadas, (7) credibilidad,
son de fuentes confiables, (8) accesibilidad, son legibles por máquina, (9) relevancia,
cantidad adecuada de datos (Quality, 2016).
Las cuatro primeras dimensiones (1-4) de calidad citadas, dependen totalmente de
los sistemas de información de origen. Las últimas dimensiones (5-9) dependen de la
gestión implementada en los portales de datos. El esfuerzo que hacen las organizaciones
y administraciones públicas para publicar datos, se ve afectado cuando no existe una
gestión adecuada y ocasiona que se desechen proyectos de datos abiertos al poco tiempo
de ponerse en marcha (Benitez, Comber, & Huerta, n.d.). Desafortunadamente, las
investigaciones actuales se han centrado exclusivamente en analizar la calidad de los
datos ya publicados (Coleman, Hughes, & Perry, 2009), es decir los elementos de calidad
del (5-9). De la literatura revisada no se evidencia aportes que profundicen la vinculación
de las dimensiones (1-4) entre los sistemas de origen y el proceso de apertura de datos.
La presente investigación trata de cubrir este vacío mediante el diseño de un marco
de referencia que considera la calidad de datos en procesos de publicación en abierto,
posibilitando que se publiquen los datos con un nivel de calidad adecuado. Concretamente,
este marco de investigación posee las siguientes características:
1. Se define un archivo maestro de apertura como mecanismo de vinculación de
los datos abiertos con los datos en origen.
2. Se realiza una propuesta de indicadores para la validación de la calidad
del conjunto de datos como un mecanismo de mejora continua previa a la
publicación de datos abiertos.
3. Se aplica el marco de referencia a un caso de estudio.

296 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

El artículo se estructura de la siguiente manera: se describe la metodología de


investigación llevada a cabo, se presentan un análisis de los trabajos relacionados y se
representa el marco de referencia propuesto. Los resultados de la aplicación de nuestro
marco de referencia se presentan en la sección 5 y, finalmente, la discusión de resultados
y las conclusiones se detallan en las secciones 6 y 7, respectivamente.

2. Metodología de Investigación
La metodología de investigación llevada a cabo se basa en el proceso “investigación en
acción” (Baskerville, 2018) y en la estructuración de conocimiento. Se utilizó un caso
de estudio, para diagnosticar la problemática de los datos publicados, planteándose
una hipótesis de trabajo en concordancia con la aplicación del marco de referencia y
realizando varias iteraciones (según la metodología de investigación en acción descrita
en la Figura 1) para mejorarlo. Se concluye con la presentación de los resultados. Las
actividades que se llevan a cabo son las siguientes:

Figura 1 – Etapas de la investigación en acción

Articulación del problema. Se estableció la problemática de la calidad de los datos


abiertos publicados.
Hipótesis dinámica. Se planteó lo siguiente: ¿la creación de un archivo maestro de
apertura mejora la calidad de los datos publicados en formatos abiertos?
Diagnóstico. Se evaluó la calidad de los datos publicados en el portal de datos abiertos.
Diseño de la acción. Se realizó una planificación del nuevo proceso de apertura
considerando el marco de referencia diseñado, se evaluó en cada una de las etapas con
entrevistas al grupo interviniente en el proceso.
Pruebas y resultados. Se analizaron los resultados de cada etapa para realizar las mejoras
respectivas.

RISTI, N.º E22, 08/2019 297


Publicando datos abiertos considerando criterios de calidad

2.1. Diagnóstico de la calidad de datos publicados en el portal


Se realizó un diagnóstico a través de entrevistas con los actores del proceso de publicación
de los conjuntos de datos y una evaluación de los conjuntos de datos publicados. De
estas actividades se obtuvieron los siguientes resultados:
•• La evaluación de la calidad de los datos, se realiza sobre el conjunto de datos
de docentes descargado del portal, que tiene un total de 2.321 docentes. De los
indicadores aplicados se obtiene los resultados descritos en la Tabla 1.

Campos Válidos Blancos/nulos % válidos


Apellidos 2.072 89,27%
249
Nombres 2.069 89,14%
252
Correo_institucional 1.180 50,84%
1.141
Correo_personal 1.031 44,42%
1.290
Categoría 2.057 88,63%
264
Dedicación 2.058 88,67%
263
Relación_trabajo 2.017 86,90%
304
Horas de docencia 1.480 63,77%
841

Tabla 1 – Resultados del diagnóstico sobre el conjunto de datos publicados

•• Los registros duplicados fueron 263 que equivale a 12%.


•• Se identifican datos incompletos, docentes sin carrera o facultad.
De las entrevistas a los responsables de la publicación se identifican las siguientes
problemáticas:
•• No se tiene estandarización en la relación laboral.
•• La persona encargada de la publicación fue temporal.
•• Los responsables de publicación realizaron un proceso de validación manual
en el archivo entregado, lo que ocasionó alguna mejora, pero no en los datos de
origen.
•• No existía una normativa institucional actualizada.

2.2. Diseño de la acción


Una vez realizado el diagnóstico se estableció la hipótesis de trabajo como ¿la creación
de un archivo maestro de apertura mejora la calidad de los datos publicados en formatos
abiertos? y se planificaron las siguientes actividades:
•• Capacitación del marco de referencia diseñado.
•• Aplicación del marco de referencia.
•• Evaluación de cada etapa con cada uno de los participantes.
•• Análisis de resultados de calidad de datos obtenido.
•• Acciones de mejora del marco de referencia.

298 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Cada una de las actividades se convirtió en iteraciones que fueron evaluadas. Se realizó
un total de tres iteraciones hasta lograr llegar a un porcentaje de calidad de datos
aceptado por el grupo interviniente en el proceso.

2.3. Aplicación del marco de referencia


Para la aplicación del marco de referencia propuesto se realizaron las siguientes
actividades:
•• Organización y definición de requisitos. Se identificó dentro de la institución al
responsable del portal de datos abiertos con un perfil de gestión que le permita
coordinar las diferentes actividades para la publicación, como: Reuniones con
los posibles reutilizadores para evaluar la estructura del conjunto de datos, los
potenciales reutilizadores estaban conformados por docentes, estudiantes y
administrativos. Organizar reuniones de levantamiento de requisitos. Definir al
responsable de la generación del dato en este caso el administrador de la base
de datos institucional.
•• Archivo Maestro. Se definió el origen de los datos para el conjunto de datos a
publicar.
•• Preparación del dato. Una vez generado el conjunto de datos se preparó los
siguientes archivos: conjunto de datos en cvs y pdf, diccionario de datos y
metadatos.

3. Trabajos relacionados
Publicar datos en abierto presenta algunas barreras, una es la falta de calidad de los
datos publicados, específicamente con problemas en la completitud, especificación
de metadatos (descripción correcta del registro de datos), datos obsoletos, exactitud
e interoperabilidad entre otros (Janssen, Charalabidis, & Zuiderwijk, 2012). Además,
otros problemas relacionados con la apertura de datos se describen a continuación:
•• Poca o ninguna estandarización de columnas o atributos, ni de unidades de
medida, entre otros (Attard, Orlandi, Scerri, & Auer, 2015) .
•• Conjuntos de datos incompletos, datos faltantes, falta de atributos relevantes o
datos incorrectos (Sadiq & Indulska, 2017).
•• Poca variedad de datos publicados (Luna-Reyes, Bertot, & Mellouli, 2014).
•• Falta de especificación del propósito de los datos, así como de las fuentes de
datos y del responsable de los datos (Reis, Viterbo, & Bernardini, 2018).
En (Kubler, Robert, Le Traon, Umbrich, & Neumaier, 2016), se realiza un estudio de
44 portales de diferentes países, concluyéndose que el movimiento de apertura de datos
propone oportunidades amplias que merecen ser exploradas. Sin embargo, existe un
problema de calidad en los datos abiertos, que tiene un impacto en las iniciativas de
gobierno abierto. Además, en este estudio, se considera que la falta de información
completa sobre los datos publicados afecta directamente a su reutilización, ya que
disminuye su impacto y afecta la sostenibilidad de un proyecto de datos abiertos.
Uno de los elementos que afecta la calidad es la diversidad de las fuentes de datos
en los sistemas de origen (Heinrich, Klier, Schiller, & Wagner, 2018), por cuanto la

RISTI, N.º E22, 08/2019 299


Publicando datos abiertos considerando criterios de calidad

implementación de portales abiertos involucra la integración de datos provenientes de


diversas fuentes siendo estas formarles o informales, lo que dificulta su publicación en
abierto (Oviedo, Mazon, & Zubcoff, 2015).
La integración de datos provenientes de diferentes fuentes, según (Carretero, Gualo,
Caballero, & Piattini, 2017), se aborda con el estructura de dato maestro que permite
incluir definiciones para la recopilación de datos de diferentes orígenes (Benitez-Paez,
Comber, Trilles, & Huerta, 2018).
De estas investigaciones citadas en la Tabla 2, se puede observar un resumen de la
problemática encontrada y las características incluidas en la propuesta:

Problemática Aspectos incluidos en el marco de referencia


No se tiene en cuenta la calidad de datos Se incluye la utilización de un archivo maestro que
abiertos desde las fuentes de datos, sino que identifica la necesidad de información por parte
se intenta resolver los problemas de calidad del reutilizador, con un proceso de combinación e
de datos una vez publicados, lo que resulta identificación del origen de los datos dentro de la
costoso y complejo. organización. Para ello se propone un archivo maestro
de apertura como una adaptación del estándar (ISO,
2009).
No existe en los datos publicados, una Se incluyen indicadores para evaluación de precisión y
afirmación de nivel de precisión y completitud completitud y una propuesta en el archivo de metadatos
de los datos y mecanismo de reclamo por el para incluir los datos del responsable de la información
incumplimiento de los niveles de calidad. (ISO, 2013).
Los datos se publican en abierto sin Se incluye un análisis de los requisitos de calidad de
considerar de manera formal a los potenciales los datos, que a menudo incluye encuestas a usuarios y
reutilizadores (usuarios). administradores de datos en este caso a los reutilizadores
e infomediarios.

Tabla 2 – Problemas encontrados en la apertura de datos

En la siguiente sección, se presenta el marco de referencia aplicado y los resultados


alcanzados.

4. Descripción del marco de referencia para la apertura de datos


El marco de referencia se organiza en cinco etapas, diseñadas en correspondencia con
el análisis de la bibliografía científica, así como con los estándares y buenas prácticas
existentes en el ámbito de la apertura de datos, dando énfasis a los criterios de calidad
en las características de completitud y coherencia para evaluar los resultados.
Organización y definición de requisitos. - Para iniciar un proyecto de datos abiertos,
dando énfasis a la calidad, el primer paso es considerar a la calidad de los datos como
un proceso. Por tanto, la institución que pretende abrir sus datos debe establecer una
estructura organizacional que permita sostener este proceso. La estructura propuesta
incluye a los usuarios potenciales, estos participarán en la etapa de levantamiento de
requisitos y la evaluación una vez publicados los datos, junto con el responsable del
portal y el responsable del dato. En los siguientes apartados se explica las funciones de
cada uno de ellos.

300 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Responsable del portal.- Será el encargado de explotar el valor crítico que los datos
pueden proporcionar (Lee, 2014) y la relación con los potenciales reutilizadores, para
establecer acciones de mejora. El responsable del portal deberá tener conocimientos de
datos abiertos y con capacidades de negociación con los potenciales reutilizadores. Entre
las principales actividades están identificar el grupo de reutilizadores e infomediarios,
organizar las acciones para el levantamiento de los requisitos, definir el responsable del
dato, diseñar un plan de apertura de datos, definir los formatos de publicación y diseñar
planes de mejora de la calidad del dato publicado.
Responsable de la generación del dato. -Es el responsable del proceso que tiene en
cuenta la definición de requisitos de datos, desde el momento en que se genera el dato
internamente en la organización hasta que se publica. Debe tener conocimientos técnicos
de bases de datos. Las actividades sugeridas son: recibir el levantamiento de requisitos
por parte del responsable del portal, definir el origen del dato y el estado del dato en la
organización (automatizado, manual), definir políticas, establecer la codificación de los
datos, así como consideraciones de anonimización y normativa de privacidad interna.
Definir el archivo maestro de apertura.-Dentro de una organización, los datos
maestros permiten relacionar todos los datos que tiene valor crítico en un solo archivo
(Smith & McKeen, 2018), a este concepto se propone añadir criterios de apertura de
acuerdo a las siguientes actividades:
•• Indagación: identificar las aplicaciones y sistemas de origen, para los conjuntos
de datos requeridos por los potenciales reutilizadores y definidos por la
organización. En esta etapa se considerará las bases de datos y fuentes de datos
externas (Vetrò et al., 2016). Esta actividad permite crear un archivo único que
deberá contener la identificación del origen de los datos dentro de la organización,
evaluar la calidad de los datos en origen, identificar la información susceptible
de publicación considerando normativas de protección de datos e identificar la
existencia o no de metadatos y diccionarios de datos de origen.
•• Anonimización: definir la técnica de anonimización para el conjunto de datos
creado (Smith & McKeen, 2018). Para este proceso es necesario contrastar los
datos susceptibles de publicación con las normativas de protección de datos
vigente, para definir dentro de la institución la técnica de anonimización
correspondiente.
•• Licencia: se puede identificar varios tipos de licencia, como por ejemplo, con
reconocimiento que permite la explotación de los datos incluyendo una finalidad
comercial; con reconocimiento pero sin uso comercial de los datos, es decir
no se puede publicar con finalidades comerciales, es decir, no se permite un
uso comercial de los conjunto de datos de las posibles actividades comerciales
(Attard et al., 2015).
•• Formato de publicación: establecer los formatos de publicación considerando
requisitos como disponibilidad como datos estructurados legibles por máquina;
disponibilidad en formato no propietario; estándares abiertos de W3C (RDF y
SPARQL) o URI (Ferrer-Sapena, Peset, & Aleixandre-Benavent, 2011).
Estructurar el archivo de metadatos y diccionario de datos. - La definición
de metadatos significa, crear un archivo que contenga la información de los conjuntos

RISTI, N.º E22, 08/2019 301


Publicando datos abiertos considerando criterios de calidad

de datos publicados, incluyendo información de origen, semántica del conjunto


de datos publicado, información del porcentaje de calidad publicado. De la misma
manera el diccionario de los datos publicados debe tener una descripción de cada uno
de los campos incluidos en el conjunto de datos (Rafique, Lew, Abbasi, & Li, 2012).
Para ello, se presenta una propuesta basada en ISO 8000, a la que se adicionan los
criterios de apertura, los cuales son: estándar de anonimización, licencia de publicación
y codificaciones estandarizadas. Adicionalmente se proponen indicadores de evaluación
para validar los datos abiertos relacionados con completitud y precisión.
Para establecer el porcentaje de calidad en completitud y precisión se estableció, a
manera de ejemplo, los indicadores definidos en la Tabla 3.

Descripción Fórmula de Cálculo


Completitud Evaluación de valores nulos en los campos requeridos.
Exactitud Porcentaje de datos nulos, blancos, incompletos, duplicados, datos sin
formato, datos sin estándar, datos inconsistentes (Sadiq & Indulska, 2017).

Tabla 3 – Indicadores de calidad de datos

Esta actividad permitirá tener una descripción de los datos que están preparándose para
ser abiertos. Se propone la estructura de datos descrita en la Tabla 4.

Nombre Descripción
Identificador Código único

*Licencia Derechos de autor

Fecha Fecha de publicación

*Información de contacto Información de contacto correspondiente al responsable del portal

Idioma Especifica el idioma en el que se almacena

*Publicado Identifica el método de anonimización utilizado

Propietario Entidad que genera el dato

Relación Descripción con entidades que se relaciona

*Aplicación Especifica el nombre de la aplicación que genera

*Usuario del dato Específica el usuario/grupo que requirió el dato

Codificación Descripción de la codificación del dato

*Origen Tipo de Origen del dato digital o manual

Tabla 4 – Estructura del diccionario de datos con características de apertura

302 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Los campos marcados con (*) representan los que corresponden para apertura de datos,
además es importante notar que el Diagrama de Flujo de Datos será el que se utiliza en
la organización para la generación del datos y asociado a sus procesos internos.
Preparación del dato y publicación. -Previo a la publicación de datos, es necesario
validar si los requisitos de los potenciales reutilizadores o infomediarios han sido
cumplidos. Una vez que el dato maestro de apertura está listo se aplicará, nuevamente
los indicadores propuestos en la Tabla 1. Si no se cumple el nivel de calidad requerido,
se publica en el metadato la información correspondiente o se regresa al proceso de
estructuración del dato en el archivo maestro de apertura. La publicación es la etapa
final del marco de referencia donde el conjunto de datos se estructura en formatos
abiertos (Bizer, Heath, & Berners-Lee, 2009). El formato de apertura fue seleccionado
en la etapa donde se define el archivo maestro de apertura.

5. Resultados
Luego de la aplicación del marco de referencia con cada una de las etapas en la primera
iteración se obtuvieron los siguientes resultados:
•• El 30% de los campos incluidos en el conjunto de datos se encontraban en
formatos manuales.
•• Las codificaciones de la relación contractual y dedicación no estaban
estandarizadas.
Con estos elementos se trabajó en el plan de publicación y mejora de los datos
conjuntamente y se agregó la identificación del responsable de la generación del dato.
Se define que el dato se genera en el Sistema de Recursos Humanos y que se alimenta
con los datos del Sistema de Carga Horaria. Para esto se agrega al marco de trabajo la
identificación de los responsables del dato y la necesidad de la estandarización de los
catálogos dentro de la institución. Se agrega al marco de trabajo la necesidad de definir
el estado del dato previo a la apertura.
En la segunda iteración se analiza el porcentaje de completitud y exactitud resultado
del diagnóstico, definiéndose como meta llegar con un nivel de calidad mayor al 95% en
todos los campos, por cuanto existen datos en los sistemas de origen inconsistentes como
las nominaciones de los cargos. Además, los datos históricos tenían algunos elementos
no estandarizados. En el marco de trabajo se agrega las atribuciones del responsable
del portal de datos abiertos, por ejemplo, la relación con el administrador de la base de
datos y el responsable del dato.
Del resultado de la aplicación del marco de referencia, se generaron varias normativas
institucionales relativas a los datos de docentes, como estandarización de cargos y
nominaciones.
En la tercera iteración se establece la necesidad de agregar al marco de trabajo el
concepto de archivo maestro de apertura que contiene el origen del dato, su estado y
una descripción de cada uno de los campos que constan en el conjunto de datos.

RISTI, N.º E22, 08/2019 303


Publicando datos abiertos considerando criterios de calidad

Luego de la aplicación de las tres iteraciones se evalúa la calidad de los conjuntos de


datos previo a la apertura y se llega a los resultados descritos en la Tabla 4.

Campos Válidos Blancos/nulos % válidos


Apellidos 2.321 0 100,00%
Nombres 2.321 0 100,00%
Correo institucional 2.312 9 99,61%
Correo personal 2.105 216 90,69%
Categoría 2.208 113 95,13%
Dedicación 2.321 0 100,00%
Relación trabajo 2.321 0 100,00%
Horas de docencia 2.321 0 100,00%

Tabla 5 – Resultados de la aplicación del marco de referencia

Se analizaron los registros duplicados detectando 41, que equivale a un 2%, que
corresponden a docentes que dictan clases en varias carreras o varias facultades. En este
aspecto, también se agregó una política institucional tal que el docente pertenece a la
facultad y carrera donde mayor carga horaria tiene.

6. Discusión
De los resultados obtenidos en la aplicación del marco de referencia para la apertura de
datos, se valida la implicación directa entre la calidad de datos en origen con la calidad
de datos publicados. Consecuentemente, para favorecer la sostenibilidad no deben
ser procesos aislados, y se genera un archivo maestro de apertura basado en algunos
resultados presentados en la investigación de (Heinrich et al., 2018).
La organización y definición de requisitos, permite mejorar la calidad de datos
publicados por cuanto, al identificar a los potenciales reutilizadores facilita los procesos
de levantamiento de requisitos de publicación, directamente con los consumidores de
la información y la evaluación de la calidad, esto fue propuesto en la investigación de
(Conradie & Choenni, 2014), mientras que en el presente trabajo se concluye que la
participación de los potenciales reutilizadores es fundamental, caso contrario se publica
lo que la institución defina.
El responsable del portal es el interlocutor de todo el proceso en el caso en estudio,
por tanto se logró establecer en la segunda iteración las acciones que debe cumplir del
responsable del dato, concluyendo en características similares con (CDO, Chief Data
Officer) y (Lee, 2014), adicionando conocimientos de anonimización de datos y formatos
de apertura.
Al realizar el archivo maestro de apertura, especialmente en la definición de los orígenes
de datos, se mejora la calidad de los datos para la publicación en abierto, ya que se pudo

304 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

establecer un solo origen del dato. También se impactó a los procesos internos de la
institución. Entre algunos ejemplos se puede citar: establecer claramente el catálogo
de dedicación y categoría del docente, el cual no existía desde la Dirección de Recursos
Humanos implantar una política institucional de uso del correo electrónico para el
acceso a este servicio. Es importante también notar que identificar el responsable del
dato permite mejorar los datos en origen y diseñar las acciones de mejora continua.
También se define al responsable de la creación del dato, con el propósito de
institucionalizar la mejora de los procesos que deben ser automatizados. Esto facilitó
visualizar nuevos requerimientos de sistemas de información y mejorar el diagrama de
flujo de datos interno para poder generar el diccionario de datos para el portal en abierto.
Finalmente, se prepara el dato para publicación y evaluación. La mejora significativa de
los datos se debió a que previo a la publicación se evaluó la calidad de los datos en las
dimensiones definidas, hasta lograr un nivel de calidad superior al 90%. Esto incrementó
el tiempo para la publicación, pero simultáneamente permitió la mejora de los datos
en origen acompañados de la calidad en completitud y exactitud, demostrando con no
pueden ser procesos aislados, ni con una temporalidad definida.

7. Conclusiones
En este trabajo se presenta un marco de referencia para la apertura de datos basado en
estándares y buenas prácticas, que permite considerar criterios de calidad. En concreto,
la aplicación del marco de referencia permite tener en cuenta la calidad de los datos en
origen para conseguir una mejora en la calidad de los datos abiertos, como un proceso
de mejorar continua.
Considerando que los datos publicados tienen su origen en aquellos que se gestionan
en la organización, se debe incluir consideraciones de apertura de datos en formatos
abiertos (y su calidad) desde el inicio de los procesos de automatización.
El marco de referencia presentado en este artículo, establece cada una de las actividades
para definir un proceso de análisis de requisitos relacionado con los datos abiertos,
además propone la creación del archivo de datos maestros de apertura (mediante la
adaptación del estándar ISO 8000), con su correspondiente metadatos y diccionario de
datos con las características necesarias para la publicación en abierto. Se presenta un
conjunto de responsabilidades y roles en un proceso de apertura.
Tal y como se ha detallado en la validación, utilizar el marco de referencia propuesto
ocasiona mayor inversión de tiempo en la preparación de los datos previo a la publicación,
sin embargo, permite la mejora de las estructuras internas que facilitarán procesos de
publicación posteriores con criterios de calidad.
Las limitaciones de la investigación se orientaron a un solo caso de estudio, sin embargo,
la propuesta diseñada responde a los requerimientos levantados de la literatura científica
publicada y estándares reconocidos como ISO, por tanto, podría ser aplicado a otras
instituciones y se realizó mediante iteraciones que mejoraron el mismo. Los elementos citados
generan un nuevo reto para el siguiente trabajo en incluir elementos de gobierno de datos.

RISTI, N.º E22, 08/2019 305


Publicando datos abiertos considerando criterios de calidad

Por tanto, para trabajos futuros se está implementando con este primer modelo una
estructura de gobierno de datos para sostener los trabajos de apertura, con validación
de expertos en cada una de las etapas propuestas.

Referencias
Attard, J., Orlandi, F., Scerri, S., & Auer, S. (2015). A systematic review of open
government data initiatives. Government Information Quarterly, 32(4), 399–418.
[Link]
Baskerville, R. L. (2018). Investigating Information Systems with Action Research.
Communications of the Association for Information Systems, 2(October). https://
[Link]/10.17705/1cais.00219
Benitez-Paez, F., Comber, A., Trilles, S., & Huerta, J. (2018). Creating a conceptual
framework to improve the re-usability of open geographic data in cities. Transactions
in GIS, 22(3), 806–822. [Link]
Benitez, F., Comber, A., & Huerta, J. (n.d.). IMPROVE THE REUSABILITY OF OPEN
How much data is generated every minute ?
Benson, P. (2008). ISO 8000 the International Standard for Data Quality. MIT
Information Quality Symposium, July 16-17(2008), 1–4.
Bizer, C., Heath, T., & Berners-Lee, T. (2009). Linked data-the story so far. International
Journal on Semantic Web and Information Systems, 5(3), 1–22. [Link]
org/10.4018/jswis.2009081901
Carretero, A. G., Gualo, F., Caballero, I., & Piattini, M. (2017). MAMD 2.0: Environment
for data quality processes implantation based on ISO 8000-6X and ISO/IEC 33000.
Computer Standards and Interfaces, 54(September 2016), 139–151. [Link]
org/10.1016/[Link].2016.11.008
Coleman, D. W., Hughes, A. A., & Perry, W. D. (2009). The role of data governance
to relieve information sharing impairments in the federal government. 2009 WRI
World Congress on Computer Science and Information Engineering, CSIE 2009, 4,
267–271. [Link]
Conradie, P., & Choenni, S. (2014). On the barriers for local government releasing open
data. Government Information Quarterly, 31(SUPPL.1), S10–S17. [Link]
org/10.1016/[Link].2014.01.003
Ferrer-Sapena, A., Peset, F., & Aleixandre-Benavent, R. (2011). Acceso a Los Datos
Públicos y Su Reutilización: Open Data y Open Government. El Profesional de La
Informacion, 20(3), 260–269. [Link]
Garriga-Portolà, M. (2011). ¿Datos Abiertos? Sí, Pero de Forma Sostenible. El Profesional
de La Informacion, 20(3), 298–303. [Link]
Heinrich, B., Klier, M., Schiller, A., & Wagner, G. (2018). Assessing data quality – A
probability-based metric for semantic consistency. Decision Support Systems,
110(October 2017), 95–106. [Link]

306 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

ISO. (2009). Chapter-6-Metadata-Management-for-MDM_2009_Master-Data-


Management.
ISO. (2013). International Standard Iso ISO/IEC 25024. 2015, 2015.
Janssen, M., Charalabidis, Y., & Zuiderwijk, A. (2012). Benefits, Adoption Barriers and
Myths of Open Data and Open Government. Information Systems Management,
29(4), 258–268. [Link]
Kubler, S., Robert, J., Le Traon, Y., Umbrich, J., & Neumaier, S. (2016). Open Data
Portal Quality Comparison using AHP. Proceedings of the 17th International Digital
Government Research Conference on Digital Government Research, 397–407.
[Link]
Lee, Y. (2014). ESD Working Paper Series A Cubic Framework for the Chief Data Officer :
Succeeding in a World of Big Data ESD-WP-2014-34. (November).
Luna-Reyes, L. F., Bertot, J. C., & Mellouli, S. (2014). Open Government, Open Data and
Digital Government. Government Information Quarterly, 31(1), 4–5. [Link]
org/10.1016/[Link].2013.09.001
Oviedo, E., Mazon, J. N., & Zubcoff, J. J. (2015). Quality and maturity model for open
data portals. 2015 Latin American Computing Conference (CLEI), 1–7. [Link]
org/10.1109/CLEI.2015.7360011
Pirozzi, D., & Scarano, V. (2016). Support Citizens in Visualising Open Data. 2016 20th
International Conference Information Visualisation (IV), 271–276. [Link]
org/10.1109/IV.2016.45
Quality, D. (2016). Best Practice: Enable quality assessment of open data. (July). Retrieved
from [Link]
[Link]/2013/share-psi/bp/eqa/Previousversion[Link]
share-psi/bp/eqa-20160721/
Rafique, I., Lew, P., Abbasi, M. Q., & Li, Z. (2012). Information Quality Evaluation
Framework: Extending ISO 25012 Data Quality Model. International Journal of
Computer, Electrical, Automation, Control and Information Engineering, 6(5),
568–573. Retrieved from [Link]
Ramos Simón, L. F., Arquero Avilés, R., Botezan, I., Cobo Serrano, S., Sala Jiménez,
A., Sánchez Jiménez, R., & Valle Gastaminza, F. del. (2012). De la reutilización de
información del sector público a los portales de datos abiertos en Europa. BiD:
Textos Universitaris de Biblioteconomia i Documentació, 29. Retrieved from
[Link]
Reis, J. R., Viterbo, J., & Bernardini, F. (2018). A Rationale for Data Governance
As an Approach to Tackle Recurrent Drawbacks in Open Data Portals.
Proceedings of the 19th Annual International Conference on Digital
Government Research: Governance in the Data Age, 73:1--73:9. [Link]
org/10.1145/3209281.3209354

RISTI, N.º E22, 08/2019 307


Publicando datos abiertos considerando criterios de calidad

Sadiq, S., & Indulska, M. (2017). Open data: Quality over quantity. International
Journal of Information Management, 37(3), 150–154. [Link]
ijinfomgt.2017.01.003
Smith, H. A., & McKeen, J. D. (2018). Developments in Practice XXX: Master Data
Management: Salvation Or Snake Oil? Communications of the Association for
Information Systems, 23. [Link]
Vetrò, A., Canova, L., Torchiano, M., Minotas, C. O., Iemma, R., & Morando, F. (2016).
Open data quality measurement framework: Definition and application to Open
Government Data. Government Information Quarterly, 33(2), 325–337. https://
[Link]/10.1016/[Link].2016.02.001

308 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 01/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 22/07/2019

Una Revisión de Bodegas de Datos para Educación


Superior

David-Antonio Fuentes-Vargas1, John-Alexander Soraca-Higuera1, Carlos-Alberto


Cobos-Lozada2, Martha-Eliana Mendoza-Becerra2, Luis-Carlos Gómez-Flórez1.

davidafuentesv@[Link], [Link]@[Link], ccobos@[Link],


mmendoza@[Link], lcgomezf@[Link]

1
Universidad Industrial de Santander, Carrera 27 Calle 9, 680002, Bucaramanga, Colombia.
2
Universidad del Cauca, Departamento de Sistemas, Calle 5 Nº 4-70, 190003, Popayán, Colombia
Pages: 309–322

Resumen: Las Instituciones de Educación Superior (IES) se han dado cuenta de


la importancia de usar las bodegas de datos para soportar la toma de decisiones en
procesos académicos y financieros. Aunque actualmente se encuentran diversos
trabajos relacionados, no se presentan de forma clara los conceptos (dimensiones
y hechos) que se deben tener en cuenta en su diseño para que sirva a las IES y el
gobierno en la planeación del futuro de la Educación Superior. Este artículo presenta
una revisión sistemática de bodegas de datos para las IES y se compara frente a los
conceptos de una propuesta del Ministerio de Educación de Colombia denominada
MIDE usada para evaluar la calidad de las IES. El resultado revela 8 conceptos
para el proceso de diseño y una crisis de comprensibilidad en la literatura (con las
dimensiones explicadas en tan sólo 21% de la literatura y los hechos en tan sólo 18%).
Palabras clave: Bodegas de Datos, Necesidades en Educación Superior, Sistemas
de Información, Toma de Decisiones, Indicadores de Calidad.

A Review of Data Warehouse for Higher Education

Abstract: Higher Education Institutions (HEI) have realized the importance


of using data warehouses to support decision making in academic and financial
processes. Although there are currently several related works, it is not clear which
are the concepts (dimension and facts) that must be taken into account in their
design to serve HEIs and the government in planning the future of Higher Education.
This article presents a systematic review of the literature related to the application
of data warehouses in IES and compares them with the concepts of a proposal of
the Ministry of Education of Colombia called MIDE, which is used to evaluate the
quality of HEIs. The result reveals 8 concepts for the design process and a crisis of
understandability in the literature (the dimensions are fully explained in just 21%
of the literature and the facts in just 18%).
Keywords: Data warehouses, Needs in Higher Education, Information Systems,
Decision Making, Indicators of Educational Quality.

RISTI, N.º E22, 08/2019 309


Una Revisión de Bodegas de Datos para Educación Superior

1. Introducción
El incremento periódico de los datos que acumulan las Instituciones de Educación
Superior (IES) se ha convertido en una oportunidad para los sistemas que propician el
análisis de los datos. De esta forma, el manejo estratégico de los sistemas de información
(Pinto, Becerra, & Gómez, 2013) es clave para la identificación de conocimiento y aspectos
claves de los procesos de las IES. De acuerdo con Moreira & Rocha (2018), en el entorno
empresarial y académico, la era digital nos ha llevado a un aumento significativo de la
generación de datos, los cuales deben ser estructurados adecuadamente, analizados y
presentados con precisión para poder aprovechar los beneficios detrás de esta información
(Martins et al., 2019). Sin embargo, a pesar de contar con este gran volumen de datos,
a la fecha gran parte de estas instituciones colombianas no han logrado consolidarlos,
limitando su proyección, situación compartida por algunos países en el mundo.
Las bodegas de datos son repositorios diseñados para el almacenamiento, administración y
análisis de grandes cantidades de datos (Cabrera, Morán, & Ramírez, 2014) y han demostrado
ser una herramienta útil y valiosa en el proceso de planeación estratégica en diferentes
áreas, principalmente en ventas, finanzas, telecomunicaciones, salud y recientemente en
educación. Implantar una bodega de datos permite aportar información actualizada y veraz,
en diferentes niveles de agrupación, y con trazabilidad en la gestión de la calidad institucional
(Rosado, 2016). El proceso típico de diseño de una bodega de datos inicia con la recolección
de requerimientos, los cuales son la base para poder obtener un sistema analítico en línea
hecho a la medida de la institución interesada (Mendoza, Durán, & Rivera, 2010).
Un proceso innovador que proponga un modelo general de bodegas de datos aplicado
a todas las IES a nivel de una nación, requiere de uno o más indicadores transversales
a todas las IES del país. En Colombia existe un Modelo de Indicadores de Desempeño
del Ministerio de Educación (MIDE) que sirve como herramienta de evaluación de la
calidad de las IES del país, de acuerdo a un informe de sus resultados en ocho dominios
(Ministerio de Educación Nacional de Colombia, 2018).
Esta revisión sistemática busca establecer los conceptos fundamentales del estado de arte
relacionados con modelos de bodegas de datos para instituciones de educación superior
y con ello analizar la viabilidad de crear un modelo dimensional basado en el MIDE. El
método de revisión sistemática se basó en la guía definida por Kitchenham, Charters &
Budgen (2007). A continuación en la sección 2 se presenta la planeación de la revisión,
incluida la búsqueda de otras Revisiones Sistemáticas de la Literatura (RSL) relacionadas
con el tema, las preguntas de investigación, el desarrollo de la búsqueda, la evaluación de
la calidad de los estudios relevantes y las respuestas encontradas a las preguntas, luego
en la sección final se presentan las conclusiones del trabajo centradas en los dominios
fundamentales del uso de las bodegas de datos en las IES según la literatura.

2. Planeación de la Revisión Sistemática de la Literatura (RSL)

2.1. RSL existentes sobre bodegas de datos aplicadas a la educación superior


Se buscaron RSL pertinentes a la temática de investigación en un rango temporal del
2014 al 2019 y utilizando como fuentes Scopus, ISI Web of Knowledge, IEEEXplore,

310 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Directory Open Access Journal (DOAJ), Science Direct y Springer-Link. Posteriormente,


se aplicaron los criterios (1. Reporta criterios de inclusión/exclusión, 2. Búsqueda
adecuada, 3. Síntesis de los estudios incluidos, 4. Evaluación de la calidad de los estudios
incluidos, 5. Presentación de detalles suficientes de los estudios incluidos. La RSL debe
cumplir al menos cuatro de los cinco criterios) establecidos por la University of York
(2014) en la Base de datos de Resúmenes de Revisiones de Efectos (Database of Abstracts
of Reviews of Effects, DARE) a las cuatro revisiones encontradas y se obtuvieron los
resultados presentados en la Tabla 1. Es preciso comentar que la revisión titulada “A
Holistic View of Data Warehousing in Education” solo aprobó tres criterios, esto se
debe a que los autores realizaron más que una RSL, un Mapeo Sistemático y en este tipo
de documentos no es necesario evaluar la calidad y validez de los estudios utilizados.

Autor Año Título Calidad

A business intelligence framework for higher education


Zulkefli et al. 2015 2.5
institutions

Key Successful Factors of Executive Information System


Winanti et al. 2018 Implementation in Higher Education: A Systematic Literature 3.5
Review

Moscoso et al. 2018 A Holistic View of Data Warehousing in Education 3

Musa, Binti, Success Factors for Business Intelligence Systems Implementation


2019 3.5
& Ali in Higher Education Institutions – A Review

Tabla 1 – RSL existentes sobre bodegas de datos aplicadas en IES

El trabajo de Zulkefli et al. (2015) presenta una RSL para identificar el uso actual de
la inteligencia de negocios (Business Intelligence, BI) en IES y guiar con ello futuras
investigaciones. Además, menciona la necesidad de una bodega de datos en las IES para
centralizar, identificar y clasificar los datos para su posterior análisis. Sin embargo, no
presenta criterios de exclusión, ni evalúa la calidad y validez de los estudios utilizados,
como tampoco hace una descripción sustancial de estos. El marco de trabajo que aporta
Zulkefli et al. (2015) consta de ocho componentes: 1) la misión y visión, 2) el plan
estratégico, 3) los indicadores de rendimiento, 4) los procesos claves del negocio, 5) el
personal, 6) los procesos, 7) las tecnologías BI y 8) la infraestructura de la información.
En la RSL que realizan Winanti et al. (2018) buscaron determinar los factores que
influyen en la aplicación de sistemas de información ejecutivos en IES. Los autores
encontraron que un sistema de información exitoso en una IES controla los factores
tecnológicos, de datos y universitarios. Las bodegas de datos hacen parte del factor de
datos, el cual mostró un impacto significativo en las IES al ser mencionado en 37 de los
76 artículos candidatos de la RSL. Este informe a pesar de caracterizar los estudios no los
describe con el suficiente detalle ni evalúa la calidad de los mismos. El factor tecnológico
se subdivide en educación tecnológica, soporte técnico y experiencia en informática. El
segundo factor se relaciona con el manejo de datos y el vínculo de estos con los objetivos
de negocio. Finalmente, el factor universitario se ramifica en soporte universitario,
patrocinio de operaciones, y personal de servicio de información, entre otros.

RISTI, N.º E22, 08/2019 311


Una Revisión de Bodegas de Datos para Educación Superior

La revisión realizada por Moscoso et al. (2018) busca explorar e identificar las áreas
prioritarias de investigación en bodegas de datos educativas. Los estudios encontrados en
este Mapeo Sistemático (MS) no se describen con el suficiente detalle, pero el documento
aporta información sobre algunos de los estudios primarios durante el proceso de
clasificación y análisis. Este MS encontró 34 estudios pertinentes, de los cuales 27 tenían una
implementación, 26 proponían un esquema, 19 analizaban datos, 11 evaluaban su eficacia,
8 tenían en cuenta requerimientos de negocio y 4 mencionaban requerimientos de usuario.
Esta revisión además de mostrar las etapas que se tienden a manejar en proyectos de bodegas
de datos en educación, también encontró que solo hay unos pocos estudios de calidad sobre
el tema, y confirma que hay grandes oportunidades para futuras investigaciones en el campo.
Debido a que los sistemas BI tienen altos riesgos, desarrollan procesos complejos y son
dependientes de una correcta implementación, Musa et al. (2019) propone ocho factores
de éxito en la implementación de estrategias de BI. Un sistema BI aplicado de forma
exitosa es importante según los autores, porque permite aumentar el desempeño de las
IES al facilitar la toma de decisiones basadas en datos. Esta RSL no explicita los criterios
de inclusión y exclusión utilizados, ni revisa la calidad y validez de los estudios incluidos.
Los factores de éxito encontrados por los autores se relacionan con: 1) el soporte de
alta dirección, 2) la visión, 3) la estructura organizacional, 4) el empoderamiento del
usuario, 5) el equipo de trabajo, 6) la participación del usuario, 7) la calidad del sistema,
8) la calidad de la información y 9) la calidad del servicio.
Este marco referencial de revisiones sistemáticas de modelos de bodegas de datos
aplicados a IES se hizo para evaluar cómo se están haciendo las revisiones actualmente
en esa área, identificar las fallas que están presentando y no repetirlas en la RSL que
se realizó. De las cuatro revisiones sistemáticas encontradas solo Moscoso et al. (2018)
abordan específicamente el tema de bodegas de datos en IES, las revisiones restantes se
enfocan en la inteligencia de negocios y mencionan el tema de forma indirecta. Los autores
muestran que todavía hay una sensible ausencia de su implementación en entornos reales,
empezando por diversos problemas en el proceso ETL (Extraction, Transform and Load).

2.2. Preguntas de investigación


Las preguntas de investigación se enfocaron en identificar las tendencias en bodegas de
datos aplicadas a IES guiadas por los dominios nombrados en el MIDE. Se tuvo en cuenta
que según Kitchenham et al. (2007) una correcta pregunta de investigación debe ser
significativa para la industria y la academia, llevar a cambios, incrementar la confianza en las
prácticas actuales e identificar las discrepancias entre las creencias comunes y la realidad.
Teniendo en cuenta estas normas se plantearon las siguientes preguntas de investigación:
•• Pregunta 1: ¿Qué investigaciones han sido realizadas desde el 2014 sobre un
modelo dimensional de bodegas de datos que busquen mejorar la toma de
decisiones de las IES en los dominios de desempeño evaluados por el MIDE?
•• Pregunta 2: ¿Qué otros dominios de desempeño se están abordando en las
investigaciones sobre bodegas de datos para IES y no se mencionan en el MIDE?
Estas dos preguntas buscan determinar tanto la frecuencia de desarrollo como el éxito
o fracaso de trabajos relacionados con modelos dimensionales de bodegas de datos en
educación superior.

312 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

2.3. Desarrollo del protocolo de revisión


Un protocolo de revisión especifica los métodos que se utilizarán para llevar a cabo la
RSL. Un protocolo predefinido es necesario para reducir la posibilidad de sesgo del
investigador (ser conducido durante la búsqueda por sus expectativas). El protocolo que
sigue esta RSL se presenta a continuación.
Cadena de búsqueda de estudios primarios
Los términos de búsqueda se construyen usando la estrategia planteada por Kitchenham,
Mendes, & Travassos (2007) que consisten en: Derivar los términos principales de las
preguntas de investigación identificando la población, la intervención y el resultado;
Identificar las palabras alternativas y sinónimos de los términos principales; Revisar las
palabras claves en cualquier documento relevante que ya se tenga; Utilizar funciones lógicas
OR para incorporar las palabras alternativas y sinónimos; y Finalmente, Utilizar funciones
lógicas AND para vincular los términos principales de población, intervención y resultado.
Siguiendo estos pasos se identificaron las palabras clave para realizar la búsqueda
de los trabajos vinculados con el tema. Haciendo uso de la estrategia explicada y las
recomendaciones de Kitchenham, Charters, et al. (2007) se llegó a la cadena de búsqueda
que se muestra en la Tabla 2.

Cadena de búsqueda
(universities OR higher education OR college OR academic OR institutions) AND (data warehouse OR data
warehousing OR business Intelligence) AND (dimensional model OR dimensional modeling OR design)

Tabla 2 – Cadena de búsqueda usada para iniciar la revisión

Posteriormente durante el análisis de la revisión, los estudios candidatos se relacionaron


con alguno de los ocho dominios de evaluación del desempeño académico que define el
MIDE, estos últimos son presentados en la Figura 1 con sus respectivos subdominios.
Los subdominios de Valor Agregado (VA) se refieren a la diferencia entre los resultados
en razonamiento cuantitativo y lectura crítica en el examen estatal que se realiza antes y
después de los estudios de pregrado.

Figura 1 – Dominios de evaluación del MIDE (Ministerio de Educación Nacional de Colombia, 2018)

RISTI, N.º E22, 08/2019 313


Una Revisión de Bodegas de Datos para Educación Superior

Proceso de búsqueda
Las búsquedas electrónicas se basaron en las bases de datos Scopus, ISI Web of
Knowledge, IEEEXplore, Directory Open Access Journal (DOAJ), Science Direct y
Springer-Link. Siguiendo el proceso propuesto por Kitchenham, Mendes, et al. (2007),
la búsqueda se organiza en dos fases; en la fase inicial se identifican estudios candidatos
derivados de las palabras claves de la cadena de búsqueda y en una segunda fase se
aplica la técnica “bola de nieve”, esta consiste en revisar las referencias de cada estudio
primario buscando identificar más estudios candidatos.
Criterios de inclusión y exclusión
Los criterios para incluir un estudio primario fueron los siguientes:
•• El estudio es relevante para el desarrollo de bodegas de datos para IES.
•• El estudio es aplicado a dominios de evaluación de calidad de las IES.
Los criterios para excluir un estudio primario fueron los siguientes:
•• El estudio no debe haber sido publicado antes del 2014.
Evaluación de calidad de los estudios primarios
Adicional a la selección por criterios de inclusión y exclusión fue necesario evaluar la
calidad de los estudios relevantes. Este paso permite según Kitchenham, Charters, et
al. (2007) investigar si las diferencias de calidad de los estudios explican las diferencias
en sus resultados, ponderar la importancia de cada estudio, determinar la fuerza de las
inferencias e incluso guiar recomendaciones para futuras investigaciones.
La calidad de los estudios primarios de la presente revisión del estado del arte se evaluó
con la lista de verificación de estudios cualitativos provista por Kitchenham, Charters,
et al. (2007).

3. Resultados de la Revisión Sistemática de la Literatura (RSL)


Siguiendo el protocolo antes descrito se encontraron ochenta y dos (82) trabajos, de los
cuales treinta y cuatro (34) cumplieron con los criterios de inclusión/exclusión y fueron
pertinentes para responder las preguntas de investigación. La calidad de los estudios
seleccionados se valoró a partir de los criterios de evaluación de calidad de estudios
cualitativos propuestos por Kitchenham, Charters, et al. (2007).
En la Tabla 3 se presenta una vista general de los componentes más importantes de
un modelo dimensional encontrados en la literatura. La columna Explic. Dimen. indica
cuantas dimensiones son explicadas y cuántas entendibles (E) del total que se presentan,
por ejemplo, si en un estudio se explican 5 dimensiones y se entienden solo 6 de las 10
del esquema entonces se consigna en la tabla un 5 (E=6/10); para las medidas se evalúa
Explic. Medidas de la misma forma que las dimensiones; la columna Implem., señala si
la bodega de datos se implementó en la IES; finalmente la columna Calidad, indica el
porcentaje de calidad del documento. Este porcentaje se calcula de acuerdo a la cantidad
de criterios cumplidos, donde cada criterio tiene un peso de 1 si se cumple de forma
satisfactoria, 0.5 de forma parcial y 0 si no se cumple.

314 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Explic. Explic. Calidad


Autores Implem. Año
Dimen. Medidas [%]
Pesonen, Fomkin, & Jokipii (2018) Ninguna No tiene Si 2018 78
Pasyeka (2018) Ninguna No tiene Si 2018 72
Medina, Fariña & Castillo (2018) 16 (E=16/16) 10 (E=10/10) Si 2018 75
Santoso (2018) Ninguna No tiene No 2018 69
Lapura et al. (2018) 4 (E=1/4) 9 (E=4/9) Si 2018 78
Salaki & Ratnam (2018) Ninguna No tiene No 2018 61
Khan B, Ghosh, & Ghosh (2018) 1 (E=7/8) 0 (E=5/9) No 2018 69
Cheowsuwan, et al. (2017) Ninguna No tiene No 2017 86
Budiarta, et al. (2017) 0 (E=14/14) No tiene No 2017 69
Hendrayana, et al. (2017) Ninguna No tiene No 2017 50
Ta’a et al. (2017) 0 (E=3/4) 0 (E=9/25) Si 2017 58
Zambrano, Sepúlveda, & Varas (2017) 1 (E=7/7) 3 (E=3/3) Si 2017 89
Sanchez, Pastor, & Borrell (2017) Ninguna No tiene No 2017 56
Aljawarneh (2016) 5 (E=5/5) 1 (E=3/4) Si 2016 86
Abdullah & Obaid (2016) 0 (E=6/6) 0 (E=8/8) Si 2016 53
Bondarev & Zakirov (2016) 0 (E=8/8) No tiene No 2016 61
Moscoso, Sampedro & Luján (2016) Ninguna No tiene No 2016 67
Iskandar & Taufik (2016) 0 (E=6/9) 0 (E=3/5) No 2016 75
Song, Pramudianto & Gehringer (2016) Ninguna No tiene No 2016 83
Panchal (2016) 1 (E=4/4) 0 (E=3/5) Si 2016 78
Gorgan (2015) 5 (E=5/5) No tiene Si 2015 69
Moturi & Emurugat (2015) 3 (E=3/3) 0 (E=18/43) Si 2015 83
Bates (2015) 0 (E=14/14) No tiene Si 2015 86
Di Tria, Lefons, & Tangorra (2015) 0 (E=7/9) 0 (E=10/12) No 2015 83
Gorbea & Madera (2015) 5 (E=5/5) 1 (E=1/1) Si 2015 81
Rudy & Miranda (2015) Ninguna No tiene No 2015 81
Gao & Chen (2015) Ninguna No tiene Si 2015 69
León-Barranco, et al. (2015) 6 (E=6/6) 4 (E=3/4) Si 2015 81
Rudy & Miranda (2015) 26 (E=26/26) 4 (E=4/4) Si 2014 89
Aziz, et al. (2014) 0 (E=3/8) 0 (E=0/6) No 2014 89
Castelão Tetila (2014) Ninguna No tiene No 2014 83
Mirabedini (2014) 0 (E=6/6) 1 (E=1/1) No 2014 81
Nobre, Trigo & Sanches (2014) 0 (E=2/6) 0 (E=0/20) Si 2014 89
Meyliana, Widjaja & Santoso (2014) 0 (E=4/30) 0 (E=2/33) Si 2014 81

Tabla 3 – Componentes del modelo dimensional y evaluación de calidad

RISTI, N.º E22, 08/2019 315


Una Revisión de Bodegas de Datos para Educación Superior

Como se aprecia en la Tabla 3 aproximadamente la mitad de los autores en la literatura


hace la implementación del modelo que proponen. Para cualificar la explicación de las
dimensiones y las medidas del modelo, se clasifica como Buena si se entiende más del
75% de las dimensiones y medidas del estudio, Regular si este valor esta entre el 25% y
el 75%, y Mala si es menor al 25%. La Tabla 3 revela que aproximadamente el 21% de los
estudios primarios presenta una Buena explicación de las dimensiones del modelo y el
35% una regular. El panorama para las medidas es similar, con una Buena explicación
en el 18% de estudios y una Regular en el 21%. Estos resultados revelan una falencia en la
comprensibilidad de los modelos dimensionales encontrados en la literatura. Luego de
esta evaluación de calidad de la literatura pertinente al área se responden las preguntas
de investigación formuladas durante la planeación de la RSL.
Pregunta 1: ¿Qué investigaciones han sido realizadas desde el 2014 sobre
un modelo dimensional de bodegas de datos que busque mejorar la toma
de decisiones de las IES en los dominios de desempeño evaluados por el
Ministerio de Educación de Colombia?
Los treinta y cuatro (34) estudios primarios que cumplieron con los criterios de inclusión/
exclusión se clasificaron en los dominios de evaluación del MIDE que se presentan en
la Figura 1. Sin embargo, solo diez y seis (16) de estos trabajos están específicamente
enfocados en uno o varios de estos dominios. Los estudios restantes muestran un
enfoque generalizado de las bodegas de datos para el sector educativo o pertenecen a
un dominio inexistente en el MIDE. La Figura 2 presenta las relaciones existentes entre
los estudios primarios y cada subdominio, donde se aprecia que la permanencia del
estudiante, su graduación, la creación de nuevo conocimiento, el desarrollo tecnológico
e innovación son los tópicos evaluados por el MIDE en los cuales las bodegas de datos
ya han sido utilizadas.

Figura 2 – Dominios del MIDE manejados en los estudios primarios

El bienestar universitario y la producción intelectual son los dominios en los cuales se


han desarrollado más bodegas de datos. Este resultado era de esperarse ya que autores
como Weir (2009) han determinado que los países han centrado sus esfuerzos en la

316 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

calidad de su provisión de educación y producción de conocimiento. Durante la lectura


de los estudios primarios seleccionados se encontraron 7 de los 18 trabajos que no están
relacionados con los dominios de evaluación de calidad del MIDE, aunque manejan un
enfoque superficial del modelado de bodegas de datos para IES propuesto, pueden llegar
a ser útiles para ver esta temática desde otras perspectivas. Panchal (2016) describe los
problemas comunes durante la implementación de bodegas de datos para IES, Iskandar
& Taufik (2016) dan recomendaciones sobre cómo hacer una bodega de datos para IES,
Santoso (2018) da una perspectiva moderna sobre el manejo de datos de IES con Big
Data, Song, Pramudianto, & Gehringer (2016) abordan las bodegas de datos para IES
pero con sistemas de evaluación online por pares, Salaki & Ratnam (2018) aportan una
metodología general de diseño pero no menciona ningún tópico específico dentro de las
IES, Sanchez, Pastor & Borrell (2017) mencionan las bodegas de datos para IES como
una parte del sistema de información general que proponen y finalmente Ta’a, Bakar,
Shahbani, Chareen, & Mohd (2017) a pesar de estar relacionado con el tema solo se
centra en aprendizaje online.
Pregunta 2: ¿Qué otros dominios de desempeño se están abordando en las
investigaciones sobre bodegas de datos para IES y no se mencionan en el
MIDE?
En la Figura 3 se observa que el dominio en el cual más se han realizado bodegas de
datos para IES es en el proceso de aprendizaje, la literatura muestra que la metodología
de enseñanza es un requerimiento frecuente durante el proceso de toma de decisiones
en las IES en búsqueda de un mejoramiento de la calidad.

Figura 3 – Dominios manejados en los estudios primarios

Los dominios de procesos de aprendizaje y gestion presupuestal son tenidos en cuenta


en la toma de decisiones institucionales como se puede constatar con los catorce (14)
estudios sobre bodegas de datos para IES que los mencionan.

RISTI, N.º E22, 08/2019 317


Una Revisión de Bodegas de Datos para Educación Superior

4. Conclusiones
El estado del arte en bodegas de datos para instituciones de educación superior muestra
que los trabajos realizados desde el 2014 no se fundamentan de una forma significativa
en cada uno de los dominios de evaluación de calidad que tiene en cuenta el MIDE.
Sin embargo, sí existe una relación entre algunos dominios con modelos de bodegas de
datos propuestos, lo cual brinda una oportunidad de investigación en el modelado de
una bodega de datos integral basada en indicadores de calidad.
Los dominios de evaluación del MIDE sirven como base para el diseño de una bodega
de datos, en ese orden de ideas, el modelo dimensional de la bodega podría enriquecerse
con dominios adicionales relacionados con la financiación y el proceso de aprendizaje.
De hecho, este último fue el dominio en el cual se encontró más literatura relacionada.
La mayoría de la literatura en bodegas de datos aplicadas a IES no está exponiendo
los modelos dimensionales propuestos con la suficiente claridad explicativa, esto
se constituye en una oportunidad para contribuir desde la comunidad científica a su
correcta aplicación, creando modelos con un avanzado nivel de comprensibilidad.
Este trabajo se basa en el MIDE, propuesto por el Ministerio de Educación Nacional
de Colombia, pero se observa que es susceptible de ser replicado usando indicadores
de desempeño de otros países que permitan crear modelos de bodegas de datos para
almacenar, gestionar y analizar información académica relevante al contexto particular
de sus IES.

5. Trabajo futuro
Esta revisión sistemática permite viabilizar la definición de un modelo dimensional para
educación superior que de soporte a la proyección estratégica con base en indicadores
de calidad institucional; manejando una explicación y esquematización detallada de las
medidas y dimensiones.

Referencias
Abdullah, Z. A. S., & Obaid, T. A. S. (2016). Design and Implementation of Educational
Data Warehouse Using OLAP. International Journal of Computer Science and
Network, 5(5), 824–827.
Aljawarneh, I. M. (2016). Design of a data warehouse model for decision support at
higher education : A case study. Information Development, 32(5), 1691–1706.
[Link]
Aziz, A. A., Jusoh, J. A., Hassan, H., Sultan, U., & Abidin, Z. (2014). A framework for
educational data warehouse (EDW) architecture using business intelligence (BI)
technologies. Journal of Theoretical and Applied Information Technology, 69.
Bates, E. (2015). UVM Big Data? Aggregating Campus Databases and Creating a Data
Warehouse to Improve Student Retention Rates at the University of Vermont
(University of Vermont).

318 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Bondarev, A., & Zakirov, D. (2016). Data Warehouse on Hadoop Platform for Decision
Support Systems in Education. Twelve International Conference on Electronics
Computer and Computation (ICECCO).
Budiarta, K., Agung, P., Wijaya, A., & Indrapartha, C. G. (2017). Analysis and Design
of Data Warehouse on Academic STMIK STIKOM Bali. International Journal of
Engineering and Emerging, 2(1), 35–39.
Cabrera, A., Morán, E., & Ramírez, I. (2014). Uso de la Tecnología Data Warehouse en
Unidades Educativas de Nivel Medio : Revista Ciencia UNEMI, 51–57.
Castelão Tetila, E. (2014). Modelagem de Dados com Data Warehouse e OLAP: um
estudo de caso. Revista EaD & Tecnologias Digitais Na Educação, 2, 20–29.
Cheowsuwan, T., Rojanavasu, P., Srisungsittisunti, B., & Yeewiyom, S. (2017).
Development of data warehouses and decision support systems for executives
of educational facilities in northern Thailand to increase educational facility
manageme. International Journal of Geoinformatics, 13.
Di Tria, F., Lefons, E., & Tangorra, F. (2015). Academic Data Warehouse Design Using a
Hybrid Methodology. Computer Science and Information Systems, 12(1), 135–160.
[Link]
Gao, L., & Chen, Y. (2015). Application Research of University Decision Support System
Based on Data Warehouse. Journal Computer Science and Its Applications, 12(1),
631–637. [Link]
Gorbea Portal, S., & Madera Jaramillo, M. (2015). Diseño de un data warehouse
para medir el desarrollo disciplinar en instituciones académicas. Investigación
Bibliotecológica, 31, 161–181.
Gorgan, V. (2015). Monitoring student performance. A data driven decision support
system approach: Case study. SEA - Practical Application of Science, 3(2), 135–140.
Hendrayana Surya, P. B., Rahardian, R. L., & Saputra, K. oka. (2017). Data Warehouse
Design Academic Affairs case study: campus STMIK STIKOM Bali Jimbaran.
International Journal of Engineering and Emerging Technology, 2(1), 104–106.
Iskandar, A. R., & Taufik, I. (2016). Readiness For Implementing Data Warehouse of
Higher Education System With Sodano’s Perspective. 4th International Conference
on Cyber and IT Service Management.
Khan B, A., Ghosh, S., & Ghosh, S. K. (2018). eDWaaS : A Scalable Educational Data
Warehouse as a Service. International Conference on Intelligent Systems Design
and Applications, ISDA, 998–1007.
Kitchenham, B., Charters, S., & Budgen, D. (2007). Guidelines for performing Systematic
Literature Reviews in Software Engineering. In Keele University. Durham and
Keele.
Kitchenham, B., Mendes, E., & Travassos, G. H. (2007). Cross versus Within-Company
Cost Estimation Studies: A Systematic Review. 33(5), 316–329.

RISTI, N.º E22, 08/2019 319


Una Revisión de Bodegas de Datos para Educación Superior

Lapura, E. V. F., Kenneth, J., Fernandez, J., Jonathan, M., Pagatpat, K., Dante, D., …
Dante, D. (2018). Development of a University Financial Data Warehouse and its
Visualization Tool. Procedia Computer Science, 135, 587–595.
León-Barranco, A., Saucedo-Lozada, S. N., Avendaño-Jimenez, I. Y., Martínez-Leyva, R.,
& Carcaño-Rivera, L. A. (2015). Business Intelligence in Educational Institutions.
Research in Computing Science, 96, 43–53.
Martins, J., Branco, F., Gonçalves, R., Au-Yong-Oliveira, M., Oliveira, T., Naranjo-
Zolotov, M., & Cruz-Jesus, F. (2019). Assessing the success behind the use of
education management information systems in higher education. Telematics and
Informatics, 38, 182–193. [Link]
Medina Q, F., & Castillo-rojas, W. (2018). Data Mart para obtención de indicadores
de productividad académica en una universidad Data Mart to obtain indicators of
academic productivity in a university. Ingeniare. Revista Chilena de Ingeniería,
26, 88–101.
Mendoza, M. E., Durán, L., & Rivera, N. (2010). MBD 1.0. Metodología de Desarrollo de
Bodegas de Datos Para Micro, Pequeñas y Medianas Empresas. UIS Ingenierías,
9(1), 85–101.
Meyliana, Widjaja, H. A. E., & Santoso, S. W. (2014). University dashboard: An
implementation of executive dashboard to university. 2nd International Conference
on Information and Communication Technology (ICoICT), 282–287. [Link]
org/10.1109/ICoICT.2014.6914080
Ministerio de Educación Nacional de Colombia. (2018). Documento metodológico
MIDE Universitario 2018. 28. Retrieved from [Link]
[Link]/ckfinder/userfiles/files/Documento Metodológico MIDE T [Link]
Mirabedini, S. (2014). The Role of Data warehousing in Educational Data Analysis.
Journal of Novel Applied Sciences, 1439–1445.
Moreira, F., & Rocha, Á. (2018). A Special Issue on Disruption of higher education in the
21st century due to ICTs. Telematics and Informatics, 35(4), 930–932.
Moscoso-Zea, O., Paredes-Gualtor, J., & Lujan-Mora, S. (2018). A Holistic View of Data
Warehousing in Education. IEEE Access, 6, 64659–64673.
Moscoso-Zea, O., Sampedro, A., & Luján-Mora, S. (2016). Data warehouse design
for Educational Data Mining. 15th International Conference on Information
Technology Based Higher Education and Training (ITHET).
Moturi, C. A., & Emurugat, A. (2015). Prototyping an Academic Data Warehouse : Case
for a Public University in Kenya. British Journal of Applied Science & Technology,
8(6), 550–557. [Link]
Musa, S., Binti, N., & Ali, M. (2019). Success Factors for Business Intelligence Systems
Implementation in Higher Education Institutions – A Review. 843, 322–330.
[Link]

320 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Nobre, T., Trigo, A., & Sanches, P. (2014). SBIAES - Sistema de Business Intelligence para
análise do Acesso ao Ensino Superior O caso do Instituto Politécnico de Coimbra.
9th Iberian Conference on Information Systems and Technologies (CISTI), 1–6.
[Link]
Panchal, R. (2016). Study on Barriers in Adoption of Data Warehouse for the Higher
Educational Institutes. We’Ken International Journal of Basic and Applied
Sciences, 1(4), 148–153.
Pasyeka, M. (2018). Development of Data Warehouse Structure Model for Educational
Process Management. Science Publishing Group, 6(1), 1–6.
Pesonen, J., Fomkin, A., & Jokipii, L. (2018). Building Data Science Capabilities into
University Data Warehouse to Predict Graduation.
Pinto, L. P., Becerra, L. E., & Gómez, L. C. (2013). Análisis del sistema de gestión
financiera sostenible de instituciones de educación superior públicas colombianas.
Revista Educación En Ingeniería, 8, 1–11.
Rosado, A. A. (2016). Consolidación de Indicadores Institucionales utilizando Bodega
de Datos. INGENIO UFPSO, 11, 53–63.
Rudy, & Miranda, E. (2015). Management Report for Marketing in Higher Education
Based On Data Warehouse and Data Mining. International Journal of Multimedia
and Ubiquitous Engineering, 10(4), 291–302.
Salaki, R. J., & Ratnam, K. A. (2018). Agile Analytics : Applying in the Development of
Data Warehouse for Business Intelligence System in Higher Education. 6th World
Conference on Information Systems and Technologies, 1038–1048.
Sanchez-Puchol, F., Pastor-Collado, J., & Borrell, B. (2017). Towards an Unified
Information Systems Reference Higher Education Institutions. Procedia Computer
Science, 121, 542–553. [Link]
Santoso, L. W. (2018). Data Warehouse with Big Data Technology for Higher Education.
Procedia Computer Science, 124, 93–99.
Song, Y., Pramudianto, F., & Gehringer, E. F. (2016). A Markup Language for Building a
Data Warehouse for Educational Peer-Assessment Research. 46th IEEE Frontiers
in Education Conference, 0–4.
Ta’a, A., Bakar, A., Shahbani, M., Chareen Chit, S., & Mohd Soid, M. H. (2017). Data
Warehouse System for Blended Learning in Institutions of Higher Education.
E-Academia Journal, 6(2), 144–155.
University of York. (2014). Database of Abstracts of Reviews of Effects (DARE): Quality-
assessed Reviews. Retrieved from Centre for Reviews and Dissemination (UK)
website: [Link]
Weir, A. (2009). Assuring Quality in Higher Education: The New Zealand Experience.
Journal of Institutional Research, 14(2), 60–72.

RISTI, N.º E22, 08/2019 321


Una Revisión de Bodegas de Datos para Educación Superior

Winanti, Meyliana, Hidayanto, A. N., Prabowo, H., & Gaol, F. L. (2018). Key Successful
Factors of Executive Information System Implementation in Higher Education :
A Systematic Literature Review. 2018 International Conference on Information
Management and Technology (ICIMTech), (September), 1–9.
Zambrano, C., Matamala, A., Sepúlveda, U., & Varas, M. (2017). Análisis de rendimiento
académico estudiantil usando Data Warehouse Difuso. Revista Chilena de
Ingeniería, 25, 242–254.
Zulkefli, N. A., Miskon, S., Hashim, H., Alias, R. A., Abdullah, N. S., Ahmad, N., … Maarof,
M. A. (2015). A business intelligence framework for Higher Education Institutions.
ARPN Journal of Engineering and Applied Sciences, 10(23), 18070–18077.

322 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 29/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 09/06/2019

Generación automática de resúmenes extractivos


genéricos de un documento basado en n-gramas
sintácticos no continuos

Andrés-Mauricio Salazar-Piedrahíta, Carlos-Alberto Cobos-Lozada

maurosalazar@[Link], ccobos@[Link]

Grupo de I+D en Tecnologías de la Información (GTI), Universidad del Cauca, Sector Tulcán Edificio FIET
Oficina 422, 190003, Popayán, Colombia.
Pages: 323–336

Resumen: Muchas de las técnicas actuales de generación automática de resúmenes


extractivos utilizan el modelo espacio vectorial (matriz de frases por términos) para
representar los documentos y luego con diversos enfoques deciden que frases de
un texto debe ser parte de su resumen. En esta investigación se integra el uso de
los n-gramas sintácticos (continuos y no continuos) en el modelo espacio vectorial
para identificar las relaciones que los términos tienen con su contexto (información
lingüística que no está disponible con los n-gramas tradicionales) y con ello mejorar
la calidad de los resúmenes que se generan. La evaluación de la propuesta se realizó
con los datasets DUC2001 y DUC2002 usando la métrica de recuerdo (recall)
de ROUGE-1 y ROUGE-2. Los resultados son prometedores para los algoritmos
basados en grafos (LexRank y LexRank continuo), los cuales mejoran entre un 4,5%
y 22,1% en comparación con la representación tradicional (bolsa de palabras).
Palabras-clave: resumen extractivo; n-grama sintáctico; árbol sintáctico; espacio
vectorial; grafo; metaheurística

Automatic generation of generic extractive summaries of a document


based on non-continuous syntactic N-grams

Abstract: Many of the current techniques of automatic generation of extractive


summaries use the vector space model (matrix of sentences by terms) to represent
the documents and then with different approaches decide if a sentence of a text
should be part of its summary. This research integrates the use of syntactic
n-grams (continuous and non-continuous) in the vector space model to identify
the relationships that terms have with their context (linguistic information not
available with traditional n-grams) and with this, improve the quality of the
generated summaries. The evaluation of the proposal was made over DUC2001 and
DUC2002 datasets using the recall metric of ROUGE-1 and ROUGE-2. Results are
promising for graph-based algorithms (LexRank and Continuous LexRank) which
improves its results between 4.5% and 22.1% against the traditional representation
(bag of words).

RISTI, N.º E22, 08/2019 323


Generación automática de resúmenes extractivos genéricos de un documento basado en n-gramas sintácticos no continuos

Keywords: extractive summary; syntactic n-grams; syntactic tree; vector space;


graph; metaheuristic

1. Introducción
La comunidad científica y académica, propone contrarrestar el exceso de información
digital mediante la generación automática de resúmenes hoy día utilizado por ejemplo
en: 1) los motores de búsqueda para desplegar un breve resumen de las páginas Web o
documentos encontrados, 2) sistemas de gestión de aprendizaje electrónico para resumir
los contenidos de los objetos de aprendizaje, 3) sistemas de visualización de mensajes
de correo electrónico para dispositivos móviles, donde se despliega la información más
relevante teniendo en cuenta el reducido tamaño de la pantalla, entre otros usos.
La generación automática de resúmenes es una tarea compleja, los resultados aún distan
de los resúmenes que los seres humanos pueden elaborar, por ello, se integra con campos
de estudio como la minería de textos, el procesamiento de lenguaje natural (PLN) o
la recuperación de información (RI) los cuales utilizan modelos de representación de
documentos o textos como: el booleano, el probabilístico y el espacio vectorial (Hiemstra,
2009) para clasificar y calificar el grado de relevancia de las características de un texto
respecto a una consulta, relación del texto con el título o si un texto pertenece a un
tema específico, entre otras tareas. El modelo más comúnmente utilizado es el espacio
vectorial por su sencillez, fácil implementación y buenos resultados obtenidos en la
mayoría de las aplicaciones que manejan texto no estructurado o semi estructurado y la
generación automática de resúmenes extractivos no es la excepción.
Sidorov en 2013 propuso el uso de los n-gramas sintácticos para introducir información
lingüística (sintáctica) en los métodos de aprendizaje de máquina, demostrando que
su uso en diferentes tareas, por ejemplo, la atribución de autoría logra resultados
superiores en comparación con el uso de los n-gramas tradicionales, aunque se aumenta
el costo computacional debido al análisis sintáctico previo. Los resultados reportados
en experimentos con n-gramas sintácticos se lograron a partir de rutas continuas en
los árboles sintácticos (n-gramas sintácticos continuos) dejando el análisis de las
bifurcaciones (n-gramas sintácticos no continuos) para futuros trabajos. Cabe mencionar
que los n-gramas sintácticos continuos son un caso particular de los n-gramas sintácticos
no continuos (Sidorov, 2013b).
En el presente trabajo se combinan varios tipos de sintagmas para crear n-gramas
sintácticos continuos y no continuos a partir de las relaciones de combinación o relaciones
sintagmáticas en las rutas continuas y las bifurcaciones del árbol sintáctico, incluirlos en
el modelo espacio vectorial y generar automáticamente resúmenes extractivos genéricos
de un Dataset reconocido por la comunidad académica y científica del área.
Teniendo en cuenta el anterior contexto, al inicio de la investigación se planteó las
siguientes preguntas de investigación: 1) ¿Cómo representar un documento con
n-gramas sintácticos no-continuos que permita generar automáticamente resúmenes
extractivos genéricos de un documento para obtener resultados similares o superiores
al estado del arte? 2) ¿Qué parámetros de construcción de los n-gramas sintácticos no-
continuos (tamaño del n-grama y los elementos léxicos involucrados) permiten alcanzar

324 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

resultados similares o superiores al estado del arte para la generación automática de


resúmenes extractivos genéricos de un documento?
Se planteó entonces resolver las anteriores preguntas mediante la realización de las
siguientes tareas:
1. La selección de un analizador sintáctico que: a) reconociera la mayor cantidad de
idiomas, especialmente inglés y español, b) realizará análisis de constituyentes
y dependencias, c) conservará la jerarquía de los elementos textuales en el árbol
sintáctico, d) incluyera formatos y etiquetas que permiten identificar la mayor
cantidad de información sintáctica y semántica necesaria para crear n-gramas
sintácticos, y, e) Facilitara la lectura del archivo resultado.
2. El diseño e implementación de una herramienta que lea la salida del analizador,
forme n-gramas sintácticos continuos y no continuos con varios tipos de
sintagmas y cree la matriz de términos que representa un documento en el
espacio vectorial para ponderarla con Okapi BM25 (Robertson & Walker, 1994)
(Robertson, Zaragoza, & Taylor, 2004).
3. El uso de los dataset de entrenamiento DUC2001 y DUC2002, utilizados por la
comunidad científica y académica para generar resúmenes automáticos de un
documento y evaluar la calidad de los resultados obtenidos.
4. El uso del Framework desarrollado por el Grupo de I+D en Tecnologías de la
Información (GTI) de la Universidad del Cauca para generar automáticamente
resúmenes extractivos genéricos de un documento con los algoritmos LexRank,
LexRank Continuo (algoritmos basados en grafos) y ESDS-GHS-GLO (algoritmo
metaheurístico). El insumo para estos tres algoritmos son las matrices de frases
por términos (espacio vectorial) que representan los documentos.
5. El uso del recuerdo (recall) en las métricas ROUGE-1 y ROUGE-2, reconocidas
por la comunidad académica y científica para evaluar los resultados obtenidos.
Estas métricas permiten comparar la similitud de los resúmenes generados
por los algoritmos respecto a los resúmenes generados por humanos para cada
noticia de los dataset de entrenamiento.
A continuación, en la sección 2 se presentan los referentes más importantes para
el desarrollo de la investigación. Posteriormente, la sección 3 describe los pasos
metodológicos para cumplir con la propuesta y presenta el concepto de n-grama
sintáctico no continuos. Después en la sección 4, se presentan los resultados obtenidos.
Finalmente, la última sección expone las conclusiones del desarrollo de la investigación
y plantea los trabajos futuros.

2. Estado del arte


La revisión de la literatura mostró que los n-gramas sintácticos no continuos a la fecha
no han sido usados para representar un documento de texto no estructurado, que luego
se use en el marco de un proceso de generación de su resumen con algoritmos basados
en grafos, meta-heurísticos, de análisis semántico latente, entre otros. Estos algoritmos
en su mayoría parten de una representación modelo espacio vectorial tradicional basado
en la bolsa de palabras. A continuación, se resume el modelo de espacio vectorial junto

RISTI, N.º E22, 08/2019 325


Generación automática de resúmenes extractivos genéricos de un documento basado en n-gramas sintácticos no continuos

con el esquema de ponderación Okapi BM25, luego se presentan las investigaciones más
relevantes en n-gramas y algunos algoritmos destacados en la generación de resúmenes
extractivos de un documento.

2.1. Representación de un documento


La RI comúnmente utiliza la representación en tareas como: ordenamiento de resultados
basados en una consulta, clasificación de documentos u oraciones, agrupamiento de
documentos u oraciones, entre otras. La literatura científica y académica destaca tres
modelos de representación: booleano, probabilístico y espacio vectorial (Hiemstra,
2009), este último el más comúnmente usado.
El modelo Espacio Vectorial, representa uno o varios documentos por medio de un
vector de pesos de términos, donde cada término, puede ser una palabra, sintagma o
token (unidad mínima al descomponer un texto). Si un término pertenece a un texto,
obtiene un valor dependiendo de su importancia dentro del texto según la técnica de
ponderación de términos utilizada (Kumar y Gopalani, 2015). Okapi BM25 es una de las
distintas técnicas de ponderación disponible y tiene en cuenta conceptos básicos como
la importancia del término en la frase (TF) y la importancia del término en la colección
(IDF), pero hace esto teniendo en cuenta la longitud. El peso del término en la frase que
se usa en esta investigación está dado por la Ecuación (1), donde , ,
es la frecuencia del termino i en la frase j, N es el número de frases en el documento,
es el número de frases en las que aparece el termino i, es el número de términos
de la frase j y es el número promedio de términos en las frases del documento.

(1)

2.2. Modelos de dependencia de términos (n-gramas)


La RI plantea varios modelos de dependencia de términos y algunos de ellos han
reportado resultados interesantes. Van Rijsbergen (1979) presentó uno de los modelos de
dependencia más citados, el cual es una extensión del enfoque de clasificación Bayesiano
para la recuperación de información (Rijsbergen, 1979). Gao et al. (2004) presentaron
un nuevo enfoque de modelado del lenguaje de dependencia para la recuperación
de información y logró mejoras significativas y sustanciales para dependencias
secuenciales (Gao, Nie, Wu, & Cao, 2004). Croft et al. (2014) demostraron que las
frases y la proximidad de términos pueden potencialmente mejorar la efectividad de la
tarea de recuperación de información modelándolos como dependencias en el modelo
de red de inferencia (Huston & Croft, 2014). Zhao et al. (2014) utilizaron colecciones
de pruebas más grandes y demostraron que la información de proximidad de términos
es una característica útil en la tarea de recuperación de información (Zhao, Huang,
& Ye, 2014). Sidorov et al. (2013) presentaron los n-gramas sintácticos o Sn-gramas
(denominados así porque se obtienen siguiendo relaciones en árboles sintácticos) y los
utilizaron en la tarea de atribución de autoría donde lograron buenos resultados pero
identificaron algunas limitantes como la necesidad del análisis sintáctico previo (tiempo
adicional utilizado por los analizadores), no todos los lenguajes tienen analizadores,

326 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

no es claro si es suficiente el análisis superficial o es necesario el análisis completo


para obtener n-gramas sintácticos de calidad (Sidorov, 2013a, 2013c, 2013b; Sidorov,
Velasquez, Stamatatos, Gelbukh, & Chanona Hernández, 2013a, 2013b). Al finalizar
el 2013 se investigó sobre n-gramas sintácticos no-continuos para presentarlos como
posibles características en un modelo de espacio vectorial que conserve la estructura
multidimensional y se comparó con la construcción de n-gramas continuos para el
lenguaje inglés y español. Se concluyó que se necesitan más estudios para determinar
qué parámetros en la construcción de n-gramas sintácticos no-continuos son mejores
y para qué tipo de tareas existentes dentro de la lingüística computacional se pueden
obtener mejores resultados (Sidorov, 2013b).

2.3. Generación de resúmenes extractivos de un documento


La generación automática de resúmenes extractivos puede realizarse en uno (mono
documento) o varios documentos (multi documento) y busca incluir el contenido más
importante de la(s) fuente(s) original(es) mediante procesos de selección, combinación
y generalización. Determinada la cantidad de documentos fuente, se identifica que
algoritmos del estado del arte aplican para uno o varios documentos y para qué tipo de
generación (extractiva o abstractiva), entre ellos:
Grafos: Wan (2010) aborda de manera unificada la generación automática de
resúmenes de un documento y múltiples documentos con un algoritmo basado en grafos,
en el resumen se incluyen los nodos u oraciones que obtienen las mejores puntuaciones.
Estos métodos no supervisados tienen la ventaja de ser independiente del lenguaje y
de mejorar la cohesión en los resúmenes generados, de otro lado su mayor desventaja
radica en el aumento de la complejidad computacional a medida que el número de nodos
y arcos del grafo se incrementa. Erkan y Radev (2004) introducen tres nuevas medidas
para centralidad: Grado de Centralidad, LexRank con Umbral y LexRank Continuo,
inspiradas del concepto prestigio en las redes sociales.
Metaheurísticas: son una forma inteligente para dar solución a un problema de
optimización mediante procedimientos evolutivos y se han utilizado en investigaciones
relacionadas con la generación automática de resúmenes porque tratan el proceso de
generación como un problema de optimización, algunos algoritmos que se han usado
incluyen a la búsqueda armónica, la mejor búsqueda armónica global (Global-Best
Harmony Search, GBHS), el Procedimiento de Búsqueda del Pescador, Evolución
Diferencial, Optimización por Enjambre de Partículas y Procedimiento de Búsqueda
Codiciosa Adaptable al Azar (Singhal, 2001).
Otros enfoques incluyen el análisis de la retórica del discurso, clustering o detección de
tópicos, análisis semántico latente, modelos bayesianos, entre otros (Mahajani, Pandya,
Maria, & Sharma, 2019)(Gupta, Bansal, & Sharma, 2019).

3. Metodología y Definición de n-gramas sintácticos no continuos


La investigación se desarrolló con el Patrón de Investigación Iterativo (Iterative Research
Pattern, IRP) (Pratt, 2009) porque está diseñado especialmente para proyectos de
investigación de Ciencias de la Computación que involucran una solución computacional.

RISTI, N.º E22, 08/2019 327


Generación automática de resúmenes extractivos genéricos de un documento basado en n-gramas sintácticos no continuos

El patrón utiliza en cada iteración cuatro etapas principales: 1) observaciones de campo,


2) identificación del problema de investigación, 3) desarrollo de la solución y 4) prueba
de la solución.
La investigación se dividió en tres iteraciones del IRP. El resultado de cada iteración
fue un prototipo de la herramienta (artefacto) y el modelo de representación (matrices
de n-gramas sintácticos) que luego se utilizó en el Framework del Grupo GTI de la
Universidad del Cauca para generar resúmenes extractivos genéricos de un documento.
Iteración 1: Se realizó la revisión de los trabajos que utilizan n-gramas para representar
los documento. Se investigó sobre analizadores sintácticos que entregan información
morfológica de un texto, se encontraron dos comúnmente utilizados por la comunidad
científica y académica: FreeLing y Natural Language Toolkit (NLTK), cada uno se evaluó
en los sistemas operativos recomendados: Windows y Linux para identificar ventajas y
desventajas al utilizarlos con textos en idioma inglés y español, y, se seleccionó Freeling
por sus beneficios para la investigación. Posteriormente se evaluaron los niveles de
análisis morfológico, etiquetado, tokenizado, parseo, constituyentes y dependencias,
y se seleccionó el análisis de dependencias por ser el más adecuado en información y
estructura para obtener n-gramas sintácticos. Se analizaron los formatos de salida y se
seleccionó el formato XML por su estructura para encadenar las rutas de los subárboles
en forma de nodos anidados. Se logró implementar el primer prototipo de la herramienta
en C# para leer y cargar el análisis generado por FreeLing. Se generaron n-gramas de
tamaño 1 a 7 gramas con diferentes tipos de sintagmas (nominal, adjetival, verbal,
preposicional y adverbial) y sus combinaciones.
Iteración 2: Se implementaron nuevas opciones a la herramienta para crear matrices
de términos basado en n-gramas que incluyan o no palabras vacías, utilicen el término
original o su lema, seleccionen el tipo de representación del documento completo
(vector o centroide), seleccione el tipo de n-grama sintáctico (elementos léxicos,
categorías gramaticales y relaciones sintácticas) y ordene o no los n-gramas sintácticos
en la matriz. Además, se incluyó el despliegue de una lista de términos excluidos y la
profundidad del término en el árbol sintáctico. Se utilizaron las colecciones DUC2001
y DUC2002 como datasets de entrenamiento y se generaron las matrices de términos
con n-gramas sintácticos de tamaño 1 a 7 gramas para los sintagmas: nominal, adjetival,
verbal, preposicional, adverbial y sus combinaciones. Las matrices se refinaron durante
los experimentos lo cual permitió obtener resúmenes automáticos extractivos genéricos
con el modelo espacio vectorial utilizando Okapi BM25 en el cálculo de pesos y los
algoritmos LexRank, LexRank Continuo y GBHS del Framework del Grupo GTI.
Iteración 3: Se utilizó ROUGE como medida de evaluación de desempeño tanto de la
línea base (matriz de la bolsa de palabras) del Framework del Grupo GTI, como de las
matrices generadas con la herramienta propuesta en la investigación.
La herramienta creada, define matrices basadas en n-gramas sintácticos no continuos
a partir de secuencias de n elementos textuales relacionados (gramas) considerando
todos los subárboles de longitud n de un árbol sintáctico. Esta sigue la ruta en el árbol
sintáctico y une las palabras relacionadas tanto sintáctica (reglas de combinación) como
semánticamente (significado, sentido e interpretación al combinar palabras), aunque
éstas no tengan una ruta continua, pero sí cuenten con alguna ruta que las conecte.

328 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

La Figura 1 es un ejemplo de 5-grama (y di par [un, de] vueltas) que se conecta por
valencias verbales (o patrones de rección, es decir, relación entre una palabra y otras
relacionadas sintácticamente con ella), para el ejemplo, el verbo dar es trivalente y tiene
los actantes: quién (yo), cuántas (un par), qué (vueltas), por lo tanto es importante
tenerlos en cuenta al mismo tiempo en un n-grama (Sidorov, 2013a).

Figura 1 – 5-gramas sintácticos no-continuos en el fragmento del árbol sintáctico


(Adaptado de (Sidorov, 2013a)).

4. Experimentación, resultados y discusión

4.1. Datasets: DUC2001 y DUC2002


La comunidad científica y académica utiliza las colecciones de noticias DUC2001 y
DUC2002 como dataset de entrenamiento en la generación automática de resúmenes
para un documento porque cuenta con los resúmenes de referencia hechos por
humanos y aprobados por la Conferencia de Entendimiento de los Documentos (DUC).
Estas colecciones son producto de investigación del National Institute of Standards
and Technology y están disponibles en línea en [Link] DUC2001
contiene 30 conjuntos de aproximadamente 10 noticias en inglés, que en total son 309
documentos con diversos temas. La colección DUC2002, por su parte, consta de 567
documentos en 59 conjuntos. En estas colecciones los resúmenes generados deben tener
hasta 100 palabras.

4.2. Analizador sintáctico


Los analizadores sintácticos, comúnmente utilizados por la comunidad científica
incluyen a FreeLing y al Natural Language Toolkit (NLTK). Al instalarlos en los
sistemas operativos: Windows (versiones 7 Professional y 10 Pro) y Linux (distribuciones

RISTI, N.º E22, 08/2019 329


Generación automática de resúmenes extractivos genéricos de un documento basado en n-gramas sintácticos no continuos

Mint 17.3 y Ubuntu 16.04 LTS Xenial), se evaluaron las ventajas y desventajas de cada
analizador como se describe en la Tabla 1.

Analizador Ventajas Desventajas


FreeLing • Reconoce 13 lenguajes • No reconoce algunos acentos en las
• Creado con plantillas estándar STL y variantes de un mismo lenguaje, por
lenguaje de programación C++, por lo ejemplo, español España y español
tanto, es portable y adaptable a los sistemas México
operativos: Linux, Unix, Windows y • Requiere complementos y librerías
MacOSX propias para cada sistema operativo
• Cuenta con un demo en Internet dependiendo de su versión, por
• Cuenta con un graficador de árboles ejemplo, para Windows requiere
sintácticos (análisis basado en gramática Cygwin, MinGW y MSVS
de dependencias) con cierto grado de • El Demo tiene limitantes en la
complejidad y varias opciones de análisis cantidad de palabras a analizar
como: detección de entidad con nombre, • Requiere recursos hardware de alto
detección de múltiples palabras, codificación rendimiento para un procesamiento
fonética, entre otras rápido
• Realiza varios procesos de análisis • La versión compilada para Windows
en múltiples hilos en uno o varios no es totalmente funcional
procesadores. • El soporte para Windows es limitado
• El resultado de los análisis puede ser y requiere como IDE a Visual Studio
visualizado en diferentes formatos (gráfico, 2015 o superior para recompilar el
XML, texto, JSON, entre otros) código fuente
• Trabaja en sistemas de 32 bits y 64 bits
• El mayor soporte y respaldo se obtiene para
distribuciones de Linux/Unix
NLTK • Reconoce el lenguaje inglés y español • Ciertas funcionalidades del lenguaje
• Portable y adaptable a los sistemas español aún están en desarrollo
operativos Linux, Unix, Windows y • Requiere librerías y complementos
MacOSX. propios de cada sistema operativo
• Cuenta con un graficador de árboles (dependiendo de la versión del
sintácticos (análisis basado en gramática de sistema)
dependencias) • No cuenta con un Demo en internet
• Recomienda evitar las plataformas
de 64 bits
• Requiere conocimientos básicos de
programación en Python

Tabla 1 – Ventajas y Desventajas de los analizadores FreeLing y NLTK

Freeling fue seleccionado por sus prestaciones para la investigación, aunque sus
limitantes fueron: 1) problemas al tratar de integrar las librerías de análisis a la
herramienta desarrollada en Visual Studio de Microsoft (el desarrollador no ofrece el
mismo nivel de soporte que Linux) y 2) perdida de información de análisis dependiendo
de las librerías de C# que se utilizan para leer el XML. Además, se evaluó los niveles
de análisis: morfológico, etiquetado, tokenizado, dividido, parseado, constituyentes y
dependencias, este último el más adecuado en información y estructura, especialmente
la salida en formato XML por su estructura para encadenar las rutas de los subárboles
en forma de nodos anidados.

330 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

4.3. Herramienta para crear matrices de n-gramas sintácticos no continuos


La herramienta es una interfaz de usuario desarrollada en C# para generar la matriz
basada en n-gramas sintácticos no continuos que representan el espacio vectorial de
cada documento seleccionado. Además, permite seleccionar los parámetros: 1) idioma
del documento, 2) inclusión o no de “stop words”, 3) análisis por lema o palabra, 4)
tamaño del n-grama (de 1 a 7 gramas), 5) tipo de representación (vector o centroide),
6) tipo de n-grama sintáctico (léxicos, categorías gramaticales y relaciones sintácticas),
7) tipos de sintagmas a incluir en la representación (nominal, adjetival, verbal,
preposicional, adverbial o la combinación) y 8) ordenar los n-gramas sintácticos a incluir
en la representación. Seleccionados los parámetros y el archivo o carpeta contenedora
de archivos de análisis sintácticos en formato XML, se procede a generar las matrices
requeridas por el Framework del GTI en la Universidad del Cauca. Los experimentos con
la herramienta se realizaron con análisis sintáctico de Freeling en formato XML para
cada uno de los conjuntos de noticias DUC2001 y DUC2002.

4.4. Algoritmos Comparados


El Grupo de I+D en Tecnologías de la Información (GTI) de la Universidad del Cauca
cuenta con un Framework para la generación automática de resúmenes extractivos de
un documento mediante varios algoritmos implementados como: LexRank, la Mejor
Búsqueda Armónica Global (Global-Best Harmony Search, GBHS), el Procedimiento
de Búsqueda del Pescador (FSP), entre otros, todos ellos utilizan desde un documento
html o texto hasta un archivo que representa un documento con bolsa de palabras, lo
transforman en una matriz espacio vectorial de frases (filas) por términos (columnas) y
ponderan los términos con Okapi BM25.
La herramienta propuesta en esta investigación (resumida en la sección 4.3) entrega a
este Framework, la representación matricial de frases por términos (bolsa de palabras
que para este caso son n-gramas sintácticos no continuos). Luego se ejecuta en el
Framework el algoritmo de generación de resúmenes especifico y se evalúa cada resumen
generado usando el recall de las métricas ROUGE-1 y ROUGE-2.
Los algoritmos usados para analizar el impacto de los n-gramas en comparación con el
uso de un modelo de bolsa de palabras fueron:
LexRank: Basado en grafos, similar a Page Rank (versión inicialmente usada por
Google para ranquear las páginas web cuando un usuario hace una consulta). El
algoritmo ranquea los nodos de un grafo (frases, sentencias u oraciones) en términos
de su centralidad, i.e. los nodos más conectados con los demás nodos del grafo (Erkan
& Radev, 2004).
LexRank Continuo: Corresponde a una variación de LexRank que evita perder
información en la construcción de los pesos en las conexiones del grafo que representa
al documento. Es propuesto por los autores en conjunto con LexRank (Erkan &
Radev, 2004).

RISTI, N.º E22, 08/2019 331


Generación automática de resúmenes extractivos genéricos de un documento basado en n-gramas sintácticos no continuos

ESDS-GHS-GLO: Inspirado en la mejor búsqueda armónica global, una metaheurística


de optimización basada en la forma como los cantantes de Jazz improvisan su música.
El algoritmo incluye un optimizador local voraz y optimiza una función objetivo que
es la combinación lineal de la posición de la frase en el documento, la longitud de la
frase y el cubrimiento de las frases candidatas seleccionadas para generar el resumen. La
representación del documento completo se puede hacer como un vector de los n-gramas
más importantes o el centroide de todos los n-gramas presentes en el documento (este
último fue usado en la experimentación). Este algoritmo fue comparado con diversos
algoritmos del estado del arte, entre ellos MA-SingleDocSum, DE, FEOM, UnifiedRank,
Net-Sum, QCS, CRF, SVM y Manifold Ranking con resultados muy competitivos
(Mendoza, Cobos, & León, 2015).

4.5. Experimentos con DUC2001 y DUC2002 para todos los sintagmas


Inicialmente se incluyeron todos los tipos de sintagmas (nominal, adjetival, verbal,
preposicional y adverbial) y se realizó un experimento con cada algoritmo: LexRank
con una repetición (este algoritmo siempre entrega el mismo resultado ante la misma
entrada, es determinístico), LexRank Continuo con una repetición (también es discreto)
y GBHS con 30 repeticiones (este algoritmo es probabilístico y por eso se debe calcular
el promedio de 30 repeticiones). Los resultados de este experimento se presentan en la
Tabla 2.

DUC2001 DUC2002
Algoritmo Modelo
R1R R2R R1R R2R
bolsa de palabras 42,224 15,858 45,171 18,704
1-grama 42,224 15,858 45,674 19,325
LexRank 2-gramas 44,133 19,361 47,481 21,779
3-gramas 44,014 19,264 47,423 21,630
4-gramas 44,025 19,040 47,178 21,352
bolsa de palabras 43,420 17,389 45,919 19,589
1-grama 43,420 17,389 44,697 18,215
LexRank Continuo 2-gramas 44,025 19,193 47,359 21,687
3-gramas 44,004 19,242 47,386 21,596
4-gramas 44,040 19,051 47,169 21,344
bolsa de palabras 44,139 18,890 47,629 22,107
1-grama 44,874 19,370 48,194 22,080
ESDS-GHS-GLO 2-gramas 42,917 17,613 46,661 20,749
3-gramas 43,130 17,943 46,268 20,215
4-gramas 43,386 18,203 46,169 20,178

Tabla 2 – Resultados del experimento con todos los sintagmas en DUC2001 y DUC2002
(mejores resultados en negrita)

332 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

La Tabla 2 permite observar dos aspectos importantes, el primero es que los dos
algoritmos basados en grafos (LexRank y LexRank Continuo) obtienen mejores
resultados cuando usa n-gramas sintácticos no continuos en lugar de una representación
de bolsa de palabras con términos sencillos. En LexRank se logra con 2-gramas,
obteniendo mejoras entre el 4,5% y el 22,1% en los dos datasets. En LexRank continuo
se logra en unos casos con 2-gramas (1 caso), 3-gramas (2 casos) y 4-gramas (1 caso)
con mejoras entre el 1,5% y el 10,7% en los dos datasets. El segundo, es que el algoritmo
ESDS-GHS-GLO obtiene los mejores resultados de todos con 1-grama mejorando entre
1,2% y el 2,5%, pero estos resultados no se mejoran con el uso de n-gramas con n >
1, es más pierden calidad (entre el 1,7% y el 8,7%). Estas dos observaciones permiten
identificar que el impacto o positivo o negativo de los n-gramas sintácticos no continuos
en los resultados del resumen dependen de la forma como el algoritmo de generación
de resúmenes use los datos de entrada, en este caso la matriz espacio vectorial que
representa el documento.
También se puede observar que los resultados entre 1-grama y la bolsa de palabras
(algoritmo clásico usado en el Framework) son iguales en DUC2001, pero son ligeramente
diferentes en DUC2002. Esto se debe a que Freeling realiza una fase de detección de
entidades y en la bolsa de palabras eso no se hace, por esta razón la matriz de 1-grama
en general tiene menos columnas, por ejemplo, con 1-grama “Presiente Bush” es un solo
grama, mientras que en la tradicional bolsa de palabras “Presidente” es un término y
“Bush” es otro término.

4.6. Experimentos con DUC2001 para combinaciones de sintagmas


Los experimentos con los tres algoritmos se evaluaron usando la colección DUC2001,
con representaciones basadas en 1-grama con solo algunas combinaciones de sintagmas,
a saber: 1- nominal, adjetival, verbal y preposicional (sin adverbial), 2- nominal,
adjetival, verbal y adverbial (sin preposicional), 3- nominal, verbal, preposicional y
adverbial (sin adjetival) y 4- nominal, adjetival, preposicional y adverbial (sin verbal).
Los resultados se aprecian en la Tabla 3 y solamente la combinación 2- nominal,
adjetival, verbal y adverbial (sin preposicional) en LexRank logra obtener mejores
resultados en ROUGE-2 recall (R2R). En todos los demás resultados se obtienen
resultados más bajos, aunque algunos son cercanos. Esto implica que para 1-grama
todos los tipos de sintagmas aportan información para definir si una frase debe o no
hacer parte del resumen del documento.

5. Conclusiones
La investigación permitió establecer una línea base para futuros trabajos donde se
emplee n-gramas sintácticos continuos y no continuos en la generación automática
de resúmenes extractivos genéricos de un documento. Los resultados experimentales
permiten mostrar que los dos algoritmos basados en grafos, LexRank y LexRank
Continuo obtienen mejores resultados cuando la matriz de frases por términos se realiza
con n-gramas sintácticos no continuos de 2, 3 o 4 gramas. Respecto al algoritmo ESDS-
GHS-GLO, los mejores resultados se obtuvieron con n-gramas sintácticos no continuos
de 1 grama y usando como esquema de representación del documento el centroide de
todos los n-gramas.

RISTI, N.º E22, 08/2019 333


Generación automática de resúmenes extractivos genéricos de un documento basado en n-gramas sintácticos no continuos

DUC2001
Algoritmo Sintagmas
R1R R2R
Todos 42,224 15,858
Nom-Adj-Ver-Adv 41,916 16,016
LexRank Nom-Adj-Ver-Prep 42,097 16,324
Nom-Ver-Prep-Adv 41,677 15,654
Ver-Adj-Prep-Adv 41,222 15,140
Todos 43,420 17,389
Nom-Adj-Ver-Adv 41,866 15,441
LexRank Continuo Nom-Adj-Ver-Prep 42,002 15,542
Nom-Ver-Prep-Adv 41,810 15,270
Ver-Adj-Prep-Adv 41,111 15,182
Todos 44,874 19,370
Nom-Adj-Ver-Adv 43,998 18,539
ESDS-GHS-GLO Nom-Adj-Ver-Prep 44,047 18,523
Nom-Ver-Prep-Adv 44,123 18,533
Ver-Adj-Prep-Adv 43,088 17,829

Tabla 3 – Resultados del experimento con combinaciones de sintagmas en


DUC2001 con 1-grama

Freeling es el analizador sintáctico recomendado para obtener n-gramas sintácticos


porque: a) reconoce 13 lenguajes, incluidos el inglés y español, b) entrega el análisis
de constituyentes y dependencias en formato de salida XML, c) conserva la jerarquía
de los elementos textuales en el árbol sintáctico y d) incluye formatos y etiquetas que
identifican la mayor cantidad de información sintáctica y semántica necesaria para crear
n-gramas sintácticos.
El rango de los tamaños de los n-gramas adecuado para los n-gramas sintácticos es de 1
a 4 gramas. Valores superiores a 4 hacen que la representación espacio vectorial sea aún
más dispersa y convierten a los n-gramas sintácticos en oraciones que no se comparten
entre las frases del documento. Además, los experimentos realizados indican que con
1-grama se deben tener en cuenta todos los tipos de sintagmas (nominal, adjetival,
verbal, preposicional y adverbial) para que se logre obtener mejores resultados.
El grupo de investigación espera en futuras investigaciones evaluar otros algoritmos
del estado del arte como por ejemplo la propuesta memética de (Mendoza, Bonilla,
Noguera, Cobos, & León, 2014) o la propuesta multiobjetivo de (Saini, Saha, Jangra, &
Bhattacharyya, 2019) para evaluar el impacto de los n-gramas sintácticos no continuos
en la calidad de los resúmenes generados.

334 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Agradecimientos
Al Instituto Politécnico Nacional de México, en especial al PhD. Alexander Gelbukh y al
PhD. Grigori Sidorov por sus asesorías en el desarrollo de esta investigación.

Referencias
Erkan, G., & Radev, D. R. (2004). LexRank: Graph-based Lexical Centrality as Salience
in Text Summarization. Journal of Artificial Intelligence Research, 22(4), 457–479.
Gao, J., Nie, J.-Y., Wu, G., & Cao, G. (2004). Dependence language model for information
retrieval. Proceedings of the 27th Annual International ACM SIGIR Conference
on Research and Development in Information Retrieval, 170–177. [Link]
org/10.1145/1008992.1009024
Gupta, V., Bansal, N., & Sharma, A. (2019). Text summarization for big data: A
comprehensive survey. Lecture Notes in Networks and Systems.
Hiemstra, D. (2009). Information Retrieval Models. In Information Retrieval: Searching
in the 21st Century (pp. 1–19). [Link]
Huston, S., & Croft, W. B. (2014). A Comparison of Retrieval Models using Term
Dependencies. Proceedings of the 23rd ACM International Conference on
Conference on Information and Knowledge Management - CIKM ’14, 111–120.
[Link]
Mahajani, A., Pandya, V., Maria, I., & Sharma, D. (2019). A Comprehensive Survey
on Extractive and Abstractive Techniques for Text Summarization. Advances in
Intelligent Systems and Computing.
Mendoza, M., Bonilla, S., Noguera, C., Cobos, C., & León, E. (2014). Extractive single-
document summarization based on genetic operators and guided local search.
Expert Systems with Applications, 41(9), 4158–4169. [Link]
eswa.2013.12.042
Mendoza, M., Cobos, C., & León, E. (2015). Extractive single-document summarization
based on global-best harmony search and a greedy local optimizer. In Lecture Notes
in Computer Science (Vol. 9414, pp. 52–66). [Link]
27101-9_4
Pratt, K. (2009). Design Patterns for Research Methods: Iterative Field Research. AAAI
Spring Symposium: Experimental Design for Real …, (1994).
Rijsbergen, C. J. Van. (1979). Information Retrieval. Information Retrieval, 208.
[Link]
Robertson, S., & Walker, S. (1994). Some Simple Effective Approximations to the 2 –
Poisson Model Probabilistic Weighted Retrieval. Proceedings of the 17th Annual
International ACM SIGIR Conference on Research and Development in Information
Retrieval, (1), 232–241. [Link]

RISTI, N.º E22, 08/2019 335


Generación automática de resúmenes extractivos genéricos de un documento basado en n-gramas sintácticos no continuos

Robertson, S., Zaragoza, H., & Taylor, M. (2004). Simple BM25 extension to multiple
weighted fields. Proceedings of the 13th ACM Conference on Information and
Knowledge Management, 42–49. [Link]
Saini, N., Saha, S., Jangra, A., & Bhattacharyya, P. (2019). Extractive single document
summarization using multi-objective optimization: Exploring self-organized
differential evolution, grey wolf optimizer and water cycle algorithm. Knowledge-
Based Systems, 164, 45–67.
Sidorov, G. (2013a). Construcción No Lineal De N-Gramas En La Lingüística
Computacional: N-gramas Sintácticos, Filtrados y Generalizados. México:
Sociedad Mexicana de Inteligencia Artificial.
Sidorov, G. (2013b). N-gramas sintácticos no-continuos. Polibits, (48), 69–78.
Sidorov, G. (2013c). N-gramas sintácticos y su uso en la lingüística computacional.
Vectores de Investigación, 6, 13–27.
Sidorov, G., Velasquez, F., Stamatatos, E., Gelbukh, A., & Chanona Hernández, L.
(2013a). Syntactic dependency-based n-grams: More evidence of usefulness in
classification. Lecture Notes in Computer Science, 7816, 13–24.
Sidorov, G., Velasquez, F., Stamatatos, E., Gelbukh, A., & Chanona Hernández, L.
(2013b). Syntactic dependency-based n-grams as classification features. Lecture
Notes in Computer Science, 7630, 1–11.
Singhal, A. (2001). Modern Information Retrieval: A Brief Overview. Bulletin of the
IEEE Computer Society Technical Committee on Data Engineering, 24(4), 35–43.
Zhao, J., Huang, J. X., & Ye, Z. (2014). Modeling term associations for probabilistic
information retrieval. ACM Transactions on Information Systems, 32(2), 1–47.

336 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnolgias de Informaçã Recebido/Submission: 13/04/2019
Iberian Journal of Informati Systems and Technolgies Aceitação/Acceptance: 23/07/2019

Satellite-image-based crop identification using


unsupervised machine learning techniques:
Preliminary results

Mónica Yolanda Moreno Revelo1, Juan Bernardo Gómez Menoza1, Diego Hernán Peluffo
Ordoñez2

momorenor@[Link], jbgomezmendoza@[Link],

1
Universidad Nacional de Colombia, km 7 vía al aeropuerto, Manizales, Colombia
2
Universidad Yachay, Hacienda San José, Ibarra, Ecuador
Pages: 337–348

Abstract: Artificial vision and image processing have been widely used in the
field of scientific research related to satellite landscapes with purposes, like soil
classification, detection of changes in urban and rural areas, among others. The
existing prototypes have reported meaningful results, notwithstanding, the
implementation of a system more properly fitting the nature of the images by
taking into account factors such as lighting control, noise reduction and presence
of clouds is still an open and of-great-interest problem. This paper presents an
initial satellite image processing methodology for clustering crops. The proposed
methodology is as follows: Firstly, data pre-processing is carried out, followed
by a feature extraction stage. Secondly, image clustering is performed by means
of a probabilistic algorithm. This methodology is validated with the Campo Verde
database built over crops from a Brazil’s area. Our approach reaches a classification
percentage 87.97%, sensitivity 87.1%, specificity 97.22 and f1_score 71.78 %.

Keywords: Satellite image, Parzen’s probability density function, max-min


algorithm, Landsat satellite.

1. Introduction
A satellite image is a visual representation of information captured by a sensor aboard
a satellite (Bastidas & Bravo, 2017). Currently, a large number of satellites are designed
to capture information from different areas around the world, being the ones obtained
by the Landsat satellite the most commonly used in most scientific research related to
satellite image processing such a fact is due to its availability, along with spectral, spatial
and temporal resolution (Galindo, Rubiano, Vergara, & Cabrera E, 2014). Satellite
image processing encompasses a large number of applications aimed at solving different
problems, such as control and monitoring of deforestation from the detection of changes
in images, crop classification to map soil usage, weather forecasting, among others (Lobell,
Thau, Seifert, Engle, & Little, 2015), (Hutchinson, Jacquin , Hutchinson, & Verbesselt,
2015), (Baig, Zhang, Shuai, & Tong, 2014). Several works related to the processing of

RISTI, N.º E22, 08/2019 337


Satellite-image-based crop identification using unsupervised machine learning techniques: Preliminary results

satellite images have been carried out. In this sense, it is worth to mention the work
presented in (Jaramillo & Antunes , 2018), which is based on comparison of a post-
classification methods, consisting of classification of a determined area independently
for each period of time. The work of Pelletier et al. (Pelletier, Valero , Inglada, Champion,
& Dedieu, 2016) is based on direct classification techniques that consist of using time
series and methods, namely the analysis of change vectors. Sanches et al (Sanchez,
I; Feitosa, R; Diaz, P; Soares, M; Luiz, A; Schultz, B; Maurano, L, 2018) introduces a
database of labeled satellite images, so called Campo Verde. Such a database allows for
assessing classification techniques over different crops in time series so that agricultural
production can be enhanced. In particular, this research makes a classification of the
images using stacking and a decision tree. In (Picoli, M; Camara, G; Sanchez, I; Simoes,
R; Carvalho, A; Maciel, A; Coutinho, A; Esquerdo, J; Antunes, J; Begotti, R, 2018), the
Campo Verde database is also used and different crops are classified over the period 2015-
2016, jointly analyzing the deforestation caused by the crops present during this period
of time. Although the aforementioned researches have demonstrated suitable results, the
development of a method reaching a good compromise between robustness (to factors
such as: lighting, noise, execution time and cloudiness) and accuracy is still an open issue.
The present paper is an exploratory study, our objective is classifying 10 different types
of crops (soy, corn, cotton, sorghum, beans, non-commercial crops (NCC), pasture and
turfgrass, eucalyptus, soil, and Cerrado) with a clustering method based on Parzen’s
probability and initialization max-min. The database used in our study is the one
introduced in (Sanchez, I; Feitosa, R; Diaz, P; Soares, M; Luiz, A; Schultz, B; Maurano,
L, 2018), which consists of two sets of images: one of them obtained with the Sentinel
satellite, and another captures with the Landsat 8 satellite. We chose the Landsat images
for the scope of this work, because it presents a better spatial resolution in comparison with
Sentinel, and therefore small changes can be better distinguished (Zhu & Woodcock, 2014).
The proposed methodology is as follows: first, images are filtered by means of a median
filter, just as recommended in (Xueyan, Xinang, Yang, & Liang, 2017). Second, a feature
extraction is performed with the coefficients of Hermite. Finally, data clustering is carried
out by using a probabilistic algorithm based upon the Parzen windows. In order to improve
the efficiency of the clustering algorithm, centroids were initialized using max-min, rather
than using a random initialization. The rest of this paper is structured as follows: Section 2
describes the proposed methodology; Section 3 presents the results, and a brief discussion
of them. Finally, some concluding remarks and future works are given in Section 4.

2. Methodology
The methodology depicted in diagram of Fig.1 is proposed in order to cluster different
types of soil cover.

Figure 1 – Methodology applied on database

338 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

2.1. Database
Campo Verde is a database built and released by Sanches et al (Sanchez, I; Feitosa, R;
Diaz, P; Soares, M; Luiz, A; Schultz, B; Maurano, L, 2018). It provides the scientific
community with a set of labeled satellite images. Campo Verde is located in western
Brazil. This locality has a tropical climate, and its average temperature is 23°C which
favors the harvest of crops such as corn, beans, cotton, among others.
The images of the database were acquired with the satellites Landsat 8 and Sentinel, 14
and 16 images available from each satellite. About the Sentinel images, it has a geometric
resolution of 20 m and a swath of 250km. About the Landsat images, it has a resolution
of 30m except the panchromatic band, which has 15-m resolution, the images were
acquired with OLI sensor, and so, the images have eight bands. The images of database are
georeferenced and clipped to the area of study. The data were acquired in the period ranging
from October 2015 to July 2016. In Figure 2 is possible observe an image of the database.

2.2. Pre-processing
Images are filtered with a median filter according to the recommendation given in
(Xueyan, Xinang, Yang, & Liang, 2017). Next, the images are standardized in order to
avoid that the data with big value influence negatively the data with small values. Data
standardization is done according to equation 1.

 (1)

Figure 2 – Satellite image Campo Verde

2.3. Feature set


The Hermite polynomials are a solution of equation 2.

(2)

RISTI, N.º E22, 08/2019 339


Satellite-image-based crop identification using unsupervised machine learning techniques: Preliminary results

The Hermite coefficients are used in order to obtain the feature set of the images. The
first two polynomials are defined for: y . The next polynomials are
obtained with equation 3:

(3)

The Hermite bases (equation 4) are obtained with the coefficients

(4)

Thus, the features set is obtained according to algorithm of Table 1:

Algorithm 1 Feature set


Require: A multi-spectral satellite image.
Ensure: output matrix
1. Compute the matrix, where the number of rows ( ) corresponding to number of pixels
and the number of columns ( ) corresponding to the bands number of the image. The element
corresponds to the band amplitude value of the pixel in the band of the image.
2. Obtain the Hermite coefficients for each data of the matrix , with this, we obtain a feature
matrix . In this stage, we stablish the next parameters: and a bases number
=6, according to the recommendation given in (Peluffo, Rodriguez, & Castellanos, 2008).

Table 1 – Algorithm 1

To simplify notation, will from now on be referred to as .

2.3. Clustering
A probabilistic algorithm is used in order to segment the images, so the data are assigned
to a cluster according to the membership value of the data to a cluster.
In this paper, the non-parametric probability with the Parzen probability is used (see
equation 5}.

 (5)

where is a Gaussian kernel, depicted in equation 6:

(6)

where is a multivariate standardized random variable arranged as a row vector.


Equation 7 shows the joint probability

(7)

340 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Algorithm 2 max-min initialization


Require: Initial parameters:
Clusters number (k).
Maximum number of iterations (Iter).
Parameter convergence
Initial centroids .
Initial labels .
Ensure: Output matrix of final labels
1. Calculate the image marginal probability and the centroids marginal probability according to equation 5.
2. Calculate the joint probability according to equation 7.
3. Estimate the membership function through the next equation:
4. Assign the data for each cluster according to the value membership and obtain the new labels ( ).

5. Update the centroids.

6. Update the objective function:

if
Finish and the solution is
else
Return to step 1

Table 2 – Algorithm 2

where a co-variance matrix.


Then, the algorithm of Table 2 is built. The initial labels are obtained with the k-means
algorithm, please refer to (Dhanachandra, Manglem, & Chanu, 2015) for more
information. The starting location of the centroids can be obtained randomly, or by the
means of initialization methods such as max-min (Ganesan & Vasuki, 2018). A good
centroid initialization ensures that the centroids of each cluster are away from each
other; for this reason, the max-min algorithm is used (see Table 3).

Algorithm 3 max-min initialization


Require: Matrix
Ensure: Output matrix
1. Choose the first centroid randomly.
2. The second center is the further of the first centroid.
3. The other centroids are obtained according to the max-min:

Table 3 – Algorithm 3

In order to improve the results on the minority classes, we used an approach based on
segment clustering. This approach consists of dividing into subsets, called segments,
and later applying a clustering procedure for each segment; then, a cluster merger stage

RISTI, N.º E22, 08/2019 341


Satellite-image-based crop identification using unsupervised machine learning techniques: Preliminary results

is realized. More information about this method can be found in (Rodriguez, Peluffo, &
Dominguez, 2015).

2.5. Performance measures


Consider the next clusters: A cluster holding the elements regarding from the class of
interest (CI) and other cluster holding the elements different from the class of interest
(NCI), the next performance measures are used: Sensibility ( ) that quantifies the
proportion of elements CI correctly classified, Specificity( ) that quantifies the
proportion of elements NCI correctly classified, Classification percentage ( ) that
quantifies the total number of data correctly classified and f1_score that is a good
measure for unbalanced database because it seeks a balance between precision and recall.

(8)

(9)

(10)

where:
: is the precision.
: is the recall.
: are the true positives or the number pixels CI classified correctly.
: are the true negatives or the number pixels NCI classified correctly.
: are the false positives or the number pixels NCI classified as CI.
: are the false negatives or the number pixels CI classified as NCI.

3. Results
The tests are based on flowchart of Figure 3.
The tests performed are applied on some labeled zones of the satellite images, in order
to review the performance of the algorithm used. The tests are made in 10 images of the
database, some images are omitted because of some images are acquired on consecutive
days and the January image is omitted too because of this had clouds only. Two tests are
performed on the database, algorithm of Table 2 with a random initialization is applied
in the first test and algorithm of Table 2 with a max-min initialization (depicted in Table
3) is applied in the second test.

342 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figure 3 – Flowchart of tests

The results can be observed in the Table 4, which, discloses the total number of pixels
analyzed, the percentage of sensitivity ( ), the percentage of specificity ( ), f1_score
and the percentage of classification ( ) for each of the tests performed,
is the notation used to define the following classes: : Soybean, : Corn, : Cotton,
: Sorghum, : Beans, : NCC grasses, : Pasture and turfgrass, : Eucalyptus,
: Soil, : Cerrado.
Image 1 is an image of the database, which, has only two classes with the same number of
pixels for each class, in order to review the effect that the balancing of classes has on the
performance measures. Table 4 depicts the results for some images and Table 5 depicts
the means of the results for all images.

Image Class Amount Random Initialization Max-min initialization

Se (%) Sp (%) f1 (%) Se (%) Sp (%) f1 (%)


C1 891 97.5 87.4 92.84 100 85.5 93.25
Image 1
C2 892 87.4 100 92.09 85.5 100 92.21
C1 51 100 100 50.6 100 100 17.86
C2 58 89.23 99.89 80.85 100 100 55
C6 146 100 100 96.05 71.73 99.21 80
October C7 489 93.81 99.8 88.79 80.97 98.32 86.23
C8 173 80.42 99.57 95.47 89.63 99.79 78.57
C9 5707 90.15 42.89 97.76 99.07 95.14 99.19
C10 174 0 100 0 69.14 99.18 69.34

RISTI, N.º E22, 08/2019 343


Satellite-image-based crop identification using unsupervised machine learning techniques: Preliminary results

Image Class Amount Random Initialization Max-min initialization

Se (%) Sp (%) f1 (%) Se (%) Sp (%) f1 (%)


C2 841 49.72 88.19 40 56.55 89.48 73.08

C3 2572 78.29 84.9 79.35 81.04 87.22 84.86


C4 64 0 100 0 100 100 3.07
C6 184 0 100 0 0 100 0
July
C7 586 69.08 97.6 79.42 84.65 99.03 53.99
C8 173 100 100 90.16 100 100 100
C9 2205 62.73 84.39 80.01 91.87 96.95 84.8
C10 174 0 100 0 60.5 98.79 52.9

Table 4 – Results for some images

The results of image 1 are better than the results obtained in the other images. This fact
happened because of image 1 has the same amount of data to each class, i.e., the classes
are balanced and this does not happen in the other images.
For this case, the max-min initialization improves notably the results in the whole set
of images, this fact happens because of the chosen centroids in the initialization of the
algorithm 2 have less probability belong to the same cluster since max-min ensures a
better separation between the centroids.

Image Amount Random Initialization Max-min Initialization

Se (%) Sp (%) f1 (%) Cp (%) Se (%) Sp (%) f1 (%) C P


(%)

Image 1 1783 92.5 97.5 92.47 99.25 92.8 92.8 92.73 92.8

October 6798 79.08 91.74 72.79 90.14 87.22 98.8 78.3 95.89

November 6799 78 97.63 72.11 86.86 86.25 98.25 82.4 90.32

December 6800 51.6 97.12 64.64 88.27 72.72 99.2 71.66 95.29

February 6798 33.57 92.8 33.42 67.53 91.15 96.6 84.32 84.5

March 6799 39.08 95.7 40.09 73.83 57.67 98.73 52.69 91.85

April 6799 71.52 98.39 84.61 90.5 81.2 97.53 72.72 86.29

May 6799 65.37 95.84 70.28 76.15 62.69 96.8 55.56 80.8

June 6799 52.16 96.26 55.68 75.5 77.58 97.06 70.85 83.25

July 6799 44.97 94.51 48.27 68 71.83 96.43 56.58 78.75

Table 5 – Mean results for database

344 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

The results of the Table 5 are summarized in Figure 4 and Figure 5. These figures
depict the Percentage average to each measure: and .

Figure 4 – Performance measure, random initialization.

Figure 5 – Performance measure, max-min initialization.

In Figure 4 and Figure 5 we can appreciate that unlike image 1 the in the clustering
of data in all the images does not exceed 92% and the does not exceed 82% while
the remains almost constant around 97%, the difference in the percentage of these
measures is due to the fact that the sensitivity measures the proportion of data CI
classified correctly, in a clinical environment for example, the measures the
classification success of a sick person as sick and not healthy while the measures the
success of classification of a healthy person as healthy and not sick. Respect to f1_score,
this measurement is low in the most months because the database is misbalanced. In

RISTI, N.º E22, 08/2019 345


Satellite-image-based crop identification using unsupervised machine learning techniques: Preliminary results

Figure 6 is possible observe the curves ROC (Receiver-Operating Characteristic) for


October. In this figure is observed that the best results are getting for the class 9,
because this curve has a better area.

Figure 6 – Curves ROC October.

Some Works that have used the Campo Verde database are (Sanchez, I; Feitosa, R;
Diaz, P; Soares, M; Luiz, A; Schultz, B; Maurano, L, 2018) with a random forest and
(La Rosa, Happ, & Feitosa, 2018), these research have reached a good performance on
the all data base, approximately 65% and 81.7% respectively. It is worth remember that
our approach only considered some data and not all data base because we presented a
preliminary study.

4. Conclusions
In this work a probabilistic algorithm with random and max-min initialization were
used, the methods were applied on the Campo Verde database and the results obtained
were good for some cases as the case of image 1. The best results without considering
image 1 were obtained for February because this image got a f1 84.32% while that the
worst results were obtained for April with a f1 72.72%, this probably happened due to the
presence of minority classes.
The main advantage of using the max-min algorithm -instead of at randomly- for
centroids initialization is that the classification results improve markedly as there is a
better separation between the centroids of every group.
In the classification stage, we will use other methods such as those based on deep neural
networks because that does not require characterization and a comparative study of
these techniques will be carried out with those already implemented.
In addition to these direct classification methods, it will be possible to evaluate the
change in the coverage of soils in satellite images, helping to solve other problems such

346 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

as the quantification of deforestation. We will propose to compare methods of direct


classification with methods based on time series

References
Baig, M., Zhang, L., Shuai, T., & Tong, Q. (2014). Derivation of a tasselled cap
transformation based on Landsat 8 at-satellite reflectance. Remote Sensing Letters,
423-431. doi: 10.1080/2150704X.2014.915434
Bastidas, A., & Bravo, L. (2017). Análisis de imágenes satelitales para clasificación de
biomasa en el departamento de Nariño. Pasto.
Dhanachandra, N., Manglem, K., & Chanu, Y. (2015). Image segmentation using
K-means clustering algorithm and subtractive clustering algorithm. Procedia
Computer science, 764–771. doi: 10.1016/[Link].2015.06.090
Galindo, G., Rubiano, J., Vergara, L., & Cabrera E. (2014). Protocolo de procesamiento
digital de imágenes para la cuantificación de la deforestación en Colombia. Instituto
de Hidrología, Meteorología y Estudios Ambientales – IDEAM.
Ganesan, V., & Vasuki, S. (2018). Maximin distance based band selection for endmember
extraction in hyperspectral images using simplex growing algorithm. Multimedia
Tools and Applications. doi: 7221–7237. 10.1007/s11042-017-4630-0
Hutchinson, J., Jacquin , A., Hutchinson, S., & Verbesselt, J. (2015). Monitoring
vegetation change and dynamics on US Army training lands using satellite image
time series. Journal of environmental management, 355–366. doi: 10.1016/j.
jenvman.2014.08.002
Jaramillo, L., & Antunes , A. (2018). Detección de cambios en la cobertura vegetal
mediante interpretación de imágenes Landsat por redes neuronales artificiales
(RNA): Caso de estudio: Región Amazónica Ecuatoriana. Revista de teledetección,
33-46. doi: 10.4995/raet.2018.8995
La Rosa, L., Happ, P., & Feitosa, R. (2018). Dense fully convolutional networks for
crop recognition from multitemporal sar image sequences. IEEE International
Geoscience and Remote Sensing (IGARS), (págs. 7460-7463). doi: 0.1109/
IGARSS.2018.8517995
Lobell, D., Thau, D., Seifert, C., Engle, E., & Little, B. (2015). A scalable satellite
based crop yield map. Remote sensing of environment, 324-333. doi: 10.1016/j.
rse.2015.04.021
Pelletier, C., Valero , S., Inglada, J., Champion, N., & Dedieu, G. (2016). Assessing the
robustness of Random Forests to map land cover with high resolution satellite
image time series over large areas. Remote Sensing of Environment, 156-168. doi:
10.1016/[Link].2016.10.010
Peluffo, D., Rodriguez, J., & Castellanos, G. (2008). Metodología para la reconstrucción
y extracción de caracterısticas del complejo qrs basada en el modelo paramétrico de
hermite. V Semana Técnica de Ingenierıas Eléctrica y Electrónica.

RISTI, N.º E22, 08/2019 347


Satellite-image-based crop identification using unsupervised machine learning techniques: Preliminary results

Picoli, M., Camara, G., Sanchez, I., Simoes, R., Carvalho, A., Maciel, A., . . . Begotti,
R. (2018). Big earth observation time series analysis for monitoring Brazilian
agriculture. ISPRS Journal of Photogrammetry and Remote Sensing. doi:
10.1016/[Link].2018.08.007
Rodriguez, J., Peluffo, D., & Dominguez, G. (2015). Segment clustering methodology
for unsupervised holter recordings analysis. 10th International Symposium on
Medical Information Processing and Analysis. doi: 10.1117/12.2073882
Sanchez, I; Feitosa, R; Diaz, P; Soares, M; Luiz, A; Schultz, B; Maurano, L. (2018).
Campo Verde Database: Seeking to Improve Agricultural Remote sensing of tropical
areas. IEEE Geoscience and Remote Sensing Letters, 369–373. doi: 10.1109/
LGRS.2017.2789120
Xueyan, G., Xinang, L., Yang, Y., & Liang, H. (2017). Multi-temporal and multi-
view based remote sensing image registration for ground surface objects change
monitoring. 13th IEEE International Conference on Electronic Measurement &
Instruments (ICEMI), (págs. 559-566). doi: 10.1109/ICEMI.2017.8265892
Zhu, Z., & Woodcock, C. (2014). Continuous change detection and classification of land
cover using all available Landsat data. Remote sensing of Environment, 152-171.
doi: 10.1016/[Link].2014.01.011

348 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 22/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 01/07/2019

Evaluación de sistemas de seguridad informáticos


universitarios Caso de Estudio: Sistema de
Evaluación Docente

Daisy E. Imbaquingo1,2, Erick P. Herrera-Granda1, Israel D. Herrera-Granda1, Silvia R.


Arciniega1, Verónica L. Guamán1, MacArthur C. Ortega-Bustamante1,2

deimbaquingo@[Link], epherrera@[Link], idherrera@[Link], srarciniega@utn.


[Link], vlguaman@[Link], [Link]@[Link]

1
Facultad de Ingeniería en Ciencias Aplicadas, Universidad Técnica del Norte, 100150, Ibarra, Ecuador.
2
Facultad de Informática, Universidad Nacional de La Plata, 1900, La Plata, Argentina.
Pages: 349–362

Resumen: El presente trabajo detalla el proceso de evaluación de seguridad


del Sistema de Evaluación Docente de la Universidad Técnica del Norte, para
establecer objetivos y controles que permitan minimizar las vulnerabilidades del
sistema de gestión. Se recolectó información mediante encuestas, entrevistas y
reuniones de trabajo, posteriormente se aplicó la metodología Magerit mediante
el software PILAR, que permitió el levantamiento de información y activos como
hardware, software, y activo humano, para luego realizar una valoración de acuerdo
con su incidencia en la integridad, confidencialidad, disponibilidad, autenticidad
y trazabilidad. La estructura factorial de la encuesta se diseñó mediante análisis
factorial exploratorio y los resultados se validaron empleando análisis factorial
confirmatorio. Además, se realizó una revisión de la ISO/IEC2001:2013 y la
evaluación de cumplimiento basada en la Norma ISO/IEC 2700:2017. Para detectar
la seguridad a este sistema se hizo pruebas de penetración en las vulnerabilidades
detectadas mediante herramientas de SQLmap y Nmap.
Palabras-clave: Evaluación seguridad sistemas informáticos; ISO/IEC
27002:2017; Análisis factorial exploratorio, Validez, Fiabilidad.

Evaluation of University Informatic Security Systems: Teacher


Evaluation System a case study

Abstract: This work details the security evaluation process of Técnica del Norte
University teacher evaluation system, in order to establish objectives and controls
that minimize the vulnerabilities of the management system. Information was
collected through surveys, interviews and work meetings. Next, the Magerit
methodology was applied through the PILAR software, which allowed information
and assets collection, such as hardware, software, and human assets, and then,
an assessment according to its incidence in integrity, confidentiality, availability,
authenticity and traceability, was made. The factorial structure of the survey was

RISTI, N.º E22, 08/2019 349


Evaluación de sistemas de seguridad informáticos universitarios Caso de Estudio: Sistema de Evaluación Docente

designed using exploratory factor analysis and the results were validated by means
of confirmatory factor analysis. In addition, a review of ISO / IEC2001: 2013 and
an evaluation of compliance based on ISO / IEC 2700: 2017 was performed. To
detect the security of this system, penetration tests were made on the detected
vulnerabilities, by means of SQLmap and Nmap tools.
Keywords: informatic security system evaluation; ISO/IEC 27002:2017; factorial
exploratory analysis; validity; fiability.

1. Introducción
Las organizaciones se enfrentan a un número alto de inseguridades que provienen
de varias fuentes, por esta razón los Sistemas de Seguridad de Gestión Informática
deberían estar implementados con estándares en cuanto a seguridad, integridad
y confidencialidad. Para (Muñoz, 2015) un SGSI para una organización es el diseño,
implantación, mantenimiento de un conjunto de procesos para gestionar eficientemente
la accesibilidad de la información buscando asegurar la confidencialidad, integridad
y disponibilidad de los activos de información, minimizando a la vez los riesgos de la
seguridad de la información.
Las instituciones educativas suelen presentar problemáticas en lo relacionado a la
seguridad de la información de los datos que a diario emplean, desde bases de datos
información de sus alumnos, docentes y personal administrativo, en el intercambio de
información que tienen que realizar entre centros u organismos educativos institucionales.
Dentro de la Universidad Técnica del Norte se usan los sistemas de gestión de
información, siendo un activo fundamental la información la misma que necesita
protección ante amenazas que afectan diariamente la disponibilidad e integridad de la
organización así mismo poder evitar riesgos altos, daños operantes y económicos para
la organización. Por lo antes mencionado se debe establecer procedimientos y controles
de seguridad los cuales se obtienen del análisis de riesgos, establecer parámetros para
poder identificar amenazas que afectan a los activos de la organización, además verificar
vulnerabilidades y de esta manera determinar el impacto que tendrá en la institución las
posibles amenazas encontradas.
Los problemas de seguridad informática alcanzan a todas las organizaciones que
tienen alto volumen de información sea esta financiera o académica, ésta es la razón se
vuelve blanco de posibles ataques. La seguridad informática se relaciona con procesos,
procedimientos y metodologías que ayudan a salvaguardar los datos, estos procesos
se van estructurando con el uso de normas, protocolos, estándares que servirán para
minimizar riesgos en una infraestructura tecnológica.
El autor (Baca, 2016) define a la seguridad informática como: la disciplina que, con
base en políticas y normas internas y externas de la empresa, se encarga de proteger la
integridad y privacidad de la información que se encuentra almacenada en un sistema
informático, contra cualquier tipo de amenazas, minimizando los riesgos tanto físicos
como lógicos a los que se encuentra expuesta.
Según (Romo & Valarezo, 2012) la seguridad de la información está apoyada en 3 pilares
fundamentales de la seguridad:

350 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

•• Confidencialidad: Certifica que solo los usuarios con accesos autorizados puedan
acceder a la información. La seguridad que se implementará debe asegurar que solo
las personas que tengan acceso a la información fueron autorizadas. Una medida
que mitiga este tipo de riesgo es la firma de contratos de confidencialidad o inclusión
de este tipo de cláusulas en el contrato de servicio (Ministerio de Energía, 2017).
•• Integridad: Hace referencia a que la información sea correcta y no se modifique,
ni haya errores. La información puede ser corrompida y se puede basar decisiones
en torno a la información, lo cual da la alteración malintencionada en los
ficheros del sistema informático mediante la explotación de una vulnerabilidad
(Hidalguense, 2011).
•• Disponibilidad: Según (Chilán & Williams, 2017) la disponibilidad es cuando se
asegura que los usuarios autorizados tienen el acceso debido a la información siendo
la característica, cualidad o condición de la información de encontrarse a disposición
de quienes deben acceder a ella, ya sean personas, procesos o aplicaciones.
La información es el núcleo dentro de una organización, como se aprecia en la figura 1,
indica la relación que existe dentro de la misma, por ello es necesario mantener un nivel
aceptable de protección para estos componentes y minimizar los riesgos a los que puede
estar expuesta cualquier tipo de entidad.

2. Materiales y Métodos

2.1. Metodología Magerit V3


MAGERIT responde a lo que se denomina “Proceso de Gestión de los Riesgos”, fue
elaborada por el Consejo Superior de Administración de España, actualizada en
2012 su versión 3, brinda un método sistemático para analizar los riesgos del uso
de las tecnologías de la información y la comunicación (Ministerio de Hacienda y
Administraciones Públicas de España, 2012), dicha metodología implementa el Proceso
de Gestión de Riesgos dentro de un marco de trabajo para que los órganos de gobierno
tomen decisiones, teniendo en cuenta los riesgos derivados del uso de tecnologías de la
información (Ministerio de Hacienda y Administraciones Públicas de España, 2012).
MAGERIT es la metodología más usada a nivel de Latinoamérica, el beneficio que presenta
es que se encuentra disponible en idioma inglés y español, además utiliza la herramienta
EAR que es comercial pero la herramienta PILAR BASIC es gratuita, misma que puede
ser usada con licencias de prueba. MAGERIT se desarrolla para organizaciones públicas
gubernamentales; el ciclo de vida de esta metodología empieza con la identificación
de activos, amenazas lógicas y de entorno, establece frecuencias e impacto para poder
identificar salvaguardas y gestionar el riesgo residual, dentro de la metodología se
considera activos de información al hardware, software, información electrónica,
personas, instalaciones, medios de soporte y elementos de comunicación de datos.
La metodología MAGERIT determina los valores de los activos considerando la
dimensión de la disponibilidad, integridad, confidencialidad, trazabilidad y autenticidad,
estableciendo escala de valoración en diferentes niveles: muy alto, alto, medio, bajo, muy
bajo y despreciable, en esta metodología se verifica el impacto determinando el valor de

RISTI, N.º E22, 08/2019 351


Evaluación de sistemas de seguridad informáticos universitarios Caso de Estudio: Sistema de Evaluación Docente

los activos, este, acumulado se calcula mediante el valor del activo y las amenazas a
las que afronta, y este impacto repercutido se considera el valor propio y las amenazas
(MAGERIT, 2012) . Con respecto a lo establecido se escoge esta metodología por ser la
más completa y evalúa todos los pilares de la seguridad informática, con la ayuda del
software de complemento, como lo es el PILAR, se puede obtener fácilmente las gráficas
de impactos y riesgos acumulados.

2.2. PILAR
PILAR, es un acrónimo de “Procedimiento Informático Lógico para el Análisis de
Riesgos”, es una herramienta desarrollada bajo especificación del Centro Nacional de
Inteligencia para soportar el análisis de riesgos de sistemas de información siguiendo
la metodología Magerit (Ministerio de Hacienda y Administraciones Públicas de
España, 2012).
La herramienta soporta todas las fases del método Magerit que son: caracterización de
los activos (identificación, clasificación, dependencias y valoración), caracterización
de las amenazas y evaluación de las salvaguardas. Además, la herramienta incorpora
los inventarios del “Catálogo de Elementos” permitiendo una homogeneidad en los
resultados del análisis, siendo: tipos de activos, dimensiones de valoración, criterios de
valoración y catálogo de amenazas.
Una vez realizado el análisis con MAGERIT, se procedió a ingresar los datos en la
herramienta PILAR, la misma que ayudó a evaluar la situación actual y de esta manera
proponer soluciones eventuales en el departamento de DDTI de la Universidad Técnica
del Norte.

2.3. ISO/IEC 27002:2017


Este es un estándar para la seguridad de la información creada por la Organización
Internacional de Normalización y la Comisión Electrotecnia Internacional. La versión
más reciente de la norma ISO/IEC 27002:2017, brinda diferentes recomendaciones de las
mejores prácticas en la gestión de la seguridad de la información a quienes se interesen en
iniciar, implementar o mantener sistemas de gestión de la seguridad de la información.
Esta norma internacional establece directrices para la seguridad de la información en las
organizaciones y las prácticas de gestión de seguridad de la información incluyendo la
selección, la implantación y la gestión de los controles. Además, considera el entorno de
los riesgos de seguridad de la información de la organización (INEN, 2017).
El valor de esta información se propaga por palabras escritas, números e imágenes,
por ejemplo: el conocimiento, conceptos son formas intangibles de información. La
información y sus procesos relacionados, los sistemas, las redes y el personal implicado
en la operación y manejo de la información y protección son los activos que resultan
valiosos para el negocio de las organizaciones y en consecuencia requieren protección
contra diversos peligros. La seguridad de la información se consigue mediante la
implantación de un conjunto adecuado de controles, lo que incluye políticas, procesos,
estructuras organizativas y funciones de hardware y software. Estos controles se
deben establecer, implementar, supervisar, revisar y mejorar cuando sea necesario
para asegurar que se cumplan los objetivos específicos de seguridad y de negocio de la
organización (INEN, 2017).

352 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

La norma ISO/IEC 27002:2017 consta de 14 capítulos de controles de seguridad que en


conjunto proporcionan un total de 35 categorías principales y 114 controles.

2.4. Aplicación de Magerit y Pilar


La ejecución del proceso de evaluación docente está basado en la aplicación de varios
instrumentos como la autoevaluación, coevaluación y heteroevaluación para de esta manera
obtener un diagnostico real de los datos evaluados (CEIDPA, 2018). El DDTI es el encargado
de recopilar los datos que se obtengan mediante el sistema de evaluación docente y la
información que se obtuvo mediante Magerit y PILAR permitió evaluar la situación en que
se encontraba y de esta manera poder proponer soluciones eventuales en el Departamento
de Desarrollo de Tecnologías Informáticas (DDTI) de la Universidad Técnica del Norte.
Identificación de Activos
Un activo es algo valioso o de utilidad para la organización, la finalidad de los activos
es brindar protección para asegurar de alguna forma la operación del negocio y la
continuidad del mismo. En la tabla 1 se muestra los activos identificados en el
DDTI – UTN.

Tipo de activo Activo

Datos y/o Bases de Datos de estudiantes y personal académico.


información

Software Licencia GNU Oracle Linux 6


Licenciamiento Campus Agreement Microsoft
Licencia perpetua Oracle 11g Database and Aplications
Licenciamiento Adobe Creative Cloud MLP Ed Subscription Multi Latin
American Languagues
Licenciamiento Eset NOd 32 Antivirus
Licencia ToolBook
Licencia GNU Linux Centus
Software libre licencia GNU para el Geoportal
Licencia de ESRI Arcgis 10.1
Licencia GNU Dbspace para Repositorio Digital
Licencia GNU Moodle para aula virtual

Equipamiento Servidores HP Blade System, equipos Informáticos PC, Laptop’s, Call Manager,
Informático Gateway de voz, IVR (contestadora automática), Tape Backup, Switchs Core,
(Hardware) Switchs de acceso, Cisco ASA, Firewall, Ipx, Router, Antenas y radio enlaces,
Access point, Torres, Racks, Cableado estructurado

Redes de Red telefónica, Red de datos, Red inalámbrica, Internet


Comunicaciones

Soportes de Nube Oracle Apex


Información

Equipamiento Ups, Fibra Óptica


Auxiliar

Instalaciones Departamento de DDTI – UTN

Personal Miembros del Área de DDTI

Tabla 1 – Clasificación de Activos DDTI - UTN.

RISTI, N.º E22, 08/2019 353


Evaluación de sistemas de seguridad informáticos universitarios Caso de Estudio: Sistema de Evaluación Docente

Valoración de activos
La valoración del activo se lo puede hacer de forma cuantitativa, es decir asignando una
cantidad numérica, también es posible valorar el activo de forma cualitativa, es decir
asignado niveles. En este caso de estudio la metodología empleada para la valoración fue
la elaboración de una encuesta aplicada a los usuarios del sistema de evaluación docente,
mediante la cual se diseñó un constructo aplicando Análisis Factorial Exploratorio
AFE que permitió valorar los dominios objetivos y controles estipulados por la norma
ISO/IEC 27002:2017, en sus componentes: Aspectos Organizativos, Control de Acceso
y Cumplimiento. Posteriormente se validó el instrumento y la estructura factorial
mediante Análisis Factorial Confirmatorio AFC, de manera que los datos de valoración
que se emplearán en Magerit y Pilar estén dotados de validez y fiabilidad (Batista y
Coenders, 2010).
La encuesta estuvo constituida de 10 preguntas de se diseñaron en base a la normativa
para permitir valorar las puntuaciones que los usuarios del sistema les otorgaron a los
componentes. La evaluación se conformó de 529 encuestas aplicadas a usuarios, docentes
y personal administrativo que han utilizado el sistema de evaluación docente. Los
resultados obtenidos fueron tratados y ejecutados las pruebas estadísticas empleando el
lenguaje de programación R mediante RStudio. Inicialmente se verificó que no existan
valores perdidos mediante la librería mice, además se obtuvieron las distancias de
Mahalanobis para cada variable y mediante estas, en conjunto con los cuantiles de la
distribución chi cuadrada para un pvalue de 0.999, se estableció un puntaje de corte de
29,5883, mediante el cual se detectaron y eliminaron 15 observaciones atípicas por lo
que la base de datos con la que se trabajó estuvo conformada de 514 encuestas.
Como el AFE y AFC son técnicas estadísticas paramétricas, se verificó los supuestos para
estas. Inicialmente para el supuesto de aditividad se obtuvo la matriz de correlación
bivariada para todas las posibles combinaciones de preguntas, donde se observó que
ninguna de las parejas de variables alcance una correlación perfecta en rango de 0,95 a
1, por lo que se alcanza el supuesto de aditividad.
Posteriormente para verificar los supuestos de linealidad, normalidad, homogeneidad y
homocedasticidad se ejecutó un análisis de regresión lineal falsa basado en los residuos
estandarizados obtenidos para los cuantiles . Los resultados obtenidos se resumen
en la figura 1.

Figura 1 – Histograma, QQ Plot y Scatter Plot de los valores estandarizados obtenidos para los
cuantiles

354 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

El supuesto de normalidad se verifica mediante la visualización del histograma para


la regresión realizada a partir de los cuantiles, donde las frecuencias se distribuyeron
con una tendencia normal centrada entre a . De la misma manera el supuesto
de linealidad se verifica ya que los cuantiles cumplen con una tendencia lineal
creciente en el intervalo de a . Finalmente los supuestos de homogeneidad y
homocedasticidad se verificaron mediante el criterio de esfericidad mediante un Scatter
plot donde se visualiza homogeneidad de la distribución en los cuatro cuadrantes con
ligeros problemas en el semiplano negativo pero en el intervalo de a se tienen
resultados aceptables.
Para el diseño del AFE es necesario adicionalmente la verificación de los supuestos de
suficiencia de correlación y suficiencia de muestreo (Pettersson & Turkheimer, 2010).
Mediante el paquete psych se ejecutó el test de suficiencia de correlación de Bartlett
obteniéndose un p-value de mediante el cual se acepta
suficiencia de correlación con un elevado nivel de significancia. Por su parte para
demostrar la suficiencia de muestro se efectuó el test de Kaise-Meyer-Olkin KMO, en el
que se obtuvo un índice de suficiencia factorial KMO de 0,84 por lo que se acepta este
supuesto ya que presentó un nivel cercano a 1 y por encima de 0.7.
Para determinar el número de factores a emplearse se ejecutó un análisis paralelo y por
medio de un Scre Plot se visualiza el punto de inflexión. En la figura 2 se muestran los
resultados del análisis paralelo donde se pueden visualizar 2 puntos probables para 2 y
6 factores, por lo que un valor dentro de este intervalo puede ser seleccionado. En este
estudio se emplearon 3 factores ya que coincide con los dominios a analizar.

Figura 2 – Scree plot del análisis paralelo

Una vez seleccionado el número de factores a crear en la estructura factorial se ejecuta


el AFE para 3 factores empleando un método de rotación factorial oblicuo mediante
oblimin que permite a los factores ser correlacionados cuando son rotados y la estimación
de ajuste matemático empleada es ml para emplear el criterio de máxima verosimilitud
el cual es más apropiado en AFE.

RISTI, N.º E22, 08/2019 355


Evaluación de sistemas de seguridad informáticos universitarios Caso de Estudio: Sistema de Evaluación Docente

Después de ejecutar varias pruebas experimentales y cotejando con el AFC se retiró la


pregunta 2 (¿Considera usted que el sistema académico protege su información?) ya que
saturaba a dos factores en más de 0,3 para las diferentes configuraciones empleadas,
además la pregunta 9 (¿Considera usted que se debería implementar la política de
obligatoriedad de cambio de contraseña cada cierto periodo de tiempo?) fue retirada
debido a que no fue capaz de saturar a ningún factor en más de 0,3 en ninguna de las
configuraciones. Los resultados para la estructura factorial sugerida por el AFE con sus
saturaciones, comunalidades y singularidades, se muestran en la figura 3.

Figura 3 – Pruebas efectuadas para el diseño de la estructura factorial

Como se visualiza en la figura 4, inicialmente se ejecuta el AFE para 3 factores donde se


determinó que las preguntas 1, 6, 7, 8 pueden pertenecer a un primer factor, mientras la
3 y la 10 a un segundo factor. Inicialmente se visualiza que las preguntas 4 y 5 pueden
pertenecer a un tercer factor, sin embargo, la pregunta 4 no presenta una saturación
superior a 0,3, por lo que se ejecutan dos pruebas más inicialmente para 2 factores donde
las saturaciones de 4 y 5 si superan a 0,3 por lo que se puede considerar ubicarlas en un
factor sin embargo existe incertidumbre en las preguntas 4 y 5 por lo que se someterá
a análisis factorial confirmatorio. En todas las tres pruebas efectuadas se obtuvieron
índices CFI (Comparative Fit Index) de 0.999, 0,973 y 0,994 respectivamente y
índices de Tucker y Lewis de 0.98, 0,99 y 0,978 respectivamente por lo que se acepta
la confiabilidad de factoreo del AFE. Adicionalmente se ejecuta una prueba de alfa de
Cronbach para verificar la validez de los dos primeros factores obteniendo valores de
0,79 y 0,7 respectivamente por lo que entran en la categoría de aceptable.
Finalmente, mediante análisis factorial confirmatorio se valida la estructura factorial
(Rosseel & Lavaan, 2012), donde se obtuvo una saturación insuficiente de la pregunta
5 por lo que se retiró de la estructura factorial. De esta manera se obtuvo que, las
saturaciones superan en todos los casos a 0,3 y ningún factor está correlacionado.
Además, el índice de Tucker y Lewis y el NNFI (Non Normed Fit Index) obtenidos son
de 0,991 el cuál entra en la categoría de excelente >0,95, además el CFI fue de 0,995
ubicándose en la categoría de excelente y los índices RMSEA (Root Mean Square Error
of Approximation) y SRMR (Standardized Root Mean Residual) alcanzaron valores de
0,030 y 0,021 lo cual demuestra la validez del constructo debido a que estos valores
están por debajo de 0,05.

356 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Una vez validado el instrumento los valores obtenidos a partir de la encuesta fueron
empleados para efectuar la valoración de activos en el software pilar. La figura 4
muestra la valoración de activos efectuada estadísticamente en conjunto con los datos
suministrados por el DDTI.

Figura 4 – Valoración de activos en PILAR

Identificación de amenazas
La identificación de amenazas consiste en identificar posibles amenazas que pueden
afectar a cada uno de los activos anteriormente identificados. Para ello fue necesario
revisar documentación acerca de políticas de seguridad del sistema a evaluar, por
ejemplo, verificar si existen políticas para el acceso al sistema de evaluación docente. Una
vez valorados los activos Pilar asocia a cada uno de los activos del sistema de evaluación
docente, amenazas posibles para dicho activo. En la figura 5 se realiza la valoración de
la frecuencia, se toma en cuenta dos factores importantes: probabilidad de ocurrencia,
que es el registro de ocurrencia de una amenaza cuando se materializa una amenaza y
porcentaje de degradación que es el daño que causó el incidente ocurrido (Fernandez &
Daniel, 2016).

Figura 5 – Amenazas del sistema de evaluación docente.

RISTI, N.º E22, 08/2019 357


Evaluación de sistemas de seguridad informáticos universitarios Caso de Estudio: Sistema de Evaluación Docente

Impacto
El impacto es el daño que se originó en los activos una vez que las amenazas se
materializaron. Para la estimación de impacto se lo hace mediante los siguientes factores:
la materialización de una amenaza puede afectar a todo un recurso informático o solo
a una parte de este, la materialización de una amenaza puede afectar a partes claves de
información o a partes independientes, una vez materializada la amenaza es temporal o
permanente. Los impactos pueden traer consigo impactos cualitativos o cuantitativos,
por ejemplo, pérdidas económicas, mala imagen de los clientes hacia la empresa entre
muchas otras (Fernandez & Daniel, 2016). Dentro de PILAR se puede obtener el impacto
acumulado para cada activo, amenaza y la dimensión de valoración, el resultado está
descrito en función de la degradación y el valor acumulado; por lo tanto, mientras más
grande sea la degradación, mayor será el impacto acumulado, y este permitirá identificar
que salvaguardas se deben aplicar en la organización para mitigar los riesgos, como se
muestra en la Figura 6.

(a) (b)

Figura 6 – Impacto (a) y Riesgo Acumulado del Sistema de Evaluación Docente (b)

Riesgo
La figura 6, literal (b), presenta la valoración de riesgos, que es un proceso que debe
seguir la secuencia: identificación de activos, identificación de amenazas y la estimación
de vulnerabilidades de amenazas sobre cada activo. Para la valoración de riesgos existen
cuatro zonas: Bajo (0 a 3) indica que el riesgo es bajo; por lo tanto, no es necesario
emplear salvaguardas adicionales, Medio (3 a 6), indica que el riesgo es medio; por lo
tanto, se debe considerar la implementación de salvaguardas, Alto (6 a 9), indica que
el riesgo es alto; por consiguiente, es obligatorio emplear salvaguardas para mitigar
riesgos, Crítico (9 a 12), indica que el riesgo es crítico; por que es obligatorio emplear
salvaguardas adicionales para minimizar el riesgo.

358 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

3. Resultados y Discusión
Una vez que se realizó el análisis mediante la metodología se procede a evaluar el
cumplimiento d los controles del sistema de Evaluación Docente mediante la Norma
ISO/IEC 27002:2017, donde se pudo evidenciar que se cumple un 53% de los controles
de la norma ISO/IEC 27002:2017. Los ítems que el sistema cumplió a cabalidad acorde
con la norma antes mencionada se detallan en la tabla 2.
Aspecto general Objetivo de control Control Cumple
Políticas de Dirección de gestión Políticas de seguridad de la información SI
seguridad de la de la seguridad de la Revisión de las políticas para la seguridad NO
información información de la información
Organización Organización interna Roles y responsabilidades de seguridad de NO
de la seguridad la información
informática Separación de funciones SI
Contacto con las autoridades SI
Contacto con los grupos de interés NO
especial
Dispositivos móviles y Política de dispositivos móviles NO
teletrabajo
Seguridad en Antes del empleo Investigación de antecedentes SI
recursos humanos Términos y condiciones de empleo NO
Durante el empleo Responsabilidades de dirección SI
Conciencia, educación y formación en NO
seguridad de la información.
Proceso disciplinario NO
Finalización o cambio Responsabilidades ante la finalización o NO
de empleo cambio de empleo
Gestión de activos Responsabilidad de Inventario de activos SI
los activos Propiedad de activos SI
Uso adaptable de activos SI
Devolución de activos SI
Control de acceso Requisito de negocio Política de control de acceso NO
para el control de Acceso a redes y servicios de red NO
acceso
Gestión de acceso de Registro y retiro de usuario SI
los usuarios Provisión de acceso a usuarios NO
Gestión de la información secreta de NO
autentificación de los usuarios
Revisión de los derechos de acceso de NO
usuario
Retiro y ajuste de los derechos de acceso NO
Responsabilidades del Uso de la información secreta de NO
usuario autentificación
Control de acceso Procedimientos seguros de inicio de NO
a sistemas y sesión
aplicaciones Sistema de gestión de contraseñas NO
Control de acceso al código fuente del SI
programa
RISTI, N.º E22, 08/2019 359
Evaluación de sistemas de seguridad informáticos universitarios Caso de Estudio: Sistema de Evaluación Docente

Aspecto general Objetivo de control Control Cumple


Criptografía Controles Política de uso de los controles SI
criptográficos criptográficos
Gestión de llaves NO
Seguridad física y del Áreas seguras Perímetro de seguridad física SI
entorno Controles físicos de entrada SI
Protección contra amenazas externas y NO
ambientales.
Seguridad física y del Equipos Ubicación y protección de equipos NO
entorno Instalaciones de suministro NO
Seguridad del cableado SI
Mantenimiento de los equipos SI
Seguridad de las Procedimientos y Documentación de procedimientos de SI
operaciones responsabilidades operación
operacionales Gestión de cambios SI
Gestión de capacidades SI
Separación de ambientes de desarrollo, SI
pruebas y producción
Protección contra un Controles contra un malware SI
malware
Copias de seguridad Copias de seguridad de la información SI
Registro y monitoreo Registro de eventos NO
Protección de la información de registro SI
Control del software Instalación del software en los sistemas SI
operacional operativos
Gestión de la Gestión de las vulnerabilidades técnicas NO
vulnerabilidad técnica Restricciones en la instalación del NO
software
Consideraciones Controles de auditoria de sistemas de SI
sobre la auditoria información
de sistemas de
información
Seguridad en las Gestión de la Controles de red SI
telecomunicaciones. seguridad de redes Seguridad de los servicios de red SI
Separación en las redes SI
Requisitos de Análisis de requisitos y especificaciones SI
seguridad de de seguridad de la información.
los sistemas de
información
Adquisición. Seguridad en el Política de desarrollo seguro SI
Desarrollo y desarrollo y en los Procedimientos de control de cambios en SI
mantenimiento del procesos de soporte el sistema
sistema
Datos de prueba Protección de datos de prueba NO
Relaciones con Gestión de la Monitoreo y revisión de los servicios de NO
proveedores provisión de servicios proveedores
del proveedor Gestión de cambios en los servicios de SI
proveedores.

360 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Aspecto general Objetivo de control Control Cumple


Gestión de Gestión de los Responsabilidades y procedimientos NO
incidentes de incidentes de Informe de los eventos de seguridad de la NO
seguridad de la seguridad de la información
información información y mejoras
Informe de debilidades de seguridad de la NO
información
Respuesta a incidentes de seguridad de la SI
información
Aprendizaje de los incidentes de NO
seguridad de la información
Recopilación de evidencias SI
Aspectos de Continuidad de Planificación de la continuidad de NO
seguridad de la seguridad de la seguridad de la información
información para información
la gestión de la Redundancias Disponibilidad de las instalaciones de NO
continuidad del procesamiento de la información
negocio.
Cumplimiento Cumplimiento de Identificación de la legislación aplicable SI
los requisitos legales de los requisitos contractuales.
contractuales Derechos de propiedad intelectual SI
Protección de los registros SI
Protección y privacidad de la información NO
de carácter personal

Tabla 2 – Clasificación de Activos DDTI – UTN

4. Conclusiones
El factor que aumenta significativamente el nivel de riesgo de los activos de información
es el escaso proceso que se aplica y adhiere al problema expuesto para evitar aquellas
situaciones que pueden afectar la disponibilidad, integridad y confidencialidad de la
información que se manipula. La aplicación del estándar ISO/IEC 27002:2017 es de
suma importancia para la correcta evaluación de controles que garanticen la seguridad
de la información del sistema de Evaluación docente de la UTN. La evaluación de riesgos
del sistema de evaluación docente es indispensable para el departamento de informática
de la Universidad Técnica del Norte, puesto que se considera a la información como un
activo institucional. El uso de la Metodología MAGERIT permite realizar un análisis de
riesgos mediante la identificación de activos del sistema de evaluación docente y fue de
ayuda para identificar el estado actual de la seguridad de la información. La situación
actual del sistema de evaluación docente evidencia un nivel considerable de cumplimiento
de políticas de seguridad de información, tanto física como de gestión (51%), por lo
que requiere de un compromiso de autoridades y docentes para un cumplimiento total
de la normativa. De igual manera se requiere que en los departamentos de tecnología
de las universidades cuenten con personal calificado que se encargue de la seguridad
de la información de los ERP, pues al realizar un análisis de vulnerabilidades tres
herramientas brindaron información exacta de los puntos críticos que se deben revisar
para evitar estar expuestos a hackers informáticos.

RISTI, N.º E22, 08/2019 361


Evaluación de sistemas de seguridad informáticos universitarios Caso de Estudio: Sistema de Evaluación Docente

Referencias
Baca, G. (2016). Introducción a la Seguridad Informática. Mexico: Grupo Editorial
Patria, S.A. de C.V.
CEIDPA. (2018). Evaluación integral del desempeño del personal académico de la UTN
para el período septiembre 2018 - agosto 2019. Ibarra.
Chilán, S. E., & Williams, P. P. (2017). Apuntes teóricos introducctorios sobre la
seguridad de la información. Revista Científica Dominio de las Ciencias, 284–295.
Fernandez, A., & Daniel, G. (2016). Complex vs. simple asset modeling approaches for
information security risk assessment: Evaluation with MAGERIT methodology.
Sixth International Conference on Innovative Computing Technology (INTECH)
(págs. 542 - 549). Dublin, Ireland: IEEE Xplore.
Hidalguense, U. T. (2011). Auditoria. Mexico: UTHH.
INEN. (2017). Norma INEN ISO/IEC 27002. QUITO: INEN.
MAGERIT. (Octubre de 2012). Metodología de Análisis y Gestión de Riesgos de
los Sistemas de Información. Obtenido de [Link]
[Link]/pae_Home/pae_Documentacion/pae_Metodolog/pae_Magerit.html#.
XXgJlGa21PY.
Ministerio de Energía, T. y. (2017). Protección de la Información. Madrid: Ministerio de
Energía, Turismo y Agenda Digital España.
Ministerio de Hacienda y Administraciones Públicas de España. (2012). Magerit - version
3.0. Metodología de Analisis y Gestión de Riesgos de los Sistemas de Información.
Madrid: Ministerio de Hacienda y Administraciones Publicas de España.
Muñoz, M. (2015). Guía de implantación de un SGSI basado en la norma UNE-ISO/
IEC 27001.
Pettersson, E., & Turkheimer, E. (2010). Item selection, evaluation, and simple structure
in personality data. Journal of research in personality, 44(4), 407–420.
Romo, V. D., & Valarezo, C. J. (2012). Análisis e implementación de la norma ISO 27002
para el departamento de sistemas de la Universidad Politécnica Salesiana Sede
Guayaquil. Guayaquil.
Rosseel, Y., & Lavaan. (2012). An R Package for Structural Equation Modeling. Journal
of Statistical Software, 48(2), 1–36.

362 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 11/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 20/06/2019

A conceptual architecture for content analysis about


abortion using the Twitter platform

Paolo R. Roldán-Robles1, Ana C. Umaquinga-Criollo1, Janneth A. García-Santillán2,


Israel D. Herrera-Granda1, Iván D. García-Santillán1

prroldanr@[Link], acumaquinga@[Link], [Link]@[Link],


idherrera@[Link], idgarcia@[Link]

1
Faculty of Engineering in Applied Sciences, Universidad Técnica del Norte, 100105. Ibarra- Ecuador
2
Unidad Educativa Juan Pablo II. Ibarra-Ecuador.
Pages: 363–374

Abstract: This paper presents a conceptual architecture for content analysis about
the opinions expressed on Twitter about abortion. The architecture consisted of
five stages: authentication, data collection, data cleaning & processing, modeling
& analysis, and presentation of results. In the data collection, a simple size of
tweets sent from Ecuador was taken in 2018. All tweets that were not related to
the topic were eliminated. In the modeling, it was separated into two categories
for and against abortion, where the Naive Bayes and decision tree classifiers were
used. Finally, the results were presented in the form of statistical graphs, word
clouds and heat maps. During the development, the Google maps platform was also
used, where the scripts were made in Python using the Integrated Development
Environment (IDE) Spyder (Python 3.6), which is part of the Anaconda platform.
The results obtained showed, on average, a majority position against abortion in
Ecuador.
Keywords: Data mining; content analysis; abortion; social networks; Twitter

1. Introduction
The advancement of technology and the exponential growth in the volume of structured,
unstructured, and semi-structured data is increasingly evident (Umaquinga C., Peluffo O,
Alvarado P., & Cabrera V., 2016). This has led not only to far-reaching changes in the area
of technology, but also in the way all of humanity communicates (González-Lizárraga,
Becerra-Traver, & Yanez-Díaz, 2016), (Baviera, 2016). The cyber communication (Arab
& Díaz, 2015), the publication of information on social networks, including Twitter, has
become an input or material for study and analysis in various areas of science. Such as:
text mining, natural processing language, automatic learning, polarity dictionaries based
on the semantic field, behavioral patterns and inflection points in opinion currents,
among others (Baviera, 2016). This has allowed to the scientific, business, academic and
political communities to evaluate a current of opinion on a specific topic (Baviera, 2016)
(González-Lizárraga et al., 2016).

RISTI, N.º E22, 08/2019 363


A conceptual architecture for content analysis about abortion using the Twitter platform

With the data provided by social networks, electoral processes have been analyzed
predicting the results (Roldán-Robles, 2017), and reactions in the political spheres in
Venezuela (Niklander, 2017). Likewise, the extraction of knowledge in social networks
is used in other areas, such as the analysis of images associated with the tweet (Baecchi,
Claudio; Uricchio, Tiberio; Bertini, Marco; Bimbo, 2015). For example, the analysis
of reactions that can cause social issues ranging from the positive end of Valentine’s
Day to the negative end such as the war in Syria, presenting them in emotional graphs
(Perikos, Isidoros; Hatzilygeroudis, 2018); analysis of feelings in people’s opinions on a
specific issue (Inbal Yahav; Shehory, Onn; Schwartz, 2015); identifying opinion leaders
(Yang, Li; Tian, Yaping; Li, Jin; Ma, Jianfeng; Zhang, 2017); as well as aspects or steps
to classify frauds written in the form of alt-facts such as intentionally disseminating
false information on medical issues in Indonesia (Purnomo, Mauridhi Hery; Sumpeno,
Surya; Setiawan, Esther Irawati; Diana Purwitasaria, 2017).
One of the issues of global health interest is abortion or Voluntary Interruption of
Pregnancy (VTP). In Spain, the number of voluntary interruptions of pregnancy stood
at 108690 cases, representing a rate of 11.74 abortions per 1000 women aged 15 to 44
(Montserrat Femenía, 2016), while in Ecuador between 2004 and 2014 a total of 431614
abortions were reported (Ortíz, 2017).
This research aims to know the public opinion about Abortion in Ecuador, based on the
analysis of the contents of tweets sent from Ecuador using the Twitter platform. This
contributes to have a more objective idea about the positions and beliefs of Ecuadorian
citizens, contributing to decision making regarding public health policy. And, considering
that the Ecuadorian National Assembly is currently discussing the decriminalization of
abortion due to rape for all women in Ecuador.
The manuscript is organized as follows: In section 2, the phases applied in this study are
presented: (i) Authentication, (ii) data collection, (iii) data cleaning and processing, (iv)
modeling and analysis, and (v) presentation of results. Section 3 indicates the results
obtained, including the frequency of hashtags for and against abortion, as well as the
comparative study between the decision tree and Naive Bayes classifiers. In section 4,
the discussion of results is carried out comparing with some existing works. Finally,
section 5 presents the main conclusions and future work.

2. Materials and methods


Under the general criteria of the process of knowledge discovery in databases (KDD)
(Fayyad, Piatetsky-Shapiro, & Smyth, 1996) (Timarán Pereira, Hernández Arteaga,
Caicedo Zambrano, Hidalgo Troya, & Alvarado Pérez, 2016), the concept of conceptual
architecture containing five phases has been adapted in the present research, as shown
in Figure 1:
•• Phase 1 Authentication: A Twitter application with developer permissions
in [Link] was created using the Spyder Python 3.6 IDE
of the Anaconda 3-[Link] platform and the tweepy library was installed. Using
the OAuth authentication method, communication was made between tweepy

364 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figure 1 – Conceptual architecture for content analysis on Twitter. Adapted from (Roldán-
Robles, 2017)

and Twitter, being necessary to pass four tokens provided by Twitter, after
accepting the privacy policies.
•• Phase 2 Data Collection:
Collection Dates: August 16th to September 29th, 2018.
Criterion: The total sample size is limited under the criterion of identifying
tweets sent from Ecuador (containing 24 provinces) with specific hashtags and
user accounts specialized in the topic of Abortion.
Using the Streaming API of Twitter, a massive download of tweets filtered by
keywords or usernames was carried out. To limit the territory or country, the
location filter of the stream library obtained from (KlokanTech., 2017), is used,
as indicated by (Sogo, 2016). A JSON file of 1721287 KB in size was obtained,
containing 344149 records or tweets. Table 1 presents the algorithm used for
data collection.

Algorithm: Phase 2 Data collection

1. Authenticate the application on the Twitter platform


2. Enter your passwords.
3. Make the request to download tweets, including the filtering criteria of the sample.
4. Generate or open the pickup file.
5. Store the data in the specified file.

Table 1 – Phase 2, algorithm for data collection

•• Phase 3 Data Cleaning and Processing: The hashtag_frecuency.py script


is executed, the operation of which is detailed in the algorithm represented in
Table 2:

RISTI, N.º E22, 08/2019 365


A conceptual architecture for content analysis about abortion using the Twitter platform

Algorithm: Phase 3, Functioning of the hashtag_frecuency.py script

1. Import the JSON file


2. For each file line do:
Extract the hashtag element from the entities variable of the tweet object
If the hashtag element is not in the hashtag dictionary, then:
Save the element in the hashtag dictionary and initialize its frequency to zero.
else
Increase frequency by one.

Table 2 – Script hashtag_frecuency.py

From the file received, the hashtags that are not related to the topic of abortion such as:
greetings, proper names and mentions to sports clubs or social events are removed. The
resulting information was processed under two categories:
•• In favor of abortion (Abortion+)
•• Against abortion (Abortion-)
The processing was done manually, with proper investigation of the origin of each
hashtag and its use. Because of their complexity, since there are no specific rules for the
creation of hashtags, some of them do not only contain correct words within languages,
but also invented words, word mixtures, words united with different connectors, words
with numbers such as abbreviations of dates alluding to nearby events or important
reminders from the collectives for and against abortion.
In some phases of the tweet analysis, additional cleaning actions were carried out as
described in Table 3:

Phase Aspects to be discarded

• Generation of heat maps Tweets that do not contain location data

The users who do not mention other users are considered, if


• Extraction of the most influential users the user does not mention another account, the user is not
interested in exerting influence on another

• Extraction of hashtags The tweets that did not contain hashtags

Table 3 – Tweet analysis phase

•• Phase 4 Modeling and analysis: The model consists of two categories:


opinions for and against abortion, with the following particularities analyzed:
Hashtag frequency: The top five of the most used hashtags is obtained from
the file obtained when using the hashtag_frecuency.py script filtered in the
cleaning phase described in Table 2.
User mentions: The wordcloud library is used in a Python script applying
to the collected file to obtain the word cloud of influential users, which is done
based on the screen_name attribute of the user object.

366 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Percentages for and against: The decision tree and Naive Bayes classifiers
are used. For the training of these two algorithms, the same information was
used: a number of ten (10) hashtags in favor and the same amount against, which
represent 30% of the most relevant according to the frequency of appearance.
The next decision in this part of the process was made by exploring the sample
file texts located within the text attribute of the tweet object. In this part of the
training the most common texts for and against abortion should be put, at the
end it is defined to use seven (7) texts for and seven against.
Statistical graphs: They are generated from Python using pyplotlib matplotlib
library version 1.4.3.
•• Analysis of feelings:
Working with Decision Tree allows you to manage not only the hashtag but
also the content of the tweet and combine them. Numerical data is assigned
to the hashtags as well as to the sentences for and against, establishing the
conditions to obtain the results in the output matrix shown in Table 4:

Hashtag Phrase Trend brand

• Against Against Against

• Against In favor In favor

• Against Neutral Against.

• Against Without hashtag or neutral Against

• In favor In favor In favor

• In favor Against Against

• In favor Neutral In favor

• In favor Without hashtag or neutral In favor

• Neutral Neutral Ignored or not taken into account

* Against: Against abortion * In favor: in favor of abortion

Table 4 – Hashtag analysis and trend marking

In the case of Naive Bayes, the [Link] script from (García Serrano, 2012),
was taken as a reference, TextBlob [Link] was also installed, and
NaiveBayesClassifier was imported. The data for the training were not numerical,
so it is necessary to give the classifier the learning keys, using a matrix that
receives the data. Each of the data of the matrix has two parameters: hashtag or
phrase, and the second the polarity, being: (i) the position in favor is named pos
and (ii) the position against is named neg.
•• Location: Tweets that have the geo_enable attribute of the user object enabled
are taken as active, while tweets that have been disabled are labeled as missing.

RISTI, N.º E22, 08/2019 367


A conceptual architecture for content analysis about abortion using the Twitter platform

OpenStreetMap’s Nominatim service was used in the geopy library version


1.11.o, which offers the same functionalities as Google Maps APIS for free. In
the get_user_location class of the sample analysis script, the call to Nominatim
is made, obtaining the coordinates corresponding to the locations where the
tweets were generated. These locations go through the process of conversion to
coordinates to be included in the graph of the map within the HTML file.
•• Phase 5 of Conceptual Architecture: Table 5 describes the algorithm
applied to define the polarity:

Algorithm: Phase 5: Conceptual Architecture

1. Import the JSON file


2. Extract the contents of the file
For each file line do:
Go through the classifier
Extract the polarity from the tweet
3. Place the tweet in the corresponding group.
4. For each group calculate the percentage of tweets

Table 5 – Algorithm to determine the polarity

The results of the research are presented below.

3. Results
Among the main results are the following:
•• The top five of the most used hashtags with reference to abortion can be found
in Table 6:

Hashtags Number of mentions Against (Abortion-) For (Abortion+)


1. #salvemoslas2vidas 12480 X
2. #abortolegalya 9467 X
3. #sialavida 5270 X
4. #28s 4102 X
5. #noalaborto 3306 X

Table 6 – Frequency of hashtags and number of top five mentions.

The hashtag #28s was created in allusion to September 28, an emblematic day for the cause
that defends abortion. Since the V Latin American and Caribbean Feminist Encounter of
1990 held in Argentina (Campaña, 2015), and September 28, 1871 promulgated in Brazil
(“[Link],” 2010), the law of freedom of the wombs was promulgated where the
children who were born of slaves were declared free. The Table 7 presents the results
of the positions for and against abortion using the classifiers: Decision tree and Naive
Bayes. In addition, from the average between the two, it is evident that both differ in

368 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

a few percentage points, however, the same overall result is obtained. That is to say,
the position against abortion surpasses the position in favor of abortion, by an average
of 14.7%.

Applied Algorithm For (Abortion+) Against (Abortion-)

1. Decision tree 40.7% 59.3%

2. Naive Bayes 44.6% 55.4%

Total average 42,65% 57,35%

Table 7 – Results of the analysis of feelings for each algorithm applied

The Table 8 below presents the comparison of the classifiers to check the existence of the
influence of the learning keys within the training stage, which is implicitly included in
the phase 4 (modeling and analysis).
The performance on the classifiers for decision trees is 97.9% and for Naive Bayes it
is 79.1%. The decision tree was 18.8% more accurate than Naïve Bayes. Tables 7 and 8
complete the first analysis of the conceptual architecture in phase 5, showing the results
obtained from Python with the use of the Naive Bayes algorithm and with the Decision
Trees for the positions in favor of abortion and against abortion.

Classifier TP Rate FP Rate Accuracy Recall F1 score ROC Area


Decision tree 1 0,021 0.979 0.989 0.989 0,989
Naive Bayes 1 0,4 0,791 0,8 0,791 0,81
*True Positives (TP) *False Positives (FP)
*Receiver Operating Characteristic (ROC)

Table 8 – Results of the specific evaluation metrics for the classifiers (weighted average)

Figure 2 – Timeline Tweets Frequency of Pro-Abortion and Anti-Abortion Tweets

RISTI, N.º E22, 08/2019 369


A conceptual architecture for content analysis about abortion using the Twitter platform

It is evident that against-abortion tweets are mostly larger than pro-abortion tweets
with the following exceptions: starting September 17, and their notable peaks are found
on August 24, September 3, and the highest peak was found on September 9. The pro
position begins to rise at the end of the sample. That is to say, as it approaches September
28 and presents a tendency to grow on the highest peak of the position against September
9 of 2018. It is believed that it was, a massive response in networks. Subsequently, On
August 8 of 2018 the legality of abortion is denied in the Senate of Argentina, this issue
had repercussions in Latin America including Ecuador. As well as the 28th of September
where abortion was supported; #28s alludes this atypical value to the commemorative
date, as shown in Figure 2.
The heat maps of the General Abortion in Ecuador, represent in red the classification
against abortion and in blue in favor of abortion, as represented in Figure 3. Note that
red points (against abortion) appear in smaller amounts than blue ones (pro-abortion),
in contrast to Table 7, because many of these tweets have not defined their location.

Figure 3 – Heat map of pro-abortion comments in blue, against-abortion in red.

The Figure 4 presents the word cloud over the accounts of users who posted the most,
users who received the most retweets, and/or who were mentioned the most from other
accounts. This result allows us to observe the influence of these users within the data
taken in the sample.
The “Salvemoslas2vidas” account with a tendency against abortion ranks first, followed
by the “abortolegalya” account in the second box and with a tendency in favor of abortion;
“porlavida2014” ranks third, “sialavida” ranks fourth, these last two organizations
are against abortion. Finally, “28s”, which is a pro-abortion account is in the fifth box,
closing the top five most influential users or accounts.

370 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Figure 4 – Cloud of Words from Most Influential Users or Accounts

The figure 5 presents the use of hashtags in a cloud of commonly used words:

Figure 5 – Cloud of most-used hashtags words

4. Discussion
The results of this study are consistent with that presented by (Vila, Dayana; Cisneros,
Saúl; Granda, Pedro; Ortega, Cosme; Posso-Yepez, Miguel; García-Santillan, 2019)
where the decision tree (97.9%) surpassed the Naive Bayes classifier in accuracy (79.1%),
contributing a reliable reference point.
Similarly, there is evidence of the appearance of additional information with importance
and consistency about this social impact: both in the clouds of words of hashtags more
used and more influential users, as in those of causes that can be considered related to
trends. An example of this is the hashtag #niunamenos that promotes the eradication of
femicide, or any abuse of women, which is presented considerably in the study sample,
because by promoting that abortion is a right proper to each woman, this organization
is in favor of abortion. On the other hand, the hashtag #conmishijosnotemetas and
the account of the same name support a cause that largely rejects the teaching of
gender ideology and other related currents as offensive to people’s morals. It also
appears notoriously in the sample, this institution considers abortion as a murder, that
organization has a tendency against abortion.

RISTI, N.º E22, 08/2019 371


A conceptual architecture for content analysis about abortion using the Twitter platform

It is evident that if concrete studies on femicide and gender ideology based on (Niklander,
2017) are required, the use of hashtags #niunamenos and #conmishijosnotemetas,
respectively, should be considered; whereas, for other studies on the subject of abortion,
the specific hashtags suggested are: #salvemoslasdosvidas and #abortolegalya, because
that were the most frequently used in this study.
The main limitation in achieving a greater impact in this research is that for most of the
tweets it was not possible to establish their specific location, which limited the obtaining
of geographical heat maps.

5. Conclusions
•• Abortion as the chosen theme for the development of Conceptual Architecture
is the main contribution of this research, as it is one of the most commented on
in current times, in society in general, as well as by Twitter users in particular,
where what is expressed in Ecuador, supported by the 97.9% precision of the
decision tree (Table 8), represents 40.7% in favor of abortion and 59.3% against
abortion (Table 7). This classifier surpassed that of Naive Bayes which yielded
79.1% accuracy.
•• Content analysis was obtained by evaluating hashtags with their polarization,
and in a general way, sentiment analysis was obtained by using classifiers to
define the polarity of the tweet text content. The results are very similar, this
is because the text of the tweets is usually very related to the hashtags used in
them, except in some cases where the hashtag is used to show opposition within
the text.
•• By obtaining messages and positions on abortion, summarizing 42.65% in
favor and 57.35% against on average (Table 7), it was possible to see how a
conceptual architecture allows an analysis of opinions about abortion using the
Twitter platform.
•• According to the information shown in the geographic heat maps (Figure 3), in
the mountain region there is a greater activity in Twitter, although it is important
to indicate that, in most of the tweets of the sample, the field “location”, was not
active. Therefore, the locations presented in the heat maps do not reflect the
total number of tweets in the sample.
•• As future work, it is recommended to carry out research on the same subject, in
a sample taken in 2019 or in subsequent years, in order to make a comparison
with this work and thus determine if the percentages have changed or if new
trends are set. In addition, new social networks such as Facebook and Instagram
should be considered.

References
Arab, L. E., & Díaz, G. A. (2015). Impacto de las redes sociales e internet en la adolescencia:
aspectos positivos y negativos. Revista Médica Clínica Las Condes, 26(1), 7–13.
[Link]

372 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Baecchi, Claudio; Uricchio, Tiberio; Bertini, Marco; Bimbo, A. Del. (2015). A multimodal
feature learning approach for sentiment analysis of social network multimedia.
Multimed Tools Appl (2016), 19. [Link]
Baviera, T. (2016). Técnicas para el análisis del sentimiento en Twitter : Aprendizaje
Automático Supervisado y SentiStrength. Revista Dígitos 1.3, 1(3), 33–50.
Campaña. (2015). Campaña Nacional por el Derecho al Aborto Legal Seguro y Gratuito.
Retrieved June 29, 2019, from [Link]
septiembre-de-2015-25-anos-declaracion-de-san-bernardo/
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge
Discovery in Databases. AI Magazine, 17(3), 37–37. [Link]
AIMAG.V17I3.1230
García Serrano, A. (2012). INTELIGENCIA ARTIFICIAL Fundamentos,
práctica y aplicaciones (2da Edició). Retrieved from [Link]/pdf/
[Link]
González-Lizárraga, M. G., Becerra-Traver, M. T., & Yanez-Díaz, M. B. (2016).
Cyberactivism: A new form of participation for University Students. Comunicar,
24(46), 47–54. [Link]
Inbal Yahav; Shehory, Onn; Schwartz, and D. (2015). Comments Mining With
TF-IDF: The Inherent Bias and Its Removal. 14. [Link]
TKDE.2018.2840127
KlokanTech. (2017). BoundingBox. Retrieved August 12, 2018, from https://
[Link]/
Montserrat Femenía, A. I. (2016). El aborto provocado en relación a la temática de la
feminidad desde una perspectiva psicoanalítica. 341.
Niklander, S. (2017). Content Analysis on Social Networks: Exploring the #Maduro
Hashtag. 5. [Link]
Ortíz, E. (2017). Redacción Médica. Retrieved June 29, 2019, from [Link]
[Link]/secciones/salud-publica/el-85-de-los-abortos-registrados-en-
el-ecuador-son-de-causas-desconocidas-90319
Perikos, Isidoros; Hatzilygeroudis, I. (2018). A Framework for Analyzing Big Social
Data and Modelling Emotions in Social Media. 5. [Link]
BigDataService.2018.00020
Purnomo, Mauridhi Hery; Sumpeno, Surya; Setiawan, Esther Irawati; Diana
Purwitasaria, C. (2017). Biomedical Engineering Research in the Social Network
Analysis Era: 7. [Link]
Roldán-Robles, C. (2017). ANÁLISIS DE CONTENIDOS DE TWITTER CASO DE
ESTUDIO: ELECCIONES PRIMARIAS DEL PSOE 2017. UNIVERSIDAD
COMPLUTENSE DE MADRID.

RISTI, N.º E22, 08/2019 373


A conceptual architecture for content analysis about abortion using the Twitter platform

Sogo, J. G. (2016). Lingẅars. Retrieved February 10, 2019, from [Link]


io/blog/[Link]
Timarán Pereira, S. R., Hernández Arteaga, I., Caicedo Zambrano, S. J., Hidalgo Troya,
A., & Alvarado Pérez, J. C. (2016). Descubrimiento de patrones de desempeño
académico con árboles de decisión en las competencias genéricas de la formación
profesional. [Link]
Umaquinga C., A. C., Peluffo O, D. H., Alvarado P., J. C., & Cabrera V., M. A. (2016).
Estudio descriptivo de técnicas aplicadas en herramientas Open Source y
comerciales para visualización de información de Big Data. In UTN (Ed.), Libro
Generando Ciencia: Memorias de las I Jornadas Internacionales de Investigación
Científica (pp. 121–135). UTN.
[Link]. (2010). Retrieved June 29, 2019, from [Link]
en-portada/noticia/2010/09/28/504219/[Link]
Vila, Dayana; Cisneros, Saúl; Granda, Pedro; Ortega, Cosme; Posso-Yepez, Miguel;
García-Santillan, I. (2019). Detection of Desertion Patterns in University. Springer
Nature Switzerland AG 2019, 10. [Link]
Yang, Li; Tian, Yaping; Li, Jin; Ma, Jianfeng; Zhang, J. (2017). Identifying opinion
leaders in social networks with topic limitationNo Title. Cluster Comput, 11. https://
[Link]/10.1007/s10586-017-0732-8

374 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 22/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 30/07/2019

Factores de éxito para sistemas recomendadores de


procesos de investigación

Moya Caisa Julio Danilo1, Tapia Vega Liliana Carolina2, Albán Taípe Mayra Susana3,
Rodríguez Bárcenas Gustavo4, Alban Franklin Vinicio5

julio.moya4748@[Link], liliana.tapia1@[Link], [Link]@[Link], gustavo.


rodriguez@[Link], [Link]@[Link]

1
Universidad Técnica de Cotopaxi, 050150, Latacunga, Ecuador.
Pages: 375–385

Resumen: Luego de haber recopilado datos a partir de una encuesta a 70 docentes


investigadores de una universidad pública en Ecuador, se ha identificado la
necesidad que tienen determinados sujetos por realizar grupos de colaboración
investigativa basados en características equivalentes. El presente trabajo se enfoca
en determinar factores de éxito para el desarrollo de sistemas recomendadores
para procesos de investigación. Para el desarrollo de la investigación se aplicó
una encuesta cuyo objetivo fue conocer el punto de vista de los investigadores
sobre el uso de este tipo de sistemas. Como resultado del proceso experimental
se obtuvieron 4 variables estadísticamente significativas, mediante la aplicación de
redes neuronales se determina el nivel de predicción de éxito de las variables con
un resultado del 99.69%, se concluye que las variables identificadas podrían ser
consideradas como requerimientos de usuario funcionales con alta probabilidad
de éxito.
Palabras-clave: Factores de éxito; sistema recomendador; redes neuronales;
requerimiento de usuario.

Success factors for research process recommendation systems

Abstract: Having collected data from a survey of 70 research professors at a public


university in Ecuador, the need for certain subjects to conduct research collaborative
groups based on equivalent characteristics has been identified. This paper focuses
on determining success factors for the development of recommended systems for
research processes. For the development of the investigation, a survey was applied
whose objective was to know the researchers’ point of view on the use of this type of
systems. As a result of the experimental process, 4 statistically significant variables
were obtained, by means of the application of neural networks the level of prediction
of success of the variables is determined with a result of 99.69%, it is concluded that
the identified variables could be considered as functional user requirements with
high probability of success.
Keywords: Success factors; recommender system; neural networks; user
requirement.

RISTI, N.º E22, 08/2019 375


Factores de éxito para sistemas recomendadores de procesos de investigación

1. Introducción
Con la aparición de la web 3.0 y el desarrollo de la inteligencia artificial han surgido varias
aplicaciones que permiten el incremento del uso de la tecnología, la automatización de
procesos, la conformación de redes de investigación multidisciplinaria, los sistemas
recomendadores, entre otros. Los sistemas recomendadores cumplen un rol importante
a la hora de brindar sugerencias de distintas áreas del conocimiento relacionadas con la
ciencia, educación, negocios, etc.
Algoritmos de inteligencia artificial fusionados en procesos de ingeniería de software
llevan décadas de uso, como resultado se obtienen sistemas de recomendación que en la
actualidad han empezado a entrar en auge (Franganillo, 2018), como ejemplo se puede
mencionar Amazon para sugerir sus productos, sugerencia de amigos en Facebook,
películas en caso de Netflix, publicidad personalizada con base en el historial de búsqueda
en Google, y en del mundo científico académico la sugerencia de investigadores con base
en su perfil, como es el caso de Research Gate.
Sin embargo, aun cuando los sistemas recomendadores puestos como ejemplo son
en cierta manera gratuitos, para desarrollar un sistema exitoso para este propósito se
requiere de un análisis de requerimientos específicos propios del contexto en cual va
a ser utilizado, los cuales en muchas ocasiones se convierten en proceso complejos de
realizar desde el área de conocimiento, los factores económicos disponibles y el entorno
de aplicación (Del Pino, Salazar, & Cedeño, 2011).
Según Drake (2018) para que un sistema recomendador tenga éxito es necesario
tomar considerar varios aspectos como la usabilidad del sistema y las funcionalidades
del mismo, pero para determinar este último es necesario realizar un exhaustivo
análisis de requerimientos del usuario, siendo esta la parte fundamental del sistema,
debido a que de ignorar estos requerimientos, el sistema tendrá altas posibilidades
de fracasar.
Por otro lado, para el desarrollo de sistemas recomendadores de investigación Enrique
y Foliaco (2014) menciona en su trabajo que previo a la construcción de un sistema
recomendador se debe considerar aspectos como el análisis del contexto, rastreo
bibliográfico y del autor (F. O. Botello, 2013). También, menciona el autor que se puede
utilizar el análisis exploratorio para la determinación de criterios que comúnmente
utilizan los usuarios para la búsqueda que desean realizar.
Por tal razón, se considera importante determinar factores de éxito para el desarrollo
de sistemas que permitan realizar sugerencias en la conformación de grupos de
investigación multidisciplinarios y a través de algoritmos de machine learning predecir
el nivel de influencia positiva o negativa de estos factores identificados como objetivo
principal de la investigación.
El documento se encuentra organizado de la siguiente manera, en el numeral 2 se
encuentra la revisión de la literatura. El numeral 3 presenta el método de desarrollo del
proceso experimental, el numeral 4 muestra los resultados y finalmente se presenta las
conclusiones del trabajo de investigación.

376 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

2. Revisión de la Literatura
Uno de los temas más relevantes dentro del ámbito educativo y social es la investigación en
términos generales, ya que es el punto de partida que conlleva a crear y generar temas de
interés para la sociedad, mismos que se enfocan en mostrar diferentes problemáticas y a
la vez dar soluciones que en muchos casos marcan la diferencia y se convierten en puntos
de partida hacia nuevas mejoras en los ámbitos a los que estén enfocados. Castillo (2019)
muestra un análisis del porcentaje de investigaciones que se realizaron en el ámbito de
educación por parte de algunas de las principales universidades ecuatorianas. En el
Ecuador, en los últimos años se han venido implementando diferentes tipos de programas
dirigidos a mejorar los procesos de investigación y producción científica, mediante la
construcción de políticas públicas orientadas a fortalecer los academia y la investigación.
Rivera, Espinosa y Valdés (2017) señalan se pudo conocer como las universidades han
ido creciendo dentro del ámbito investigativo, logrando obtener lugares importantes a
nivel latinoamericano y siendo reconocidos por revistas internacionales.
Por otro lado, con base en el crecimiento del desarrollo de la investigación, también se
requiere de sistemas que permitan dar a conocer al mundo los resultados de los procesos
investigativos presentados a través de artículos científicos, publicaciones de libros,
entre otros. También, es importante establecer mecanismos y estrategias que permita
que los investigadores puedan compartir información relevante a través de redes de
investigación multidisciplinaria (Rivera et al., 2017).
Desde el punto de vista de la ingeniería de software, los requerimientos de usuario son la
parte más importante a tener en cuenta antes de desarrollar un sistema de recomendación,
gran parte de los problemas que se presentan en el desarrollo de sistemas se debe a que
inicialmente no se realiza un análisis detenido de estos requerimientos (Huebe, 2005).
Los requerimientos de usuario son muy importantes para el éxito de un sistema de
la información, esta etapa de la ingeniería de software permite una dinámica de la
obtención de los requerimientos de usuario que cambia constantemente dependiendo
del sistema que se pretende desarrollar. Es por ello, que se propone determinar estos
requerimientos de usuario, de manera que cada factor de éxito se convertirá a futuro en
un requerimiento de usuario.
Por otro lado, a largo de los años han surgido una serie de avances dentro del tema
de inteligencia artificial los cuales han dado paso a la construcción de varios sistemas
informáticos. El uso de estos algoritmos han permitido crear sistemas capaces de clasificar
información por patrones de comportamiento, tal es el caso de Facebook o YouTube.
Los sistemas recomendadores han tenido múltiples aplicaciones desde la aparición del
primer sistema de recomendación por excelencia el cual es Google, mediante el uso de la
inteligencia artificial y la minería de datos cada vez han ido ganando más popularidad,
apareciendo un sin fin de aplicaciones. Ruiz, Jiménez y Gómez (2010) crearon un
sistema recomendador para la aplicación en repositorios de objetos de aprendizaje, que
actualmente está siendo usado en la universidad Compútense de Madrid, para ofrecer
recomendaciones de ejercicios resueltos y no resueltos a los estudiantes. Vera y Ulloa
(2018) realizaron el diseño y desarrollo de un sistema recomendador de contenidos

RISTI, N.º E22, 08/2019 377


Factores de éxito para sistemas recomendadores de procesos de investigación

accesibles basados en perfiles de usuarios, para ambientes virtuales y objetos de


aprendizaje a partir de metadatos de accesibilidad haciendo uso de ontologías.
Dentro del área social-educativo también existen sistema recomendadores que
permite determinar a quién hacer una pregunta acerca de un tema, mediante el uso de
ecuaciones que provienen de la minería de texto extraída de los foros de discusión de
los estudiantes, obteniendo resultados satisfactorios con una alta precisión a la hora
de hacer la recomendación. Así como también, en el área social se puede evidenciar el
trabajo de Sari (2017) respecto al diseño un sistema recomendador de eventos de interés
para personas de la tercera edad mediante geo localización, para que dichas personas
puedan conocer información de eventos a realizarse en el lugar donde residan y a la vez
mostrar la ruta que deben tomar hacia el lugar de dicho evento.
En el área turística se puede evidenciar la utilización de árboles de decisiones en la
creación de un sistema recomendador para la determinación de la instalación hotelera a
visitar por parte de los clientes, a partir de sus características y sus preferencias (Danilo,
Ramirez, Sistemas, & En, 2014)
En el área de la salud Guzmán, torres & Vallejo (2015) construyó un sistema recomendador
móvil para rutinas de ejercicios con base en el perfil antropomórfico y patológico del
usuario, mediante el uso de técnicas de inteligencia artificial obteniendo resultados
muy satisfactorios. Por otro lado, en el área comercial el autor Enrique y Foliaco (2014)
realizó el diseño de un Sistema de productos para centros comerciales, en este proyecto
el autor propone dar solución a la tarea tediosa de buscar entre las distintas ofertas y
promociones que se encuentra al momento de ir a un centro comercial, proceso que
se puede evitar al contar con dicho sistema y así reducir el tiempo que invierten los
usuarios al momento de realizar sus compras.
Pero, aun contando con la cantidad de información existente en la red se ha hecho cada vez
más difícil elegir, sistemas que se ajusten a nuestros gustos y necesidades son complejos de
encontrar y usar (Vicuña Lojano, 2018), como por ejemplo en un catálogo de productos en
un tienda en línea como Amazon se puede encontrar un sin fin de artículos cada uno con un
precio que es similar a otro y que hace lo mismo pero con una calidad superior o inferior, más
caro o más barato, de un color u otro, lo mismo pasa en el área científica (Gerling, 2009).

3. Método

3.1. Recopilación de información


Para la obtención de datos se aplicó una encuesta a 70 docentes de una universidad
pública del Ecuador. El cuestionario aplicado está dividido en tres secciones, la primera
sección relacionada con información del docente. La segunda parte del cuestionario
corresponde a las preguntas que determinen los factores de éxito para el desarrollo
de sistemas recomendadores y finalmente la tercera sección contiene preguntas que
complementan el estudio de la investigación.
El objetivo de la encuesta fue determinar la percepción de los investigadores sobre
características que debe contener un sistema recomendador exitoso, la encuesta fue
aplicada a Directores de Proyecto de investigación y Docentes investigadores.

378 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

3.2. Análisis descriptivo de la población


De la población encuestada el 68.6% corresponde al género masculino y el 31.4% al género
femenino, en cuanto a las edades el rango corresponde a 25 y 29 años de edad el 50 % de
la población, el 24.3% corresponde a investigadores de 40 a 50 años de edad, el 14.3% son
personas que están en el rango de edad de 25 a 29 años de edad y finalmente el 11.4% son
investigadores mayores a los 50 años de edad, además el 97% de la población encuestada
están conformados por ecuatorianos y el 3% restante son de nacionalidad extranjera.
También es necesario aclarar que la población encuestada ha indicado que le gusta
trabajar en grupos de investigación menores a 10 personas con un porcentaje del 91.4%
y el restante corresponde a la opción que esta entre el rango de 20 a 29 personas con un
porcentaje de 8.6%, además.
Es importante mencionar que el 57.1% de la población encuestada realiza investigación
formativa relacionada al área de conocimiento, dejando así el 42.9% para la investigación
generativa. Además, al preguntar sobre el área de conocimiento el 50% de la población
encuestada forman parte de las ciencias de las ingenierías, 37.1% de las ciencias humanas,
el 12.9% pertenecen a las ciencias agropecuarias.

4. Resultados y Discusión

4.1. Análisis de fiabilidad de la encuesta


Para la validación del cuestionario se aplicó el método Delhi o también conocido como
consulta a expertos, mismos que verificaron la validez de todas las preguntas aplicadas,
se levantó el número dado por los expertos con el objetivo de obtener una encuesta con
datos fiables.
Además, se realizó el análisis de fiabilidad de la encuesta a través del software SPSS
mediante el método alfa de Cronbach, las estadísticas obtenidas se muestran en la Figura 1.

Alfa de Cronbach
Alfa de Cronbach basada en elementos
Alfa de Cronbach N de elementos
estandarizados
0,953 0,986 26

Tabla 1 – Estadística de fiabilidad de la encuesta

Como se puede observar en el la Figura 1, el ponderado que arroja el estadístico Alfa de


Cronbach corresponde 0.953, por lo que se puede considerar como una ponderación
excelente y por lo tanto deducir que el instrumento aplicado es confiable (González &
Peazmiño, 2015).

4.2. Conjunto de datos


Para la construcción del dataset se tomó en cuenta variables como la experiencia, ubicación,
colaboración, palabras clave, autoría, publicaciones similares, número de lecturas, citas,
visitas, recomendación, y las estadísticas de las publicaciones, finalmente interacciones

RISTI, N.º E22, 08/2019 379


Factores de éxito para sistemas recomendadores de procesos de investigación

entre investigadores. Para una mejor comprensión a continuación se muestra en la Tabla


2, las variables utilizadas en la investigación y su respectiva descripción.
Detalle Factor

Experiencia relacionada con procesos de investigación en equipo. V1


La relevancia de la ubicación del centro de investigación donde labora el investigador, para V3
realizar colaboraciones con otros investigadores.
La importancia de ser considerado con base en la experiencia profesional en otras áreas de V9
conocimiento para ejecutar procesos de investigación multidisciplinaria.
La relevancia para contactar colaboradores en procesos de investigación mediante una red V10
social científica.
La frecuencia de colaboración con profesionales para algún tipo de investigación. V11
La importancia de colaboración con investigadores de la mima institución en la que labora, de V12, V13,
un mismo y diferentes países, para la generación de mejores o peores resultados en procesos V14
de investigación.
La importancia del uso de una red social científica para la sugerencia de colaboradores de V15
publicaciones similares.
La sugerencia de investigaciones mediante el uso de palabras clave que se relacionan con las V17
publicaciones de los investigadores.
La recomendación en equipos de investigadores con base a la autoría o coautoría de las V18
publicaciones de los investigadores.
La sugerencia a grupos de investigadores con base en la experiencia profesional. V19
La importancia de la implementación de un sistema recomendador de investigadores con base V20
a las publicaciones y el perfil profesional.
La importancia para realizar colaboraciones con profesionales de distintas áreas de V21
conocimiento.
La importante de colaboración con un investigador que haya realizado una publicación similar V22
a la del autor.
La importancia de colaboración con profesionales que hayan leído las publicaciones del autor V23
de una publicación.
La relevancia de colaboración con profesionales que hayan citado las publicaciones del autor V24
de la misma.
Las notificaciones de acuerdo al número de visitas que tiene las publicaciones del autor. V25
La importancia de la generación de un chat para preguntar y contestar inquietudes acerca de V26
algún tema de investigación.
La importancia del acceso a estadísticas de visitas de otros miembros investigadores a las V27
publicaciones realizadas por parte del autor.
La importancia del acceso a datos del perfil profesional de investigadores que sigan las V28
publicaciones del autor.
La importancia de conocer el porcentaje de interés que tienen otros investigadores para las V29
publicaciones del autor.
La importancia de conocer el número de visitas que tienen las publicaciones del autor por V30
parte de los otros investigadores.
La importancia de recomendación de las publicaciones del autor por parte de los demás V31
investigadores.
La importancia de conocer el número de recomendaciones de las publicaciones del autor por V32
parte de los demás investigadores.

380 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Detalle Factor

La importancia de tener las estadisticas de las investigaciones de los investigadores. V33

Tabla 2 – Preguntas utilizadas para la obtención de datos.

4.3. Etapas de la minería de datos


a) Limpieza de datos
Etapa determinada a corregir datos con ruido, información repetida, campos en blanco
y la integración del conjunto de datos para la obtención de un data set óptimo para el
proceso experimental.
b) Pre-procesamiento
En esta etapa se realiza la transformación de la información obtenida a través de la
encuesta en datos binarios (0 y 1), tal como se presenta en la Tabla 3.

Nada importante Medianamente importante Importante Totalmente importante


1 0 0 0

Tabla 3 – Matriz para la tabulación de datos


c) Selección de factores
Para el algoritmo de selección de atributos y la red neuronal se utilizó como variable
dependiente la variable uso de sistema recomendador con base en el área de conocimiento
y perfil profesional (RV20).

Parametros para la selección de atributos

Atributo evaluador CfsSubsetEval

Método de Búsqueda BestFirst

Modo de selección del atributo. Cross-validation (Folds 10, Seed 1)

La recomendación en equipos de investigadores con base en la autoría o coautoría de las publicaciones de


los investigadores (V18).

La sugerencia a grupos de investigadores con base en la experiencia profesional (V19).

La importancia de recomendación de las publicaciones del autor por parte de los demás investigadores
(V31).

La importancia de tener las estadisticas de las investigaciones de los investigadores (V33).

Tabla 4 – Parámetros del algoritmo CfsSubsetEval

Para la selección de factores se utilizó el algoritmo CfsSubsetEval a través del uso del
software Weka, mismo que evalúa el valor de un subconjunto de atributos al considerar
la capacidad de predicción individual de cada característica junto con el grado de

RISTI, N.º E22, 08/2019 381


Factores de éxito para sistemas recomendadores de procesos de investigación

redundancia entre ellos con la finalidad de seleccionar las variables más significativas
(Iyer, S, & Sumbaly, 2015).
c) Predicción
En esta etapa se utilizó el algoritmo de redes neuronales con la finalidad de predecir el
éxito de los factores identificados en el desarrollo de sistemas recomendadores, a través
del uso del software Orange datamining en su versión 3.1.

Figura 1 – Modelo Orange Datamining de la red neuronal

Los parámetros de entrenamiento de la red neuronal se presentan en la Tabla 5.


Parámetros
Número de neuronas en las capas ocultas 100
Función de activación ReLu
Solucionador Adam
Regulación a=0.1:
Número máximo de iteraciones 200
Entrenamiento replicable true

Tabla 5 – Entrenamiento de la red neuronal

Los resultados del proceso de predicción de éxito de los factores identificados se


presentan en la tabla 6 y 7 respectivamente.
Como resultado del proceso experimental se puede determinar que el sistema deberá
hacer de manera obligatoria recomendaciones con base en la autoría y coautoría de
un autor en una o varias publicaciones. Se recomienda realizar una recomendación en
grupos de investigadores con base en la experiencia profesional. Además, el sistema

382 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

debe permitir que un usuario lector recomiende una o varias publicaciones y sistema
debe permitir visualizar estadísticas de las publicaciones de los investigadores.
Muestra Pronosticado
Observado Medianamente Totalmente Porcentaje
Relevante
relevante relevante correcto
Entrenamiento Medianamente 1 0 0 100,0%
relevante
Relevante 0 35 0 100,0%
Totalmente relevante 0 0 13 100,0%
Porcentaje global 2,0% 71,4% 26,5% 100,0%
Prueba Medianamente 0 0 0 ,0%
relevante
Relevante 0 8 0 100,0%
Totalmente relevante 0 0 10 100,0%
Porcentaje global ,0% 44,4% 55,6% 100,0%
Variable dependiente: RV20

Tabla 6 – Predicción de éxito de factores identificados

Red neuronal
Factores de éxito % precisión
La recomendación en equipos de investigadores con base en la autoría o coautoría de 90%
las publicaciones de los investigadores (V18).
La sugerencia a grupos de investigadores con base aen la experiencia profesional (V19). 90%
La importancia de recomendación de las publicaciones del autor por parte de los 100%
demás investigadores (V31).
La importancia de tener las estadisticas de las investigaciones de los investigadores 100%
(V33).

Tabla 7 – Tasa de predicción a través de la red neuronal


Sin embargo, también es importante considerar los siguientes elementos en el diseño
de sistemas recomendadores: el sistema recomendador tiene que hacer sugerencias de
investigadores de diferentes áreas del conocimiento con base en la experiencia profesional
del investigador, permitir aceptar o rechazar una recomendación, realizar sugerencias
de investigadores con base en las palabras clave de las publicaciones del investigador,
realizar sugerencias de investigadores de distintas áreas del conocimiento, sugerencias
de investigadores con base en publicaciones similares a la del autor, sugerencias de los
autores que hayan leído las publicaciones, sugerencias de investigadores que hayan
citado las publicaciones del autor, recomendación de los usuarios que visiten las
publicaciones del autor.
Con los resultados obtenidos a través de la aplicación de los algoritmos red neuronal
y el algoritmo CfsSubsetEval se puede considerar que los factores identificados tienen
una alta probabilidad de éxito para la construcción de sistemas recomendadores para
procesos de investigación

RISTI, N.º E22, 08/2019 383


Factores de éxito para sistemas recomendadores de procesos de investigación

5. Conclusiones
Los resultados del proceso de selección de factores permitieron identificar 4 factores que
podrían ser considerados como exitosos en el desarrollo de sistemas recomendadores
para procesos de investigación, de los cuales el factor importancia de recomendación
de las publicaciones del autor por parte de los demás investigadores y uso de informes
estadísticos de los resultados de investigación fueron considerados como los factores
con mayor influencia.
La aplicación de la red neuronal arrojó un resultado del 99, 60% de predicción del éxito
de los factores identificados, lo que indica que estos factores podrían ser considerados
por los desarrolladores de sistemas en la etapa de análisis de requerimientos de usuario
respecto al desarrollo de sistemas para realizar recomendaciones en procesos de
investigación.

Referencias
Castillo, J. A., & Powell, M. A. (2019). Análisis de la producción científica del Ecuador
e impacto de la colaboración internacional en el periodo 2006-2015. Revista
Española de Documentación Científica, 42(1), 225. [Link]
redc.2019.1.1567
Danilo, A., Ramirez, V., Sistemas, T., & En, R. (2014). Taller : Turismo Sostenible.
Del Pino, J., Salazar, G., & Cedeño, V. (2011). Adaptación de un Recomendador de
Filtro Colaborativo Basado en el Usuario para la Creación de un Recomendador de
Materias de Pregrado Basado en el Historial Académico de los Estudiantes. Revista
Tecnológica ESPOL, 24(2), 29 – 34. Retrieved from [Link]
[Link]/[Link]/tecnologica/article/view/85
Drake, J. M. (2008). Ingeniería Ingeniería Software software Análisis de requisitos y
especificación de una aplicación. 1–36.
Enrique, J., & Foliaco, O. (n.d.). Diseño de un Sistema Recomendador de productos
para centros comerciales.
Enrique, J., & Foliaco, O. (2014). Diseño de un Sistema Recomendador de productos
para centros comerciales.
F. O. Botello, F. F. D. y R. D. L.-C. (2013). Sistema de recomendación para elcomercio
electrónico aplicadoa una tienda de libros. (Mexico: Instituto Politécnico Nacional).
Franganillo, J. (2018). El funware en los sitios de recomendación social: características,
claves e inconvenientes. Anuario ThinkEPI, 12, 242. [Link]
thinkepi.2018.36
Gerling, V. B. (2009). Un sistema inteligentes para asistir la búsqueda personalizada de
objetos de aprendizaje. Universidad Nacional de Rosario, 65. Retrieved from https://
[Link]/download/pdf/[Link]%0Ahttp: //[Link]/scholar?
hl=en&btnG=Search&q=intitle: Un+Sistema+Inteligente+para+Asistir+la+B+?
+usqueda+Personalizada+de+Objetos+de+Aprendizaje#0

384 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

González, J., & Peazmiño, M. (2015). Cálculo e interpretación del Alfa de Cronbach para
el caso de validación de la consistencia interna de un cuestionario, con dos posibles
escalas tipo Likert. Revista Publicando, 2(2), 62–77. Retrieved from [Link]
[Link]/publication/272682754_Calculo_e_interpretacion_del_Alfa_
de_Cronbach_para_el_caso_de_validacion_de_la_consistencia_interna_de_
un_cuestionario_con_dos_posibles_escalas_tipo_Likert
Guzmán, J., Torres, I., & Vallejo, S. (2015). Un sistema recomendador móvil de rutinas
de ejercicio basado en el perfil del usuario. 94(2015), 137–149.
Huebe, M. de L. P. (2005). Ingenieria De Requerimientos. 1–71.
Iyer, A., S, J., & Sumbaly, R. (2015). Diagnosis of Diabetes Using Classification Mining
Techniques. International Journal of Data Mining & Knowledge Management
Process, 5(1), 01–14. [Link]
Larrañaga, P., Inza, I., & Moujahid, A. (2015). Redes Neuronales. Researchgate,
19. Retrieved from [Link]
[Link]
Recomendador, S., Usuarios, D., Aciar, S. V, Aciar, G. I., Collazos, C. A., & González, C. S.
(2015). Sistema recomendador de usuarios en base al conocimiento, disponibilidad
y reputación obtenida de interacciones en foros. (July).
Rivera, C., Espinosa, J., & Valdés, Y. (2017). La investigación científica en las
universidades ecuatorianas. Prioridad del sistema educativo vigente. Revista
Cubana de Educación Superior, 2, 113–125. Retrieved from [Link]
pdf/rces/v36n2/[Link]
Ruiz-Iniesta, A., Jiménez-Díaz, G., & Gómez-Albarrán, M. (2010). Personalización en
Recomendadores Basados en Contenido y su Aplicación a Repositorios de Objetos
de Aprendizaje. Revista Iberoamericana de Tecnologias Del Aprendizaje, 5(1),
31–38. Retrieved from [Link]
uploads/[Link]
Sari Villa, O. (2017). Diseño e implementación de un sistema recomendador de
actividades Lúdicas y Culturales para personas de la tercera edad. Retrieved from
[Link]
Vera, P., & Ulloa, M. (2018). Diseño y desarrollo de un sistema recomendador de
contenidos accesibles basados en perfiles de usuarios para ambientes virtuales
y objetos de aprendizaje a partir de metadatos de accesibilidad haciendo uso de
ontologías.
Vicuña Lojano, C. E. (2018). Diseño e implementación de un sistema recomendador
de eventos de interés para personas de la tercera edad mediante geolocalización.
Retrieved from [Link]
[Link]

RISTI, N.º E22, 08/2019 385


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 10/03/2019
Iberian Journal of Information y S stems and Technologies Aceitação/Acceptance: 23/06/2019

Modelos de ecosistemas de Datos Abiertos del


Gobierno: un estudio comparativo

Andrés Rey Piedrahita1, Laura Milena Cárdenas Ardila2, Andrick Parra Valencia3

arey@[Link], [Link]@[Link], japarra@[Link]

1
Universidad Central del Valle del Cauca, Tuluá, Colombia.
2
Universidad de Antioquia, Medellín, Colombia.
3
Universidad Autónoma de Bucaramanga, Bucaramanga, Colombia.
Pages: 386–398

Resumen: En este trabajo se revisa la literatura sobre modelos de


ecosistemas de datos abiertos del gobierno con el propósito de estudiar los
modelos existentes. La revisión de los modelos identificados muestra que
al momento no se dispone de un modelo integral que brinde comprensión
de la complejidad y la dinámica que presentan los programas OGD, esto
dificulta la formulación de políticas y estrategias que resulten adecuadas
para mejorar el logro de los beneficios esperados, como son mayor
transparencia y rendición de cuentas, y la creación de empresas y servicios
innovadores centrados en el ciudadano que estimulen el crecimiento económico.
Palabras-clave: Datos Abiertos; Gobierno Abierto; Datos Abiertos del Gobierno;
Modelos de Ecosistema de Datos Abiertos del Gobierno; Comparación de Modelos.

Open Government Data ecosystem models: a comparative study

Abstract: This paper reviews the literature on government open data ecosystem
models for the purpose of studying existing models. The review of the models
identified shows that at the moment there is no comprehensive model that provides
understanding of the complexity and dynamics of the OGD programs, this makes it
difficult to formulate adequate policies and strategies to improve the achievement
of benefits expected, such as greater transparency and accountability, and the
creation of innovative citizen-centered businesses and services that stimulate
economic growth.
Keywords: Open Data; Open Government; Open Government Data; Open
Government Data Ecosystem models; Comparison of models.

1. Introducción
La investigación generada alrededor de los programas de Datos Abiertos del Gobierno
(Open Government Data, OGD) está conformando un nuevo campo de investigación

386 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

que se encuentra en un estado inicial donde se requiere trabajo orientado a formular


teorías que brinden comprensión acerca de lo que sucede con los programas OGD; en
esta área de investigación el desarrollo teórico ha ido construyéndose más lentamente
que el desarrollo práctico que ha sido el impulsor dadas las necesidades de apertura de
los actores clave (Oliveira, Lima, & Lóscio, 2019).
Algunos autores plantean que para poder llegar a generar impactos importantes con
los datos abiertos se requiere desarrollar mayor comprensión de la complejidad y la
dinámica que presentan los programas OGD. Para desarrollar comprensión algunas
investigaciones han utilizado la perspectiva de ecosistema y en la literatura actualmente
se dispone de algunos modelos formulados para ecosistemas de datos abiertos que
brindan un panorama de los elementos, actores y sus interacciones (Dawes, 2016). No
obstante, el problema que se aborda en este trabajo es que el conocimiento al respecto
se encuentra fragmento y no se dispone de un modelo integral que facilite ganar
comprensión sobre la complejidad y la dinámica de los programas OGD.
El presente estudio indaga acerca de los modelos propuestos para ecosistemas OGD
con el propósito de presentar un estudio comparativo de los modelos más relevantes
que se encuentran en la literatura. El aporte brindado se tiene en que la comparación
de los modelos se realiza a partir de la definición de ecosistema de datos propuesta en
(Oliveira, 2018) que describe los elementos comunes de un ecosistema, los actores, roles
y relaciones. Esta definición tomada como marco de referencia para guiar el análisis
brinda precisión para la comprensión y entendimiento mutuo de lo que significa un
ecosistema de datos. Por tal motivo, resulta muy adecuada al momento de estudiar
similitudes y diferencias en los modelos más relevantes de ecosistemas OGD; se espera
que los resultados presentados resulten útiles para la formulación de nuevos modelos que
deben avanzar de la naturaleza cualitativa a la cuantitativa para habilitar el desarrollo de
una mayor comprensión.
La estructura del documento es la siguiente: primero, en la sección 2 se brindan algunos
fundamentos teóricos y acerca del trabajo relacionado; posteriormente, en la sección
3 se indica la metodología utilizada en la investigación; en la sección 4, se presentan
y discuten los resultados obtenidos; y finalmente, en la sección 5 se ofrecen algunas
conclusiones, las limitaciones del estudio y se describe el trabajo futuro.

2. Fundamentos

2.1. Programas OGD y complejidad de los ecosistemas de datos abiertos


De acuerdo con (Dawes, 2016) un programa OGD normalmente abarca un conjunto
de directivas, reglas y prácticas formales que deben ser aplicadas por todas o un gran
número de las entidades u organizaciones del gobierno para proveer sus datos a los
ciudadanos a través de portales de Internet dedicados para tal fin, sin costo y siguiendo
algunas especificaciones técnicas como utilizar preferiblemente formatos legibles por
máquina para facilitar la reutilización, etc.
Los estudios alrededor de los programas OGD han encontrado que corresponden
a fenómenos sociotécnicos que se presentan en entornos físicos e institucionales,
donde convergen múltiples actores y diferentes aspectos (organizativos, humanos,

RISTI, N.º E22, 08/2019 387


Modelos de ecosistemas de Datos Abiertos del Gobierno: un estudio comparativo

materiales y tecnológicos) que dan lugar al surgimiento de una interacción dinámica de


interdependencias e influencias mutuas en un contexto dado (Sawyer, 2014).
Para desarrollar comprensión sobre los programas OGD algunos estudios han utilizado
la perspectiva de ecosistema (Dawes, 2016) que permite observar y abordar la alta
complejidad de los programas OGD que por lo general se conforman de múltiples
niveles socio-técnicos que son interdependientes, presentan varias dimensiones,
actores, elementos y componentes donde surgen interacciones dinámicas y ciclos de
retroalimentación (Zuiderwijk, 2014). El estudio realizado alrededor de los programas
OGD ha llevado a que en la literatura se disponga de algunos modelos formulados para
ecosistemas OGD que brindan un panorama de los elementos, actores y sus interacciones
(Dawes, 2016).

2.2. Definición ecosistema de datos


La literatura reporta que al momento no existe una definición ampliamente
aceptada para el termino ecosistemas de datos abiertos, en la mayoría de trabajos
las definiciones brindadas para este término presentan variaciones significativas
(Oliveira, 2018). Esta situación ha constituido una dificultad para desarrollar
mayor comprensión sobre los ecosistemas de datos. No obstante, recientemente
reconociendo esta situación en (Oliveira, 2018) se ha propuesto una definición que
intenta precisar el significado del término.
La definición en mención plantea que un ecosistema de datos puede definirse como:
“un conjunto de redes compuestas por actores autónomos que directa o indirectamente
consumen, producen, curan o proporcionan datos y otros recursos relacionados (por
ejemplo, software, servicios e infraestructura). Cada actor desempeña uno o más roles y
está conectado a otros actores a través de relaciones, de tal manera que la colaboración
y la competencia de los actores promueven la autorregulación del ecosistema de datos”
(Oliveira, 2018).

Elemento Descripción
Recursos Son activos valiosos del ecosistema. Toman la forma de algún producto, posesión o
capacidad producida, proporcionada o consumida por los actores. (Oliveira, 2018) .
Roles Corresponde a una función (actividad o deber) que realiza un actor en el ecosistema de
datos. (Oliveira, 2018) .
Actores Son entidades autónomas, con identidad propia y existencia distinta del
ecosistema, que tienen capacidad para cumplir con roles en el ecosistema de datos.
Su participación se da a partir de intereses que los motivan, poseen diferentes
expectativas y usualmente se comprometen con el ecosistema y este les brinda
incentivos para activar su participación (Oliveira, 2018) .
Relaciones Son interacciones que surgen entre los actores del ecosistema de datos, ya sea por el
papel que desempeñan los actores o a partir de algún interés común. Pueden seguir
modelos de negocio y el intercambio de recursos se da mediante transacciones;
diversos aspectos del contexto (económicos, políticos, culturales, tecnológicos, etc)
hacen que las relaciones varíen entre ecosistemas de datos (Oliveira, 2018) .
Fuente: elaborado a partir de (Oliveira, 2018).

Tabla 1 – Descripción elementos que conforman la definición de ecosistema de datos

388 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Más formalmente la definición anterior de ecosistema de datos se puede expresar de la


siguiente forma: E = (Re, Ro, A, Rl), donde: E, es el nombre que se da al Ecosistema de
Datos; Re, corresponde al conjunto de recursos relacionados con datos intercambiados,
producidos o consumidos por los actores del ecosistema; Ro, indica el conjunto de roles
que pueden realizar los actores del ecosistema; A, define el conjunto de actores que
participan en el ecosistema; y Rl, indica el conjunto de relaciones comprometidas por los
actores del ecosistema (Oliveira, 2018); en la Tabla 1 se describen los cuatro elementos
o constructos principales que conforman esta definición.
La definición anterior de ecosistema OGD es tomada como marco de referencia en este
estudio porque brinda precisión para la comprensión y entendimiento mutuo de lo que
significa un ecosistema de datos como es el caso de los ecosistemas OGD.

2.3. Trabajo relacionado


Según nuestro conocimiento al momento la literatura solo disponible de un trabajo
enfocado al estudio comparativo de los modelos de ecosistemas OGD, ver (Sanaei,
2017). Dicho trabajo brinda resultados de una revisión realizada que se estructura a
partir de las diferencias que se identifican entre los modelos; en este trabajo se realiza un
estudio similar, pero utilizando como marco de referencia para el análisis la definición
de ecosistema de datos presentada en el apartado anterior.

3. Metodología
En este estudio se utiliza una estrategia de investigación secuencial basada en la
combinación de métodos de investigación cualitativos y cuantitativos presentada en la
Figura 1 (Creswell, 2017).

Figura 1 – Estrategia secuencial del estudio

Básicamente lo que se plantea en las diferentes etapas que conforman la estrategia


secuencial del estudio es, en la primera etapa recoger datos cuantitativos sobre posibles
publicaciones que traten el tema de modelos de ecosistemas OGD. Para ello se realiza la
búsqueda en la base de datos referencial Scopus que goza de amplio reconocimiento en
la comunidad científica y con los resultados que se obtienen se conforma un conjunto
de datos al respecto. En la segunda etapa se realiza el análisis cuantitativo del conjunto
de datos con información de posibles publicaciones sobre modelos de ecosistemas OGD,
para ello se utiliza la métrica de acoplamiento bibliográfico de documentos visualizando
los resultados en una red o mapa de conocimiento mediante el software VOSviewer.
La métrica de bibliometría en mención permite identificar los documentos que
posiblemente presentan modelos y son los más sobresalientes en el tema; una vez

RISTI, N.º E22, 08/2019 389


Modelos de ecosistemas de Datos Abiertos del Gobierno: un estudio comparativo

identificado cada documento, es revisado manualmente para seleccionar los trabajos


que presentan lo que puede considerarse un modelo completo para los ecosistemas OGD.
En la tercera etapa para la recolección de datos cualitativos se accede a los documentos
completos de los trabajos identificados en la etapa previa extrayendo diferentes datos
acerca del modelo, su estructura y características. Estos datos puntuales son tratados
en la última etapa donde se procede a realizar el análisis de cada modelo utilizando el
método cualitativo de análisis de contenido enfocado a encontrar diferencias entre los
modelos, pero para este caso clasificando la información de acuerdo con el marco de
referencia que brinda la definición de ecosistema de datos presentada en la sección 2.

4. Resultados y discusión
En la primera etapa para ubicar publicaciones que traten el tema de modelos para
ecosistemas OGD se realizó una búsqueda mediante palabras clave en la base de datos
Scopus. La cadena de búsqueda utilizada fue (“Open Government Data” OR “Open
Data”) AND (ecosystem OR models) definiendo el titulo como lugar de búsqueda en los
trabajos. De esta búsqueda se obtienen un total de 161 documentos, con los cuales se
conforma un conjunto de datos que contiene la información de citación de cada artículo
y de los trabajos citados1. Al analizar de forma cuantitativa el conjunto de datos con
la información de referencia de posibles publicaciones sobre modelos de ecosistemas
OGD utilizando la métrica de acoplamiento bibliográfico de documentos y visualizando
los resultados en una red o mapa de conocimiento mediante el software VOSviewer, se
pueden identificar 30 trabajos que son los más destacados al ser referenciados desde
otras publicaciones con mínimo 8 referencias.

Figura 2 – Mapa de conocimiento para los modelos de ecosistemas OGD

En la Figura 2 se presenta el mapa de conocimiento generado mediante el análisis con


VOSviewer. Todos los documentos identificados en el mapa son revisados manualmente
y se seleccionan finalmente 4 trabajos (resaltados con un recuadro rojo) que presentan
1
Este conjunto de datos es generado mediante una de las opciones que brinda Scopus, la
búsqueda se realizó el 21 de agosto de 2019.

390 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

lo que puede considerarse un modelo completo de ecosistemas OGD, los trabajos en


mención son: (Lee, 2014), (Zuiderwijk, 2014), (Dawes, 2016) y (Reggi, 2016). A este
grupo final de modelos se suman dos modelos más, el primero es el de (Najafabadi,
2017) que es identificado del trabajo de revisión de modelos de ecosistemas de datos de
(Sanaei, 2017) y por ser una publicación reciente no alcanza a ser incluido en el mapa
que resulta del análisis de acoplamiento bibliométrico; este último modelo incluido
extiende el modelo presentado previamente por uno de sus autores (Helbig, 2012) que
también es incluido.
Al proceder con la recolección de datos cualitativos en la tercera etapa se accede a los
documentos completos de los 6 trabajos identificados en la etapa previa que presentan
modelos para ecosistemas OGD y se extraen diferentes datos acerca de cada modelo
en relación a su estructura y características. Estos datos puntuales son analizados en
la última etapa y los resultados se brindan a continuación presentando primero una
descripción de cada modelo y posteriormente su comparación en la Tabla 2.
El primer modelo a presentar describe la dinámica de la apertura de datos del gobierno
propuesta por (Helbig, 2012). Este modelo conceptual de ecosistema de datos abiertos
fue elaborado al estudiar la apertura de datos de las ciudades de Nueva York (EE. UU)
y Edmonton (Canadá). Dentro de las fortalezas de este modelo se pueden mencionar
que en la representación del modelo se utiliza un diagrama casual que es una notación
grafica utilizada en la técnica de modelado Dinámica de Sistemas que es útil al abordar
sistemas complejos. El diagrama causal permite visualizar la estructura de un sistema y
analizar su comportamiento.
Dentro de los recursos identificados en el modelo se tienen por un lado las fuentes de
datos primarias (datos generados y gestionados al interior del gobierno) y secundarias
(datos enriquecidos generados por los usuarios fuera del gobierno), y por otro los
recursos de datos primarios (tecnologías de la información y la comunicación que
soportan la labor cotidiana del gobierno) y secundarios (herramientas específicas que se
crean para soportar la apertura de datos).
En cuanto a los actores en el modelo de (Helbig, 2012) se indican los proveedores de
datos (encargados de mantener las fuentes y recursos de datos primarios), usuarios
principales (encargados de los recursos secundarios y de los procesos de apertura) y
usuarios secundarios (personas o grupos que acceden y utilizan los datos primarios).
La estructura propuesta para este modelo de ecosistema OGD está conformada por
diferentes relaciones entre variables y algunos ciclos de realimentación. Asociados a los
roles de los usuarios se definen 5 procesos o actividades a realizar al interior del gobierno
que son considerados claves para publicar datos contextualizados y reutilizables, estos
son: (1) crear información de la labor del gobierno, (2) archivar información, (3) abrir
información, (4) contextualizar información y (5) hacer que la información sea de fácil re-
uso. Por fuera del gobierno los roles de los usuarios se asocian a 4 procesos o actividades:
(1) desarrollar aplicaciones, (2) presionar por contextualización de información, (3)
presionar por ocultar información y (4) presionar por apertura de información.
Entre las debilidades más importante del modelo de (Helbig, 2012) se tiene que es
una explicación parcial que presenta solo un pequeño conjunto de relaciones casuales
importantes y procesos de realimentación. No es un modelo de simulación completamente

RISTI, N.º E22, 08/2019 391


Modelos de ecosistemas de Datos Abiertos del Gobierno: un estudio comparativo

desarrollado que permita experimentar para ganar mayor comprensión acerca del
comportamiento del ecosistema OGD. También, en lo que respecta a los beneficios no
específica ninguno solo se plantea que la apertura de datos genera valor público.
El segundo modelo es propuesto por (Lee, 2014) para la apertura de datos del gobierno
en Irlanda. Este modelo conceptual de ecosistema de datos abiertos presenta una
estructura simple, pero aborda la naturaleza multifacética inherente a los programas de
datos abiertos, por ello cubre aspectos técnicos, sociales, legales, políticos, operacionales
y económicos. La debilidad más importante de este modelo es que carece de una mirada
completa como ecosistema dado que no establece relaciones entre componentes que
definan la estructura del ecosistema; que podría exponer la existencia de ciclos y
relaciones de realimentación, aspecto clave para la formulación y evaluación de políticas.
Dentro de lo positivo del modelo de (Lee, 2014) se cuenta que el modelo, básicamente,
propone once elementos importantes que debe contener un ecosistema de datos los
cuales son descritos más como funcionalidades o actividades a realizar, estos son: (1)
auditar datos, (2) seleccionar datos, (3) liberar datos de direcciones y mapas, (4) cuidar
privacidad de los datos, (5) asignar licencias a datos, (6) publicar datos, (7) descubrir
datos, (8) apoyar organismos públicos, (9) involucrar usuarios de datos, (10) reutilizar
y crear valor económico, y (11) evaluar. Por otro lado, dentro de los elementos se
especifican algunos recursos del ecosistema. El principal recurso reconocido son los
datos y se señala la necesidad de publicar datos relevantes (por ejemplo, referentes a
direcciones y mapas) de calidad. Otros recursos mencionados son los Portales de Datos
Abiertos (con manejo de URL para apuntar a los datos) y las API para facilitar el acceso
a los desarrolladores. En último lugar, para los beneficios el modelo plantea la creación
beneficios económicos, pero no establece elementos y relaciones específicas sobre cómo
se pueden lograr.
El tercer modelo propuesto por (Zuiderwijk, 2014) trata los elementos que resultan
esenciales en los ecosistemas de datos abiertos. Para este modelo conceptual es de
resaltar que define veinte elementos esenciales de los ecosistemas de datos abiertos,
los cuales se identifican a partir de la revisión de literatura relevante sobre el tema y
aplicando la técnica de escenarios (utilizada en el desarrollo de sistemas interactivos).
Estas funciones identificadas del ecosistema de datos abiertos de (Zuiderwijk, 2014) se
distribuyen en dos niveles, un primer nivel para la producción de datos y un segundo
nivel para el uso de datos. En el primer nivel se tienen las funciones (1) crear o recolectar
datos, (2) almacenar datos, (3) depurar conjunto de datos, (4) publicar conjunto de datos
en internet, (5) satisfacer requerimiento de datos, (6) discutir sobre conjunto de datos y
aprendizajes, (7) analizar uso de conjuntos de datos; y en el nivel de uso, (8) buscar datos,
(9) registrarse, (10) seleccionar lenguaje y traducir metadatos, (11) buscar licencia de
datos, (12) ver datos, (13) descargar datos, (14) tratar datos, limpiar, analizar, combinar,
enriquecer y enlazar datos, (15) publicar datos tratados, (16) solicitar un cierto conjunto de
datos, (17) usar tutoriales sobre la utilización de datos, (18) visualizar datos, (19) discutir
sobre conjunto de datos y aprendizajes, y (20) valorar aspectos de calidad de los datos.
Entre las debilidades más importante del modelo de (Zuiderwijk, 2014) se tienen en
las relaciones, dado que solo define de forma general una relación bidireccional entre
el nivel de producción de datos y el nivel de uso de datos, y de una forma más puntual

392 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

relaciones directas entre las funciones (16) solicitar un cierto conjunto de datos y (5)
satisfacer requerimiento de datos, y (6) -(19) que plantean discutir sobre conjuntos de
datos y aprendizajes. También, por el lado de los beneficios al no especificar ninguno en
particular y solo asumir que la apertura de datos genera algún tipo de beneficio ya sea
económico o social.
El cuarto modelo es propuesto por (Dawes, 2016) para ayudar en la planificación y diseño
de programas OGD. Este modelo conceptual de ecosistema de datos abiertos es uno de
los más sobresalientes. Para la elaboración del modelo se utilizó la teoría de sistemas
sociotécnicos, y se revisó la literatura científica disponible sobre el tema, estudiando
también la apertura de datos de dos ciudades Nueva York (USA) y San Petersburgo
(Rusia). Algo a resaltar del modelo es que abarca todos los sectores del ecosistema y
define nueve elementos clave para los programas OGD: (1) la influencia global y local
por la apertura, (2) la motivación para el desarrollo OGD, (3) las políticas y estrategias
OGD, (4) la publicación y uso de datos, (5) los productos/servicios generados, (6) la
comunicación y realimentación entre productores de datos, innovadores y usuarios
(internos y externos), (7) los beneficios potenciales, (8) las características de la
comunidad que utiliza los datos y (9) la movilización en favor de la apertura.
Otro de los aspectos más interesantes del modelo de (Dawes, 2016) es que define varias
relaciones de influencia entre los diferentes elementos estableciendo una estructura
bastante completa del ecosistema OGD a un alto nivel de agregación, donde se observan
varios ciclos de realimentación claves. En la descripción de este modelo se identifican
varios actores como son los productores de datos, los innovadores y usuarios (internos
y externos). En cuanto a los recursos se mencionan las tecnologías y capacidades del
gobierno, los datos abiertos, los productos y servicios de datos, la información de
realimentación, las capacidades para el uso de los datos abiertos, la motivación que
impulsa el desarrollo OGD y el marco normativo formulado para la apertura.
Además, dentro de las funciones que pueden ser identificadas en el modelo de (Dawes,
2016) se tienen: (1) formular políticas y estrategias para la apertura de datos, (2) asignar
recursos, (3) gestionar, (4) monitorear desarrollo programas, (5) publicar datos, (6)
solicitar nuevos conjuntos de datos, (7) brindar realimentación, (8) descargar datos, (9)
desarrollar aplicaciones, (10) utilizar datos y aplicaciones, (11) crear beneficios y (12)
solicitar mayor apertura. En último lugar, dentro de las debilidades más sobresalientes
de este modelo se tiene en que no define de forma precisa las diferentes funcionalidades
del ecosistema OGD (de la descripción del modelo se pueden identificar algunas
importantes, pero otras quedan pendientes). De forma similar, se indica que la apertura
de datos crea beneficios económicos y sociales, pero no establecen elementos y relaciones
específicas sobre cómo se puede lograr.
Un quinto modelo que guarda similitud con el anterior es propuesto (Reggi, 2016)
enfocándose en comprender como crear beneficios sociales en las iniciativas de datos
abiertos. Los modelos anteriores por lo general se han enfocado en el objetivo de la
creación de valor económico prestando poca atención a la creación de beneficios sociales
como la transparencia, participación ciudadana y la rendición de cuentas del gobierno.
Los autores realizan un estudio de caso exploratorio para la iniciativa OpenCoesione en
Italia que permite formular un modelo conceptual preliminar integrado de ecosistema

RISTI, N.º E22, 08/2019 393


Modelos de ecosistemas de Datos Abiertos del Gobierno: un estudio comparativo

de datos abiertos que comprende dos ciclos de influencia interrelacionados que surgen
de la publicación de OGD.
En el modelo de (Reggi, 2016) un ciclo aborda el potencial de innovación de OGD, el otro
aborda la forma en que OGD podría apoyar la transparencia y los valores democráticos
de participación y responsabilidad. Dentro de los aportes realizados al modelo
original de (Dawes, 2016) se tienen: para los recursos, (1) la colección de información
de realimentación sobre resultados de las políticas del gobierno brindada por los
ciudadanos y (2) la información que resulta al analizar dichos comentarios; en cuanto
a los actores, uno nuevo denominado formulador de políticas; en los roles 3 nuevas
funciones requeridas para apoyar la creación de beneficios sociales, (1) coleccionar
información de realimentación sobre resultados de las políticas del gobierno, (2)
analizar información brindada por los ciudadanos, y (3) formular políticas atendiendo
opiniones de los ciudadanos.
Lo más importante a resaltar del modelo de (Reggi, 2016) es como se mencionó que
brinda atención a la creación de beneficios sociales indicando elementos y relaciones
clave al respecto. Por otro lado, dentro de las debilidades se tiene que el modelo constituye
un primer acercamiento que plantea de forma general el camino hacia el logro de este
tipo de beneficios, pero se necesita modelar con mayor detalle cómo se puede lograr
específicamente cada uno de los beneficios sociales.
El último modelo a describir es propuesto por (Najafabadi, 2017). Se trata de un modelo
de simulación para ecosistema de datos abiertos que fue formulado al llevar a cabo un
estudio de caso para la apertura de datos del gobierno en la ciudad de Edmonton. En
su elaboración se utilizó la técnica de Dinámica de Sistemas que resulta muy adecuada
para estudiar sistemas sociotécnicos interdependientes como los que conforman los
ecosistemas OGD. Dentro de los aspectos positivos a resaltar se tiene que el modelo
de simulación de ecosistema OGD reproduce el comportamiento observado en
las iniciativas de apertura de datos de los gobiernos, las cuales en general exhiben
problemas se sostenibilidad (reportados de forma recurrente en la literatura). Dentro de
las limitaciones de este modelo se tiene que no es completo, es decir no incluye todos los
elementos y relaciones requeridas para representar un ecosistema real que debe estar
dotado con mecanismos básicos de realimentación que representen la colaboración
existente entre diferentes partes presentes en el ecosistema.
La estructura del modelo de ecosistema OGD de (Najafabadi, 2017) está conformada por
diferentes relaciones y ciclos de realimentación en tres sectores gobierno, desarrolladores
y sociedad. Se identifican como recursos del ecosistema de datos abiertos, los datos, datos
abiertos del gobierno, capacidad OGD, experiencia OGD, aplicaciones desarrolladas y
capacidad de desarrollo aplicaciones OGD. En lo que respecta a los actores se especifican
de forma general encontrando tres tipos gobierno, desarrolladores y sociedad. Y en lo
que respecta a los procesos se plantean siete así: sector gobierno, (1) generación de datos
gubernamentales, (2) publicación de conjuntos de datos gubernamentales, (3) desarrollo
capacidad OGD; sector desarrollador, (4) desarrollo de aplicaciones, (5) desarrollo

394 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

capacidad de los desarrolladores, (6) obsolescencia de las aplicaciones; y sector sociedad,


(3) creación de beneficios. Finalmente, en lo que respecta a los beneficios no se específica
ninguno y se asume que la apertura de datos y su uso generan beneficios per se.
En la Tabla 2 se presenta una comparación de los modelos anteriores (el símbolo X
indica que el modelo no brinda soporte para la característica indicada o es muy débil al
respecto, √ indica que si lo hace y ≅ indica que lo hace parcialmente). ≅

Modelo Recursos Actores Roles Relaciones Beneficios


(Helbig et ≅ ≅ ≅ √ X
al., 2012) Identifica Proveedores de Define 5 procesos Plantea la No específica
diferentes datos, usuarios al interior estructura del ninguno,
recursos como principales del gobierno ecosistema plantea que
fuentes de datos y usuarios (considerados conformada la apertura
primarias y secundarios claves para por diferentes de datos
secundarias, publicar datos relaciones genera valor
y recursos de contextualizados entre variables público
datos primarios y reutilizables) y 4 y ciclos de
y secundarios actividades fuera realimentación.
del gobierno
(Lee, 2014) ≅ ≅ √ X X
Datos, Portales Usuarios Define funciones No se Plantea
de Datos (desarrolladores o actividades especifican, beneficios
Abiertos, URL y finales) y el a realizar no presenta económicos
-para apuntar a Gobierno. clasificadas en 11 enfoque cíclico pero no
los datos- y API categorías ni enfatiza establece
para acceso a los lazos de elementos
desarrolladores realimentación y relaciones
específicas
sobre cómo
se puede
lograr.
(Zuiderwij √ ≅ √ ≅ X
k et al., Menciona Productores Define 20 Plantea una No específica
2014) recursos como de datos y funciones o relación general ninguno,
herramientas y usuarios de datos actividades bidireccional asume que
servicios para -ciudadanos y a realizar entre el nivel la apertura
cada función empresarios clasificadas de producción de datos y su
del ecosistema. (intermediarios o en 2 niveles de datos y el uso generan
(Portales de infomediarios) (Producción de nivel de uso de beneficios
Datos Abiertos, datos y uso de datos. Define per se
Programadores, datos). dos relaciones
API´s y directas entre
diferentes funciones del
herramientas o ecosistema.
servicios) No presenta
enfoque cíclico
ni enfatiza
lazos de
realimentación.

RISTI, N.º E22, 08/2019 395


Modelos de ecosistemas de Datos Abiertos del Gobierno: un estudio comparativo

Modelo Recursos Actores Roles Relaciones Beneficios


(Dawes et √ ≅ ≅ √ ≅
al., 2016) Tecnologías y Productores Define 12 Plantea una Indica que
capacidades de datos, funciones o estructura la apertura
del Gobierno. innovadores actividades a general de de datos crea
Datos abiertos. y usuarios realizar asociadas ecosistema beneficios
Productos (internos y al gobierno y conformada económicos
y servicios externos) usuarios de los por diferentes y sociales,
de datos. datos relaciones de pero no
Información de influencia entre establece
realimentación. 10 elementos elementos
Capacidades de que conforman y relaciones
uso. Motivación el ecosistema específicas
desarrollo contemplando sobre cómo
OGD. Marco algunos ciclos de se puede
normativo para realimentación. lograr.
la apertura
(Reggi & √ √ ≅ √ √
Dawes, Agrega al Con respecto al Agrega 3 nuevas Agrega a la Indica
2016) modelo original modelo original funciones al estructura del elementos
de (Dawes, de (Dawes, 2016) modelo original ecosistema y relaciones
2016), la agrega un nuevo de (Dawes,2016) (Dawes, 2016) clave para
colección de tipo de actor requeridas elementos y apoyar la
información de denominado para apoyar relaciones que creación de
realimentación formulador de la creación conforman un beneficios
sobre resultados políticas de beneficios nuevo ciclo que sociales.
de las políticas sociales. podría apoyar
del gobierno la transparencia
brindada por los y los valores
ciudadanos, y democráticos de
la información participación y
que resulta al responsabilidad
analizar dichos
comentarios.
(Najafabad √ ≅ ≅ √ X
i& Datos. OGD. Gobierno. Define 7 procesos Plantea una No específica
LunaReyes, Capacidad OGD Desarrolladores en total, 3 para el estructura del ninguno,
2017) del Gobierno. y sociedad. sector gobierno, ecosistema asume que
Experiencia 3 para los conformada la apertura
OGD. desarrolladores por diferentes de datos y su
Aplicaciones y 1 para la relaciones uso generan
desarrolladas sociedad. y ciclos de beneficios
Capacidad realimentación per se.
desarrollo en tres sectores
aplicaciones (Gobierno,
OGD desarrolladores
y sociedad).

Tabla 2 – Comparación de modelos de ecosistema de datos abiertos del gobierno

La comparación presentada en la Tabla 2 permite señalar similitudes y diferencias


importantes entre los diferentes modelos de ecosistemas OGD encontrados. Asimismo,
se puede indicar que cada modelo brinda una forma de ver el ecosistema y presenta
fortalezas al describir alguno de los elementos que conforman el ecosistema.

396 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Por ejemplo, los modelos de (Helbig, 2012) y de (Najafabadi, 2017) tienen su


principal fortaleza al describir la estructura del ecosistema que está conformada
por diferentes relaciones entre variables y ciclos de realimentación. Por su parte el
modelo de (Lee, 2014) sobresale en la definición de los roles del ecosistema y el de
(Zuiderwijk, 2014) por definir no solo los roles del ecosistema sino también asociar
los recursos requeridos para su realización. Y los modelos de (Dawes, 2016) y (Reggi,
2016) sobresalen por definir las relaciones y recursos, y abordar para el caso de este
último modelo los beneficios (no solo económicos) para lo cual incorpora también un
nuevo actor denominado formulador de políticas que resulta clave para el ecosistema,
porque son los requisitos y el marco legal los que establecen responsabilidades y
limitaciones claras sentando las bases esenciales para un programa de apertura de
datos del gobierno (Dawes, 2016).
En último lugar, cabe señalar que en su mayoría los modelos encontrados corresponden
a modelos conceptuales, a excepción del modelo propuesto por (Najafabadi, 2017) que
corresponde a un modelo de simulación. Esta diferencia señalada sobre la naturaleza de
los modelos es bastante importante en relación al trabajo de formulación de políticas
porque la utilidad de los modelos conceptuales se ve limitada al brindar poca comprensión
y seguimiento en el tiempo, de las consecuencias o efectos de las decisiones políticas y
estrategias adoptadas. Limitación que puede ser superada, como propone (Najafabadi,
2017), con el uso de modelos de simulación que permiten generar información sobre
los efectos y resultados de las políticas a largo plazo, facilitando la identificación de las
causas del comportamiento presentado.

5. Conclusiones
En este trabajo se revisó la literatura formulada para modelos de ecosistemas OGD con
el propósito de estudiar los modelos existentes que presentan conocimiento sobre el
tema, pero de forma fragmentada. Para realizar esta labor se planteó una estrategia
de investigación secuencial basada en la combinación de métodos de investigación
cualitativos y cuantitativos (Creswell, 2017), que permitieron llegar a identificar
fácilmente seis modelos relevantes propuestos en la literatura que presentan lo que
puede considerarse un modelo completo de ecosistemas OGD. Al revisar y estudiar
los modelos identificados se encontró que cada modelo brinda una forma de ver el
ecosistema, y presenta fortalezas y debilidades al describir alguno de los elementos que
conforman el ecosistema (recursos, actores, roles y relaciones) o su estructura. De igual
forma, se encontró que al momento no se dispone de un modelo integral que brinde
comprensión de la complejidad y la dinámica que presentan los programas OGD, esto
dificulta la formulación de políticas y estrategias que resulten adecuadas para mejorar el
logro de los beneficios esperados con la apertura del gobierno.
Dentro de las limitaciones del estudio se tiene que solo se incluyeron principalmente
las publicaciones sobre modelos de ecosistemas OGD que se encuentran en Scopus por
lo cual pueden existir algunos modelos publicados útiles que no hayan sido incluidos.
El trabajo futuro podría abordar la formulación de un modelo conceptual más integral
de ecosistemas OGD que sea elaborado a partir de una revisión que abarque diferentes
bases de datos y recoja los aportes más valiosos de los diferentes modelos existentes. De
igual, forma se debe trabajar en formular nuevos modelos avanzando de lo cualitativo

RISTI, N.º E22, 08/2019 397


Modelos de ecosistemas de Datos Abiertos del Gobierno: un estudio comparativo

a la cuantitativo, por ejemplo, modelos de simulación computacional que habiliten el


desarrollo de experimentos de simulación para ganar mayor comprensión sobre el tema.

Referencias
Creswell, J. W., & Creswell, J. D. (2017). Research design: Qualitative, quantitative, and
mixed methods approaches. Sage publications.
Dawes, S S, Vidiasova, L., & Parkhimovich, O. (2016). Planning and designing
opengovernment data programs: An ecosystem approach. Government Information
Quarterly, 33(1), 15–27. [Link]
Helbig, N., Cresswell, A. M., Burke, G. B., & Luna-reyes, L. (2012). The Dynamics of
Opening Government Data. Center for Technology in Government.
Lee, D. (2014). Building an Open Data ecosystem - An Irish experience. ACM
International Conference Proceeding Series, 2014-Janua, 351–360. [Link]
org/10.1145/2691195.2691258
Najafabadi, M., & Luna-Reyes, L. (2017). Open Government Data Ecosystems: A
ClosedLoop Perspective. Proceedings of the 50th Hawaii International Conference
on System Science (HICSS-50), 2711–2720. [Link]
net/10125/41483
Oliveira, M. I. S., Barros Lima, G. de F., & Farias Lóscio, B. (2019). Investigations into
Data Ecosystems: a systematic mapping study. In Knowledge and Information
Systems. 1–42. [Link]
Oliveira, M. I. S., & Lóscio, B. F. (2018). What is a data ecosystem? Proceedings of the 19th
Annual International Conference on Digital Government Research: Governance in
the Data Age, 74.
Reggi, L., & Dawes, S. (2016). Open Government Data Ecosystems: Linking Transparency
for Innovation with Transparency for Participation and Accountability. International
Conference on Electronic Government and the Information Systems Perspective,
74–86.
Sanaei, M., Policy, T., Taslimi, M. S., Faculty, M., Abdolhoseinzadeh, M., Tabatabaei,
A., & Khani, M. H. (2017). A Study and Analysis of the Open Government Data
Ecosystem Models.
Sawyer, S., & Jarrahi, M. H. (2014). Sociotechnical Approaches to the Study of
Information Systems.
Zuiderwijk, Anneke, Janssen, M., & Davis, C. (2014). Innovation with open data:
Essential elements of open data ecosystems. Information Polity, 19(1, 2), 17–33

398 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 16/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 25/07/2019

Análisis temporal y pronóstico del uso de las TIC, a


partir del instrumento de evaluación docente de una
Institución de Educación Superior

Alexandra E. Jácome-Ortega2, Erick P. Herrera-Granda1, Israel D. Herrera-Granda1,


Jorge A. Caraguay-Procel1, Andrea V. Basantes-Andrade3, MacArthur C. Ortega-
Bustamante1

ajacome@[Link], epherrera@[Link], idherrera@[Link], jacaraguay@[Link],


avbasantes@[Link], [Link]@[Link]

1
Facultad de Ingeniería en Ciencias Aplicadas, Universidad Técnica del Norte, 100150, Ibarra, Ecuador.
2
Facultad de Ingeniería en Ciencias Agropecuarias y Ambientales, Universidad Técnica del Norte, 100150,
Ibarra, Ecuador.
3
Facultad de Educación Ciencia y Tecnología, Universidad Técnica del Norte, 100150, Ibarra, Ecuador.
Pages: 399–412

Resumen: Los instrumentos de evaluación docente que se han aplicado desde


septiembre del 2015 en la Universidad Técnica del Norte, han incorporado preguntas
referentes al uso de las TIC en la práctica docente. Sin embargo, las preguntas
relacionadas con esta actividad no fueron categorizadas con un subcriterio en
la estructura de evaluación original, por lo que se diseñó una nueva estructura
factorial que permitió extraer los puntajes del uso de las TIC para cada periodo
académico, cuya validez y fiabilidad fue demostrada mediante Análisis Factorial
Confirmatorio. Los valores promedio de este nuevo componente, se organizaron en
una serie temporal, mediante la que se realizó un pronóstico por redes neuronales
NNF de los puntajes que se tendrá en los próximos periodos académicos empleando
perceptrones multicapa MLP. Los resultados reflejan una tendencia creciente en el
uso e incorporación de las TIC en la práctica docente y ratifican esta tendencia para
los próximos periodos.
Palabras-clave: Evaluación docente; Pronóstico por redes neuronales; Análisis
factorial confirmatorio.

Algorithm customization to audit database in Higher Education


Institutions

Abstract: The teaching evaluation tests, that have been applied since September
2015 at Técnica del Norte University, have incorporated questions regarding the
use of ICT in teaching practice. However, the questions related to this activity
were not categorized with a sub-criterion in the original evaluation structure, so
a new factorial structure was designed, which allowed us to extract the ICT use
scores for each academic period, whose validity and reliability was demonstrated

RISTI, N.º E22, 08/2019 399


Análisis temporal y pronóstico del uso de las TIC, a partir del instrumento de evaluación docente

by Confirmatory Factor Analysis. The average values of this new component were
organized in a time series, through which a neural network forecast NNF for the
next academic periods scores was made using multilayer perceptrons MLP. The
results reflect a growing trend in the use and incorporation of ICTs in teaching
practice and ratify this trend for the upcoming periods.
Keywords: teacher evaluation; factorial confirmatory analysis; neuronal network
forecast.

1. Introducción
En consecuencia, a los estudios previos realizados en (Jácome et al., 2016) donde se
presentó el proceso de implementación de un Sistema Integrado de Información (SIIU)
que se efectuó en la Universidad Técnica del Norte Ibarra-Ecuador. Dicho instrumento
de evaluación se ha venido aplicando para cada docente durante los últimos siete
periodos académicos y está integrada por los componentes: autoevaluación (realizada
por el mismo docente), coevaluación de pares (realizada por un par ciego de docentes
evaluadores), coevaluación de directivos (realizada por el directivo con cargo
inmediato superior al evaluado) y heteroevaluación (realizada por los estudiantes).
De los componentes antes mencionados, es de especial importancia el instrumento
de heteroevaluación realizado por los estudiantes a quienes el docente imparte sus
cátedras para cada periodo académico, debido a que constituye una gran base de datos
ya que la universidad cuenta con más de 10 000 estudiantes entre sus programas de
grado y postgrado.
Es así que como caso de estudio se tomó a la Facultad de Ciencias Agropecuarias y
Ambientales FICAYA, donde cada base de datos para cada periodo académico supera las
7000 observaciones debido a que cada estudiante debe evaluar a todos los docentes que
le imparten cátedra en cada periodo académico.
La implementación del instrumento de evaluación en la UTN se realizó a partir del
periodo septiembre 2015 – febrero 2016 debido a las normativas vigentes (UTN,
2015) y la estructura factorial del instrumento de evaluación, así como las preguntas
que constituyen al mismo se han venido modificando acorde con las necesidades de la
institución y la reglamentación vigente.
Desde su implementación el instrumento de evaluación se creó a partir de una estructura
factorial que es resultado de los criterios de evaluación que determina la normativa
vigente, los cuales se dividen en subcriterios que son los factores de la estructura simple
que permite cuantificar el desempeño de cada docente. Por los criterios y subcriterios
que constituyen la estructura factorial a partir de la que se generaron los ítems del
cuestionario de evaluación docente para el periodo septiembre 2017 – febrero 2018,
como se muestran en la tabla1.

Criterio Subcriterio Objetivo

Planificación académica Planificación Determinar la existencia de una planificación


(Saber) microcurricular previa, que identifique los resultados de
aprendizaje esperados acorde al perfil de egreso
del estudiante.

400 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Experiencias de Aprendizaje Didáctica Identificar la aplicación de técnicas y métodos de


(Saber hacer) enseñanza utilizados por los docentes.
Conocimiento Valorar el criterio del estudiante sobre el
conocimiento del docente en el desarrollo de la
asignatura.
Recursos Valorar la utilización de los recursos y la calidad
del ambiente para generar conocimiento.
Evaluación y seguimiento Evaluación Determinar el uso de herramientas de evaluación y
(Saber hacer) seguimiento de las actividades académicas.
Actitud y compromiso Cumplimiento Establecer el cumplimiento del docente con base
(Saber ser) en la normativa de la UTN
Proceso enseñanza Satisfacción del Determinar el nivel de satisfacción del proceso
aprendizaje estudiante de enseñanza – aprendizaje por parte de los
estudiantes, mediante la heteroevaluación.

Tabla 1 – Criterios y subcriterios utilizados para la actividad Docencia

A pesar de que la estructura factorial y los criterios y subcriterios se han venido


modificando a través para los diferentes periodos, todos los cuestionarios empleados
incluyeron preguntas referentes al uso de las TIC que permiten proponer un nuevo
componente referente para ellas en la estructura factorial de cada periodo.
Sin embargo como se detalla en (Batista, Coenders y Alonso, 2004), (Toland y De Ayala,
2005), (Martínez et al., 2011), (Zambrano y Gutiérrez, 2018) y (Jácome et al., 2019)
la implementación de una estructura factorial mediante un cuestionario de evaluación
docente SET (Students Evaluation of Teaching), requiere de la determinación de su
validez y fiabilidad, la misma que típicamente se solía realizar mediante el uso paralelo
de técnicas como el Análisis Factorial Exploratorio AFE y la determinación de su validez
por medio del alfa de Cronbach. Sin embargo el de Chronbach (basado en el promedio
de las correlaciones), solo estima correctamente la fiabilidad si los ítems son al menos
tau-equivalentes, en cualquier otro caso proporciona un límite inferior de fiabilidad,
además de presentar problemas de errores no aleatorios en las encuestas y correlación
excesiva del sesgo. Además, el modelo del AFE permite que cada ítem dependa de todos
los factores comunes, con lo que es imposible demostrar la validez de que cada indicador
mida únicamente el factor que se supone debe medir. De esta manera como se demuestra
en (Batista et al., 2004) el análisis factorial confirmatorio AFC es la técnica que permite
demostrar efectivamente validez y fiabilidad en los constructos.
Uno de los principales objetivos de la creación de una estructura factorial es la
reducción de dimensión de los sets de datos en estructuras más simples de variables no
correlacionadas con puntuaciones que representen la varianza total de la estructura.
Es así que mediante estos componentes o factores se puede extraer información de
interés en función de las preguntas que lo componen, por lo que si el nuevo constructo
demuestra validez y fiabilidad el puntaje para las TIC puede ser extraído para cada
estructura factorial, y su evolución en el transcurso del tiempo, así como el pronóstico
de los resultados esperados para los próximos periodos es objeto de estudio del
presente trabajo.

RISTI, N.º E22, 08/2019 401


Análisis temporal y pronóstico del uso de las TIC, a partir del instrumento de evaluación docente

Según (Kourenzes el al., 2014) y (Ord, Fildes y Kourenzes, 2017), las redes neuronales como
metodología de pronóstico poseen poderosas cualidades de aproximación y modelado
autoadaptativo a diferentes tipos de datos, le que les otorga flexibilidad y capacidad de
adaptarse a series temporales de tipo lineal y no lineal. Adicionalmente (Kourenzes el al.,
2014) demostró que combinando modelos ajustados en datos muestreados a diferentes
frecuencias se puede alcanzar mayor precisión de pronóstico en pronósticos de corto,
mediano y largo plazo y se encontró pequeñas diferencias entre el empleo de la media
o la mediana para el pronóstico, así como se expone las ventajas de la combinación
de diferentes modelos para mejorar la precisión y variabilidad de error, sin embargo
una metodología para combinarlos efectivamente no ha sido determinada. En (Crone
y Kourentzes, 2010), se propone una metodología para la especificación automática de
la red neuronal por medio de la variación de los patrones en los datos y frecuencias de
tiempo, además se propone un filtro neuronal iterativo que por medio de envoltorios
crea modelos candidatos para un determinado número de capas ocultas, nodos ocultos
y funciones de activación. Esta metodología automática de modelado MLP demostró
sus capacidades en la competencia de pronóstico ESTP 2008 alcanzando la segunda
posición basada en los bajos resultados de error medio cuadrado MSE obtenidos en
sus predicciones frente a diversas bases de datos, demostrando que una metodología
conducida de manera netamente automática no requiere de la intervención humana
de un experto para especificar su estructura y ejecutarse correctamente. En (Herrera
et al. 2019) se empleó una metodología de pronóstico por redes neuronales multicapa
MLP para ejecutar el pronóstico de demanda de agua embotellada para un pequeño
manufacturador de agua embotellada, donde se verificó inicialmente la descomposición
multiplicativa de la serie temporal para analizar su tendencia, aleatoriedad y
estacionalidad. Posteriormente, se propuso un modelo de pronóstico aplicando una
selección automática de la estructura de la red neuronal. Luego se diseñó una estructura
multicapa mejorada en función de varias etapas experimentales de adición de neuronas
en las capas ocultas del MLP, y finalmente se compararon los resultados obtenidos con
las MLP propuestas y los métodos clásicos de pronóstico, mostrando una considerable
reducción del MSE.

2. Materiales y Métodos
Como se detalló previamente la evaluación del desempeño de los docentes en la Facultad
de Ingeniería en Ciencias Agropecuarias y Ambientales en la Universidad técnica del
norte se ha venido desarrollando una vez por semestre desde el segundo periodo
académico del año 2015. Sin embargo, el instrumento de evaluación con sus preguntas
y componentes ha venido modificándose acorde con la reglamentación vigente y las
necesidades de la institución.
De esta manera las preguntas, así como su estructura factorial ha sufrido diferentes
modificaciones y en el presente trabajo se desea indagar sobre la evolución del uso de
las TIC en el transcurso del tiempo. A demás, teniendo en cuenta que en ninguno de
los periodos se dispuso de un criterio o subcriterio en la estructura factorial encargado
exclusivamente de cuantificar un puntaje referente al uso de las TIC, y se tuvieron

402 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

diversas preguntas relacionadas con este componente de la estructura factorial, se tuvo


que diseñar una nueva estructura factorial para cada periodo y evaluar estadísticamente
su puntaje, validez y fiabilidad.
Las diversas preguntas relacionadas con este factor, que se tuvieron en los diferentes
instrumentos de evaluación empleados en los periodos académicos, se detallan a
continuación:
•• El/La docente utilizó tecnologías de la información y la comunicación TIC en el
proceso de aprendizaje (Internet, aula virtual, proyector, otros)
•• El/La docente interactuó con los estudiantes en el aula virtual y/o el office 365
•• El/La docente en sus clases utilizó recursos de aprendizaje de su autoría como
diapositivas, modelos, esquemas, guías docentes, libros, entre otros
•• EL docente durante el curso recomendó bibliografía actualizada de la biblioteca
virtual o de la biblioteca física para ejecutar actividades de aprendizaje
Teniendo como componentes a los ítems antes detallados, es importante verificar que se
encuentren presentes en cada evaluación para cada periodo, luego se efectuó un análisis
factorial confirmatorio, mediante el cual se verificó que el nuevo componente para las
TIC en la estructura factorial no afecta la validez del instrumento.

2.1. Análisis Factorial Confirmatorio


Inicialmente al ser el Análisis Factorial Confirmatorio (ACF) un test paramétrico, debe
cumplir con los supuestos de aditividad, linealidad, normalidad, homogeneidad y
homocedasticidad. La aditividad hace referencia a que cada diseño experimental posee
un modelo lineal aditivo, donde la varianza de cada observación que pertenece a una
estructura factorial es función de la media poblacional más los efectos de las diferentes
clasificaciones y error residual. Para verificar que se cumpla este supuesto se determinó
el valor de todas las correlaciones bivariadas en todas las variables relevantes. Los
análisis estadísticos para el AFC aplicado se desarrollaron empleando el lenguaje de
programación R por medio de la librería lavaan, previo a un tratamiento de datos para
eliminar los valores atípicos basado en distancias de mahalanobis y cuantiles con un
valor de corte para . Por ejemplo, para el instrumento de evaluación docente
correspondiente al periodo septiembre 2017 – febrero 2018, se obtuvo la matriz de
correlación que se muestra en la figura 1.
Para que se cumpla el supuesto de aditividad se debe verificar que ninguna de las
variables esté perfectamente correlacionada, es por esto que como se visualiza en
la figura 1 ninguna de las correlaciones bivariadas alcanzó un valor de más de 0,9.
Adicionalmente al ser el AFC un test paramétrico los demás supuestos se verificaron con
base en un análisis de falsa regresión, empleando valores aleatorios y estandarizados
generados para cada pregunta mediante la distribución . Una prueba de normalidad
multivariada que es aplicable en el AFC consiste en verificar que los valores obtenidos
para la regresión a partir de los puntajes aleatorios de cada pregunta tengan una
distribución normal. La figura 2 muestra de manera gráfica los resultados obtenidos
mediante un histograma.

RISTI, N.º E22, 08/2019 403


Análisis temporal y pronóstico del uso de las TIC, a partir del instrumento de evaluación docente

Figura 1 – Matriz de correlación bivariada “corrplot”

Figura 2 – Histograma y QQ-Plot de los puntajes estandarizados para cada pregunta obtenidos
por regresión lineal a partir de valores aleatorios

Como se puede visualizar en la figura 2 el supuesto de normalidad multivariada se


aceptó ya que la distribución de los valores estandarizados a partir de la regresión se
ajusta a una distribución normal centrada en cero. Además, el supuesto de linealidad se
aceptó para cada caso ya que como se recomienda en (Jácome et al., 2019) los cuantiles
deben cumplir con una tendencia lineal en un intervalo de -2 a 2 para los puntajes
estandarizados. Finalmente, los supuestos de homogeneidad y homocedasticidad
se verifican por criterio de esfericidad mediante un diagrama de dispersión como se
muestra en la figura 3.
A partir del ejemplo mostrado en la figura 4 para el periodo septiembre 2017 – marzo
2018, se puede aceptar homogeneidad de los datos ya que la mayoría de valores de el
gráfico de dispersión se distribuyen de manera similar en los 4 cuadrantes con ligeros

404 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

problemas en de simetría en los cuadrantes superiores. De la misma manera se acepta


el supuesto de homocedasticidad ya que no se observa patrones ni tendencias de
distribución en los residuos. Una vez verificados los supuestos se procede a evaluar
la estructura factorial que se modifica de manera que presente el componte para las
TIC en el cual se incluirán las preguntas referentes a esa temática en cada una de las
evaluaciones realizadas, por ejemplo para el periodo septiembre 2017 – febrero 2018,
la base de datos estuvo compuesta de 7767 encuestas aplicadas de las cuales 699 fueron
excluidas por ser datos atípicos, y 19 preguntas de las cuales 4 corresponden al uso de
las TIC por lo que la estructura factorial fue modificada como se muestra en la figura 4.

Figura 3 – Scatter plot de los puntajes estandarizados de cada pregunta respecto a los residuos
ajustados para cada observación

Figura 4 – Estructura factorial (Path diagram) de la estructura factorial implementado el


componente TIC

RISTI, N.º E22, 08/2019 405


Análisis temporal y pronóstico del uso de las TIC, a partir del instrumento de evaluación docente

El Análisis Factorial Confirmatorio se puede ejecutar ya que como se detalla en (Batista


et al, 2004) todas las saturaciones entre factores e ítems superan a 0.3 y las correlaciones
entre factores tienen valores que no se acercan a la unidad. Para demostrar validez y
fiabilidad de la estructura propuesta para cada periodo se obtienen los índices de bondad
de ajuste mediante la función fitMeasures del paquete lavaan. Por ejemplo, para el periodo
septiembre 2017 – febrero 2018 se obtuvieron los índices que se detallan en la figura 5.

Figura 5 – Ejemplo de índices de bondad de ajuste para el periodo septiembre 2017 – febrero 2018

El índice de ajuste no normado NNFI (Non Normed Fit Index) así como el índice de
Tucker y Lewis TLI (Tucker-Lewis Index) alcanzaron un valor de 0.921 lo que entra en el
rango de aceptable, el índice comparativo de ajuste CFI (Comparative Fit Index) alcanzó
un valor de 0.42 que está en el rango aceptable bordeando el límite de excelente. En
cuanto a los estadísticos residuales de ajuste se obtuvo un RMSEA (Root Mean Square
Error of Aproximation) de 0.029 y un SRMR de 0.024 valores que se encuentran por
debajo de 0.06 lo que los posiciona en el rango de excelente. De esta manera ante los
índices obtenidos se puede concluir que no existe indicios de invalidez en la estructura
factorial y su fiabilidad queda demostrada.

2.2. Pronóstico por redes neuronales


Una vez validadas las nuevas estructuras factoriales para cada periodo, se obtuvieron
las puntuaciones medias de desempeño de los docentes para cada periodo a partir de
las preguntas que componen al factor TIC en el modelo. Los valores de los puntajes
obtenidos y su calificación a manera de porcentaje se detallan en la tabla 2.

Periodo Puntaje Porcentaje


Septiembre 2015 – Febrero 2016 3.954 79.08
Marzo 2016 – Agosto 2016 3.817 76.34
Septiembre 2016 – Febrero 2017 4.283 85.66
Marzo 2017 – Agosto 2017 4.490 89.8
Septiembre 2017 – Febrero 2018 4.176 83.51
Marzo 2018 – Agosto 2018 4.355 87.09
Septiembre 2018 – Febrero 2019 4.324 86.48

Tabla 2 – Puntajes promedio del desempeño de los docentes en el componente TIC para cada
periodo

406 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Los datos obtenidos para el componente referente al uso de las TIC en la práctica
docente muestran valores en general elevados en la puntuación obtenida permitiendo
entender en primera instancia un amplio uso y aceptación de las TIC en la práctica
docente cotidiana. Sin embargo, como se observa en la figura 6 el comportamiento
de los datos en estos primeros siete periodos de evaluación no es lineal por lo que no
es sencillo inferir directamente su tendencia o valores esperados para los próximos
periodos mediante el uso de métodos de pronóstico estadísticos clásicos. Es por esto
que como siguiente etapa de análisis se realizó un pronóstico para los próximos dos
periodos, que permitirá tener un criterio más sólido respecto a la evolución de esta
variable en el tiempo. Como metodología de pronóstico se seleccionó un pronóstico por
redes neuronales multicapa por encima de métodos estadísticos clásicos como ARIMA y
suavizamiento exponencial (Crone y Kourentzes, 2010), (Lorente et al., 2019), debido a
su buen desempeño y robustez utilizando variables de entrada cuantitativas continuas,
además de su capacidad de adaptación a patrones de series temporales determinísticas,
estocásticas, de simple o múltiple estacionalidad, tendencias, ciclos, entre otros, en
general las redes neuronales son modelos no lineales flexibles que tienen importantes
propiedades para aplicaciones de pronóstico y son capaces de encajar en casos lineales
y no lineales de diferentes formas (Kourentzes, 2014). A continuación, en la figura 6 se
muestra la serie temporal de los puntajes obtenidos en la puntación en cada semestre,
del componente TIC desde mediados del año 2015 hasta mediados del año 2018. Los
cuales constituyen la base de datos o variable de entrada cuantitativa continua, a partir
de la cual se realiza el modelo de pronóstico.

Figura 6 – Serie temporal de los puntajes promedio obtenidos para el componente uso de las TIC
obtenidos a partir de la heteroevaluación docente

El modelo empleado para el pronóstico fue desarrollado en el lenguaje de programación


R iniciando con una descomposición multiplicativa de la serie temporal que permite
visualizar su tendencia, estacionalidad y aleatoriedad. La figura 7 presenta los resultados
de la descomposición multiplicativa de la serie temporal.

RISTI, N.º E22, 08/2019 407


Análisis temporal y pronóstico del uso de las TIC, a partir del instrumento de evaluación docente

Figura 7 – Descomposición multiplicativa de la serie temporal

Como se puede visualizar en la figura 7, la serie temporal tiene una tendencia creciente
que inicia desde el primer periodo del 2016 y posee una estacionalidad que se repite para
cada año iniciando desde el segundo periodo de 2015.

2.3. Diseño de la red neuronal


La siguiente etapa consiste en el diseño de la red neuronal que ejecutará el pronóstico.
Inicialmente empleando el paquete nnfor en RStudio se ejecutó un modelo de red
neuronal con ajuste automático. En (Crone y Kourentzes, 2010), se demostró que a pesar
de la gran variedad de configuraciones y ajustes que se pueden realizar sobre una red
neuronal para aplicaciones de pronóstico, una metodología para el modelado automático
MLP para series temporales con frecuencias de tiempo arbitraria, brinda excelentes
resultados por medio de la ejecución de filtros neurales iterativos para la evaluación
de características que permita detectar automáticamente las frecuencias de la serie
temporal, coberturas embebidas para construcción de características, transformación
de características y selección de características.

Figura 8 – Estructura de la MLP en configuración automática

408 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

De esta manera, mediante la función mlp sin rezagos de diferenciación, y diferenciación


estacional automática, la red neuronal en configuración automática entregó un modelo
multicapa con 5 nodos en una capa oculta, 1 regresor y ejecutada con 20 repeticiones,
la cual entregó un error cuadrático medio de 0.5139. La estructura de la red neuronal
se presenta en la figura 8, si bien el MSE obtenido es aceptable, este se puede
mejorar mediante técnicas de reconfiguración en las capas ocultas de la red neuronal,
reentrenamiento y mejoramiento (Herrera et al. 2019).

3. Resultados y discusión
En la tabla 2 se muestran las pruebas y modificaciones experimentales efectuadas en las
capas ocultas de la red neuronal multicapa se efectúan añadiendo neuronas en la capa
1 hasta el punto donde la reducción del MSE deja de ser considerable, en ese momento
se avanza a modificar la capa 2 añadiendo neuronas y finalmente se procede con la capa
3. Cabe recalcar que la adición de neuronas mejora la precisión de la MLP pero provoca
mayor costo computacional y tiempo de ejecución por lo que se procede hasta que la
disminución del MSE deja de ser considerable, como se muestra en la tabla 3.
Capa oculta 1 Capa oculta 2 Capa oculta 3

Código Nº. de MSE Código de Nº. de MSE Código de Nº. de MSE


entrenamiento neuronas entrenamiento neuronas entrenamiento neuronas

Fit01_1 2 8.8832 Fit02_1 1 0.0503 Fit03_1 1 0.0176


Fit01_2 2 8.4191 Fit02_2 2 0.0308 Fit03_2 2 0.0070
Fit01_3 3 7.9281 Fit02_3 3 0.0218 Fit03_3 3 0.0056
Fit01_4 4 0.1561 Fit02_4 4 0.0288 Fit03_4 4 0.0028
Fit01_5 5 0.1268 Fit02_5 5 0.0227 Fit03_5 5 0.0028
Fit01_6 6 0.0667 Fit02_6 6 0.0164 Fit03_6 6 0.0017
Fit01_7 7 0.0976 Fit02_7 7 0.0188 Fit03_7 7 0.0017
Fit01_8 8 0.0949 Fit02_8 8 0.0179 Fit03_8 8 0.0009
Fit01_9 9 0.0673 Fit02_9 9 0.0210 Fit03_9 9 0.0008
Fit01_10 10 0.0560 Fit02_10 10 0.0176 Fit03_10 10 0.0007
Fit01_11 11 0.0618 Fit02_11 11 0.0248 Fit03_11 11 0,0003
Fit01_12 12 0.0639 Fit02_12 12 0.0284 Fit03_12 12 0,0006

Tabla 3 – Experimentos para mejorar la configuración de las capas ocultas

De los experimentos efectuados mediante la adición de neuronas en las capas ocultas se


logró una reducción del MSE hasta , con un modelo de 3 capas ocultas con 10, 10
y 11 neuronas respectivamente con retrasos univariados cada 2 periodos y ejecutada con
200 repeticiones. Una vez alcanzada esta estructura mejorada, se procede a reentrenar
a la red durante 7 etapas con 20 repeticiones cada una. Los resultados de la etapa de
reentrenamiento se muestran en la tabla 4.

RISTI, N.º E22, 08/2019 409


Análisis temporal y pronóstico del uso de las TIC, a partir del instrumento de evaluación docente

Etapa Fit 1 Fit 2 Fit 3 Fit 4 Fit 5 Fit 6 Fit 7


MSE 0.0003 0.0003 0.0006 0.0001 0.0002 0.0005 0.0005

Tabla 4 – Etapas de reentrenamiento de la red neuronal multicapa

Finalmente la estructura de la red neuronal del modelo Fit_4 obtuvo un MSE de


y su estructura así como el pronóstico para los 2 próximos periodos y su serie temporal
se muestran en las figuras 9 y 10.

Figura 9 – Estructura del perceptrón multicapa MLP reentrenado empleado para el pronóstico

Figura 10 – Serie temporal obtenida para el uso de las TIC incorporado el pronóstico para los
periodos marzo 2019 - agosto 2019 y septiembre 2019 – febrero 2020

Finalmente, los valores del pronóstico correspondientes a los puntajes en el uso de las
TIC por parte de los docentes y sus correspondientes porcentajes se detallan en la tabla 5.

Periodo Puntaje Porcentaje


Marzo 2019 - Agosto 2019 4.691 93.82
Septiembre 2019 – Febrero 2020 4.767 95.34

Tabla 5 – Pronóstico de puntajes promedio del desempeño de los docentes en el componente TIC
para los próximos periodos académicos

410 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

3. Conclusiones
La construcción de una estructura factorial permite reducir la dimensionalidad de un
constructo ya sea en componentes principales PCA o factores AFE dependiendo del caso.
En el caso del instrumento de evaluación docente de la UTN se aplicó una estructura de
factores ya que a partir de estos se diseñan las preguntas que compondrán al constructo.
Sin embargo, al disponer de las bases de datos con las respuestas completas de cada una
de las más de 7000 encuestas obtenidas en cada periodo se pueden proponer nuevas
estructuras factoriales que permitan extraer nuevos componentes que sean de interés en
la investigación, o incluso sugerir modificaciones para que el constructo existente vaya
mejorando, lo que se puede verificar a través de sus fit índices.
En este caso de estudio se diseñaron nuevas estructuras factoriales para cada periodo
que permitieron emplear un nuevo constructo que incorpore el componente de las TIC,
demostrando que esto no afecta la validez ni la fiabilidad del instrumento, y permitiendo
extraer los puntajes para el uso de las TIC en cada periodo.
Una vez obtenidas las puntuaciones promedio de los promedios de las puntuaciones de
los docentes de la FICAYA en el uso de las TIC, se creó una serie temporal que, mediante
su descomposición multiplicativa, permitió analizar su estacionalidad, aleatoriedad y
tendencia. El objetivo principal de la presente investigación fue verificar la tendencia de
la puntuación de uso de las TIC que los docentes obtuvieron en el transcurso del tiempo
para las evaluaciones realizadas, notándose una tendencia creciente que se ha ratificado
incluso mediante un pronóstico por redes neuronales multicapa de los puntajes que se
esperan para los próximos dos periodos donde se obtuvieron valores de 93.82 y 95.34
respectivamente con un MSE de o.0001 lo que permite inferir que la tendencia de
crecimiento de este puntaje se mantendrá en los próximos periodos.
Finalmente, se puede concluir que la implementación y uso de las TIC en la práctica
docente en la UTN ha mejorado y mantiene su tendencia creciente guardando estrecha
relación con la implementación del sistema de evaluación docente, ya que en la serie
temporal inicialmente se presentaba una tendencia decreciente que pasó a convertirse
en creciente a partir de la implementación de dicho sistema.

Referencias
A. Jácome, J. Caraguay y J. García, «Portafolio electrónico integrado, gestor de evidencias
para cumplimiento de indicadores de calidad,» de Sexta Conferencia de Directores
de Tecnología de Información, TICAL2016, Buenos Aires, 2016.
U. T. d. Norte, «Reglamento de evaluación integral de desempeño del personal académico
de la UTN,» Ibarra, 2015.
M. Toland y R. De Ayala, «A MULTILEVEL FACTOR ANALYSIS OF STUDENTS’
EVALUATIONS OF TEACHING,» Educational and Psychological Measurement,
vol. 65, nº 2, pp. 272 - 296, 2005.
A. Zambrano y E. Gutiérrez, «Análisis multivariado de la evaluación docente estudiantil.
Un caso de estudio,» Comunicaciones en Estadística, vol. 11, nº 1, pp. 129 - 150,
2018.

RISTI, N.º E22, 08/2019 411


Análisis temporal y pronóstico del uso de las TIC, a partir del instrumento de evaluación docente

M. Martínez, J. Carot, J. Jabaloyes y M. Zarzo, «A multivariate method for analyzing and


improving the use of student evaluation of teaching ques-tionnaires: a case study,»
Qual Quant (2011) Springer Science+Business Media B.V. , nº 45, pp. 1415 - 1427,
2010.
J. Batista, G. Coenders y J. Alonso, «Análisis Factorial Confirmatorio. Su utilidad en
validación de cuestionarios relacionados con la salud,» Med. Clin., vol. 1, nº 122,
pp. 21 - 27, 2004.
Ord K., Fildes R., Kourentzes N. (2017) Principles of Business Forecasting 2e. Wessex
Press Publishing Co., Chapter 10.
Kourentzes N., Barrow B.K., Crone S.F. (2014) Neural network ensemble operators for
time series forecasting. Expert Systems with Applications, 41(9), 4235-4244.
Kourentzes, N., Petropoulos, F., Trapero, J. R., 2014. Improving forecasting by estimating
time series structural components across multiple frequencies. International
Journal of Forecasting 30 (2), 291–302.
Crone S.F., Kourentzes N. (2010) Feature selection for time series prediction – A
combined filter and wrapper approach for neural networks. Neurocomputing,
73(10), 1923-1936.
Herrera I., Chicaiza J., Herrera E., Lorente L., Caraguay J., Santillán I. & Peluffo D.
(2019), Artificial Neural Networks for Bottled Water Demand Forecasting: A Small
Business Case Study. Advances in Computational Intelligence. Springer cham.
DOI: 10.1007/978-3-030-20518-8_31
Lorente L., Pavón J., Montero Y., Herrera I., Herrera E., Peluffo & D. (2019), Artificial
Neural Networks for Urban Water Demand Forecasting: A Case Study. Journal of
Physics Conference Series DOI: 10.1088/1742-6596/1284/1/012004

412 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 24/03/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 29/06/2019

Factores determinantes de la retención universitaria:


Un caso de estudio en el Ecuador a partir del modelo
de Tinto

Alban Mayra1, Veloz Marco2, Vizcaíno Gloria3

[Link]@[Link], [Link]@[Link], [Link]@[Link]

1
Universidad Técnica de Cotopaxi,050150, Latacunga, Ecuador
Pages: 413–424

Resumen: La deserción estudiantil en las universidades ecuatorianas se ha


convertido en la última década en un problemática que genera efectos negativos
que afectan a las universidades y al alumno. Determinar mecanismos que permitan
el incremento de las tasas de retención de los estudiantes universitarios se ha
convertido en un reto para los administradores de las instituciones de educación
superior. El objetivo de la presente investigación es medir el impacto que tienen
los factores identificados en la retención estudiantil universitaria a través de la
evaluación del nivel de rendimiento académico como variable dependiente. Se utilizó
el método de regresión lineal a través mínimos cuadrados ordinarios, los datos se
obtuvieron mediante una encuesta en línea a 288 estudiantes de una universidad
pública del Ecuador. Los resultados obtenidos permiten identificar 7 factores que
influyen positivamente y negativamente en la retención de los estudiantes en las
universidades.
Palabras-clave: retención de estudiantes; regresión lineal; mínimos cuadrados
ordinarios.

Determinants of university retention: A case study in Ecuador

Abstract: Student desertion in Ecuadorian universities has become in the last


decade a problem that generates negative effects that affect the universities and the
student specifically. Determining mechanisms that allow the increase of retention
rates of university students has become a challenge for administrators of higher
education institutions. The objective of this research is to measure the impact of
the factors identified in the university student retention through the evaluation
of the level of academic performance as a dependent variable. We used the linear
regression method through ordinary least squares, the data was obtained through
an online survey of 288 students from a public university in Ecuador. The results
obtained allow identifying 7 factors that positively and negatively influence the
retention of students in universities.
Keywords: student retention; linear regression; ordinary least squares.

RISTI, N.º E22, 08/2019 413


Factores determinantes de la retención universitaria: Un caso de estudio en el Ecuador a partir del modelo de Tinto

1. Introducción
Los cambios económicos en los sectores de la producción de bienes disminuyen su
prevalencia en relación al sector de servicios, dado que su expansión basada en el
conocimiento demandan de una mayor cualificación académica y profesional (Drucker,
2002), siendo éste uno de los factores clave en el amplio crecimiento de la educación
superior en el mundo y particularmente en América Latina, en el que se registra un
crecimiento importante de la matrícula en la educación terciaria. Este crecimiento
de matrícula también genera una serie de dificultades y limitaciones al interior de
las Instituciones de Educación Superior (IES). Siendo la permanencia o retención
estudiantil un fenómeno presente en las IES, que ha tenido gran interés de estudio y que
ha sido considerado como un fenómeno multicausal en el que se desenvuelven una serie
de factores personales e institucionales (Bethencourt, J.T., Cabrera, L. Hernández, J.A.,
Álvarez, P., & González, M, 2008).
La permanencia estudiantil universitaria es una problemática compleja que se deriva de
un conjunto de factores cuyo origen es variado. Hasta el momento, los estudios sobre
tal problemática dan cuenta de varios modelos predictivos con variables que podrían
interrelacionarse, como los modelos de Spady (1970), Astin (1984), Ethington (1990),
Pascarella y Terenzini (1991), Tinto (1975, 1993, 2014). Siendo el modelo de Vicent Tinto
el de mayor aceptación alcanzada en la comunidad académica y a partir del cual varios
estudios se han realizado. En general, el Modelo de Tinto sugiere que la permanencia
de un estudiante en la institución educativa está mediada por el grado de integración
académica y social alcanzado con sus pares y con la institución. En otras palabras, Tinto
propone que en dependencia del tejido social y académico que el estudiante haya logrado
con su entorno y por tanto con los agentes institucionales como profesores, alumnos,
actividades extracurriculares, éste definirá su permanencia o no en la institución.
La retención estudiantil universitaria cobra importancia en el contexto de educación
superior, debido a la necesidad de las instituciones y los alumnos de terminar con
éxito los programas de educación terciarios en el tiempo oficial de estudios (Báez,
2011). Sin embargo, a pesar de que en la literatura existe diversas investigaciones para
tratar de solucionar el problema de la deserción, existen limitadas investigaciones que
indaguen procesos de retención basados en vivencias de los estudiantes que son los
actores principales (Báez, 2009). Así como también se puede señalar que al igual que
en la deserción estudiantil universitaria no existe un consenso en la literatura respecto
a la definición de la retención y su manera de medirla (canales, 2009). Por esta razón
se considera importante analizar el nivel de impacto de las factores identificados en la
retención de los estudiantes universitarios a través de un caso de estudia aplicado a 288
estudiantes de una universidad pública en el Ecuador, con la finalidad de obtener una
herramienta de ayuda que permita a los administradores de las universidades establecer
estrategias y políticas que permitan el incremento de las tasas de retención universitaria.
El documento se encuentra organizado en cuatro secciones, la sección 2 muestra
el método aplicado para el proceso experimental de la investigación, en la sección 3
se presenta los resultados y finalmente en la sección 4 se presentan las conclusiones
del estudio.

414 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

2. Metodología de Investigación
En esta etapa se presenta el método utilizado para el desarrollo del proceso experimental
de la investigación, que consta de:
a. Conjunto de datos a través de una encuesta aplicada a estudiantes universitarios.
b. Analítica descriptiva de la población
c. Modelado de los datos a través de la técnica regresión lineal mediante mínimos
cuadrados ordinarios.

2.1. Conjunto de datos


Para la obtención de los datos se aplicó una encuesta a 288 estudiantes de las carreras
de ciencias humanas y ciencias técnicas de una universidad pública del Ecuador, que
tuvo como objetivo determinar factores de retención estudiantil. La encuesta estuvo
distribuida en cuatro secciones, la primera a conocer las características demográficas
de los estudiantes encuestados, la segunda sección elaborada para conocer datos
sobre temas de discapacidad de estudiantes, la tercera sección para conocer factores
de retención estudiantil y la última sección para obtener preguntas que contribuyan al
estudio.
La encuesta estaba distribuida con preguntas elaboradas a través de la escala de Likert
en un rango de 1 a 5, en donde 1 es considerado como el menor valor de la escala y 5 el
máximo valor.

2.2. Analítica descriptiva de la población


Los estudiantes que contestaron la encuesta corresponden a las carreras de Diseño
Gráfico 12,85%, Sistemas de Información 70,83%, Electricidad 0,35%, Pedagogía de los
Idiomas 15,97%. La población de género masculino encuestada corresponde a 59.38%
mientras que la población femenina corresponde al 40.62%. Las edades con mayor
porcentaje están en un rango de 17-21 años con el 48,96 % y los de 22-26 años con el
51,04 %.
Por otro lado, se puede identificar que la mayoría de los estudiantes provienen de colegios
fiscales con un 76,74% y un 10,76% que provienen de colegios particulares y el 12.5
restante de colegios fiscomisionales. Respecto al estado civil de los alumnos se identifica
que el 85,76% son solteros y el un 5,90% son casados, un 8,34% viven en unión libre.
Respecto a la etnia, los estudiantes que se identificaron como mestizos corresponden al
88,89%, mientras que el 6,25% se identificaron como indígenas y el 4.86 se identificó
con etnia montubio. Con relación a datos de discapacidad se pudo identificar que el
96,18 % de los estudiantes que completaron la encuesta señalaron no tener problemas
de discapacidad, mientras que el 3,82% señalan presentar discapacidad.

3. Resultados y Discusión
En esta etapa se presenta los resultados del proceso de investigación, el cual consta de
las siguientes etapas:

RISTI, N.º E22, 08/2019 415


Factores determinantes de la retención universitaria: Un caso de estudio en el Ecuador a partir del modelo de Tinto

a. Análisis de fiabilidad de la encuesta


b. Modelado de los datos y discusión de los resultados

3.1. Análisis de fiabilidad de la encuesta


Se procede a determinar a través del estadístico Alfa de Cronbach el análisis de fiabilidad
del instrumento aplicado. Este proceso fue realizado con el objetivo de determinar la
validez y precisión de las preguntas planteadas, los resultados del proceso realizado a
través del software SPSS se presentan en la Tabla 1.

Alfa de Cronbach Alfa de Cronbach basada en los Número de elementos


elementos tipificados
,899 ,910 37

Tabla 1 – Estadísticos de fiabilidad

Como se puede evidenciar en la Tabla 1, el resultado obtenido corresponde 0,899, lo que


indica que el instrumento utilizado presenta un alto grado de confiabilidad o fiabilidad
de los datos.

3.2. Modelado de los datos

3.2.1. Codificación de las variables


Los factores analizados para el proceso de investigación se presentan en la Tabla 2, las
cuales servirán como variables de ingreso al modelo de regresión lineal.

Cod Factor
V26 Nivel de satisfacción con la educación universitaria recibida
V29 Experiencia académica adquirida en la educación media
V36 Actitud del docente con el estudiante
V41 Nivel de integración social con el grupo de estudiantes
V43 Satisfacción con mecanismos de motivación estudiantil
V49 Actitud de seguridad respecto al grupo
V51 Pertinencia con la universidad

Tabla 2 – Descripción de los factores

3.2.2. Estimación de las variables


Es un método de estimación muy utilizado cuando se realiza un ajuste del modelo de
regresión lineal simple, permite obtener un hiperplano para poder minimizar la suma
de los cuadrados de las distancias entre las observaciones de la variable y el mismo
hiperplano (residuos). Además, de que este método permite sumar las distancias al cuadro
y define como otro supuesto razonable que es arbitrario cuando se trata de acumular las
distancias que deben ser manejadas y entendidas (Chirivella Gonzáles 2019).

416 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

El método de ajuste por mínimos cuadrados o regresión lineal permite obtener la


pendiente de la recta y la ordenada del origen, correspondientes a la recta y=ax+b que
mejor se ajusta a los n datos (xi, yi) es decir, permite establecer una relación funcional entre
dos variables; donde (x) es la variable independiente y, (y) es la variable dependiente. En
otras palabras (y) depende de (x) (Catarina 2006), ver Tabla 3.

Variable Coefficient Std. Error t-Statistic Prob.


V26 0.229385 0.064203 3.572806 0.0004
V1 -0.010153 0.075786 -0.133964 0.8936
V18 -0.000124 0.018478 -0.006715 0.9946
V27 0.005307 0.063166 0.084012 0.9331
V28 0.034645 0.032200 1.075940 0.2831
V29 0.098684 0.032460 3.040163 0.0026
V31 -0.071265 0.048732 -1.462370 0.1450
V32 0.070217 0.045295 1.550216 0.1225
V34 0.040511 0.049203 0.823327 0.4112
V35 0.056608 0.061897 0.914552 0.3614
V36 -0.108561 0.053321 -2.035986 0.0429
V37 0.017577 0.060821 0.288998 0.7728
V38 0.041612 0.044716 0.930600 0.3531
V39 0.002584 0.052487 0.049239 0.9608
V40 -0.000763 0.061679 -0.012371 0.9901
V41 -0.163962 0.049597 -3.305909 0.0011
V42 0.085383 0.080178 1.064923 0.2881
V43 0.162834 0.065196 2.497607 0.0132
V44 0.051155 0.053335 0.959123 0.3385
V45 0.012749 0.066843 0.190728 0.8489
V46 -0.034052 0.048474 -0.702490 0.4831
V47 0.013287 0.033113 0.401264 0.6886
V48 0.027776 0.041299 0.672558 0.5019
V49 0.180535 0.050646 3.564645 0.0004
V50 -0.003144 0.045525 -0.069066 0.9450
V51 -0.157935 0.061855 -2.553328 0.0113
V52 0.000999 0.046389 0.021546 0.9828
V53 -0.026346 0.027741 -0.949706 0.3433
V54 -0.024217 0.053973 -0.448689 0.6541
V55 0.013158 0.036100 0.364488 0.7158
V57 0.057369 0.051833 1.106807 0.2696
C 1.291498 0.391661 3.297490 0.0011

RISTI, N.º E22, 08/2019 417


Factores determinantes de la retención universitaria: Un caso de estudio en el Ecuador a partir del modelo de Tinto

Variable Coefficient Std. Error t-Statistic Prob.


R-squared 0.439924 Mean dependent var 3.701550
Adjusted R-squared 0.360269 S.D. dependent var 0.660207
S.E. of regression 0.528054 Akaike info criterion 1.679720
Sum squared resid 62.73934 Schwarz criterion 2.134168
Log likelihood -183.6839 Hannan-Quinn criter. 1.862456
F-statistic 5.522855 Durbin-Watson stat 1.962405
Prob(F-statistic) 0.000000

Tabla 3 – Modelo inicial a través Regresión lineal

Hurtado (2016) menciona que el método de mínimos cuadrados se aplica para ajustar
rectas a una serie de datos presentados como punto en el plano. En la tabla 3 se presenta
el resultado del proceso de estimación de las variables. Se utilizó el factor rendimiento
académico (V30) como variable dependiente, mientras que los factores satisfacción
con la educación universitaria recibida (V26), experiencia académica adquirida en
la educación media (V29), actitud del docente con el estudiante (V36), integración
social (V41), satisfacción con mecanismos de motivación estudiantil (V43), actitud de
seguridad respecto al grupo de compañeros (V49), pertinencia con la universidad (V51)
corresponden a las variables independientes.

3.2.3. Comprobación del modelo

Dependent Variable: V30


Method: Least Squares
Date: 07/02/19 Time: 13:08
Sample: 1 279
Included observations: 272
Variable Coefficient Std. Error t-Statistic Prob.  
V26 0.281497 0.048032 5.860599 0.0000
V29 0.108030 0.028384 3.806053 0.0002
V36 -0.025837 0.042362 -0.609920 0.0429
V41 -0.127460 0.038652 -3.297636 0.0011
V43 0.229691 0.049307 4.658418 0.0000
V49 0.190973 0.034395 5.552404 0.0000
V51 -0.085055 0.045688 -1.861645 0.0638
C 1.518677 0.216723 7.007470 0.0000
R-squared 0.406553     Mean dependent var 3.691176
Adjusted R-squared 0.390818     S.D. dependent var 0.665599
S.E. of regression 0.519501     Akaike info criterion 1.557073

418 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Dependent Variable: V30


Method: Least Squares
Date: 07/02/19 Time: 13:08
Sample: 1 279
Included observations: 272
Sum squared resid 71.24853     Schwarz criterion 1.663126
Log likelihood -203.7619     Hannan-Quinn criter. 1.599649
F-statistic 25.83696     Durbin-Watson stat 1.960612
Prob(F-statistic) 0.000000

En la Tabla 4, se presenta el resultado del modelo de ajuste en el cual se eliminan


las variables que no son estadísticamente significativas. Como se puede observar
el resultado del corrido del modelo a través del software Eviews determina que las
variables más significativas corresponden a V26, V29, V36, V41, V43, V49, V51 con un
nivel de significancia de [Link] (prob)< 0.005.
Como se puede observar la Figura 1, presenta los residuos del modelo que presentan una
distribución normal, lo que da mayor validez al modelo propuesto.

Figura 1 – Residuos del modelo propuesto

Supuesto de Normalidad de los datos


A través del Test Jarque-Bera basada en la asimetría clásica y el coeficiente de kurtosis
(Gel, 2008), permite establecer la bondad de ajuste de los datos para determinar que
los mismos pertenecen a una distribución normal, tal como se muestra en la Figura 2.

RISTI, N.º E22, 08/2019 419


Factores determinantes de la retención universitaria: Un caso de estudio en el Ecuador a partir del modelo de Tinto

Figura 2 – Resultados del Test de normalidad de los datos

Supuesto de Heterocedasticidad
En esta etapa del procesamiento de datos se aplica el Test de Breusch Pagan Godfrey, que
permite determinar si los datos son homogéneos a través de determinar la regresión de
los residuos cuadrados en los regresores por defecto considerando la siguiente ecuación:
Variable Dependiente = Resid ^2 y los regresores las v26 v29 v36 v41 v43 v49 v51 c. Las
hipótesis planteadas fueron consideradas bajo las siguientes opciones:
Ho= no existe heterocedasticidadad
H1= existe heterocedasticidadad
Como se puede observar en la Tabla 4, el valor de R-squared corresponde a 0.032, el
número de observaciones igual a 272 y el valor de F corresponde a 9.068. Entonces:
0.032*272 < 9.068, en donde 8,7004 < 9.068
Con base a los resultados obtenidos en donde 8,7004 < 9.068, se acepta la Ho y se
rechaza la H1, es decir, el proceso experimental permitió determinar que no existe
heterocedasticidad en los datos presentados.

Heteroskedasticity Test: Breusch-Pagan-Godfrey


F-statistic 1.300809     Prob. F(7,264) 0.2500
Obs*R-squared 9.068800     Prob. Chi-Square(7) 0.2478
Scaled explained SS 8.802737     Prob. Chi-Square(7) 0.2671
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares

420 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Date: 07/02/19 Time: 13:26


Sample: 1 279
Included observations: 272
Variable Coefficient Std. Error t-Statistic Prob.  
C 0.501812 0.156552 3.205405 0.0015
V26 -0.012656 0.034697 -0.364764 0.7156
V29 -0.024387 0.020503 -1.189437 0.2353
V36 -0.026085 0.030601 -0.852448 0.3947
V41 0.000191 0.027921 0.006855 0.9945
V43 0.004500 0.035617 0.126330 0.8996
V49 0.048126 0.024845 1.937034 0.0538
V51 -0.045834 0.033003 -1.388770 0.1661
R-squared 0.033341 Mean dependent var 0.261943
Adjusted R-squared 0.007710 S.D. dependent var 0.376722
S.E. of regression 0.375267 Akaike info criterion 0.906611
Sum squared resid 37.17782 Schwarz criterion 1.012664
Log likelihood -115.2991 Hannan-Quinn criter. 0.949188
F-statistic 1.300809 Durbin-Watson stat 2.042140
Prob(F-statistic) 0.250050

Tabla 5 – Resultado del supuesto de heterocedasticidad

3.2.4. Explotación o Interpretación de los datos


Los resultados del modelo final se presentan en las ecuaciones (1) y (2) respectivamente.
El comando de estimación corresponde a: LS V30, V26, V29, V36, V41, V49, V51 C.
Estimación de la ecuación:
V30 = C(1)*V26 + C(2)*V29 + C(3)*V36 + C(4)*V41 + C(5)*V43 + C(6)*V49 + C(7)*V51
+ C(8) (1)
Peso de los coeficientes:
V30 = 0.281497082121*V26 + 0.108030349162*V29 - 0.025837411498*V36 -
0.127459745194*V41 + 0.229690923038*V43 + 0.190973144777*V49 -
0.0850550333712*V51 + 1.51867703932 (2)
Como se puede evidenciar en la formula (2) los valores de β son estadísticamente
significativos dentro del modelo, muestran en muchos casos el impacto positivo
o negativo de la variable rendimiento académico, tal como se pude comprobar en
la Grafica 3, en donde la nube de puntos los factores identificados resultado de la
aplicación de los instrumentos determina el comportamiento directo e indirecto de
cada una de los factores.

RISTI, N.º E22, 08/2019 421


Factores determinantes de la retención universitaria: Un caso de estudio en el Ecuador a partir del modelo de Tinto

Figura 2 – Resultados aplicación de mínimos cuadrados

Los resultados permiten evidenciar que los factores V26, V29, V36 y V51 tienen una
relación inversa como se puede visualizar en la gráfica y en los coeficientes β. Lo que
indica que a menor satisfacción del alumno con la educación recibida en la universidad,
una menor experiencia académica adquirida en la educación secundaria, un disminución
en el compromiso del docente con los estudiantes y una disminución en la pertinencia
del alumno hacia su institución de formación universitaria, conlleva a la disminución del
rendimiento académico y como resultado se obtendría una disminución en la permanencia

422 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

de los alumnos en las universidades. Por el contrario los valores de β de signo positivo
para las variables V41, V43 y V49 podría ser interpretados como el incremento de la
integración social del alumno con su grupo de compañeros, el incremento del nivel de
satisfacción respecto a los mecanismos implementados por la universidad para que el
alumno se sienta motivado y un en la actitud de seguridad del alumno para expresarse
frente a sus compañeros podría aumentar el rendimiento académico del alumno y por lo
tanto la permanencia estudiantil.

4. Conclusiones
La retención de los estudiantes debería ser considerada como un elemento de prioridad
en las instituciones de Educación Superior, debido a que a permanencia estudiantil
universitaria es una problemática compleja que se deriva de un conjunto de factores
cuyo origen es variado. Del proceso de análisis se puede concluir que la base de datos
puede estar sujeta a criterios de subjetividad. Sin embargo al aplicar Alpha de Cronbach
se puede establecer el nivel de validez y confianza de la recolección y procesamiento de
la información. La regresión lineal a través de mínimos cuadrados permite determinar
el impacto que existe entre la variable explicada (rendimiento académico) y las variables
explicativas (V26, V29, V36, V41, V43, V49, V51), por lo que se puede asumir mediante la
estadística y econometría que la teoría de Tinto tiene un razonamiento lógico en este tipo
de estudios. De igual manera, se pudo establecer que los factores nivel de satisfacción
con la educación universitaria recibida (V26), experiencia académica adquirida en
la educación media (V29), actitud del docente con el estudiante (V36), integración
social (V41), satisfacción con mecanismos de motivación estudiantil (V43), actitud de
seguridad respecto al grupo de compañeros V(49), pertinencia con la universidad (V51)
fueron las variables estadísticamente significativas, lo que indica que influyen positiva y
negativamente en la permanencia estudiantil.

Referencias
Acosta, Carina. 2016. “La Deserción Universitaria Bordea El 40%.” Retrieved June
28, 2019 ([Link]
universitaria-bordea-el-40).
Astin, H. S. (1984). The Meaning of Work in Women’s Lives A Sociopsychological Model
of Career Choice and Work Behavior. The counseling psychologist, 12(4), 117–126.
Báez, C. P., & Ortiz, A. P. (2009). Programas exitosos de retención estudiantil
universitaria: las vivencias de los estudiantes. Revista Virtual Universidad Católica
del Norte, (28), 1–30.
Báez, C. P., Ortiz, A. P., & Moreno, I. D. (2011). Efectividad de las estrategias de retención
universitaria: la función del docente. Educación y educadores, 14(1), 7.
Bethencourt J.T., Cabrera, L. Hernández, J.A., Álvarez, P., & González, M. (2008).
Variables psicológicas y educativas en el abandono universitario. Revista electrónica
de Investigación Psicoeducativa, 6(3), 603–622

RISTI, N.º E22, 08/2019 423


Factores determinantes de la retención universitaria: Un caso de estudio en el Ecuador a partir del modelo de Tinto

Carvajal, Rosa Arancibia, Carmen Trigueros Cervantes, Rosa Arancibia Carvajal, and
Carmen Trigueros Cervantes. 2017. “Aproximaciones a La Deserción Universitaria
En Chile.” Educação e Pesquisa 44(0).
Canales, A., & De los Ríos, D. (2009). Retención de estudiantes vulnerables en la
educación universitaria. Calidad en la Educación, (30), 50–83.
Catarina, Ivonne. 2006. “Método de Los Mínimos Cuadrados Ordinarios.” Universidad
de La Américas Puebla 1:41–44.
Chirivella Gonzáles, Vicente. 2019. “Hipótesis En El Modelo de Regresión Lineal Por
Mínimos Cuadrados Ordinarios.” Univeridad Politécnica de Valencia 8.
Climent Hernández, José Antonio, Luis Fernando Hoyos Reyes, and Marissa Rosario
Martínez Preece. 2017. “Formulación de Un Modelo Híbrido Alfa-Estable Para
Mercados Con Operación de Alta Frecuencia.” Contaduría y Administración
63(4):58.
Drucker, P. (2012). Managing in the next society. Routledge.
Ethington, C. A. (1990). A psychological model of student persistence.  Research in
higher education, 31(3), 279–293.
Gel, Y. R., & Gastwirth, J. L. (2008). A robust modification of the Jarque–Bera test of
normality. Economics Letters, 99(1), 30–32.
Heredia Alarcón, Manuel, Marcelino Andía Ticona, Helder Ocampo Guabloche, José
Ramos Castillo, Amado Rodríguez Caldas, Catalina Tenorio, and Karim Pardo Ruiz.
2015. “Deserción Estudiantil En Las Carreras de Ciencias de La Salud En El Perú.”
Anales de La Facultad de Medicina 76:57.
Hurtado Crúz, Esteban Rubén. 2016. “El Método de Mínimos Cuadrados.” Facultad de
Ciencias UMAN 1:2–5.
Londoño Ardila, Luis Felipe. 2013. “Factores de Riesgo Presentes En La Deserción
Estudiantil En La Corporación Universitaria Lasallista Risk.” Revista Virtual
Universidad Católica Del Norte 38:183–94.
Novales, Alfonso. 2010. “Análisis de Regresión.” Universidad Complutense.
Pascarella, E. T., & Terenzini, P. T. (1983). Predicting voluntary freshman year
persistence/withdrawal behavior in a residential university: A path analytic
validation of Tinto’s model. Journal of educational psychology, 75(2), 215.
Spady, W. G. (1971). Dropouts from higher education: Toward an empirical
model. Interchange, 2(3), [Link], V., & Pusser, B. (2006). Moving from theory
to action: Building a model of institutional action for student success.  National
Postsecondary Education Cooperative, 1–51.

424 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 20/04/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 17/07/2019

Personalización de algoritmo para auditar base de


datos en Instituciones de Educación Superior

Henry Recalde1, Paúl Francisco Baldeón Egas1, Miguel Alfredo Gaibor Saltos1, Renato
Toasa1

hrecalde@[Link], pbaldeon@[Link], canciller@[Link], rtoasa@uisrael.


[Link]

1
Universidad Tecnológica Israel
Pages: 425–436

Resumen: Entre los principales problemas que enfrentan los sistemas académicos
en Instituciones de Educación Superior (IES) está la seguridad de información, los
procesos que se llevan a cabo generan datos sensibles y en muchos casos, estos
sistemas carecen de una correcta auditoría de eventos en sus registros. Existen
soluciones para realizar auditoría, pero permiten una implementación genérica,
que no es muy clara al momento de hacer un control de cambios. En este trabajo
proponemos el desarrollo de un algoritmo personalizado para recolectar datos
relevantes y generar tablas logs, para posteriormente, auditar y mostrar cambios
que se generan con los registros de la tabla. La ejecución del algoritmo fue muy
satisfactoria, se generaron tablas log que muestran información completa de
cambios en un registro de la tabla o tablas seleccionadas. Con esta información
los administradores del sistema, toman oportunamente decisiones evitando que la
información sea alterada, garantizando la integridad de la misma.
Palabras-clave: Institución de Educación Superior; auditoria; algoritmo
personalizado; log; información

Temporal analysis and forecast of the ICT use, employing teaching


evaluation data of a Higher Education Institution

Abstract: Among the main problems faced by academic systems in Higher


Education Institutions (HEI) is information security, the processes carried out
generate sensitive data and in many cases, these systems lack a correct audit of
events in their records. There are solutions for auditing, but they allow a generic
implementation, which is not very clear at the time of making a change control. In
this work we propose the development of a customized algorithm to collect relevant
data and generate logs tables, to later audit and show changes that are generated
with the records of the table. The execution of the algorithm was very satisfactory,
log tables were generated that show complete information of changes in a record of
the selected table or tables. With this information, the system administrators make
timely decisions avoiding that the information is altered, guaranteeing its integrity.

RISTI, N.º E22, 08/2019 425


Personalización de algoritmo para auditar base de datos en Instituciones de Educación Superior

Keywords: Higher Education Institution; audit; personalized algorithm; log;


information.

1. Introducción
La auditoría de Base de Datos (BDD) es un factor muy importante en la mayoría de los
sistemas que utilizan las empresas del mundo, indiferentemente del área de negocio en
el que se encuentren, la información que se almacena es sustancial y la mayoría de veces
es crítica, que al ser afectada puede ocasionar que la empresa deje de funcionar de forma
correcta (Orman, 2001). Con el gran avance tecnológico en el área de las BDD, se crearon
poderosas herramientas para gestionar y controlar grandes cantidades de información,
pero también crecieron las vulnerabilidades, que al no ser controladas pueden ocasionar
grandes pérdidas para las empresas.
La auditoría, en cualquier área de negocio, es una herramienta muy importante que
permite identificar los riesgos o problemas presentados en una entidad, y a su vez,
permite dar una pronta solución a los problemas encontrados. En el ámbito educativo,
específicamente en las IES, poco se conoce de auditorías enfocadas en el área académica
que evidencian las fallas en la gestión y el proceso enseñanza–aprendizaje (Méndez-
Aguirre & Oliveros-Vargas, 2016).
La mayoría de sistemas de auditoría se han enfocado principalmente en sistemas
financieros y bancarios (Rus, 2015), actualmente estos sistemas no deben ser considerados
un lujo sino una necesidad que tienen todas las empresas de cualquier área.
La necesidad de manejar grandes volúmenes de información de una manera rápida y
segura han obligado a los directivos de Tecnologías de Información (IT) a recurrir a
soluciones informáticas muy costosas, pero necesarias. Los sistemas implementados
con BDD disponen de diversas herramientas que permiten el manejo eficaz de los datos
importantes de una empresa, pero cuando se trata de auditoría de datos las herramientas
degradan su rendimiento (García, 2006).
Diversos estudios han demostrado la importancia de realizar auditorías académicas en
IES, en los cuales las técnicas y procedimientos óptimos que se debe utilizar son: la
recolección de información y evidencia, análisis y estudio de políticas.
Por otro lado Rogelio (2012) proponen “los aspectos que deben considerarse en una
auditoría académica para estudios a nivel de postgrado en especialidades médicas como
la planeación de actividades académicas, funcionamiento de los sistemas de control,
cumplimiento a las leyes, entre otras importantes consideraciones”.
En el caso específico de las IES, es necesario desarrollar una estrategia que permita
realizar una correcta aplicación de la auditoría para salvaguardar la información,
varias IES ya han implementado técnicas de auditoría con el objetivo de garantizar la
integridad de su información y generar indicadores para la correcta toma de decisiones
en sus actividades académicas.
Según Ortega, Avendaño, Gonzales, & Zúñiga (2010) “realizan un estudio en la
Universidad Nacional Santiago Antúnez de Mayolo de Perú, en donde mencionan el

426 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

impacto de la auditoria académica y concluyen que las acciones de control permiten


una correcta administración en los procesos”. Adicionalmente en la Universidad de los
Andes en Venezuela consideran a la auditoría como un medio de evaluación para sus
personal (Docentes, investigadores, administrativos, estudiantes) (Huaman, 2016).
En Ecuador varias universidades han recibido ataques informáticos, se intentó violentar
la seguridad del registro de calificaciones para alterar notas(El Diario EC, 2013), se
identificó a tiempo los cambios en los datos gracias a las herramientas de auditoría que
brindan los gestores de BDD, pero el análisis de esta información llevo algo de tiempo ya
que los datos que generan estas herramientas son genéricas, es decir un informe global
de toda la base de datos.
En base a lo mencionado anteriormente, en este documento abordamos el problema de
auditoria a los datos que se relaciona con la toma de decisiones académicas de las IES,
por lo tanto lo que proponemos es desarrollar un algoritmo personalizado que permita
la generación de tablas de auditoría para guardar los cambios que un determinado
registro tuvo desde su creación, modificación o eliminación, además de la generación
de desencadenadores(triggers) para las operaciones de CRUD antes mencionadas, a las
que un registro de una tabla puede experimentar a través del tiempo. Esta información
recolectada de forma estructurada será útil para un posterior análisis de su auditoría.
El resto del documento está organizado de la siguiente manera: en la sección 2 se
describe brevemente el problema abordado en este trabajo, a continuación, en la sección
3 se detalla la estructura de la propuesta, en la sección 4 se muestra el caso de estudio
en donde se implementó la propuesta, en la sección 5 se realiza los test y resultados para
validar el éxito de la propuesta, y finalmente en la sección 6 se detallan las conclusiones
y trabajo futuro.

2. Definición Formal del Problema


El objetivo principal de este trabajo es proponer una alternativa libre y de fácil uso,
que ayude a las instituciones de educación superior a realizar óptimas auditorías en sus
bases de datos y le permita tomar decisiones acertadas en sus procesos académicos, para
esto hemos definido las entidades principales que intervienen en el proceso de auditoría
BDD académicas en IES.

2.1. Organización
La Institución de Educación Superior a la cual está enfocada el algoritmo propuesto
se aplicó en una Universidad de Ecuador, de Quito Ecuador. El trabajo propuesto se
implementó en la Universidad Tecnológica Israel (UISRAEL).

2.2. Tecno-estructura
La UISRAEL a partir de julio 2017 inicia con un proyecto de investigación, basado en el
desarrollo de un sistema complejo de gestión mediante el levantamiento de los procesos
académicos y administrativos, denominado Sistema Integrado de Gestión Estratégica
(SIGE), en el cual se realiza la gestión de la universidad (Baldeón,2019).

RISTI, N.º E22, 08/2019 427


Personalización de algoritmo para auditar base de datos en Instituciones de Educación Superior

Para la presente investigación se trabajó con el Módulo de Gestión Académica (MGA),


concretamente con las tablas críticas relacionadas con registro de notas. La información
que contiene las tablas seleccionadas son las que determinan la validez de aprobación
o pérdida de las asignaturas, y que no deben ser modificadas por ningún motivo por
personas no autorizadas.

2.3. Aspecto Legal


Toda persona jurídica del Ecuador en el ámbito legal está sujeto al Código Orgánico
Integral Penal (COIP), en el cual en el caso de la investigación realizada sobre el tema
de auditoría informática se basa en el Art. 232, que menciona sobre “El Ataque a la
integridad de sistemas informáticos”.
La persona que destruya, dañe, borre, deteriore, altere, suspenda, trabe,
cause malfuncionamiento, comportamiento no deseado o suprima datos
informáticos, mensajes de correo electrónico, de sistemas de tratamiento
de información, telemático o de telecomunicaciones a todo o partes de sus
componentes lógicos que lo rigen, será sancionada con pena privativa de
libertad de tres a cinco años.
Con igual pena será sancionada la persona que:
1. Diseñe, desarrolle, programe, adquiera, envíe, introduzca, ejecute, venda
o distribuya de cualquier manera, dispositivos o programas informáticos
maliciosos o programas destinados a causar los efectos señalados en el primer
inciso de este artículo.
2. Destruya o altere sin la autorización de su titular, la infraestructura tecnológica
necesaria para la transmisión, recepción o procesamiento de información
en general.
Si la infracción se comete sobre bienes informáticos destinados a la prestación
de un servicio público o vinculado con la seguridad ciudadana, la pena será
de cinco a siete años de privación de libertad (Ministerio de Defensa del
Ecuador, 2018).

3. Descripción de la Estructura del Algoritmo


La estructura del algoritmo propuesto se compone de 5 módulos: i) Modulo de
Definición de tablas: Este módulo se encarga de definir las tablas a auditar, las cuales
en base a un análisis previo se determinará qué tablas son importantes y criticas para la
institución en estudio y que contienen la información sensible a ser auditada, ii) Modulo
de Verificación de Campos: este módulo verifica los campos de las tablas a auditar,
con la verificación para almacenar información de procesos mediante aplicaciones
de clientes, se actualiza la estructura de las tablas para poder almacenar información
necesaria del Front End para almacenar información importante de cambios a nivel del
cliente, iii) Modulo de creación de tablas log: Una vez creada preparada la información
de las tablas base se procede a verificar y generar tablas de log de las tablas base que

428 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

se definió para ser auditadas, este proceso genera un script el cual permite generar las
tablas log en la base de datos tomando en cuenta los permisos y esquemas de seguridad
definidos en la base de datos, iv) Generación de desencadenadores: Permite generar
el script para la creación de los desencadenadores(triggers) para insertar, actualizar y
borrar de las tablas definidas para auditar, se toma en cuenta los esquemas y roles de
seguridad los cuales podrán ejecutar dichos desencadenadores es necesario controlar el
orden de ejecución para lograr un resultado deseado para la auditoría de los datos, v)
Verificación de Información: Es necesario realizar una ejecución del código y verificación
de desencadenadores(triggers) este proceso se realiza en un ambiente de pruebas previo
a la ejecución en una base de datos de producción, la siguiente figura muestra en detalle
el proceso descrito, la Figura 1 muestra el proceso de auditoria propuesto.

Figura 1 – Proceso de auditoria propuesto

El flujo necesario para la implementación del proceso se detalla en la Figura 2.

RISTI, N.º E22, 08/2019 429


Personalización de algoritmo para auditar base de datos en Instituciones de Educación Superior

Figura 2 – Flujo de algoritmo de auditoria

430 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

4. Caso de Estudio
Para el presente caso de estudio se realizó un análisis mediante el estado del arte
sobre los riesgos de vulnerabilidades en sistemas académicos, desde el enfoque a
nivel mundial y sobre todo los casos suscitados en las IES de Ecuador. Basado en lo
mencionado la investigación tiene como objetivo la prevención de ataques cibernéticos
en la modificación de información académica, como los sucedidos en varias IES, que se
encuentran estipulados en los registros de la Fiscalía ecuatoriana.
Según Baldeón, Gaibor & Toasa (2019) el SIGE “es un sistema que integra la mayoría
de sus procesos de la UISRAEL, en el cual su función primordial en el ámbito directivo
es la toma de decisiones, basado en las características de software como la eficiencia,
la fiabilidad, la interactividad, la optimización del tiempo y diversos beneficios para
todos los usuarios”. Este sistema nace de un proyecto de investigación de la carrera de
Sistemas de Información de la Universidad, el cual posee una generación relevante de

Figura 3 – Script que implementa el algoritmo – creación de tablas log

RISTI, N.º E22, 08/2019 431


Personalización de algoritmo para auditar base de datos en Instituciones de Educación Superior

producción científica, como artículos de impacto, capítulos de libro, ponencias nacionales


e internacionales y la institucionalización del Simposio Internacional Apropiación,
Generación y Uso Edificador del Conocimiento (SIAGUEC).
En este contexto, el algoritmo propuesto fue validado en el mencionado sistema,
utilizando la BDD para implementar el modelo propuesto. La base de datos esta en
SQL SERVER, y el MGA consta de 121 tablas, de las cuales se utiliza para la presente
investigación 5 tablas relacionadas con notas académicas. En un estudio previo
realizado, se identifica que el número de estudiantes que aprueban y reprueban es
un dato crítico para la universidad, ya que se puede tomar decisiones oportunas
según estos datos, en base a esto se decidió utilizar las tablas de notas académicas,
que inicialmente se trabajó con ellas, pero el algoritmo al ser personalizado permite
seleccionar las tablas que se desee de la BDD, que va a depender de la necesidad que
se presente para auditar.
En algoritmo fue implementado en varios scripts con Transact-SQL, se dividió el script
en creación de tablas log para la auditoria (Ver figura 3), creación de triggers para
gestionar las acciones sobre las tablas y finalmente su visualización de datos para la
toma de decisiones.
Inicialmente se coloca el nombre de la tabla a auditar y lo ejecutamos, primero se
van a crear las tablas log de la tabla a auditar y se van a generar los triggers que
se encargaran de administrar las acciones de auditoria en la tabla seleccionada, la
Figura 4 detalla los cambios que se dan en la tabla con la creación de la tabla para la
auditoria y de los triggers para capturar las acciones de insertar, eliminar y modificar
que sufra la tabla.

Figura 4 – Tabla antes de la ejecución del script – Después de la ejecución del script

Este proceso se puede realizar en cualquier tabla y va a generar información relevante


sobre los cambios que se den en la información, esto permite a los administradores del

432 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

sistema tomar decisiones correctivas rápidas y oportunas para evitar que se manipulen
los datos y se afecte a la integridad de la información con la que trabaja el sistema de la
Universidad Tecnológica Israel.
Inicialmente se va a evaluar el volumen de registros ente los años 2012 y 2018 en el
Módulo de Gestión Académica (MGA) del SIGE en la Uisrael, el cual cuenta con un
estimado de 1’300.000 datos nos indica que es un volumen de datos considerable,
el 70% de los datos son relacionados con los registros de calificaciones, estos datos
experimentan cambios como la actualización por parte de los docentes en diferentes
parciales académicos. Este volumen de cambios obliga a que exista una correcta
auditoría para garantizar que la información haya sido actualizada solo por el MGA
del SIGE.

5. Test y Resultados
Una vez que se ha ejecutado el script, se va a tener los triggers siempre activos para
capturar cualquier cambio que se de en la tabla o tablas seleccionadas. La tabla log esta
vacía, pero cuando se altera algún dato en la tabla seleccionada automáticamente guarda
información sobre el cambio que se dio en la tabla (Ver Figura 5).

Figura 5 – Registros de la tabla log

En esta tabla se puede evidenciar los datos de actualización y borrado los cuales se
guardan en la tabla de auditoria con datos de usuario, host, fecha, aplicación que ejecuto
y el tipo de cambio (inserción I, actualización U o borrado U).
Al conocer el usuario que alteró la información los administradores de la base de
datos van a actuar de manera oportuna para evitar que estos datos sean validados por
el sistema.
En la Tabla 1 se muestra las amenazas que los sistemas de información académicos de
las IES están expuestos, esto en base a la revisión de trabajos relacionados que se realizó
en esta investigación.

RISTI, N.º E22, 08/2019 433


Personalización de algoritmo para auditar base de datos en Instituciones de Educación Superior

Amenaza Descripción Causa(s) Efecto(s) Análisis de riesgo


Modificación Personas que Falta medidas de Violación a la El riesgo es alto,
de Información acceden al sistema seguridad en los integridad de ya que afectaría
académica modifican la sistemas académicos información directamente con la
información con toma de decisiones
fines ajenos a
los objetivos del
sistema.
Inyección por Acceso sin En el proceso de Espionaje a El riesgo es alto,
SQL restricciones a desarrollo no se toma los datos de puede haber una
una base de datos en cuenta: los sistemas, manipulación de
completa. Validación de acceso indebido, datos a través de los
caracteres alteración de Identificadores de las
Tipos de datos información. tablas
incorrectamente Perdida de
manejados información
No se utiliza académica.
codificación
UNICODE
Suplantación de En los sistemas Contraseñas débiles. Alterar la El Riesgo es alto,
identidad académicos puede Sesiones no cerradas. integridad de los registros de
suceder que la información evaluación de
los estudiantes académica. estudiantes no son
accedan a las reales y esto afecta
cuentas de la calidad de la
docentes y alteren educación.
sus registros de
notas.
Auditorias Las IES no No existen registros No se puede El riesgo es alto, los
débiles o nulas dan mucha de que información identificar qué administradores
importancia a las fue alterada información fue del sistema no
auditorias hasta No se genera alterada. pueden realizar
que sucede algún un historial de el seguimiento de
ataque. acontecimientos los cambios en la
que experimenta la información.
información a través
del tiempo.

Tabla 1 – Amenazas en sistemas académicos de las IES.

6. Conclusiones y trabajo Futuro


Mediante la implementación de la auditoria de tablas clave de un sistema de gestión
académica se logró detectar los cambios no autorizados en los registros, esto permitió
al administrador del sistema tomar decisiones preventivas y correctivas de los
datos alterados.
Al implementar un log de auditoria personalizado permite al administrador del sistema
tener el control de los datos relevantes, el cual permite la recolección de información
para su posterior análisis.
Con la auditoria propuesta aplicada al MGA, se identificó los datos críticos de un
record académico, donde se detectan los datos alterados de las calificaciones de los

434 RISTI, N.º E22, 08/2019


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

estudiantes, y con el análisis de log poder validar si fue un cambio permitido o alterado
por algún usuario o aplicación externa, ya que en el log se almacenan los valores
anteriores al cambio.
La importancia del desarrollo de la producción científica basada en un proyecto de
investigación como el SIGE, ha sido un puntal importante para la consolidación del
sistema en sí y la generación de estrategias tecnológicas para la prevención de riesgos
mediante una visión predictiva, como la planteada en el presente artículo.
De acuerdo a los resultados iniciales de la presente investigación, se realizará un trabajo
futuro con la implementación del algoritmo en el módulo de gestión académica de la
UISRAEL siendo fundamental para el correcto análisis y toma de decisiones académicas.

Referencias
Baldeón, P., Gaibor, M., & Toasa, R. (2019). Integrated strategic management system:
Decision making for Higher Education Institutions. Iberian Conference on
Information Systems and Technologies (CISTI) - IEEE., 1-6.
Baldeón Egas, P. F., Albuja Mariño, P. A., & Rivero Padrón, Y. (2019). Las Tecnologías
de la Información y la Comunicación en la gestión estratégica universitaria:
experiencias en la Universidad Tecnológica Israel. Revista Conrado, 15(68), 83-88.
Recuperado a partir de [Link]
view/987
Egúsquiza Pereda, C. A. (2014). Técnicas y Procedimientos Aplicables a la Auditoria
Academica. Quipukamayoc, 12(23), 17. [Link]
v12i23.5454
El Diario EC. (2013). Hackers violaron sistema informático | El Diario Ecuador. Retrieved
June 26, 2019, from [Link]
hackers-violaron-sistema-informatico/
García, M. L. V. (2006). Las Auditorias de informaciónen las organizaciones. Red de
Revistas Científicas de América Latina y el Caribe, España y Portuga (Vol. 37).
Instituto de Documentación e Información Científica y Técnica. Retrieved from
[Link]
Huaman, F. (2016). Auditoria Académica para el Fortalecimiento de la calidad
Educativa de la Universidad Nacional del centro del Peru. Retrieved from
[Link]
ACADEMICA PARA EL FORTALECIMIENTO DE LA CALIDAD EDUCATIVA DE
LA UNIVERSIDAD NACIONAL [Link]?sequence=1&isAllowed=y
Medina Ortega, M., Avendaño, W. M., Gonzales, B., & Arce Zúñiga, F. (2010). La
auditoría académica y las acciones de control para la buena administración de
la Universidad Nacional “Santiago Antúnez de Mayolo” 2007-2008. Rev. Aporte
Santiaguino (Vol. 3). Retrieved from [Link]
[Link]

RISTI, N.º E22, 08/2019 435


Personalización de algoritmo para auditar base de datos en Instituciones de Educación Superior

Méndez-Aguirre, A. C., & Oliveros-Vargas, I. L. (2016). SIS, A Support Tool for Academic
Audit. Repositorio Universidad Dsitrital Francisco José de Caldas.
Ministerio de Defensa del Ecuador. (5 de Febrero de 2018). Código Orgánico
Integral Penal. Obtenido de [Link]
downloads/2018/03/COIP_feb2018.pdf
Orman, L. V. (2001). Database audit and control strategies. Inf. Technol. and
Management, 2(1), 27–51. [Link]
Rogelio, C., Argüelles, A. F., Alma, M. O., Rojas García, R., Martha, M. C., Marentes, E. C., &
Parra, A. Z. (2012). Auditorias Académicas ¿Futuro para las especialidades médicas
de la Universidad Autónoma de Nayarit? Revista Fuente Año (Vol. 4). Retrieved
from [Link]
Auditorias Académicas, Futuro para las especialidades médicas de la Universidad
Autónoma de [Link]?sequence=1
Rus, I. (2015). Technologies and Methods for Auditing Databases. Procedia Economics
and Finance, 26, 991–999. [Link]

436 RISTI, N.º E22, 08/2019


Critérios Editoriais Criterios Editoriales

Critérios Editoriais Criterios Editoriales

A RISTI (Revista Ibérica de Sistemas e La RISTI (Revista Ibérica de Sistemas y


Tecnologias de Informação) é um periódico Tecnologías de la Información) es un periódico
científico, propriedade da AISTI (Associação científico, propiedad de la AISTI (Asociación
Ibérica de Sistemas e Tecnologias de Ibérica de Sistemas y Tecnologías de la
Informação), que foca a investigação e a Información), centrado en la investigación
aplicação prática inovadora no domínio dos y en la aplicación práctica innovadora en el
sistemas e tecnologias de informação. dominio de los sistemas y tecnologías de la
información.
O Conselho Editorial da RISTI incentiva
potenciais autores a submeterem artigos El Consejo Editorial de la RISTI incentiva
originais e inovadores para avaliação pelo autores potenciales a enviar sus artículos
Conselho Científico. originales e innovadores para evaluación por
el Consejo Científico.
A submissão de artigos para publicação na
RISTI deve realizar-se de acordo com as Lo envío de artículos para publicación en la
chamadas de artigos e as instruções e normas RISTI debe hacerse de conformidad con las
disponibilizadas no sítio Web da revista llamadas de los artículos y las instrucciones y
([Link] normas establecidas en el sitio Web de la revista
([Link]
Todos os artigos submetidos são avaliados
por um conjunto de membros do Conselho Todos los trabajos enviados son evaluados por
Científico, não inferior a três elementos. un número de miembros del Consejo Científico
de no menos de tres elementos.
Em cada número da revista são publicados
entre cinco a oito dos melhores artigos En cada número de la revista se publican cinco
submetidos. a ocho de los mejores artículos enviados.

RISTI, N.º E22, 08/2019 437


Formulário inscrição associado da AISTI Formulario inscripción asociado de la AISTI

Os associados da AISTI recebem a RISTI Los asociados de la AISTI reciben la


gratuitamente, por correio postal. RISTI por correo, sin costo alguno.
Torne-se associado da AISTI. Preencha Hazte miembro de la AISTI. Rellena
o formulário abaixo e envie-o para o el siguiente formulario y remítelo al
e-mail aistic@[Link] e-mail aistic@[Link]

Formulário de Associado / Formulario de Asociado

Nome/Nombre:

Instituição/Institución:

Departamento:

Morada/Dirección:

Código Postal: Localidade/Localidad:

País:

Telefone/Teléfono:

E-mail: Web:

Tipo de Associado e valor da anuidade:

Individual - 35€

Instituição de Ensino ou I&D/Institución de Educación o I&D - 250€

Outro (Empresa, etc.) - 500€

NIF/CIF:

Data/Fecha: / / Assinatura/Firma:

438 RISTI, N.º E22, 08/2019


Revista Ibérica de Sistemas e Tecnologias de Informação
Iberian Journal of Information Systems and Technologies ©AISTI 2019 [Link]

RISTI, N.º E22, 08/2019 439

También podría gustarte