Tratamiento Masivo de Datos Utilizando Técnicas de Machine Learning
Claudia Russo1, Hugo Ramón1, Nicolás Alonso1, Benjamin Cicerchia2, Leonardo Esnaola1,
Juan Pablo Tessore2
1
Instituto de Investigación y Transferencia en Tecnología (ITT) / Escuela de
Tecnología/ Universidad Nacional del Noroeste de la Provincia de Buenos Aires
(UNNOBA)
Sarmiento y Newbery, 236-4636945/44
2
Becario de la Comisión de Investigaciones Científicas de la Provincia de Buenos
Aires (CIC)
[email protected] / [email protected] /
[email protected] / [email protected] /
[email protected] /
[email protected]
Resumen Machine Learning, Big Data, Sistemas
Inteligentes.
Machine Learning es un área de la
inteligencia artificial que engloba un Contexto
conjunto de técnicas que hacen posible el
aprendizaje automático a través del Esta línea de investigación forma parte
entrenamiento con grandes volúmenes de del proyecto “Tecnologías exponenciales
datos. Hoy en día existen diferentes en contextos de realidades mixtas e
modelos que utilizan esta técnica y interfaces avanzadas.” aprobado por la
consiguen una precisión incluso superior a Secretaría de Investigación, Desarrollo y
la de los humanos en las mismas tareas, Transferencia de la UNNOBA en el marco
por ejemplo en el reconocimiento de de la convocatoria a Subsidios de
objetos en una imagen. Investigación Bianuales (SIB2015). A su
La construcción de modelos de vez se enmarca en el contexto de planes de
Machine Learning requiere adaptaciones trabajo aprobados por la Comisión de
propias debido a la naturaleza de los datos Investigaciones Científicas de la Provincia
o a la problemática a la que se aplica. Así, de Buenos Aires y por la Secretaría de
surge la necesidad de investigar las Investigación de la UNNOBA en el marco
diferentes técnicas que permitan obtener de la convocatoria “Becas de Estudio
resultados precisos y confiables en un Cofinanciadas 2015 CIC Universidades
tiempo razonable. del interior bonaerense”.
El proyecto se desarrolla en el Instituto
Palabras clave: de Investigación en Tecnologías y
Transferencia (ITT) dependiente de la
131
mencionada Secretaría, y se trabaja en Algoritmos supervisados: estos
conjunto con la Escuela de Tecnología de algoritmos utilizan un conjunto de
la UNNOBA. datos de entrenamiento etiquetados
(preclasificados), los cuales procesan
El equipo está constituido por docentes
para realizar predicciones sobre los
e investigadores pertenecientes al ITT y a
mismos, corrigiéndolas cuando son
otros Institutos de Investigación, así como
incorrectas. El proceso de
también, estudiantes de las carreras de
entrenamiento continúa hasta que el
Informática de la Escuela de Tecnología
modelo alcanza un nivel deseado de
de la UNNOBA.
precisión.
Introducción Algoritmos semi-supervisados:
combinan tanto datos etiquetados como
Desde que las primeras computadoras no etiquetados para generar una función
programables fueron concebidas, las deseada o clasificador. Este tipo de
personas se preguntaron si tendrían la modelos deben aprender las estructuras
capacidad de pensar, de aprender y de para organizar los datos así como
convertirse en “máquinas inteligentes”. también realizar predicciones.
Algoritmos no supervisados: El
El campo de la ciencia que se encarga
conjunto de datos no se encuentra
de resolver este interrogante se denomina
etiquetado y no se tiene un resultado
inteligencia artificial. Se trata de un área
conocido. Por ello deben deducir las
multidisciplinaria, que a través de ciencias
estructuras presentes en los datos de
como las ciencias de la computación, la
entrada, lo puede conseguir a través de
matemática, la lógica y la filosofía, estudia
un proceso matemático para reducir la
la creación y diseño de sistemas capaces de
redundancia sistemáticamente u
resolver problemas cotidianos por sí
organizando los datos por similitud.
mismos, utilizando como paradigma la
inteligencia humana [1]. Para que una Dentro de esta clasificación podemos
maquina pueda comportarse de manera además encontrar un gran número de
inteligente debería ser capaz de resolver algoritmos específicos con diferentes
problemas de la manera en que lo hacen los características para el tratamiento de los
humanos, es decir, en base a la experiencia datos. Entre los más relevantes
y el conocimiento [2]. Esto implica que encontramos:
debería ser capaz de modificar su Deep Learning: consiste en la
comportamiento en base a cuan precisos utilización de algoritmos para hacer
son los resultados obtenidos comparados representaciones abstractas de la
con los esperados. información y facilitar el aprendizaje
automático [4].
En este sentido podemos encontrar tres
Active Learning: es un caso especial
grandes grupos de algoritmos de Machine
de aprendizaje semi-supervisado
Learning [3]:
donde el algoritmo de aprendizaje
132
puede interactuar con un usuario u real y optimización de su
otra fuente de información para funcionamiento.
obtener los resultados deseados [5].
Support Vector Machines: busca la Análisis y selección de los distintos
maximización de la distancia entre la algoritmos de Machine Learning
recta o el plano y las muestras que se apropiados para el tipo de señal
encuentran a un lado u otro. En el recibida (imágenes, video, sonido o
caso que las muestras no sean incluso texto) y para la problemática
linealmente separables se utiliza una de su aplicación.
transformación llamada kernel [6] [7]. Evaluación de fiabilidad y desempeño
de las diferentes técnicas de Machine
Líneas de Investigación, Learning aplicadas.
Desarrollo e Innovación Resultados y Objetivos
La presente investigación se encuadra Se espera que la presente línea de I/D
dentro del eje “Tratamiento masivo de permita adquirir conocimientos
datos” y su procesamiento a través de específicos sobre las diferentes técnicas de
sistemas inteligentes. En este sentido se Machine Learning, con el propósito de
pretende procesar señales provenientes de desarrollar modelos capaces de predecir y
fuentes diversas, según la problemática clasificar las señales involucradas en la
investigada, para construir los conjuntos problemática que se intenta resolver,
de entrenamiento necesarios. Así como obteniendo un comportamiento inteligente
también, la selección, diseño y desarrollo de manera automática.
de un modelo que utilice alguno de los
algoritmos relevados para lograr una Debido a que la universidad se
correcta clasificación y predicción. encuentra dentro de la pampa húmeda, una
de las regiones más relevantes en lo que
Se deberán abarcar las siguientes respecta a producción agrícola, se
cuestiones: pretende combinar agricultura de precisión
con técnicas de machine learning y remote
Obtención de un conjunto de datos
sensing [8] con el objetivo de dar soporte
suficientemente representativo para la
a la toma de decisiones en el sector.
problemática que se desea abordar y
su clasificación. Por otro lado, debido a las necesidades
de los municipios de la región, se
Pre procesamiento de las señales para
vislumbra la posibilidad de trabajar en la
lograr su normalización y adecuación.
prevención y la detección de diferentes
Resolver cuestiones relacionadas con tipos de comportamiento, problemática
el procesamiento de datos en tiempo que también puede ser atacada con este
tipo de técnicas.
133
También se prevé la aplicación de [3] Machine Learning An Algorithmic
machine learning en el análisis del texto en Perspective Second Edition, Stephen
publicaciones periodísticas, contenido en Marsland, CRC Press, 2015.
foros y redes sociales, con la finalidad de
encontrar patrones dentro de esos datos [4] A Deep Learning. Book in preparation
que permitan predecir comportamientos for MIT Press. Bengio, Y.,
futuros en ámbitos específicos. Goodfellow, I. and Courville, USA,
2015.
Así mismo, se busca generar informes
técnicos en base al trabajo realizado, en [5] Active Learning Literature Survey,
donde se registren los avances, el grado de Settles Burr, Computer Sciences
implementación y los resultados Technical Report 1648. University of
obtenidos. Como así también difundir y Wisconsin–Madison, 2014.
transferir los resultados y logros
alcanzados mediante la presentación y [6] A Tutorial on Support Vector Machines
participación en diferentes congresos, for Pattern Recognition, Christopher
jornadas y workshops de carácter nacional J.C. Burges, Kluwer Academic
e internacional vinculados a la temática de Publishers, 1998.
estudio.
[7] Top 10 algorithms in data mining,
Formación de Recursos Humanos Xindong Wu et al. Knowledge and
Information Systems 2008.
En esta línea de I/D se han obtenido y
se encuentran desarrollando actualmente [8] Machine learning in remote sensing
dos Becas de Estudio Cofinanciadas data processing, Gustavo Camps-
otorgadas por la Comisión de Valls, IEEE International Workshop on
Investigaciones Científicas (CIC) y la Machine Learning for Signal
UNNOBA. Asimismo se espera Processing, 2009.
desarrollar cuatro tesis doctorales y dos
tesinas de grado, dirigidas por miembros
de este proyecto.
Bibliografía
[1] Assessment of the Commercial
Applicability of Artificial Intelligence
in Electronic Businesses. Thomas
Kramer. Diplom.de. 2002.
[2] Data Classification Algorithms and
Applications, Charu C. Aggarwal,
CRC Press, 2015.
134