0% encontró este documento útil (0 votos)
149 vistas13 páginas

I A+bioinformatica

Este artículo describe la aplicación de la inteligencia artificial en la bioinformática. La bioinformática es una disciplina que utiliza técnicas computacionales para descubrir información biológica. La inteligencia artificial puede optimizar procesos como la simulación de medicamentos, la predicción de enfermedades y el análisis de grandes cantidades de datos biológicos.

Cargado por

Cristian Villar
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
149 vistas13 páginas

I A+bioinformatica

Este artículo describe la aplicación de la inteligencia artificial en la bioinformática. La bioinformática es una disciplina que utiliza técnicas computacionales para descubrir información biológica. La inteligencia artificial puede optimizar procesos como la simulación de medicamentos, la predicción de enfermedades y el análisis de grandes cantidades de datos biológicos.

Cargado por

Cristian Villar
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

View metadata, citation and similar papers at [Link].

uk brought to you by CORE


provided by Revistas de Investigación UGC (Universidad La Gran Colombia)

159

Artículo de revisión

Aplicación de la inteligencia artificial en la bioinformática,


avances, definiciones y herramientas*
Recibido: 08/01/2016
Artificial intelligence application on bioinformatics, Revisado: 13/03/2016
Aceptado: 01/12/2016
progress, definitions, and tools
Correspondencia de autor:
Simon Orozco Arias**, Jeferson Arango López***
**Estudiante Ingeniería de Sistemas y Computación, Universidad de Caldas [Link]@[Link]
***Ingeniero de Sistemas y Computación, Mg. Ingeniería Computacional, Universidad de Caldas [Link]@[Link]

Resumen © 2016 Universidad La Gran


Colombia. Este es un artículo
La bioinformática es la una disciplina relativamente nueva la cual ayuda con el descubrimiento de acceso abierto, distribuido
de información biológica a través de la implementación de técnicas computacionales (López- bajo los términos de la licencia
Gartner et al. 2015). Esta unión surge debido a la problemática dada en fenómenos tan complejos Creative Commons Attribution
License, que permite el uso
como la genética, la simulación del efecto de medicinas, la predicción de enfermedades, etc. Todas
ilimitado, distribución y
estas situaciones manejan gran cantidad de información y variables, de allí surge la necesidad de
reproducción en cualquier medio,
apoyarse con las nuevas tecnologías. Pero hay circunstancias en las que ni las mejores plataformas siempre que el autor original y la
tecnológicas pueden encontrar respuestas en un tiempo prudente, es aquí donde se hace fundamental fuente se acrediten.
el uso de herramientas, técnicas, frameworks y metodologías propias de la inteligencia artificial
para optimizar la mayor cantidad de procesos, reduciendo el tiempo y el gasto computacional que
provocan el manejo de esta información. En el siguiente artículo se desarrolla un estado del arte
de las mejores formas de la aplicación de la inteligencia artificial en la bioinformática encontrada Cómo citar:
en la literatura.
Orozco, S., Arango, J. (2016)
Aplicación de la inteligencia
Palabras clave: Bioinformatica, datos biológicos, inteligencia artificial, redes neuronales. artificial en la bioinformática,
avances, deficiniones y
Abstract herramientas. UGCiencia 22,
159-171.
Bioinformatics is a relatively new discipline which contributes discovery of biological information
through implementation of computer techniques (Lopez-Gartner et al. 2015). This union surges
due to problems found in complex phenomena, such as genetics, medicine effect simulation,
disease prediction, etc. All of these situations involve a great amount of information and variables,
leading to the need of support using new technologies. Notwithstanding, there are circumstances
where even the best technologies are unable to find answers within a prudent time, it is here where
it becomes necessary to use tools, techniques, frameworks and methodologies involved in artificial
intelligence, in order to optimize the greater number of processes, by reducing time and computer
expenses caused by managing such information. The following article develops a state-of-the-art
of the best methods for application of artificial intelligence in bioinformatics found in literature.

Keywords: Bioinformatics, artificial intelligence, Artificial Neuronal Networks, Biological Data.

*Investigación adscrita al grupo de investigación GITIR, Universidad de Caldas


Introducción biomolecular, principalmente proteínas y sus
entornos. La simulación puede establecer la
Gracias al crecimiento exponencial de las capacidad de que una droga si puede tratar ciertas
tecnologías de la información como los clúster1, enfermedades, permitiendo así con más rapidez
las grid2 y la nube3 y de los modelos aplicables a el descubrimiento y proceso óptimo de estas
ellas como la inteligencia artificial y la minería medicinas, por lo tanto es entonces la disciplina
de datos, además de la paralización de procesos de la ciencia que se dedica al análisis del ADN
y la accesibilidad a la información científica y ARN para ordenar la información generada
mundial, se están creando cada vez más, nuevos mediante experimentos y la aplicación de estos
y mejores análisis de la información y técnicas métodos para resolver problemas de índole
adaptativas con la habilidad de aprender, biológico y así generar nuevo conocimiento.
con el fin de dejar a un lado la sociedad de la La bioinformática estructural ha tenido
información para adentrarse en la sociedad del grandes aportes significativos, por ejemplo
conocimiento. usando aminoácidos y ácidos nucleicos se han
desarrollado modelos estructurales a partir de
Bioinformática: una ciencia con auge creciente información obtenida por técnicas de rayos
La bioinformática en su definición se caracteriza X y RMN4(Resonancia Magnética Nuclear).
como el estudio de la información biológica Gracias a los avances en la secuenciación, como
a partir de la teoría de la información, la en la cristalografía a gran escala se crean nuevas
computación y las matemáticas, (Lahoz-Beltrá, oportunidades de usar proteínas en la búsqueda
2010). Además es una nueva disciplina dentro de fármacos.
de la biología, donde las herramientas de la Según (Castellanos, Ortiz, Nápoles, & Cáceres)
computación tienen una función primordial y se ha caracterizado en la bioinformática
si bien algunos restringen el rango de estudio varios enfoques importantes, entre los cuales
de la bioinformática al manejo y análisis de se encuentra el campo del código genético
bases de datos biológicas principalmente de standard (CGS), el cual no es el resultado
secuencias, también podría atribuírsele un de un proceso de asignación aleatorio de
sentido más amplio, como la fusión de las aminoácidos a codones, sino todo lo contrario,
técnicas computacionales con el entendimiento se determinan regularidades estructurales que lo
y apreciación de datos biológicos, el distinguen y que tiene profundas consecuencias
almacenamiento, recuperación, manipulación en las propiedades de las secuencias biológicas
y correlación de datos procedentes de distintasactuales y en sus patrones evolutivos, revelan
fuentes. también el resultado de la acción de ciertas
Una forma de graficar las secuencias obtenidas leyes.
por el manejo de estos grandes volúmenes La bioinformática ha tenido una tarea importante
de datos es la bioinformática estructural. en la validación o invalidación de estas teorías
Según (Martí & Turjanski, 2009) consiste en que intentan explicar regularidades visibles en el
realizar una simulación de comportamiento CG (Código Genético) así como en la evaluación

1. Cluster: Conjunto de equipos de cómputo (no necesariamente con hardware


del efecto de estas características estructurales
y software homogéneos) unidos a través de una red de datos de alta velocidad. en las secuencias biológicas actuales por
(Meza Martínez & Uribe Hurtado, 2013)
2. Grid: Infraestructura tecnológica en la cual se conectan y se comunican múlti-
medio de sesgo en el uso de codones, uso de
ples equipos de cómputo generalmente separados geográficamente, con el fin de aminoácidos y tasa de sustituciones sinónimas
compartir recursos. (Dong & Akl, 2006)
3. Nube: es un modelo diseñado para permitir acceso ubicuo a la red bajo de-
manda a un conjunto de recursos informáticos compartidos configurables. (Mell 4. Resonancia Magnética Nuclear: separación de los estados de los espines
& Grance, 2011) nucleares en presencia de un campo magnético intenso. (Blancas et al., 2010)g

160 UGCiencia 22 / 2016


161

o no sinónimas. Otros aportes importantes de la celular), como resultado importante de este


bioinformática, según Castellanos et al, 2005, análisis bioinformático fue que el 35% de los
son: epítopos del nuevo virus eran reconocidos por
la respuesta de los anticuerpos mientras que
• Estimación de cuán óptimo es el código el 67% son reconocidas por células, donde
genético como filtro de errores de se notó que el resultado es muy variable para
acuerdo con determinadas propiedades las proteínas HA y NA. Gracias a este tipo de
mediante simulación numérica o por vía análisis se logró el desarrollo de la vacuna de la
analítica. influenza universal. Comparado con anteriores
pandemias de influenza ahora se tiene un
• Reconstrucciones de escenarios primitivos tiempo de respuesta más rápido en conocer
cuando surge y se desarrolla el código nuevas características y antigénicas de estos
genético. virus, basados en la genómica y en el análisis
• Simulación numérica de la interacción bioinformático.
evolutiva entre mensaje y código. Cuando se habla de bioinformática se piensa en
• Evaluación de cuán distante son los sus aplicaciones y las ventajas que ha tenido
códigos más óptimos con relación al su utilización, pero para lograr estos objetivos
código genético standard, en estos también se debe pensar en plataformas
trabajos se emplean algoritmos de para su correcto funcionamiento, como la
optimización como simulated annealing5 propuesta por Castillo et al., 2015, en donde
o algoritmos genéticos entre otros. existe una aproximación a un Web Service
con una arquitectura basada en la plataforma
• Simulaciones de las fuerzas selectivas (GITIRBio) que actúa como un sistema front-end
o neutrales que están detrás de los distribuido para procesamiento autónomo y
cambios de reglas de asignación que asistido por tuberías paralelas bioinformáticas,
han dado lugar a las variantes conocidas donde se utiliza para la validación del uso
actualmente del código genético. de múltiples secuencias, Así esta plataforma
permite escalabilidad o mejor aún repositorios
Así como se aplicó en CGS la bioinformática semánticos de genes para las anotaciones de
también ha tenido grandes roles como lo búsqueda.
definido en (Meléndez-Herrada, Ramírez,
Sánchez Dorantes, & Cervantes, 2010) donde Esta idea surge para cubrir la necesidad de
se habla del caso de la epidemia mundial del gran cantidad de científicos que no se han
virus de la influenza A (H1N1) en el cual se familiarizado con la evolución de la informática
estudiaron agentes infecciosos desde el punto de alto rendimiento en línea de comandos sobre
de vista genético, evolución, propiedades anti la paralelización, donde muchas de las entidades
higiénicas, etc. Analizando la información se no proporcionan un sistema integrado, guiado
creó una respuesta inmune donde se aplicó el y ayudado a la interacción. Este sistema se
programa inmune Epitope Database6. En este compone de 2 partes, el módulo de comunicación
programa se clasifican los epítopos de tipo B y el de procesamiento, donde el módulo de
(respuesta anticuerpos) y de tipo T (respuesta comunicación adquiere la petición de usuario a
través de la interfaz de usuario y luego lo entrega
5. simulated annealing: fue propuesto como un algoritmo que está basado sobre al módulo de proceso el cual es un envoltorio
la analogía entre el tratamiento de sólidos y el problema de resolver problemas de
optimización combinacional (Pham & Karaboga, 2012)
que ejerce en todas las interacciones con las
6. Inmune Epitope Database programa que proporciona un catálogo experimental herramientas bioinformáticas como gestión,
de células epítopes B y T caracterizadas (Iqdour & Zeroual, 2006)
configuración de parámetros, la gestión de la
producción, el manejo de errores y notificación Propósitos
de envió.
Según Juan M. Corchado, 2015, proponen que
En la ilustración 1 muestra la relación lógica de en el área de la inteligencia artificial distribuida
los módulos principales del sistema utilizado en para el descubrimiento de conocimiento en
el procesamiento y en el caso de uso general. bioinformática, existen muchos propósitos,
pero en la mayoría se analizan diferentes
Ilustración 1 . Relación de los módulos aspectos biológicos y se simulan dichos
principales en GitirBio. procesos o comportamientos en un sistema
natural saludable. Algunos de los propósitos
son: 1) “Bladder Carcinoma Data with Clinical
Risk Factors and Molecular Markers: A Cluster
Analysis” propone la hipótesis de que el uso
de datos clínicos e histopatológicos es muy útil
para manejar tratamientos de cáncer de vejiga
invasivo no muscular (NMIBC). Los autores
usan minería de datos7 en un clúster médico
con el fin de analizar pacientes y dividirlos
en varios grupos usando nuevas técnicas de
diagnóstico de NMIBC. Los pacientes fueron
categorizados acorde a las características
Fuente: (Castillo et al., 2015)
médicas y a su comportamiento biológico.
El objetivo de esta arquitectura es generar (Redondo-Gonzalez et al., 2015). 2) Los autores
un registro de seguridad para todos los datos de “A Linear-RBF Multikernel SVM to Classify
procesados por las fases en las tuberías, Big Text Corpora” usan técnicas de minería de
donde estos datos se refieren a la secuencia datos basadas en clasificadores. Para reducir
de montaje que puede ser realizado por un el costo computacional usan computadores
número específico de funciones, los cuales multikernel que soportan vectores (SVM)
dependen de la anotación y la visualización de con parametrización automática, con el fin de
la secuencia de ensamblado de acuerdo con el paralizar procesos y reducir la cantidad de datos
método seleccionado. El comportamiento del a procesar. (Romero, Iglesias, & Borrajo, 2015).
procesamiento se muestra en la Ilustración 2. 3) El paper “Gene Knockout Identification
Using an Extension of Bees Hill Flux Balance
Ilustración [Link] del procesamiento Analysis” propone un modelo en el cual usan
en GitirBio una extensión del análisis del flujo balanceado
de las colmenas de abejas (BHFBA) integrado
con el framework OptKnock8 y Hill Climbing
algorithm9 para extraer mayor cantidad de
información de un gen especificado en un
metabolismo determinado. (Choon et al., 2015).
4) En “Using the eServices Platform for

7. Minería de datos proceso de descubrimiento de nuevas y significaciones rela-


ciones patrones y tendencias al examinar grande cantidades de datos (Riquelme,
Ruiz, & Gilbert, 2006)
8. framework OptKnock Usado para predecir estrategias knockout de genes
destinados a la sobreproducción de un metabolito deseado. (Choon et al., 2014)
9. Hill Clinbing es un algoritmo iterativo, que en cada iteración usa la solución
Fuente (Castillo et al., 2015) actual para determinar la candidatura de una nueva solución. (Burke & Bykov,
2008)

162 UGCiencia 22 / 2016


163

Detecting Behavior Patterns Deviation in the aplicando el método de aprendizaje de redes


Elderly Assisted Living: A Case Study,” dado bayesianas (algoritmo de probabilidades).
por Marcelino et al., 2015, los autores usan una
plataforma de eService para detectar cualquier Herramientas
variación en el comportamiento estudiado y
Frameworks
puede predecir situaciones peligrosas. El sistema
fue modelado bajo la metodología CRISP-DM, En lo expuesto por Miguel P. Rocha, 2009,
además de usar técnicas exhaustivas de se discute una problema que surge debido a
búsquedas de minería de datos como árboles la expansión de la bioinformática, y es que al
de decisión, clústeres, o curvas en orden para manejar cantidades excesivamente grandes de
validar los resultados. datos se requiere indudablemente de capacidad
de computo, de algoritmos altamente complejos
Otro de los propósitos encontrados en la
y paralelos, de procesamiento en CPUS, GPUS
actualidad es la de simplificar la complejidad
u otros tipos de procesadores y no siempre estas
y cantidad de datos analizados obtenidos a
tecnologías son lo suficientemente homogéneas
partir de la bioinformática, usando técnicas de
o compatibles para el uso en la bioinformática.
la Inteligencia Artificial con el fin de mejorar y
Por otro lado las personas que realizan los
optimizar los procesos de decisión.
estudios de esta índole son en su mayoría
El anterior es el caso descrito en Guillermo biólogos o científicos los cuales no tienen
Roberto Salarte Martínez, 2012, en el diagnóstico cualidades para programar, algo que es de
clínico de enfermedades cardiovasculares. fundamental importancia para analizar los datos
recolectados en los estudios y dar respuestas
Los autores plantean la problemática de la acordes a estos.
complejidad de clasificar los datos a través del
método de redes bayesianas, ya que cada nodo Los autores proponen una herramienta basada
del grafo representa una variable que compone en una nueva, abierta, libre y cumpliendo
el dominio, aunque esta no tenga relación con una arquitectura documentada llamada
directa con la tarea especificada. Por lo tanto se Biomniverso, la cual es fácil de usar, tiene una
propone unir las ventajas de esta técnica con las GUI amigable y es fácilmente configurable, sin
ventajas de los árboles de decisión. escribir código.

De esta forma se obtiene un modelo hibrido que Esta herramienta se compone de dos partes
está formado por dos fases: fundamentales, el kernel, llamado Omega,
que suple los servicios específicamente
La primera etapa consiste en la preselección de adaptados para permitir la adición de nuevas
nodos y construcción de la red, es decir que, funcionalidades bioinformáticas por medio de
a partir de los datos que se encuentran en una plugins. Por otro lado está la interfaz, llamada
base de datos, esta se encarga de la selección y Brigid, la cual permite a los científicos de
clasificación de un subconjunto de nodos para laboratorio trabajar con diferentes procesos con
mejorar la capacidad predictiva de la red un esfuerzo mínimo y ejecutar scripts mediante
una GUI amigable y de fácil uso.
La segunda fase consiste en la construcción
de la red bayesiana10 a partir del subconjunto Otro framework es propuesto por
de variables seleccionadas en la etapa previa, HAMDI-CHERIF, 2010, allí se propone un
10. Red Bayesiana es una construcción matemática que representa una articula- marco de trabajo de tres niveles para su uso en la
ción de la distribución probabilística entre un conjunto de variables. (Tsamardi- bioinformática, estos niveles son caracterización
nos, Brown, & Aliferis, 2006)
de programas de inteligencia libre, basados en un elemento de memoria (D flip flop) con
inteligencia artificial y programas de control algún integrado lógico (XOR o XNOR), cada
de inteligencia. Cada uno de estos niveles célula es actualizada en cada ciclo de reloj, las
es un mapeo directo del desarrollo histórico transiciones de ellas dependen de sus vecinos, tal
correspondiente al entendimiento. y como lo define (Pokkuluri Kiran Sree 2014).
La tabla 1 grafica las reglas de los vecinos y el
La intención del autor fue unificar una siguiente estado relacionado a ellas.
máquina que aprende con teorías de control
en bioinformática. Se habla también sobre dos Tabla 1. Reglas de vecinos.
enfoques que ha tenido esta ciencia, en los
cuales se usan programas estándares, heurísticos
y libres como manejadores de bases de datos,
seguido de programas basados en inteligencia
artificial limitada. Otro enfoque propone que
además de lo descrito anteriormente se adicione
una acción de control inteligente.
Estos tres enfoques pueden ser vistos como
niveles de comprensión con un grado creciente
de complejidad. La inteligencia artificial también Fuente: (HAMDI-CHERIF, 2010)

es usada para tratar temas bioinformáticos


muy específicos, los cuales no tienen solución Con este enfoque los autores demuestran que
bajo otros enfoques, como ejemplo se expone pueden reconocer las regiones promotoras en
lo propuesto por Pokkuluri Kiran Sree, 2014, cadenas de proteínas, además de predecir la
donde se habla acerca de la solución que se tiene estructura de dicha proteína.
para muchas de las situaciones presentadas Uno de los problemas a los que se enfrenta la
en el proceso investigativo usando autómatas bioinformática es a la hora de la utilización
celulares11 (CA). de las múltiples herramientas desarrolladas, al
En el artículo anterior se describe un autómata ser tan diversas y con propósitos tan diferentes
celular como un conjunto de células con un se hace indispensable la automatización de
número finito de estados y está definido de la ejecución de estas herramientas, sin perder
la siguiente forma (Definición tomada de demasiado tiempo configurándolas, según
Pokkuluri Kiran Sree 2014): (Barraza, Salazar, Cuesta-Astroz, & Restrepo)
se puede llegar a una aproximación usando
CA is defined a four tuple <G, Z, N, F> los flujos de trabajo. Los autores proponen
una aplicación escrita en perl12 la cual ejecuta
Where G -> Grid (Set of cells) en forma sucesiva y controlada cada una de
las herramientas implicadas en el análisis
Z -> Set of possible cell states bioinformático.
N -> Set which describe cells neighborhoods Según lo expuesto por Pelta (2013) plantea
que debido al surgimiento de problemas en
F -> Transition Function (Rules of automata)
bioinformática, se han creado algoritmos
Cada célula dentro del grid del CA, tiene utilizando técnicas heurísticas para resolverlos
11. Autómatas Celulares sistemas espaciales dinámicos muy simples en los que el
estado de cada celda depende de los estados previos de las celdas vecinas. (Agui- 12. Perl lenguaje de programación orientado a la extracción de información desde
lera Benavente, 2006) archivos de texto. (Hammond, 2008)

164 UGCiencia 22 / 2016


165

y ya que la complejidad computacional es bases, la cual se caracteriza por longitudes de


demasiado alta se ha visto la necesidad del lectura cortas y altos porcentajes de error en las
uso de lógica difusa para dar lugar a una secuencias, lo que requiere de nuevas formas
herramienta robusta y flexible la cual es de asignación de las bases, de ensamblaje
adaptada para el campo de la bioinformática, de las secuencias y alteración de los métodos
el método desarrollado se denomina Fuzzy estadísticos para la determinación de puntajes
Adaptive Neighborhodd Search (FANS) y es de calidad. Gracias a estas estrategias los
esencialmente una herramienta de optimización investigadores ya cuentan con un muestreo de
basada en búsquedas por entornos que incorpora más de 100 condiciones de ambientes diferentes
como elementos novedosos, la utilización utilizando aproximaciones metagenómicas,
de una valoración difusa de las soluciones donde estos diseños implican cambios en el
y la utilización de varios operadores en este diseño de algoritmos para aprovechar el alto
proceso. La manipulación de FANS hace que su rendimiento de las máquinas para el manejo de
comportamiento sea similar a otros métodos de grandes datos.
búsqueda por entornos, lo que permite plantear
que fans es un “framework” simple, además de Enfoques o técnicas
una herramienta capaz de obtener soluciones
Algunos problemas típicos en la bioinformática
razonablemente buenos y con poco esfuerzo
son la clasificación, la detección de patrones
computacional, pero tiene la característica
y la predicción, debido a que muchos de los
de detectar mejores soluciones para patrones
procesos en esta área usan gran cantidad de
grandes que para pequeños, por lo tanto este
datos, de los cuales se desea sacar conocimiento
método matemático se utiliza para resolver
y en donde no todos los datos son relevantes
satisfactoriamente cada instancia de prueba con
para el caso estudiado, los tiempos de análisis
esfuerzo reducido.
y procesamiento pueden ser muy extensos y
En la investigación de Hernández (2008) se además requerir gran capacidad de computo.
proponen algunas estrategias nuevas para el
análisis en la bioinformática como el desarrollo Esta problemática se afronta directamente
de herramientas que usan la proyección al en Bonet, Rodríguez, García, & Grau (2012)
diseño y la generación de sistemas eficientes donde se propone una nueva técnica basada en
de almacenamiento y nuevos modelos para la aprendizaje automático, la cual selecciona un
comparación y análisis de las distintas clases de clasificador según la situación, tal y como lo
datos biológicos, rápidos y confiables desde el hacen las personas en el ambiente natural.
punto de vista estadístico, como es el caso del Los autores también hablan sobre algunos
algoritmo BLAST13. También la utilización de clasificadores existentes en la literatura como
tecnologías de alto rendimiento en investigación Bagging14, Boosting15 y Stacking; donde en
biológica, lleva a que las actuales estrategias de esencia tienen dos partes importantes: selección
análisis tengan un proceso de adaptación o la de los clasificadores de base y elección de la
creación de nuevos desarrollos, para aprovechar forma de combinar las salidas.
de mejor manera los recursos disponibles, como
ocurre en el caso de las nuevas metodologías Se escogieron 3 clasificadores de base: J48,
de secuenciación. Ya basadas actualmente red bayesiana y SVM. Como metaclasificador
en la química de sangre y su asignación de
14. Bagging es una metodología para generar múltiples versiones de un sistema
capaz de predecir. (Shinzawa, Jiang, Ritthiruangdej, & Ozaki, 2006)
13. Blast programa de búsqueda de similitud de secuencias que se pueden utilizar 15. Boosting es un algoritmo de aprendizaje basado en conjuntos, el cual
a través de una interfaz web o como una herramienta independiente (Johnson et tiene el propósito de mejorar la precisión de la clasificación de forma itera-
al., 2008) tiva. (Shinzawa et al., 2006)
se utilizó un MLP. Los autores hicieron un Ilustración 4 Tomado de: (Hiwarkar & Iyer,
estudio del umbral para formar los grupos por 2013)
clasificadores, en correspondencia con cada
una de las bases. Para las diferentes bases
utilizadas, los mejores resultados se alcanzaron
con umbrales distintos como era de esperar, ya
que las bases tienen características diversas. De
manera general el valor del umbral osciló entre
0,6 y 0,9. Tal y como se nombra por Bonet et
al., 2012g.
Para validar los resultados del modelo
de combinación de clasificadores que se
propuso, se comparó con Bagging, Boosting y
Stacking16, por ser los multiclasificadores más
comúnmente utilizados en la literatura. En los
casos de Bagging y Boosting se probaron tres
clasificadores bases: J4817, SVM18 y MLP19. En También hace énfasis en que la mayoría de
el caso de Stacking se utilizó la misma topología las investigaciones se centran alrededor de
usada para el modelo anteriormente propuesto. procesos como el reconocimiento de patrones
y la minería de datos para realizar tareas tales
En la literatura existen innumerables paradigmas como la clusterización, clasificación, selección
para tratar información con origen biológico, de características y la generación de reglas.
además de maneras y herramientas para
solucionar los problemas que ello conlleva, tal Uso de Redes Neuronales artificial en la
es el caso presentado por Hiwarkar & Iyer, 2013. bioinformática
Los autores proponen el uso de Soft Computing
que se define como técnicas empleadas para Una red Neuronal Artificial (ANN) es un modelo
solucionar problemas que manejan información informático capaz de capturar y representar
incompleta, con incertidumbre e inexacta. A relaciones complejas de entradas y salidas de
continuación se muestra una gráfica tomada manera similar al cerebro humano (Qian &
del artículo anteriormente descrito donde se Sejnowski, 1988; Tablada & Torres, 2009). Una
ve claramente los componentes de la Soft ANN es capaz de aprender desde ejemplos y
Computing. generalizar para encontrar una solución viable
a una situación dada.
Lógica difusa en Bioinformática
Puede ser usaba muy fácilmente para
implementar sistemas desde simples y pequeños
16. Stacking es un método de clasificación que se caracteriza por el empleo de hasta grandes y robustos. La lógica difusa20
diferentes modelos, que combina las salidas usando un metaclasificador. (Kur-
czynski & Gawiser, 2010) reduce la cantidad de pasos y simplifica la
17. J48 es un árbol de decisión C4.5 para la clasificación que crea un árbol complejidad inherente al problema. El primer
binario (Patil & Sherekar, 2013)
18. SVM método de aprendizaje de máquina supervisado que se utiliza amplia- paso consiste en entender y caracterizar
mente para problemas de clasificación y regresión. (Shamim, Anwaruddin, & Na-
garajaram, 2007) 20. Lógica difusa conocida por contemplar no sólo las opciones de verdadero
19. MLP es el modelo de red neuronal más común y es conocido como una red
supervisada porque requiere la salida deseada ordenada para aprender (Iqdour & y falso, sino también las múltiples variables de respuesta (Cañellas & Brage,
Zeroual, 2006) 2006)

166 UGCiencia 22 / 2016


167

el comportamiento del sistema usando el Buenas prácticas en la Bioinformática


conocimiento y la experiencia. También se
puede usar para optimizar la minería de datos Como toda ciencia existen unas técnicas que
con el fin específico de mejorar el proceso de garantizan los buenos procesos llevados en ellos
agrupamiento (Porras, Laverde, & Diaz, 2008). y la bioinformática no es la excepción. Según
Kelley & Rouchka (2007) se habla sobre unas de
Étnicas de algoritmos genéticos21 en Bioinformática las muchas técnicas desarrolladas para el campo
bioinformático. En dicho estudio se usaron
Se trata de búsquedas aleatorias guiadas bajo técnicas para la investigación de la diabetes
los principios de la evolución de las especies. donde se determinó que es necesario primero
Provee soluciones para problemas multi para desarrollar categorías, herramientas y
objetivos, optimizando los requerimientos técnicas, como las nombradas a continuación:
computacionales y brindando robustez
(Hiwarkar & Iyer, 2013). • Proyectos de alineación de secuencia y
técnicas, los cuales son muy nombrados
Rough Sets en la Bioinformática en la literatura como una herramienta
primaria para la investigación, la cual se
Es una metodología muy nueva en el ámbito podría incluir por parejas y secuencias
médico, es usada para descubrir dependencias múltiples como los son las búsquedas
entre datos, evaluar importancia de atributos, Blast. Esta técnica es utilizada para
descubrir patrones en los datos, reducir comparar ya sea ADN o las secuencias
redundancia en la información y atributos, de aminoácidos de los organismos
reconocer y clasificar objetos, entre otros. para determinar homología y generar
Singularmente es usado para obtener reglas de relaciones filogenéticas entre ellos.
las bases de datos; una de las principales ventajas
es que crea reglas del tipo if-then (Hassanien, • Proyectos de expresión génica y técnicas
Milanova, Smolinski, & Abraham, 2008). donde se cita métodos para medir
expresiones de genes en diferentes
Particle Swarm Optimization (PSO) organismos y condiciones, gracias
Es un tipo de inteligencia colectiva en sistemas al análisis de microarrrays la cual se
de agentes descentralizados. Están basados en menciona con frecuencia en muchos
las colonias de la naturaleza, tales como colonias estudios.
de hormigas, bandadas de pájaros, colmenas de • Las bases de datos y técnicas de bases
abejas, bacterias y microorganismos y se usa para de datos donde su propósito puede ser
optimizar procesos. Fue concebida imitando ayudar en la investigación o ayudar a
el comportamiento social de los humanos y al otros investigadores con sus trabajos.
ser un sistema de agentes descentralizados no
necesita grandes volúmenes de información para Computación de altas prestaciones
optimizar los procesos estudiados, por lo tanto
solo se usa operaciones matemáticas simples Debido a las características de la bioinformática
entre los miembros del enjambre (Hassanien et anteriormente mencionadas en este artículo, se
al., 2008). debe usar plataformas tecnológicas robustas,
con capacidad de cómputo y arquitecturas
especializadas. Es por esto que esta ciencia se
21. Algoritmos genéticos son utilizados para encontrar la combinación óptima de sostiene sobre la supercomputación de altas
variables explicativas para un modelo multivariado tradicional (Parisi, Parisi, & prestaciones (HPC) (Apon et al., 2010).
Díaz, 2006)
En la actualidad existen máquinas de alto Debido al avance computacional en el campo del
rendimiento, las cuales se pueden detallar con hardware, es necesario construir de igual forma
características específicas en el top500 según plataformas que cumplan con características
Kogge & Dysart, 2011g, las cuales cuentan con especiales que obtengan el mayor beneficio
recursos como procesadores de varios núcleos, posible de estas máquinas y mediante técnicas
tarjetas gráficas y redes de alta velocidad. La de paralelización, inteligencia artificial,
arquitectura que predomina en el mercado es la machine learning, entre otras.
de clúster.
Es de esta forma que las investigaciones en las
Para aprovechar en mayor medida esta ciencias de la vida que deban obtener datos a
plataforma tecnológica, en la actualidad se partir de procesos informáticos se adhieren y
aplica el modelo de paralelización de procesos, permiten compartir conocimiento para así, llegar
programación concurrente y distribuida y a un fortalecimiento futuro de la bioinformática.
muchos otros paradigmas (Minetti, 2012).
En la actualidad empresas como NVidia, tiene Referencias bibliográficas
proyectos para crear arquitecturas, tanto de Aguilera Benavente, F. (2006). Predicción del
software como de hardware para ejecutar crecimiento urbano mediante sistemas
con mayor rapidez y eficacia aplicaciones de información geográfica y modelos
bioinformáticas como Blast (Schmidt, 2010). basados en autómatas celulares.
Debido a la gran cantidad de información que se Geofocus, 6, 81-112.
genera día a día, la cual se encuentra en la escala Amir, A. (2013). Implementation of Bio-Informatics
de los exabytes, se deben buscar mecanismos Applications on Various GPU Platforms.
para procesar e identificar más rápidamente Delft: Delft University of Technology.
información relevante en computación paralela.
En los últimos años la tecnología GPGPU22 ha Apon, A., Ahalt, S., Dantuluri, V., Gurdgiev,
tomado un gran auge. Es en este aspecto donde C., Limayem, M., Ngo, L., & Stealey,
Amir, 2013, presenta una investigación en la M. (2010). High performance computing
cual formula una nueva forma de aplicar big instrumentation and research productivity
data usando las GPUs, los autores afirman que la in US universities. Journal of Information
computación paralela es la característica clave Technology Impact, 10 (2), 87-98.
de la tecnología big data en la abstracción de
23

varios niveles. Barraza, F., Salazar, G., Cuesta-Astroz, Y., &


Restrepo, O. E. (2006). Implementación de
Conclusión una arquitectura web para la ejecución de
flujos de trabajo en bioinformática. Tomado
En la actualidad existen diferentes necesidades en de: [Link]
el ámbito científico alrededor del procesamiento bitstream/10893/1609/1/inycompe_v8_n2_
de datos biológicos, y las ciencias de la [Link]
computación desarrollan un papel fundamental
en el avance de generación de herramientas para Blancas, R. B. P., Cárdenas, M. R. J., Cerezo, R.
la consecución de resultados con mayor rapidez P., Lozano, R. R., Gómez, B. T., & Haddad,
y la misma o mayor fiabilidad de la que se tiene J. L. (2010). Enfermedad humana por
desde hace unas décadas. modelantes. Análisis de sustancias con
espectrometría de resonancia magnética.
22. GPGPU Utilización de las capacidades de las GPUs para propósitos genera- Cirugía plástica, 20(3), 120-123.
les (Amir, 2013)
23. Big Data concepto que abarca el almacenamiento de grandes cantidades de
datos y de sus aplicaciones en la industria. (Provost & Fawcett, 2013)
168 UGCiencia 22 / 2016
169

Bonet, I., Rodríguez, A., García, M. M., & Grau, R. Salarte, G; Castro, Y (2012). Modelo híbrido para
(2012). Combinación de clasificadores para el diagnóstico de enfermedades cardiovas-
bioinformática. Computación y Sistemas, culares basado en inteligencia artificial.
16, 191-201. Tecnura, 16(33) pp. 35- 52.

Burke, E. K., & Bykov, Y. (2008). A late acceptance Hamdi-Cherif, A. (2010). Machine Learning
strategy in hill-climbing for exam for Intelligent Bioinformatics – Part 2
timetabling problems. Paper presented at Intelligent Control Integration. Recent
the PATAT Conference. Montreal: Canadá. advances in artificial intelligence,
knowledge engineering and data bases.
Cañellas, A. J. C., & Brage, L. B. (2006). Lógica Tomado de: [Link]
difusa: una nueva epistemología para conferences/2010/Cambridge/AIKED/
las Ciencias de la Educación. Revista de [Link]
educación (340), 995-1008.
Hammond, M. (2008). Programming for linguists:
Castellanos, M. S., Ortiz, C. M. M., Nápoles, Perl for language researchers: John Wiley &
O. C., & Cáceres, J. L. H. (2005) El Sons. DOI: 10.1002/9780470752234
código genético desde la perspectiva de
la bioinformática. Centro de Cibernética Hassanien, A.-E., Milanova, M. G., Smolinski, T.
Aplicada a la Medicina, Instituto Superior G., & Abraham, A. (2008). Computational
de Ciencias Médicas de la Habana. Tomado intelligence in solving bioinformatics
de: [Link] problems: Reviews, perspectives, and
challenges Computational Intelligence
Castillo, L. F., López-Gartner, G., Isaza, G.A., Sánchez, in Biomedicine and Bioinformatics. New
M., Arango, J., Agudelo-Valencia, D., & York: Springer.
Castaño, S. (2015). GITIRBio:ASemantic and
Distributed Service Oriented-Architecture for Hernández, E. B. (2008). Bioinformática:
Bioinformatics Pipeline. Journal of una oportunidad y un desafío. Revista
Integrative Bioinformatics, 12(1), 255. Colombiana de Biotecnología, 10(1),
132-138.
Choon, Y. W., Mohamad, M. S., Deris, S., Chong,
C. K., Omatu, S., & Corchado, J. M. Hiwarkar, T. A., & Iyer, R. S. (2013). New
(2015). Gene Knockout Identifiation Using Applications of Soft Computing,
an Extension of Bees Hill Flux Balance Artifiial Intelligence, Fuzzy Logic &
Analysis. BioMed research international. Genetic Algorithm in Bioinformatics.
DOI: 10.1155/2738. International Journal of Computer Science
and Mobile Computing, 2 (5) pp. 202-207.
Choon, Y. W., Mohamad, M. S., Deris, S., Illias, R.
M., Chong, C. K., Chai, L. E., Corchado, Iqdour, R., & Zeroual, A. (2006). The
J. M. (2014). Diffrential bees flx balance Multi-Layered perceptrons neural networks
analysis with optknock for in silico for the prediction of daily solar radiation.
microbial strains optimization. PloS one, International Journal of Signal Processing,
9(7), e102744. 3(1), 24-29.

Dong, F., & Akl, S. G. (2006). Scheduling algorithms Johnson, M., Zaretskaya, I., Raytselis, Y.,
for grid computing: State of the art and Merezhuk, Y., McGinnis, S., & Madden,
open problems: Technical report. Ontario: T. L. (2008). NCBI BLAST: a better web
Queen´s University. interface. Nucleic acids research, 36(2),
W5-W9.
Corchado, J; Bichindaritz, I y Paz, J (2015). Meléndez-Herrada, E., Ramírez, M., Sánchez
Distributed Artificial Intelligence Models Dorantes, B. G., & Cervantes, E.
for Knowledge Discovery in Bioinformatics. (2010). Aportaciones de la genómica y
Biomedical Research International. la bioinformática al nuevo virus de la
doi:  10.1155/2015/846785. inflenza A (H1N1) y su impacto en la
medicina. Rev Fac Med UNAM, 53(2),
Kelley, R., & Rouchka, E. C. (2007). Bioinformatics 76-82.
Techniques Used in Diabetes Research.
Kentucky: University of Louisville. Mell, P., & Grance, T. (2011). The NIST defiition
of cloud computing. U.S. Department of
Kogge, P. M., & Dysart, T. J. (2011). Using the Commerce.
TOP500 to trace and project technology
and architecture trends. Paper presented Meza, J., & Uribe, A. L. (2013). Implementación
at the Proceedings of 2011 International de dos nodos grid basados en clusters e
Conference for High Performance integrados a grid Colombia a través de
Computing, Networking, Storage and Renata, utilizando software libre. (Tesis
Analysis de maestría) Universidad Autónoma de
Manizales, Manizales, Colombia.
Kurczynski, P., & Gawiser, E. (2010). A
Simultaneous Stacking and Deblending Rocha, M., Florentino, J., Corchado, E., Bustillo, A.,
Algorithm for Astronomical Images. The Corchado, J (2009). Distributed Computing,
Astronomical Journal, 139(4), 1592. Artificial Intelligence, Bioinformatics, Soft
Computing, and Ambient Assisted Living.
Lahoz-Beltrá, R. (2010). Bioinformática: Salamanca: Universidad de Salamanca.
Simulación, vida artificial e inteligencia
artificial, Madrid: Ediciones Díaz de Santos. Minetti, G. F. (2012). Problema de ensamblado de
fragmentos de ADN resuelto mediante me-
López-Gartner, G., Agudelo-Valencia, D., taheurísticas y paralelismo. Paper presented
Castaño, S., Isaza, G. A., Castillo, L. at the XIV Workshop de Investigadores
F., Sánchez, M., & Arango, J. (2015). en Ciencias de la Computación. Tomado
Identification of a Putative Ganoderic de: [Link]
Acid Pathway Enzyme in a Ganoderma h a n d l e / 1 0 9 1 5 / 1 9 5 11 / D o c u m e n t o _
Australe Transcriptome by Means of a [Link]?sequence=1
Hidden Markov Model. In 9th International
Conference on Practical Applications of Parisi, A., Parisi, F., & Díaz, D. (2006). Modelos de
Computational Biology and Bioinformatics. algoritmos genéticos y redes neuronales en
Springer International Publishing. la predicción de índices bursátiles asiáticos.
Cuadernos de economía, 43(128), 251-284.
Marcelino, I., Lopes, D., Reis, M., Silva, F.,
Laza, R., & Pereira, A. (2015). Using Patil, T. R., & Sherekar, S. (2013). Performance
the eServices platform for detecting analysis of Naive Bayes and J48
behavior patterns deviation in the elderly classifiation algorithm for data classifiation.
assisted living: case study. BioMed research International Journal of Computer Science
international. DOI: 10.1155/2738. and Applications, 6(2), 256-261.

Martí, M. A., & Turjanski, A. A. (2009). La Pelta, D. A. (2013). Algoritmos heurísticos


bioinformática estructural o la realidad en bioinformática. (Tesis doctoral).
virtual de los medicamentos. Química Viva, Universidad de Granada: Granada, España.
8(1), 25-34.

170 UGCiencia 22 / 2016


171

Pham, D., & Karaboga, D. (2012). Intelligent Shinzawa, H., Jiang, J. H., Ritthiruangdej, P., &
optimisation techniques: genetic algorithms, Ozaki, Y. (2006). Investigations of bagged
tabu search, simulated annealing and neural kernel partial least squares (KPLS) and
networks: Springer Science & Business boosting KPLS with applications to
Media. Cardiff: University of Wales. near‐infrared (NIR) spectra. Journal of
chemometrics, 20(8‐10), 436-444.
Pokkuluri Kiran Sree, I. R. B., SSSN Usha
Devi .N. (2014). Cellular Automata and Tablada, C. J., & Torres, G. A. (2009). Redes
Its Applications in Bioinformatics: A Neuronales Artificiales. Revista de
Review. Global Perspectives on Artificial Educación Matemática, 24(3).
Intelligence (GPAI) Volume 2 (2) 16-22.
Tsamardinos, I., Brown, L. E., & Aliferis, C. F.
Provost, F., & Fawcett, T. (2013). Data science and (2006). The max-min hill-climbing Bayesian
its relationship to big data and data-driven network structure learning algorithm.
decision making. Big Data, 1(1), 51-59. Machine learning, 65(1), 31-78.

Qian, N., & Sejnowski, T. J. (1988). Predicting


the secondary structure of globular
proteins using neural network models.
Journal of molecular biology, 202(4),
865-884.

Redondo-Gonzalez, E., de Castro, L. N.,


Moreno-Sierra, J., de las Casas, M. L.
M., Vera-Gonzalez, V., Ferrari, D. G.,&
Corchado, J. M. (2015). Bladder carcinoma
data with clinical risk factors and molecular
markers: a cluster analysis. BioMed research
international. DOI: 10.1155/2738.

Riquelme, J. C., Ruiz, R., & Gilbert, K. (2006).


Mineria de datos: Conceptos y tendencias.
Revista Iberoamericana de Inteligencia
Artificial, 10(29), 11-18.

Romero, R., Iglesias, E., & Borrajo, L. (2015). A


Linear-RBF Multikernel SVM to Classify
Big Text Corpora. BioMed research
international. DOI: 10.1155/2738.

Schmidt, B. (2010). Bioinformatics: High


Performance Parallel Computer
Architectures: CRC Press.

Shamim, M. T. A., Anwaruddin, M., &


Nagarajaram, H. A. (2007). Support Vector
Machine-based classification of protein
folds using the structural properties of
amino acid residues and amino acid residue
pairs. Bioinformatics, 23(24), 3320-3327.

También podría gustarte