UTILIZACIÓN DE BASES DE DATOS Y HERRAMIENTAS BIOINFORMÁTICAS EN LA
ENSEÑANZA DE LOS MECANISMOS EVOLUTIVOS
Autor: Torreblanca Marcela
Correo electrónico: mtorreblanca@[Link]
Cargos: Profesora: ISFD Nº 129. Investigadora: Universidad Nacional del Noroeste de la Provincia de Buenos
Aires. Buenos Aires. Argentina.
Aérea Temática: La educación en ciencias y los medios de comunicación. Aportes de las Tecnologías de la
información y la comunicación en la enseñanza de la Biología.
Modalidad de la aportación: Comunicación Oral
Introducción
La bioinformática es la aplicación de tecnología de la informática a la gestión y análisis de datos biológicos. Los
términos bioinformática, biología computacional y, en algunas oportunidades, biocomputación, son utilizados en
muchas situaciones como sinónimos. Estos términos hacen referencia a campos de estudios interdisciplinarios
muy vinculados que requieren el uso o el desarrollo de diferentes técnicas que incluyen informática, matemática
aplicada, estadística, ciencias de la computación, inteligencia artificial, química y bioquímica para solucionar
problemas, analizar datos o simular sistemas o mecanismos, de índole biológica y, usualmente en el nivel
molecular, aunque no de manera exclusiva (EMBL-EBI, 2010).
Actualmente, existen en la red extensas bases de datos de secuencias nucleotídicas y proteínicas y múltiples
herramientas de acceso libre para operar con dichas bases de datos.
Considero que es necesario que el alumno, desde cursos avanzados de enseñanza secundaria con orientación
biológica, comience a familiarizarse con el manejo de esta tecnología y pueda buscar, identificar, operar e
interpretar los datos y la información que obtenga en los distintos sitios con los programas y algoritmos
adecuados.
Las actividades que se presentan fueron elaboradas en el marco de un proyecto de investigación basadas en las
prácticas del curso de Bioinformática del Doctorado en Ciencias Biológicas de la Universidad Nacional del
Litoral. Algunas de estas actividades se pusieron a prueba con alumnos del Profesorado de Biología del ISFD Nº
129 de Junín, Buenos Aires, en el espacio curricular Evolución, con resultados satisfactorios.
Esta propuesta puede ser desarrollada con alumnos de 6º año de secundaria con orientación en Biología,
integrada a los contenidos de genética y evolución.
Para realizar este proyecto, la modalidad de trabajo elegida es el taller, y se establecen de antemano algunas
legitimaciones previas: se utilizarán estrategias de simulación y que se trabajará en base a modelos adaptados a
la enseñanza, acotados y simplificados. Se les explicita a los alumnos que de ninguna manera se deben
considerar una copia real de los procesos naturales y que lo estudiado y modelado forma parte de sistemas
complejos e interrelacionados. Se tratará de evitar el reduccionismo y se dejarán en claro los conceptos de
modelo y simulación, como representaciones cuyo objetivo principal es acercar y concretizar procesos que por
su complejidad y abstracción, son difíciles de aprehender (Ballenilla, 1989).
Desarrollo
Se parte del principio unificador “unidad y diversidad en los seres vivos” y del “dogma” central de la biología
molecular: ADN – ARN – Proteína; se conceptualizan y diferencian los conceptos de secuencia, gen, código
genético, replicación, transcripción, traducción, mutación, translocación, etc., utilizando modelos concretos
(maquetas, estructuras moleculares) y analogías con el lenguaje.
Luego se realizan ejercicios de transcripción y traducción con la utilización procesadores de textos.
Iniciación al uso de de bases de datos de bioinformática
En un primer momento, se ingresa a Wikipedia1 para conocer los alcances de la bioinformática y obtener el
marco teórico que la sustenta.
La secuencia de actividades que se realiza a continuación es la siguiente:
Acceso a Gen Bank
Búsqueda y recuperación de secuencias
Obtención de secuencias aminoacídicas con código de tres letras y de una letra
1
[Link]
1
Conversión al formato FASTA
Uso de BlastN y alineamiento de secuencias
De dos secuencias
Múltiples secuencias
Uso de BlastP.
Predicción de estructuras secundarias de ácidos nucleicos.
Uso de Prosite.
Predicción de estructuras terciarias en proteínas.
Búsqueda de Motivos y Patrones.
Comparación de secuencias entre especies.
Predicción de zonas significativas (codones de inicio, promotores, lugares de empalme intron/exón, señales poli-
A o islas CpG).
Búsqueda automática de genes.
Uso de Phylip.
Árboles filogenéticos.
Aplicaciones a casos específicos: simulación de mutaciones, resistencia a los herbicidas
Se seleccionan herramientas bioinformáticas para simular, con fines didácticos, las consecuencias de mutaciones
espontáneas en secuencias específicas para entender cómo se forman biotipos de malezas resistentes a ciertos
herbicidas.
Se parte de la idea de que un biotipo resistente se desarrolla a partir de una mutación natural y espontánea, que
puede ser única, y que da origen a un individuo especial entre los de su especie. La aparición de esa mutación no
tiene ninguna relación con el herbicida que se aplica. Se parte de una población mendeliana cuyo genotipo es
homocigoto dominante para la característica no resistente al herbicida X. La mutación puntual altera en
individuo el alelo A que pasa a ser a.
Para comprender cómo puede ocurrir la mutación a nivel molecular y su efecto en la formación de una proteína
(que al ser modificada no es “reconocida” por el herbicida X) se recurren a herramientas bioinformáticas
existentes en Internet.
La mutación en la cadena de ADN puede producir un efecto evidente según el nucleótido que elimine o sustituya
el lugar que éste ocupa en dicha cadena. Ello se observará si incide luego en la modificación del transcripto y la
configuración del ARNm y luego en la conformación nativa de la proteína que se forme.
Por ejemplo, los herbicidas que inhiben la enzima ALS muestran, actualmente, la mayor cantidad de biotipos
resistentes a nivel mundial. Esto se explica porque existen varias posibles mutaciones en el gen de la ALS que
pueden volverla “insensible” a estos herbicidas, aún cuando la enzima mantenga su funcionalidad en la fisiología
de la maleza2.
La resistencia de un biotipo por una mutación que afecte el sitio de acción del herbicida está determinada por un
único gen (monogénica) nuclear, en el que el alelo resistente puede ser dominante, semidominante o recesivo.
Simulación de mutaciones en secuencias de enzimas blancos de herbicidas
Se accede al GenBank (http:\\[Link])
Búsqueda de secuencias: de Acetolactato sintetasa (ALS) y Acetil CoA carboxilasa (ACCase) de Sorghum y
Arabidopsis
Búsqueda de secuencias similares con el BlastN y secuencias aminoacídicas con el BlastP.
Generar al azar mutaciones espontáneas en las secuencias de ADN: por sustitución, borrado transposición o
agregado de un nucleótido.
Se utiliza Blast two Sequences (bl2seq) para comparar ambos genes el original y el mutado.
Obtención de la secuencia de ARN.
Análisis de la estructura de los ARNm que se pueden formar con las secuencias.
La función del ARN-m depende de su estructura secundaria que se puede predecir a partir de su estructura
primaria. Si se trata de secuencias muy chicas, una alternativa (muy artesanal) sería agotar todas las
posibilidades de formación de estructuras secundarias, calcular el ΔG0 y elegir la estructura de mínimo ΔG0.
Otra alternativa es utilizar un esquema del tipo Dot Plot para buscar complementariedad, luego calcular el ΔG0 y
elegir la estructura de mínimo ΔG0. La predicción de estructura secundaria de ácidos nucleicos presenta
problemas generales similares. Ello implica que la aplicación de los métodos disponibles a secuencias demasiado
largas debe tomarse siempre con mucha cautela y sentido común.
2
Informe Monsanto: Monsanto investiga el caso de la dificultad de controlar Sorghum
halepense en la Argentina, 28 de febrero 2006. [Link]
2
En el ARN lo más importante no es necesariamente la secuencia, sino la conservación de la estructura.
Los siguientes programas ayudan a analizar y visualizar las posibles estructuras de secuencias de ácidos
nucleídos:
dotplot: dibuja, en un diagrama, las regiones complementarias como puntos: las secciones de complementariedad
entre secuencias se ven como diagonales.
mfold: predice la posible estructura secundaria de una secuencia de ácidos nucleicos.
plotfold: muestra gráficamente la estructura secundaria de un ácido nucleico calculada previamente con mfold.
stemloop: localiza regiones auto complementarias en una secuencia.
El criterio para seleccionar la estructura más probable: elegir la estructura de mínimo ΔG0. Es decir, la estructura
más probable es aquella similar a la estructura energéticamente más estable. La energía asociada a cualquier
posición en la estructura sólo es influenciada por secuencias y estructuras locales. La estructura se forma por
plegamiento de la cadena sobre sí misma de manera que no se formen nudos.
Utilización de herramientas disponibles en la Web para detectar translocaciones y/o duplicaciones en una
secuencia nucleotídica o aminoacídica? Se puede utilizar el DotPlot. Este programa trabaja con pares de
secuencias, con las que se confecciona una matriz. Luego se divide una
de las secuencias en todas las posibles palabras de longitud w; luego
con cada una de las palabras de longitud w (ej 5) buscar en la otra
secuencia un número de identidades igual o superior al umbral (ej 3) y
así sucesivamente. Posee una salida gráfica (luego hay que encontrar la
secuencia que corresponde a esa porción) y es fácil de interpretar.
Finalmente, se ven en las diagonales la similitud en las distintas
regiones, así se pueden detectar translocaciones y repeticiones directas
o invertidas.
Tres bloques de diagonales, en la misma línea, similitud con
aproximación de posición y similitud a distancia, con la secuencia alejada, da translocación. Como la salida es
gráfica, si la secuencia es larga necesita muchos recursos de memoria y tiempo de proceso.
El sistema Emboss posee multidot, con matrices de dimensiones superiores a tres.
Las repeticiones e inversiones se pueden detectar comparando la misma secuencia consigo misma, cargándolas
con polaridad invertida.
Herramientas para evaluar la posible existencia de recombinantes en una colección de secuencias relacionadas.:
haciendo apareamientos con BlastN y luego gráfico
de árboles filogenéticos y buscar algunas de estas
posibilidades: regiones genómicas equivalentes
(complementaridad), facilitan: 1) copy choice, 2)
Ruptura y ligación (transesterificación) y 3) primer
alineamiento y extensión. Siempre hay que evaluar
en forma teórica la posibilidad de estos mecanismos.
Se puede utilizar el programa SIMPLOT: Primero se
debe partir de un alineamiento múltiple, que posee el
potencial recombinante. Una vez seleccionada la
secuencia query3, se puede: hacer un análisis de
distancias (usando SimPlot); hacer un análisis de
BootScan; detectar los sitios informativos
(FindSites); de esta manera, también se pueden
detectar los puntos de recombinación (crossing
points).
Otro programa que sirve es T-Rex que incluye varios
algoritmos para la reconstrucción de árboles aditivos
y reticulogramas de matriz de desimilitudes.
También, pueden inferirse los árboles aditivos de matriz de los datos que contienen los valores perdidos, una
distancia del árbol aditivo o una distancia del reticulograma que encajaría a la desimilitud dada. Este programa
ha desarrollado un método para el descubrimiento de transferencia de genes horizontales en eventos evolutivos.
Este método estima la posibilidad de un traslado del gen horizontal para cada par de especies en distintas ramas
del árbol. Dicho método puede ser útil para la predicción de transferencia lateral. Se puede apreciar
gráficamente.
Métodos:
3
Secuencia incógnita
3
Métodos basados en análisis filogenéticos → sequential testing
Métodos basados en similitud (Simplot, RIP) → pairwise sequence distances → limitado indicador de topología.
Bayesian Multiple Change Point, considera las secuencias como segmentos separados contiguos (K) separados
por cambios puntuales localizados en posiciones desconocidas (ξ). La topología (Τ) y los parámetros evolutivos,
el radio transición: transversión (α) y el largo de rama promedio (μ). Segmentos contiguos con diferente
topología son separados por un Recombinant Crossover Point, donde la secuencia recombinante salta de un
genotipo a otro. Segmentos que sólo difieren en parámetros evolutivos pero no en la topología, identifican
regiones con evolución dispar; evitando falsos recombinantes debido a diferentes tasas de evolución.
Se utilizan luego las herramientas disponibles para predecir estructuras secundarias y terciarias de las proteínas
que se formarán con cada secuencia en [Link]
Finalmente, se obtienen las imágenes tridimensionales de las estructuras secundarias, terciarias y cuaternarias de
las posibles proteínas.
Conclusión
Las herramientas y bases de datos bioinformáticas existentes en Internet pueden ser utilizadas didácticamente.
Para ello, se necesita la preparación del docente para guiar a los alumnos mediante un proceso de construcción
del aprendizaje, con una secuencia y objetivos claros, que lleve a la resolución de una situación problemática o
4
un planteo concreto. La propuesta presentada es factible en la medida que se tenga acceso a los recursos, se
planifiquen las estrategias a seguir y prevean los inconvenientes que se puedan presentar de antemano. Las
actividades computacionales pueden ser muy motivadoras, pero no se deben quedar sólo en los procedimientos
de búsqueda y simulación en sí mismos, no se debe perder el objetivo y el encuadre conceptual para comprender
la función de tales procesos.
Las herramientas bioinformáticas pueden convertirse en potentes recursos de enseñanza-aprendizaje y
aplicación de conceptos. Pero no se debe perder de vista que son herramientas y, según el contexto y el enfoque
que se les dé en su uso, pueden o no tener un sentido educativo.
Bibliografía
BALLENILLA, F. 1989. Los juegos de simulación de sistemas un recurso didáctico necesario. Investigación en
la Escuela, 8, pags. 63-71, España.
EMBL-EBI, 2010, What is Bioinformatics? © European Bioinformatics Institute 2010.
[Link]
Wikipedia [Link]