0% encontró este documento útil (0 votos)
16 vistas5 páginas

Introducción a Bioinformática y Bases de Datos

Cargado por

sarayanezz07
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
16 vistas5 páginas

Introducción a Bioinformática y Bases de Datos

Cargado por

sarayanezz07
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Tema 1: base de datos en bioinformática

1.Dogma central de la biología

-Genoma: conjunto completo de ADN de un organismo que incluye todos sus genes. Cada organismo tiene un
genoma característico que contiene toda la información genética necesaria para su desarrollo,
funcionamiento y reproducción. Compuesto por desoxirribonucleótidos, con grupo fosfato (une los
nucleótidos entre sí para formar la columna vertebral de la cadena de ADN), desoxirribosa (azúcar de cinco
carbonos que forma parte de la columna vertebral de la molécula) y bases nitrogenadas (Adenina, Citosina,
Guanina y Timina, las bases forman pares, A con T y G con C entre las dos cadenas de la hélice).

-Transcriptoma: conjunto de todas las moléculas de ARN mensajero (ARNm) expresadas en un organismo,
tejido o célula en un momento específico. Los genes del genoma se "transcriben" en ARN en respuesta a
diferentes señales celulares o condiciones del entorno. Compuesto por ribonucleótidos, con grupo fosfato,
ribosa y bases nitrogenadas (Adenina, Guanina, Citosina, Uracilo).

- Proteoma: conjunto completo de proteínas que se expresan en una célula, tejido u organismo en un
momento dado. Mientras que el transcriptoma describe qué ARN se transcribe, el proteoma indica qué
proteínas se producen y están activas, que es lo que finalmente realiza las funciones celulares. Sus unidades
son los aminoácidos.

* Estudios:

-Genómica: estudio del funcionamiento, el contenido, la evolución y el origen de los genomas.

- Transcriptómica: estudio de todos los transcritos (moléculas de RNA) de una célula en un momento
determinado.

-Proteómica: estudio del conjunto de proteínas y sus modificaciones en una célula en un momento
determinado.

2. Código genético.

Sistema que traduce la información almacenada en el ADN o ARN a proteínas, tres nucleótidos forman un
codón y cada uno codifica un aminoácido. Cabe destacar que el código genético es degenerado, múltiples
codones codifican un mismo aminoácido, aunque cada codón se corresponde a un único aminoácido.

-Codón de inicio: AUG (en caso de ARN) o ATG (en caso de ADN) codifica el primer aminoácido de todas las
proteínas, Metionina (Met).

- Codones de parada (STOP: UAA (en caso de ARN) o TAA (en caso de ADN), UAG (en caso de ARN) o TAG (en
caso de ADN) y UGA (en caso de ARN) o TGA (en caso de ADN).

Importante para identificar inicios y finales de secuencias.


3. Cromatograma.

Las secuencias genómicas se obtienen mediante métodos de secuenciación. Cada pico, significa la presencia
de una base de ADN distinta, posee un código de colores. La T es el rojo, la G el negro, la C el azul y la A el
verde.

4. Bioinformática.

Se dedica a trabajar con las secuencias genómicas. Pasos:

1º Adquisición: con diferentes técnicas de secuenciación, obtenemos un cromatograma.

2º Almacenamiento: estos cromatogramas se almacenan en archivos crudos, secuencia de letras que no han
sido procesadas de ninguna forma y en principio no significa nada.

3º Procesamiento: se procesa el archivo crudo para entenderlo, a partir de cada uno de los nucleótidos,
podemos discernir dónde hay un gen (buscamos codón de inicio y de parada).

4º Distribución: almacenamos nuestros genes en bases de datos, para que estén disponibles y las personas
tengan acceso a estas secuencias.

5º Análisis: mediante herramientas de alineamiento.

6º Interpretación: entender el significado biológico de la secuencia, por ejemplo, mediante un árbol


filogenético, para estudiar evolución o para una forma visual de ver cuánto se parecen algunas secuencias
entre sí de diferentes especies o familias de proteínas…

5. Bases de datos en las que se almacenan las secuencias.


Incluyen secuencias enviadas por los autores, de la secuenciación de genomas, de patentes, de la literatura ...

-EMBL-EBI: base de datos europea.

-NCBI (National Center for Biotechnology Information): base de datos américana.

-DDJB (DNA Data Bank of Japan).

6. Uso de NCBI.
Los genes están en muchas especies, NCBI posee secuencias de todas las especies, tanto de animales como
de plantas, bacterias. Por ello es importante que antes de poner el gen o la proteína que estamos buscando,
especifiquemos la especie, de lo contrario nos saldrán demasiados resultados.

*Importante:
-los genes se procesan en una variedad de transcritos distintos que tienen diferentes tamaños, distintas
secuencias que producen isoformas de proteínas diferentes. Cada gen no codifica un solo ARNm sino
muchos.
- si no se nos especifica la variante, se toma la más larga.
- debemos saber qué nos están pidiendo, partial gen es una secuencia parcial no el gen entero y chromosome
es la secuencia del cromosoma entero en el que se encuentra ese gen.
Descripción de
cómo se llama

Tamaño del mRNA/ transcrito,


Números de acceso: identificador del
bp= pares de bases
gen en esta base de datos. Si la
buscamos en otra cambia. Mismo
número que en ACCESSION y en
VERSION (.3, versión del genoma al
que corresponde esta secuencia, los
genomas se actualizan
constantemente, hay versiones
diferentes porque se van mejorando, la
primera versión es la 1 y así
sucesivamente. Esta información no
desaparece, simplemente se va
ampliando, las versiones anteriores
continúan existiendo. El nº basta con
los q van antes del .

Información sobre el gen,


por si nos interesa leer
sobre él.

Otro ejemplo: buscar el gen Arabidopsis (TIR1):

Número de acceso

Número de acceso de la proteína

Secuencia de proteínas

UTR 5’/
Inicio de la
secuencia
codificante.
Tema 2: búsqueda de secuencias en bases de datos biológicas.
1.Genes.

Procariotas: estructura simple, con un promotor, una secuencia codificante que empieza en ATG y finaliza en
STOP y una secuencia terminadora.

Eucariotas: tras el promotor, encontramos los intrones (parte no codificante del ADN que desaparecerá
durante el proceso de splicing, discontinua en el DNA y el RNAm primario y ausente en el RNAm maduro) y
exones (parte codificante del ADN, que dan lugar a la proteína, es discontinua en el DNA y el RNAm primario, y
continua en el RNAm maduro).

*GEN: Unidad básica de información funcional y física heredable, contenida en un segmento de DNA. *ORF:
Secuencia del gen que empieza con el codón de inicio (ATG) y termina con uno de STOP (TGA, TAA, TAG).
*CDS: Secuencia codificante del gen que empieza con el codón de inicio y termina con uno de STOP.

*CDNA/mRNA: en el splicing alternativo además de eliminarse los intrones, tenemos una secuencia continua
de los exones, nuestro ARNm queda entre dos secuencias no codificantes denominadas UTR (no se traducen,
dirección 5’---3’, implicadas en la estabilidad, localización y traducción de los ARNm). El CDS es la secuencia
flanqueada por estas regiones UTR. Algunos genes no tienen UTR, o no tienen 5’ UTR o 3’ UTR.

CDS+UTR= CDNA.

2. Formato Fasta.

Consiste en poner un símbolo >, dar un nombre cualquiera al gen y colocar abajo la secuencia de dicho gen.
También utilizado para secuencia de proteínas. NG me indica secuencia de ADN aunque varia bastante según
la base de datos, NP proteína, siempre con una P en cualquier base de datos.

3. Búsqueda de secuencias por homología. BLAST.

Anteriormente hemos buscado secuencias por nombre de gen, proteína, nº de acceso pero ahora vamos a
partir de una secuencia de ADN o proteína identificar el gen. Esto se hace a través de una herramienta
denominada BLAST, principalmente tenemos dos tipos:

-Nucleotyde: a partir de secuencias de nucleótidos. -


Protein: a partir de secuencias de proteínas.

También podemos usar:

-Blastx: si introducimos una secuencia de nucleótidos, la compara con secuencias de proteínas. El programa
traduce esa secuencia de nucleótidos a proteínas y hace la homología con una base de datos de proteínas.
Uso: Identificar la proteína codificada en una secuencia de DNA/RNA.
-TBlasn: introducimos una secuencia de proteínas que la comprara con una base de datos de nucleótidos.
Uso: identificar el gen que codifica una proteína dada.

*Utilidad: para las secuencias de genes de distintas especies en nucleótidos pueden ser muy diferentes pero
en proteínas esta diferencia se reduce, recordemos que diferentes codones pueden codificar el mismo
aminoácido. Entre especies distintas, por ej mediante el uso del TIR1 en Arabidopsis y en tomate, en
nucleótidos va a ser muy diferente pero en proteínas puede ser completamente igual o con pocos cambios.
Cuánto más nos alejamos en distancia de las especies, mayor diferencia de nucleótidos habrá.

Además de identificar secuencias de ADN o proteínas, nos permite la búsqueda de homólogos, dos tipos:
parálogos: buscando homólogos en la misma especie y ortólogos: buscando homólogos en especies distintas.
3.1 Manejo de BLAST

a) BLAST de nucleótidos:

1º Tomamos la secuencia de nucleótidos en formato FASTA y la pegamos en Enter Query Sequence.

2ºA qué base de datos queremos que compare, en Database, en este caso: nucleotide collection (nr/nt).

3º introducir el organismo para que vaya más rápido (opcional).

4º Clicar en BLAST.

a.1) Se genera una página con cuatro pestañas:

Descripción: observamos el porcentaje de identidad, su longitud…

Alineamiento: vemos Query (la secuencia introducida por nosotros para que la identifique) y Sbjct (la
secuencia con la que compara). Una posibilidad con una secuencia parcial que no estuviese en la base de
datos pondría Sbjct 1 pero Query hasta 35 por ejemplo, porque como a la nuestra le falta una parte, empieza a
coincidir al 100% hasta la última base de nuestro gen parcial. Sbjct y Query no tiene por qué ser el mismo
número. Gaps me indica la posición donde faltan uno o más elementos en la secuencia comparada.

a) BLAST de proteínas:
1º Tomamos la secuencia de proteínas, ubicada en TRANSLATION “--------“.

2º Clicamos en protein blast.

3º La introducimos en Enter Query Sequence.

2ºA qué base de datos queremos que compare, en Database, en este caso: Non-redundant protein sequences (nr).

3º introducir el organismo para que vaya más rápido (opcional).

4º Clicar en BLAST.

*En este ejemplo observamos un Query de 59 y un Sbjct de 1, lo que significa que nuestra secuencia empieza a coincidir a
partir del residuo 59 de la secuencia en la base de datos, no siendo ya la homología del 100%.

También podría gustarte