Bioinformática -
Bases de datos
de secuencias
Biología Molecular computacional: Estudios in silico
- Hace referencia al desarrollo y aplicación de herramientas computacionales para el manejo de todo tipo de
datos biológicos.
- Incluye toda tecnología que use computadoras para almacenar, manipular y distribuir información
relacionada a macromoléculas biológicas como ADN, ARN, proteínas y metabolitos
- Generalmente está limitada al análisis de secuencia, estructura y función de genes y genomas y sus
correspondientes productos.
Información en la era genómica
- El proyecto genoma humano y similares genera un inmenso flujo de información
- Para poder utilizar esta información, debe estar almacenada correctamente
- El acceso a la información almacenada ...
• Debe ser rápido
• Debe poder hacerse de manera flexible
Regulación génica
Variantes de splicing
Cinética enzimática
Genomas y secuencias genómicas
Expresión génica (dónde y cuándo)
Literatura
Secuencias proteicas – modificaciones postraduccionales
Secuencias de genes Metabolitos y caminos metabólicos
Estructuras terciarias de proteínas (3D) Enfermedades
Redes proteicas
Localización proteica Bases de datos
Bases de datos de interés en biología molecular
Principales bases de datos de secuencias de nucleótidos: Principales bases de datos de proteínas:
(National Center
- NCBI (National Center for
for Biotechnology
Biotechnology - Uniprot
Information, EEUU)
Information, EEUU) - Swiss-prot
- EMBL (European Molecular Biology Laboratory,
- PDB
Europa)
- DDBJ (DNA Data Bank of Japan, Japón)
Bibliografía:
- Pubmed
Algunas bases de datos de genomas de organismos:
- Flybase (Drosophila) Rutas metabólicas:
- Saccharomyces Genome Database (Levadura) - KEGG (Kyoto Encyclopedia of Genes and
- Wormbase (C. elegans) Genomes)
- ENSEML (Hombre, ratón y otros)
Enfermedades genéticas humanas:
- OMIM (Online Mendelian Inheritance in Man)
Identificadores y códigos de acceso
La mayoría de las bases de datos biológicas tienen dos formas diferentes de identificar una entrada:
- Identificadores
- Códigos de acceso (o números de acceso)
Identificador
- Un identificador es una serie de letras y dígitos que debe poder ser entendido por los humanos.
- No son valores estables, ya que pueden ser modificados por los curadores. (ej: nueva función de proteína).
- Ejemplo: Alcohol Deshidrogenasa 6 Homo sapiens
UNIPROT: ADH6_HUMAN
GenBank: SEG_HUMADH6A0 (antes: HUMADH6A01)
Código o número de acceso
- Es un número (con algunas letras al inicio) que identifica de manera única una entrada de la base de datos.
- Generalmente se asigna en forma arbitraria y no da idea del origen ni la función.
- Es un valor que no se modifica aunque se tengan nuevos datos sobre el gen o proteína de interés (es el
mejor valor para hacer referencia a la entrada). Si se actualiza el contenido, se indica con un . seguido por el
número de versión de la secuencia.
- Ejemplo: Alcohol Deshidrogenasa 6 Homo sapiens
UNIPROT: P28332
GenBank: AH001409
Base de datos de genes: GENE
https://www.ncbi.nlm.nih.gov/gene/
- La base de datos GENE, del NCBI tiene como objetivo mostrar información específica de genes desde múltiples
perspectivas:
• Secuencia.
• Mapa del gen
• Publicaciones.
• Productos de la expresión y su función
• Evolución
• Variantes genéticas.
- Se puede acceder vía Web o descargar el contenido completo.
- GENE asigna un identificador (GeneID) a cada gen, y proporciona enlaces a los contenidos relacionados de distintas
bases de datos.
- La mayoría de los genes se encuentran asociados con sus secuencias de referencia (RefSeq), pero no es un requisito
(figuran genes de los cuales aún no se conoce la secuencia).
Alcohol Deshidrogenasa 6 - GeneID: 130
Bases de datos de nucleótidos
- Una base de datos de nucleótidos es una colección de secuencias de ácidos nucleicos.
- Las tres bases de datos principales de nucleótidos son:
- Genbank
- EMBL
- DDBJ
- Las tres forman parte del INSDC y tienen depositada la misma información (intercambian secuencias a
diario)
- Además de la secuencia, se incluyen funciones, mutaciones, proteínas codificadas, referencias bibliográficas,
etc.
- El crecimiento anual de estas bases de datos es enorme:
1982: 606 secuencias
2020: 219.055.207 secuencias
Formatos
- La información puede presentarse en distintos formatos. Los más utilizados son dos: Genbank y FASTA.
Formato Genbank
- Contiene toda la información disponible de la secuencia de interés.
- La información está organizada en varios campos:
- LOCUS: contiene información variada incluyendo nombre del locus, largo de la secuencia y tipo de molécula.
- DEFINITION: Breve descripción de la secuencia (organism, nombre, descripción de la function)
- ACCESSION: contiene el identificador único de la secuencia.
- VERSION: sigue el formato accession.version. Es la porción del número de acceso que puede variar.
- KEYWORDS: Palabra o frase que describe la secuencia.
- SOURCE: incluye el nombre del organism y el tipo de molécula.
- REFERENCE: publicaciones de los autores de la secuencia en donde discuten los datos del registro.
- FEATURES: contiene información sobre el gen, productos y regions de importancia biológica.
- SECUENCIA: contiene la secuencia de interés.
- Debido a la gran cantidad de información que contiene, no es un formato útil para copiar y utilizar en otras aplicaciones.
-Formato FASTA
- Únicamente contiene una descripción breve (línea de cabecera) seguida por los datos de secuencia.
- La línea de cabecera comienza con el símbolo >, seguida por el número de acceso y el resto de la línea es descripción.
- Es el formato más útil para copiar y pegar en otra aplicación.
Bases de datos de nucleótidos: RefSeq
https://www.ncbi.nlm.nih.gov/RefSeq/
- La base de secuencias de referencia (RefSeq) es una base de datos de acceso públic con información de secuencias de
nucleótidos (ADN y ARN) y sus productos (proteínas).
- Provee un único registro para cada molécula (ADN, ARN o proteína) para organismos “importantes” desde virus a
bacterias y eucariotas.
- Para cada organismo modelo, RefSeq busca proporcionar información separada y organizada de datos de ADN
genómico, transcriptos génicos y sus productos proteicos.
- Solo contiene información sobre organismos para los cuales hay suficiente información disponible (97.500 organismos).
- Es una base de datos curada. Todas las secuencias están verificadas, completas y sin errores. La secuencia final puede
definirse a partir de varias secuencias individuales.
- El ser una base de datos no redundante no implica que no haya información sobre variantes de splicing, isoformas de
enzimas, etc.
- En casos especiales, se publican datos incompletos para algunos organismos.
- Números de acceso:
- Se puede reconocer fácilmente si una secuencia pertenece a RefSeq mirando su número de acceso.
Todos comienzan con 2 caracteres seguidos de _
Alcohol deshidrogenasa 6 Homo sapiens: NM_001102470.2
Números de acceso: modificadores Calificación de la secuencia
Categoría Descripción Código Descripción
NC Secuencias genómicas completas La secuencia es provista por el Proyecto official de NCBI: Genome
MODEL Annotation pipeline. Una vez establecida, no es sujeta a revision
NG Secuencias genómicas incompletas individual.
NM ARNm El registro es una predicción a partir del análisis de la secuencia
genómica, pero no tiene soporte en evidencia experimental. Parte de
INFERRED
ARN no codificante (ARNr, ARNt, la información puede provenir de datos de secuencias homólogas.
NR
microARN, etc)
El registro todavía no fue revisado en forma individual y algunos
NP Proteína PREDICTED
aspectos de su contenido son predicciones.
XM Modelo de ARNm por predicción El registro todavía no fue revisado en forma individual. La asociación
PROVISIONAL
secuencia/gen fue realizada por personal del NCBI o colaboradores.
Modelo de ARN no codificante por El registro supero la revision final individual por personal del NCBI o
XR
predicción REVIEWED colaboradores. Se evaluaron varias secuencias disponibles y datos de
literatura.
Modelo de proteína por predicción
XP El registro comenzó a ser revisado para definir la secuencia estándar de
(secuencias eucariotas) VALIDATED preferencia. Todavía no superó la revision final en donde puede
Modelo de proteína por predicción incorporarse información functional adicional.
WP
(secuencias procariotas) WGS
El registro representa una colección de secuencias de genoma
complete. Estos registros no son sujetos a revisions individuales.
NZ WGS incompleto
Bases de datos de nucleótidos: GenBank
https://www.ncbi.nlm.nih.gov/genbank/
- Genbank es la base de datos de secuencias del NIH y se accede a través de la base de datos de NCBI: nucleotide.
- Contiene una colección de disponibilidad pública de secuencias de ADN.
- Hay información de más de 420.000 especies distintas: 213 millones de secuencias individuales y 1.100 millones de
secuencias de WGS.
- Cualquiera puede subir una secuencia. Reciben datos de autores particulares, proyectos globales de secuenciación y
centros de secuenciación de alto rendimiento.
- A diferencia de RefSeq, es una base de datos redundante y no curada. Existen muchas secuencias distintas para un
mismo gen o proteína.
Números de acceso Alcohol deshidrogenasa 6 Homo sapiens (ADH6 Homo sapiens)
Bases de datos de nucleótidos: Nucleotide
https://www.ncbi.nlm.nih.gov/nucleotide/
- Permite el acceso a secuencias de RefSeq y GenBank