0% encontró este documento útil (0 votos)
128 vistas28 páginas

Bases de Datos Biologicas

Este documento describe las bases de datos biológicas, incluyendo su crecimiento exponencial debido al aumento de datos biológicos y su importancia para la investigación biológica. Explica qué son las bases de datos, sus características como colecciones estructuradas y actualizadas de datos fácilmente buscables, y los tipos como bases de datos de texto plano y relacionales. Finalmente, menciona algunas estadísticas y ejemplos importantes de bases de datos biológicas como GenBank, UniProt, PDB y N

Cargado por

guiervical
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
128 vistas28 páginas

Bases de Datos Biologicas

Este documento describe las bases de datos biológicas, incluyendo su crecimiento exponencial debido al aumento de datos biológicos y su importancia para la investigación biológica. Explica qué son las bases de datos, sus características como colecciones estructuradas y actualizadas de datos fácilmente buscables, y los tipos como bases de datos de texto plano y relacionales. Finalmente, menciona algunas estadísticas y ejemplos importantes de bases de datos biológicas como GenBank, UniProt, PDB y N

Cargado por

guiervical
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Bases de datos Biológicas

Andrés Pinzón
Centro de Bioinformática
Instituto de Biotecnología
Universidad Nacional de Colombia
¿Por qué las bases de datos ?

● Crecimiento exponencial de los datos biológicos

● Datos (secuencias, 3D estructuras, análisis gel 2D, MS


análisis….) no son publicados en revistas, pero si en
bases de datos

● Son usadas en investigación biológica, como lo eran la


revistas científicas !
● Biólogos dependen de los computadores para
almacenar, organizar, buscar, manipular, y recuperar
los datos

● Libre Acceso es clave

● Base de todas las herramientas bioinformáticas


¿Qué es una base de datos ?

● Una colección
● estructurada
● De fácil búsqueda (indexada) -> tabla de contenido
● Actualizada periódicamente (release) -> Nuevas ediciones
● Referencias cruzadas (hipervínculos) -> vínculos con otras DB

● Incluye la herramientas (software) para acceso,


actualización, inserción, borrado…. en la DB

● Almacena datos: Texto plano (flat files) Tablas vinculadas


(bases de datos relacionales)
DB: Texto plano « flat file »
Base de datos de estudiantes:
(texto plano, 3 entradas)
Código: 183023
Nombre: Julián
Apellido : Pulecio
Cursos: 19003-01, 21001-01
Email: [email protected]
//
//
Código: 183024
Nombre: Sonia
Apellido : Cuartas
Cursos : 19003-01, 17001-01
Email: [email protected]
//
Código: 183025
Nombre: Jaime
Apellido : Moreno
Cursos : 19003-01
Email: [email protected]
//

● Facil de manejar: todas las entradas de pueden ver al


tiempo !
Bases de datos « relacionales »

Curso Código

19003­03 183023
19003­03 183024
19003­03 182425
17001­01 183024
21001­01 183023

Curso Nom.Curso Alumno Código

19003­01 Bioinformática
Gutiérrez 183023
17001­01 BioquímicaAvanzada
Cuartas 183024
21001­01 AnálisisMolecular Moreno 182425

Fácil: manejo y selección de la salida


Algunas estadísticas

● Más de 1000 bases de datos


● Generalmente accesibles a través de WEB
● Biohunt: http://www.expasy.org/BioHunt/

● Amos’ links: www.expasy.ch/alinks.html

● Tamaño variable: 100Kb a 10Gb


● DNA: > 10 Gb

● Proteinas: 1 Gb
● Estructuras 3D : 5 Gb

● Otras: Pequeñas
Históricamente las bases de datos de proteínas
preceden a las de DNA.

● Atlas de secuencias y estructuras protéicas (1965).


● PIR (1997).

Dr. Margaret Oakley Dayhoff

(1925-1983)

http://www.dayhoff.cc/MODAtlasSummary.ht
ml
GenBank DDBJ

European Molecular Biology (EMBL)


1982
International Collaboration of DNA sequence Databases
Bases de datos primarias y secundarias

Primarias: resultados experimentales sin curaduria.


Secundarias: derivadas de las primarias, curadas.

■ contienen la secuencia, comentarios, referencias de la


literatura, notas sobre experimentos
■ Derivadas de la integracion de las herramientas de cómputo
y conocimiento biológico
■ por ejemplo, genes conocidos y predichos

• Registros añadidos solo despues de verificar su precision y


las anotaciones
• Ejemplo :
SWISS-PROT, OMIM, RefSeq, LocusLink
EMBL-BANK

●Release 86 on 28-FEB-
2006.

● 69,783,593 entries.

●126,401,347,060
nucleotides,of which
13,313,896 entries
(65,362,911,476
nucleotides) are WGS
(whole genome shotgun)
data.

●The release 86 files total


61 GB compressed.
EMBL-BANK (Tools)
UNIPROT

Uniprot Knowledge Base


UniprotKB/Swissprot
UniprotKB/TrEMBL

Uniprot reference
Clusters
Clusters a partir de
UniprotKB y Uniparc
(Uniref100, Uniref90,
Uniref50).

Uniprot Archive
Todas las secuencias
protéicas conocidas, no
redundante.
UNIPROT-SWISSPROT

Anotación:

● Function(s) of the protein


● Post-translational modification(s). For example carbohydrates,

● phosphorylation, acetylation, GPI-anchor, etc.

● Domains and sites. For example calcium binding regions, ATP-

binding sites,
● zinc fingers, homeobox, kringle, etc.

● Secondary structure

● Quaternary structure. For example homodimer, heterotrimer, etc.

● Similarities to other proteins

● Disease(s) associated with deficiencie(s) in the protein

● Sequence conflicts, variants, etc.


NCBI
National Center for Biotechnology Information

Establecido en 1988. Es un
recurso nacional (USA) en
información biológica
molecular, el NCBI crea bases
de datos públicas, lleva a
cabo investigaciones en
biología computacional,
desarrolla herramientas de
software para el análisis
de información genómica, y
da a conocer la información
biomédica – todo esto con el
propósito de mejorar nuestro
entendimiento acerca de
los procesos moleculares
que afectan la salud y la
enfermedad en los seres
humanos.
NCBI- ENTREZ
NCBI- GENBANK
Base de datos pública de todas las secuencias DNA disponibles

59,750,386,305 bases en
54,584,635 entradas de
secuencias
en la división tradicional de
GenBank y
63,183,065,091 bases
en 12,465,546 entradas en la
división WGS (Febrero de
2006).
Protein Data Bank (PDB)
Base de datos de estructuras
tridimensionales de proteínas

● Cristalografia de
Rayos X.
● 41136 estructuras
(Enero 16 de 2007)
● Archivo de
coordenadas.

http://www.rcsb.org/pdb/
Sequence Retrieval System

http://srs.ibun.unal.edu.co:8080/srs81/
Más bases de datos I
Más bases de datos II
Más bases de datos III
Bases de datos que no pueden ser
clasificadas.

ReBase (enzimas restricción ),


RepBase (repeticiones)
TRANSFAC (factores de transcripción),
CarbBank, GlycoSuiteDB (Azucares ligados),
Proteína-proteína interacción db (DIR, ProNet, Interact),
Proteasa db (MEROPS), patentes en biotecnología db, etc.;
dbSNP
Base de datos de polimorfismos
genéticos
Consta de:
● SNPs: single nucleotide polymorphism

● DIPs: deletion insertion polymorphisms.

● SSRs: short tandem repeats.

Cada entrada incluye:


● Contexto.

● Frecuencia del polimorfismo.

● Métodos experimentales para su

obtención.
Para tener en cuenta...
● Cual es la mejor DB para análisis de secuencia?
● Cual tiene la mejor calidad de datos ?
● Cual es la más completa ?
● Cual es la más actualizada ?
● Cual es la menos redundante ?
● Cual es la más indexada (permite búsquedas complejas) ?
● Cual es la que responde más rápido ?

● DB: Muchos errores (Anotaciones automáticas)!


● No todas las DB estan disponibles en todos los servidores
● La frecuencia de actualización es diferente en los distintos servidores;
creación de db_new entre releases (ejemplo: EMBLnew; TrEMBLnew….)

También podría gustarte