Practica 1: Bases de datos biólogica
Olan Barbosa Jesús Arturo
I. Consulta de referencias bibliográficas en PubMed.
Se entro a la página de NCBI como lo indicaba la práctica, después se entro
directamente a Pub Med para hacer las búsquedas correspondientes.
En esta misma en la línea de búsqueda se colocó “hemoglobin sequence”, con
el cual observamos la cantidad de referencias de consulta y así mismo los títulos,
estamos observando 12,166 resultados los cuales podemos decir que son
apropiaos para la búsqueda realizada haciendo mención que son relevantes para
el estudio.
Posteriormente se utilizaron operadores logicos (AND, OR, NOT) para poder
refinar nuestras busquedas y asi pudimos observar que el numero de resultados
varia conforme el uso del operador logico, para AND obtuvimos 12,166 resultados
(los mismos que se obtuvieron sin operadores logicos), con OR obtuvimos
2,657,525 resultados y con NOT se obtuvieron 252,782 resultados.
Como se puede observar hay una variacion con el usos de los operadores logicos
ya que como se ha mencionado estos refinan nuestra busqueda.
Sigunedo la practica se emepezo a explorar la pagina para tener busquedas mas
eficientes y para ello se utilizo una herramienta conocida como “advanced” en el
cual nos colocaba directos los operadores logicos y asi teniamos una busqueda
mas efectiva y rapida, asi mismo teniamos resultados mas acorde a lo que se
buscaba encontrar.
En la misma busqueda se le agrego el nombre del autor “Hill RJ” en el apartado de
“Author” en el cual pudimos observar solo 4 resultados y asi hacer nuestra
busqueda mas eficiente y exacta.
Tambien podemos colocar directamente en la linea de búsqueda siempre y
cuando conozcamos los nombres de los campos deseados en la base de datos,
asi observando que si los colocamos directo o con la herramienta de “advanced”
nos da exactamente el mismo valor de resultados.
Asi mismo practicando y obsevando las distintas herramientas de refinamiento de
busqueda podemos decir que hay distintos filtros para hacer la busqueda mas
exacta y precisa, como fechas de publicaciones, autores, etc.
II. Consulta de secuencias biológicas mediante ENTREZ.
En la misma pagina de NCBI se selecciono en la lista despeglable la opcion
“Protein”, donde se realizo una nueva busqueda “hemoglobin homo sapiens”,
en la cual tambien se realizo una busqueda avanzada y se construyo
“(hemoglobin[Title]) AND homo sapiens [Organism]”, en donde pudimos
observar que la busqueda avanzada da resultados mas epecificos los cuales
fueron 2,623 los cuales eran menos que una busqueda normal
En esta misma búsqueda podemos observar que el número de secuencias de
cadena alfa se repiten muchas veces los que hace que haya “redundancia” para lo
cual podemos observar en la parte izquierda una serie de filtros que se pueden
ocupar para tener más exacta nuestra búsqueda
Así conociendo los distintos filtros el más recomendado en nuestra practica es el
RefSeq el cual organiza las secuencias de referencia y permite localizarlos de
manera mas sencilla, así que se aplicó dicho filtro y se obtuvieron 10 resultados
más exactos.
Posteriormente se ingreso a uno de los registros de la hemoglobina alfa y se
observaron mas a detalle la estructura, vimos los distintos formatos y el link para
descargar los registros.
Se realizo una búsqueda en la base de datos “Nucelotide”, con la consulta anterior
podemos ver que los resultados son más complejos.
También una base de datos conveniente para buscar secuencias es “Gen” en la
cual colocamos los datos en el cual observamos dos registros y seleccionamos
solo para observarlo mas a detalle para conocer la base de datos
Se realizo una exploracion al genoma humano para explorar detalladamente la
ubicación de los genes.
III. Consulta de secuencias en otras bases de datos biológicas
mediante SRS.
Se empezo hacer una busqueda similar a la de NCBI para conocer mas bases
de datos, una de ellas fue la de European Bioinformatics Institute (EBI) del
EMBL, en la cual observamos los distintos filtros y herramientas para hacerlo.
Vemos que las diferencias son minimas en la anotaciones del gen.
IV. Descarga de estructuras.
Nos fuimos directamente a la base de datos del Protein Data Bank donde
pudimos observar estructuras tridimencionales, en este ejercicio buscamos lo
que fue la clave de acceso 1DXT el cual pudimos descargar y en la misma
pagina la estructura completa en 3D.
EJERCICIO PARA LA EVALUACIÓN DE LA PRÁCTICA
1. Las secuencias de proteínas en formato FASTA de las cadenas alfa y beta
de la hemoglobina descargadas en la práctica y la secuencia de nucleótidos
de los mRNA.
Alfa:
>gi|4504347|ref|NP_000549.1| hemoglobin
subunit alpha [Homo sapiens]
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTY
FPHFDLSHGSAQVKGHGKKVADALTNA
VAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAH
LPAEFTPAVHASLDKFLASVTVLTSK
YR
Beta:
>gi|4504349|ref|NP_000509.1| hemoglobin
subunit beta [Homo sapiens]
MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFF
ESFGDLSTPDAVMGNPKVKAHGKKVLG
AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVC
VLAHHFGKEFTPPVQAAYQKVVAGVAN
ALAHKYH
mRNA Alfa:
>gi|2833698708|gb|PQ412537.1| Homo sapiens
hemoglobin subunit alpha 1 (HBA1) mRNA,
HBA1-N79K allele, partial cds
ATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGGCCGCCT
GGGGTAAGGTCGGCGCGCACGCTGGCG
AGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCC
CACCACCAAGACCTACTTCCCGCACTT
CGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAG
AAGGTGGCCGACGCGCTGACCAACGCC
GTGGCGCACGTGGACGACATGCCCAAGGCGCTGTCCGCCCTGA
GCGACCTGCACGCGCACAAGCTTCGGG
TGGACCCGGTCAACTTCAAG
mRNA Beta:
>gi|1401724401|ref|NM_000518.5| Homo
sapiens hemoglobin subunit beta (HBB), mRNA
ACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAAC
AGACACCATGGTGCATCTGACTCCTGA
GGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTG
GATGAAGTTGGTGGTGAGGCCCTGGGC
AGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTTTGAGT
CCTTTGGGGATCTGTCCACTCCTGATG
CTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGT
GCTCGGTGCCTTTAGTGATGGCCTGGC
TCACCTGGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAG
CTGCACTGTGACAAGCTGCACGTGGAT
CCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGC
TGGCCCATCACTTTGGCAAAGAATTCA
CCCCACCAGTGCAGGCTGCCTATCAGAAAGTGGTGGCTGGTGT
GGCTAATGCCCTGGCCCACAAGTATCA
CTAAGCTCGCTTTCTTGCTGTCCAATTTCTATTAAAGGTTCCT
TTGTTCCCTAAGTCCAACTACTAAACT
GGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAA
TAAAAAACATTTATTTTCATTGCAA
2. Elaborar un cuadro en el cual se resuma la información para las proteínas
estudiadas: Clave de acceso del cromosoma, la proteína y el mRNA;
número de intrones y exones, longitud del gen, longitud de la proteína,
longitud del mRNA, posiciones en el cromosoma de cada gen, posiciones
de los intrones y posiciones de las regiones UTR.
Características Subunidad Alfa (HBA1 y HBA2) Subunidad Beta (HBB)
Clave de acceso del HBA1: Gene ID: 3039 HBB: Gene ID: 3043
gen HBA2: Gene ID: 3040
Clave de acceso de la HBA1: UniProt ID: P69905 HBB: UniProt ID: P68871
proteína HBA2: UniProt ID: P69905
Clave de acceso del HBA1: RefSeq: NM_000558.5 HBB: RefSeq: NM_000518.5
mRNA HBA2: RefSeq: NM_000517.6
Número de exones HBA1:3 HBB: 3
HBA2: 3
Número de intrones HBA1:2 HBB: 2
HBA2: 2
Longitud del gen HBA1: Aproximadamente 8350 pb HBB: Aproximadamente 1600 pb
HBA2: Aproximadamente 8350 pb
Longitud del mRNA HBA1: 626 nucleótidos HBB: 626 nucleótidos
HBA2: 626 nucleótidos
Longitud de la proteína HBA1: 141 aminoácidos HBB: 146 aminoácidos
HBA2: 141 aminoácidos
Posición en el HBA1: Cromosoma 16, región p13.3 HBB: Cromosoma 11, región
cromosoma (posiciones: 16:222,011-231,410) p15.5 (posiciones: 11:5,225,485-
HBA2: Cromosoma 16, región p13.3 5,227,520)
(posiciones: 16:231,410-240,810)
Posiciones de los HBA1: HBB: Intrón 1: nucleótidos 130-
intrones Intrón 2: nucleótidos 179-247 491
HBA2 Intrón 2: nucleótidos 620-744
Intrón 2: nucleótidos 179-247
Posiciones de las HBA1: 5' UTR: nucleótidos 1-50 HBB: 5' UTR: nucleótidos 1-129
regiones UTR 3' UTR: nucleótidos 248-626 3' UTR: nucleótidos 745-1600
HBA2: 5' UTR: nucleótidos 1-50
3' UTR: nucleótidos 248-626
3. En un cuadro enumerar las diferencias existentes entre la anotación de los
genes de la hemoglobina alfa y beta en el NCBI y en Ensembl.
Característica NCBI (National Center for Ensembl (European Bioinformatics
Biotechnology Institute)
Information)
Fuente de datos Basado en RefSeq, curado Basado en GENCODE, con
manualmente y con datos anotaciones automáticas y manuales.
experimentales.
Versión del genoma Utiliza el genoma de Generalmente usa GRCh38 con
referencia GRCh38 o anotaciones actualizadas
GRCh37 (dependiendo de la constantemente.
versión).
Estructura del gen Presenta exones, intrones y Incluye variantes adicionales y
UTRs con anotación transcritos predichos automáticamente.
detallada.
Transcritos reportados RefSeq mantiene un Ensembl muestra múltiples isoformas
conjunto reducido y curado generadas por RNA-Seq.
de transcritos.
Información sobre Relacionado con dbSNP y Integrado con VEP (Variant Effect
variantes ClinVar para variantes Predictor) para análisis funcional.
patogénicas.
Interfaz de consulta Usa Gene, Nucleotide y Usa Ensembl Genome Browser con
Protein para la exploración. gráficos interactivos.
Ortología y evolución Información básica sobre Presenta ortología más detallada con
ortólogos en Gene. filogenia comparativa.
Característica Subunidad Alfa (HBA) Subunidad Beta (HBB)
Gen HBA1 y HBA2 HBB
Localización Genómica Cromosoma 16 Cromosoma 11
Número de Aminoácidos 141 146
Aproximadamente 15,1 kDa Aproximadamente 15,9 kDa
Función Forma parte de la hemoglobina Forma parte de la
A (HbA), la forma más común hemoglobina A (HbA), la
de hemoglobina en adultos, forma más común de
constituyendo el 97% de la hemoglobina en adultos,
hemoglobina total. constituyendo el 97% de la
hemoglobina total.
Enfermedades Asociadas Las deleciones o mutaciones en Mutaciones en el gen HBB
los genes HBA pueden llevar a pueden causar
alfa-talasemia, que varía en enfermedades como la
severidad dependiendo del anemia de células falciformes
número de alelos afectados. y beta-talasemia.
Referencia NCBI HBA2 HBB
Referencia EMBL HBA2- UniProt P69905 HBB- UniProt P68871
4. Utilizando la sección de genomas del GenBank realizar la búsqueda de
genes para rRNA’s en el genoma de Escherichia coli K-12.
5. Elaborar una figura en la cual se reporten las interacciones entre los genes
HBA1, HBA2 y HBB con otros genes.
HBA1
HBA2
HBB
PREGUNTAS
1. ¿Cuántos genomas eucarióticos y procarióticos se han secuenciado de
manera completa en la actualidad?
Hasta la fecha, se han secuenciado completamente más de 18,000 genomas de
organismos procariotas (bacterias y arqueas) y más de 5,000 genomas de
eucariontes, incluyendo especies modelo como Homo sapiens, Saccharomyces
cerevisiae y Arabidopsis thaliana (NCBI Genome Database, 2024). Este número
sigue aumentando debido a los avances en la secuenciación de nueva generación
y proyectos de genómica comparativa (Land et al., 2015).
2. Explique el concepto de redundancia de bases de datos y en qué consiste
la base de datos RefSeq del NCBI.
La redundancia en bases de datos ocurre cuando múltiples versiones de la misma
secuencia genética aparecen debido a diferencias en el ensamblaje, anotación o
actualizaciones de datos (O’Leary et al., 2016). La base de datos RefSeq
(Reference Sequence) del NCBI es un recurso curado que proporciona secuencias
de ADN, ARN y proteínas con anotaciones estandarizadas y no redundantes,
permitiendo análisis bioinformáticos más precisos y comparaciones genómicas
fiables (Tatusova et al., 2015).
3. ¿En qué consiste la base de datos UniProt?
UniProt es una de las bases de datos más completas sobre proteínas, ofreciendo
información detallada sobre secuencias, funciones, estructuras y modificaciones
postraduccionales. Se divide en tres componentes principales:
UniProtKB: Contiene información detallada y curada sobre proteínas.
UniRef: Agrupa secuencias similares para reducir la redundancia y
mejorar la eficiencia de búsqueda.
UniParc: Un repositorio integral de todas las secuencias de proteínas
disponibles, sin modificaciones ni redundancia (Bateman et al., 2021).
4. ¿Cuál es la diferencia entre la clave de acceso (accession) y el GenInfo
Identifier (gi) en los registros del NCBI? ¿Cuál es la utilidad de estas claves?
Clave de acceso (accession): Es un identificador único y permanente
asignado a una entrada en una base de datos, permitiendo que los
investigadores referencien secuencias específicas sin importar las
actualizaciones.
GenInfo Identifier (gi): Es un número asignado a cada versión de una
secuencia en NCBI, el cual cambia cada vez que la secuencia es
actualizada o corregida (Sayers et al., 2019).
Utilidad:
Las claves de acceso garantizan estabilidad y permanencia en las referencias
científicas, mientras que los números GI permiten rastrear cambios en las
secuencias a lo largo del tiempo y facilitar comparaciones en diferentes versiones
de un mismo registro (Benson et al., 2013).
Referencias
Bateman, A., Martin, M. J., O’Donovan, C., Magrane, M., Apweiler, R., et al.
(2021). UniProt: The Universal Protein Resource in 2021. Nucleic Acids
Research, 49(D1), D480–D489.
Benson, D. A., Cavanaugh, M., Clark, K., Karsch-Mizrachi, I., Lipman, D. J.,
et al. (2013). GenBank. Nucleic Acids Research, 41(D1), D36–D42.
Land, M. L., Hyatt, D., Jun, S. R., Kora, G. H., Hauser, L. J., et al. (2015).
Quality Scores for 16S rRNA Gene Datasets Established by de novo
Assembly. Genome Biology, 16(1), 271.
O’Leary, N. A., Wright, M. W., Brister, J. R., Ciufo, S., Haddad, D., et al.
(2016). Reference sequence (RefSeq) database at NCBI: current status,
taxonomic expansion, and functional annotation. Nucleic Acids Research,
44(D1), D733–D745.
Sayers, E. W., Cavanaugh, M., Clark, K., Pruitt, K. D., Schoch, C. L., et al.
(2019). GenBank. Nucleic Acids Research, 47(D1), D94–D99.
Tatusova, T., Ciufo, S., Federhen, S., Fedorov, B., McVeigh, R., et al.
(2015). Update on RefSeq microbial genomes resources. Nucleic Acids
Research, 43(D1), D599–D605.