0% encontró este documento útil (0 votos)
57 vistas53 páginas

Introducción A La Bioinformática

Cargado por

Mayka Vélez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
57 vistas53 páginas

Introducción A La Bioinformática

Cargado por

Mayka Vélez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

INTRODUCCIÓN A LA

BIOINFORMÁTICA
¿Qué es la bioinformática? Aplicaciones Herramientas bioinformáticas

La bioinformática es…
Una disciplina de la biología que estudia información; principalmente en
forma de secuencias genéticas y estructuras proteicas, brindándonos bases de
datos (BD) centrales; accesibles
globalmente, que permiten a los científicos
presentar, buscar y analizar información,
hacer modelados, visualización, exploración
e interpretación de datos, a través de los
softwares ofrecidos, con el objetivo de
comprender y conocer mejor los fenómenos
y procesos biológicos.
¿Qué es la bioinformática? Aplicaciones Herramientas bioinformáticas

Al inicio de la “revolución genómica”, el término bioinformática


hacía referencia a la creación y mantenimiento de una base de
datos para almacenar información biológica. El desarrollo de este
tipo de bases de datos implicó
diseño y desarrollo de
interfaces complejas donde los
investigadores acceden a los
datos existentes, presentan
sus nuevos datos o revisados.
¿Qué es la bioinformática? Aplicaciones Herramientas bioinformáticas

Aplicaciones de la bioinformática
La bioinformática es un campo multidisciplinar y transversal a muchas
ciencias de la vida. La podemos aplicar en:
✓ La Medicina
Ha permitido avances en la medicina personalizada, adaptando
algunos tratamientos a la genética de la persona.
✓ La Farmacología
Ha tenido un papel fundamental en la investigación
farmacéutica, especialmente contra enfermedades infecciosas,
y el desarrollo de vacunas.
¿Qué es la bioinformática? Aplicaciones Herramientas bioinformáticas

Aplicaciones de la bioinformática
✓ La Genética
Se aplica a la terapia génica, especialmente en
enfermedades provocadas por genes individuales
que han sido afectados o heredados. A su vez, la
comparación de datos genómicos permite ampliar
el conocimiento sobre la historia evolutiva de la vida
en la Tierra.
✓ La Agricultura
Mediante el uso de la proteómica, la metabolómica y la genética,
permite desarrollar cultivos fuertes, más resistentes a la sequía y a
las plagas de insectos.
¿Qué es la bioinformática? Aplicaciones Herramientas bioinformáticas

Aplicaciones de la bioinformática
✓ La Ganadería
Se emplea para secuenciar el genoma de los
animales de granja, prevenir sus enfermedades
y proporcionarles una mayor resistencia y
calidad de vida.
✓ La Residuos
Permite identificar y evaluar la secuenciación del
ADN de bacterias y microbios para utilizarlos en la
limpieza de aguas residuales, la eliminación de
residuos radiactivos o el reciclaje de plásticos.
¿Qué es la bioinformática? Aplicaciones Herramientas bioinformáticas

BLAST

(Basic Local Alignment Search


Tool)
Herramientas bioinformáticas BLAST Conceptos generales Formato Fasta

¿Por qué es importante conocer BLAST?


BLAST es el Google de las secuencias, resulta el algoritmo a escoger en una búsqueda
preliminar de similitud entre una secuencia
problema y las bases de datos disponibles,
haciendo coincidir las mismas; es decir, sólo
producen alineamientos por pares de la
secuencia problema con cada una de las
secuencias de la base de datos con las que
muestra alta similitud.
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

Objetivos de las búsquedas en Blast


• Identificar a qué organismo pertenece una secuencia concreta.
• Localizar la ubicación de una
secuencia en el ADN genómico.
• También permite determinar la
estructura de un gen (localizar
los intrones, los exones y las
regiones reguladoras).
• Identificar dominios locales conservados (CDD)
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

Objetivos de las búsquedas en Blast


• Explorar las bases de datos (BD) en busca de secuencias relacionadas funcional o
evolutivamente para encontrar nuevos
miembros de una familia de genes o de
proteínas o para elaborar un árbol
filogenético.

• Hacer anotaciones en una secuencia en


base a su similitud con otras secuencias ya caracterizadas.
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

Familia Blast
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta
Herramientas bioinformáticas BLAST Conceptos generales Formato Fasta

Conceptos que encontrará


• nr = no redundante

• month = nuevas secuencias de los últimos meses

• RefSeq: secuencias de referencias bien anotadas que incluyen genómicas, transcriptos y


proteínas.

• ESTs = marcador de secuencias expresadas

• Taxon = ej., humano, Drososphila, levadura, E. coli

• pdb = estructura tridimensional de proteínas

• CDS= "Coding Sequence", región de nucleótidos que se corresponden con la secuencia de


aminoácidos en una proteína (la ubicación incluye los codones de inicio y stop).
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

La pestaña de resultados
Pestañas de resultados
• Descriptions: una lista de las
secuencias en la base de datos que
coinciden o están alineadas con su gen
de interés, además el “e-value” (vea
abajo), con el “mejor resultado”
primero.
• Graphic summary: una
descripción visual de los resultados de
la búsqueda. El color representa la calidad del “match” (cuánto coincide su Query con la referencia)
y la longitud de la barra es una indicación de cuántas bases de su gen coinciden con las referencias
en la base de datos.
• Alignments: información detallada sobre la alineación de su gen (“Query”) contra cada
referencia candidata en la base de datos (“Sbjct”).
Homología de secuencias
Dos genes se definen como homólogos si derivan de un
ancestro común. Pero la homología no termina ahí, ya que dos
secuencias pueden ser homólogas ortólogas o parálogas, tal y
como podemos observar en la figura a la derecha.
✓ Ortólogos Secuencias similares en dos os más organismos
diferentes que provienen de un proceso de especiación. Se
espera que tengan la misma función biológica.
✓ Parálogos : Secuencias similares dentro de un mismo
organismo que proceden de un proceso de duplicación génica. No tienen porque tener la misma
función
Alineamiento de secuencias
Un alineamiento es la contraposición de secuencias para identificar el mayor número de matches
posibles entre lo que se compara. El mejor alineamiento posible es aquel que con mayor nivel de
correspondencia entre ambas secuencias. Dos secuencias similares tienen una alta probabilidad de
tener una misma función, pero siempre se cumple (recordar parálogos).
Términos importantes:
✓ Identidad: El mismo aminoácido o nucleótido en la misma posicion en
dos secuencias.
✓ Similaridad: Numero de positivos entre ambas secuencias, es decir,
sustituciones de aminoácidos o nucleótidos con las mismas propiedades
bioquímica en dos secuencias.
Si las secuencias son mayores de 100 nucleótidos o 100 aminoácidos, puedes
decir que dos proteínas son homólogas si al menos el 25 % de los
aminoácidos son idénticos. En el caso del DNA se requiere un porcentage de
identidad del 70 %.
Especiación: Es el proceso
mediante el cual una
población de una
determinada especie da
lugar a otra u otras
especies.
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

La pestaña de resultados

La primera línea representa


la secuencia buscada.
Los colores muestran
los puntajes (score)
La escala dada muestra correspondientes
la posición de cada
nucleótido.

Las líneas horizontales muestras qué parte


de la secuencia de la base de datos
correspondía a la consulta.
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

La descripción de los resultados


• Query: La secuencia de
entrada (u otro tipo de término
de búsqueda) con la que se
compararán todas las entradas
de una base de datos.
• Query sequence: secuencia
problema, ósea con la cual
estoy trabajando.
• Query cover: el porcentaje de la longitud de la consulta que se incluye en los
segmentos alineados.
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

La descripción de los resultados


• Max score: Es la puntuación
de alineación de la mejor
coincidencia entre el Query y
la Referencia. Entre más alto
mejor.
• Total score: Es la suma de los
scores de todas las
secuencias alineadas de la
base de datos. Entre más alto mejor.
• Acc[ession] Len[gth]: el número de nucleótidos o aminoácidos en la secuencia
resultante identificada por el número de acceso.
Herramientas bioinformáticas BLAST
BLAST Conceptos
Conceptos del Formato
generales Fasta
Formato Fasta

E-value
Proporciona información sobre la probabilidad de coincidencia de una secuencia determinada sea
puramente casualidad. Cuanto menor sea el valor E, es menos probable que la coincidencia de mi
secuencia con la base de datos sea resultado de una casualidad y, por lo tanto, la interpretación
empírica del valor E es la siguiente. Si E < 1e - 50 (o 1 × 10-50), debería haber una confianza
extremadamente alta de que la coincidencia de la base de datos sea el resultado de relaciones
homólogas. Si E está entre 0,01 y 1e - 50, la coincidencia puede considerarse resultado de
homología. Si E está entre 0,01 y 10, la coincidencia se considera no significativa, pero puede
indicar una relación tentativa de homología remota. Se necesita evidencia adicional para confirmar
la relación tentativa. Si E > 10, las secuencias bajo consideración no están relacionadas o están
relacionadas por relaciones extremadamente distantes que caen por debajo del límite de
detección con el método actual.
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

Formato FASTA
Es un formato de fichero informático basado en texto,
utilizado para representar secuencias de ácidos
nucleicos, de péptido, y en el que los pares de bases o
los aminoácidos se representan usando códigos de una
única letra. El formato también permite incluir nombres
de secuencias y comentarios que preceden a las
secuencias en sí.
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

¿Qué contiene el formato FASTA?


No hay una regla clara, pero utilizaremos los lineamientos recomendados por NCBI,
por ser la plataforma más popular.
1- Línea cabecera o línea descriptiva con no más de 80 caracteres.
✓ Comienza con el signo >
✓ Código de identificador único de secuencia SeqID.
https://www.ncbi.nlm.nih.gov/genbank/sequenceids/
✓ Muchas veces encontraremos en esta línea; por ejemplo, el nombre del gen o
algo referente a la función del mismo.
2- Línea de secuencia
No se permiten líneas en blanco en medio de la entrada FASTA.
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

Prefijos del Accession Number


Accession Molecule Comment
prefix type
AC_ Genomic Complete genomic molecule, usually alternate
assembly
NC_ Genomic Complete genomic molecule, usually reference
assembly
NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGSa
NW_ Genomic Contig or scaffold, primarily WGSa
NZ_b Genomic Complete genomes and unfinished WGS data
NM_ mRNA Protein-coding transcripts (usually curated)
Herramientas bioinformáticas BLAST Conceptos en.. Formato Fasta

Prefijos del Accession Number


NR_ RNA Non-protein-coding transcripts
XM_c mRNA Predicted model protein-coding transcript
XR_c RNA Predicted model non-protein-coding transcript
AP_ Protein Annotated on AC_ alternate assembly
NP_ Protein Associated with an NM_ or NC_ accession
YP_c Protein Annotated on genomic molecules without an instantiated
transcript record
XP_c Protein Predicted model, associated with an XM_ accession
WP_ Protein Non-redundant across multiple strains and species

aWhole Genome Shotgun sequence data.


bAn ordered collection of WGS sequence for a genome.
cComputed.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

Búsqueda preliminar de similitudes con mi


secuencia problema
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

Búsqueda preliminar de similitudes con mi


secuencia problema

Suba el archivo FASTA y haga clip en BLAST


Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

Búsqueda preliminar de similitudes con mi


secuencia problema

Debe esperar un tiempo; puede


ser corto o largo, esto depende de Baje la página para ver la tabla de resultados
la velocidad del internet o si BLAST
está haciendo una gran búsqueda.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

Búsqueda preliminar de similitudes con mi


secuencia problema
Si entra a
cualquiera de
los Accession
Number
encontrará el
Formato
GenBank de
ese organismo.
Muestra del Registro GenBank
En este link encontrará un archivo genbank, cual contiene
muchísima información de la secuencia que introdujo BLAST.
Como hay demasiada información allí, les dejó el link para que
miren y puedan encontrar la información solicitada.
https://www.ncbi.nlm.nih.gov/genbank/samplerecord/
Búsqueda
Búsquedapreliminar similitudes Recuperación
preliminardedesimilitudes de secuencias
Recuperación Localización
de secuencias de CDS
UniProt

Vaya a NCBI, donde dice All Databases desplace el menú y seleccione


la opción Gene y al lado coloque el nombre del gen que se le asignó.
Haga Clip en SEARCH.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

Búsqueda Avanzada

Opción factible si posee datos del gen para ampliar su búsqueda


Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

¿Cómo saber que gen escoger?

Si ya sabe qué organismo es, entonces tomar esa opción, pero si no,
entonces utilice el accession number del gen. Todo dependerá de lo que vaya
a hacer y los datos que tenga de dicho gen. Por el momento es practicar,
escoja la opción indicada.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

Recuperación del Archivo FASTA del gen en FULL


Report

Al descargar; se generarán 2 archivo, el archivo FASTA que se guardarán en la carpeta [(nombre del
gen)_datasets]. Entre hasta encontrar el archivo gene. Si no puede guardar el archivo FASTA o
cambiar el nombre, corte y pegue la secuencia completa; incluyendo la primera línea de
descripción, en un nuevo bloc de notas. Luego guarde.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

Recuperación del Archivo FASTA del gen en FULL


Report

Si elija esta opción notará que se descargará un archivo FASTA con


diferente línea descriptora. Mejor escoger la opción anterior.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

¿Qué son los CDS?


Son porciones del ADN de un gen o
bien ARN que codifica la proteína.
Recuerde buscarlo en el Genbank del
gen de interés.

CDS en Eucariotas ¿Cuál escoger?


La que corresponde a exones, pues
los intrones se eliminarán al
madurar el ARNm. Y usted busca
regiones que codifiquen para una
proteína.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

CDS en Eucariotas
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDS

CDS en Procariotas

Cuando es en
Procariotas no hay
problema, porque
intrones no existen
y solo debe
verificar cuantos
nucleótidos hay en
esa zona y dividir
entre 3.
Búsqueda
Búsquedapreliminar similitudesRecuperación de secuencias Localización de CDD
preliminardedesimilitudes

Recuperación del Archivo FASTA del gen en


específico
Luego de clip en gene para ver
la secuencia del gen de interés.

Para recuperar secuencias con el


Accession number, poner el mismo en
la casilla de búsqueda, dejar
seleccionado All Database y dar clip
en SEARCH.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDD

¿Qué son los dominios conservados o CD?


Secuencias conservadas son secuencias similares o idénticas que
pueden encontrarse en ácidos nucleicos, proteínas o polisacáridos,
dentro de múltiples especies de organismos. En el caso de
conservación cruzada entre especies, indica que una secuencia
particular podría haber sido mantenida por la evolución a pesar de
la especiación.
Las similitudes entre regiones o secuencias sirven como evidencias de
conservación estructural y funcional, además de poner de manifiesto
las relaciones evolutivas entre secuencias.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDD

¿Dónde encontrarlos en BLAST?


En Blast se encuentra
en CDD, este es un
recurso de anotación
de proteínas que
consta de una colección de modelos de alineación de secuencias múltiples
bien anotados para dominios antiguos y proteínas de longitud completa.
Están disponibles como matrices de puntuación de posición específica
(PSSM) para la identificación rápida de dominios conservados en secuencias
de proteínas mediante RPS-BLAST.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDD

¿Dónde encontrarlos?
Puede hacerlo desde Full Report o
desde Genbank, solo que en este
último generará más proteínas.
Cuando esté en alguna de estas dos
opciones, busque el menú derecho
Related information, allí haga clip
en proteína y luego aparecerá una
lista de proteína, escoja según su
accession number. Aquí vera que
habrá coincidencia con la cantidad
de aminoácido que usted calculó
anteriormente.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDD

¿Dónde encontrarlos?

Al escoger Protein en Related


information, la base de datos
realiza la traducción y usted
obtendrá un GenPet.
En ese mismo menú haga clip
en CDD para ubicar los sitios
conservados de ese gen.
Búsqueda preliminar de similitudes Recuperación de secuencias Localización de CDD
¿Qué es UNIPROT?
Es un repositorio central de datos gratuito sobre proteínas. Esto lo ha
convertido en el recurso líder a nivel mundial en cuanto al
almacenamiento de información sobre proteínas.
Uniprot significa “Universal
Protein Resource”, y se compone
de las siguientes bases de datos:
• “UniProt Knowledgebase”
(UniProtKB): Esta interfaz nos
permite buscar en una
colección de información
funcional sobre proteínas con abundantes anotaciones.
¿Qué es UNIPROT?
• “UniProt Reference Clusters” (UniRef): Ofrece conjuntos agrupados
de secuencias de Uniprot KB, incluyendo las isoformas de las
proteínas y registros seleccionados de UniParc para obtener una
cobertura completa de la secuencia de sucesión en varias
resoluciones ocultando secuencias redundantes (pero no su
descripción).
• “UniProt Archive” (UniParc): Completa y no redundante base de datos
que contiene la mayor parte de la información pública sobre
secuencias de proteínas en el mundo. Es capaz de omitir las
secuencias repetidas al extraerlas de diversas bases de datos.
Búsqueda preliminar de similitudes Recuperación de secuencias UniProt

UniProt
Muchas Gracias

También podría gustarte