0% encontró este documento útil (0 votos)
78 vistas26 páginas

5 - Blast 2025-1

El documento describe el funcionamiento y características del BLAST (Basic Local Alignment Search Tool), una herramienta que permite encontrar similitudes entre secuencias de nucleótidos o proteínas. Se detalla cómo BLAST utiliza un método heurístico para realizar alineaciones locales, calcular valores de significancia y puntajes de alineamiento. Además, se presentan diferentes tipos de bases de datos disponibles para realizar búsquedas y ejemplos de actividades prácticas relacionadas con la anotación y clasificación de secuencias.

Cargado por

jei.uwu0107
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
78 vistas26 páginas

5 - Blast 2025-1

El documento describe el funcionamiento y características del BLAST (Basic Local Alignment Search Tool), una herramienta que permite encontrar similitudes entre secuencias de nucleótidos o proteínas. Se detalla cómo BLAST utiliza un método heurístico para realizar alineaciones locales, calcular valores de significancia y puntajes de alineamiento. Además, se presentan diferentes tipos de bases de datos disponibles para realizar búsquedas y ejemplos de actividades prácticas relacionadas con la anotación y clasificación de secuencias.

Cargado por

jei.uwu0107
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

BLAST-Basic Local

Alignment Search Tool


Magdalena Wiesner PhD
Programa de Biología
Facultad de Ciencias
2024-1
[Link]

[Link]
Basic Local Alignment Search Tool (BLAST)

• Encuentra regiones de similitud (≠ similaridad) entre secuencias


• Compara secuencias de nucleótidos o de proteínas contra
bases de datos y calcula la significancia estadística del
apareamiento.
• Útil para inferir relaciones funcionales y evolutivas entre
secuencias similares.
• Ayuda a identificar miembros de una familia de genes.
¿Qué información proporciona un BLAST?
• ¿A qué se parece mi secuencia?
• R/ Similitud vs Identidad ≠ Homología.
• ¿Mi Secuencia se encuentra en la base de datos?
(Identificación)
• Búsqueda de secuencias similares.
• Organismo de origen.
• ¿Dónde está localizada o cómo está organizada?
• En un genoma.
• Otros problemas de anotación: comparación de secuencias y
búsqueda de variaciones (frame-shits: marco de lectura).
Características del BLAST
• Método heurístico: toma atajos para llegar más rápido a la
respuesta adecuada.
• Query : secuencia problema, secuencia pregunta.
• Calcula un valor esperado “Valor E” que estima cuántas
coincidencias se habrían producido por casualidad con una
puntuación determinada ó Número de resultados que podrían
encontrarse por casualidad dada la longitud de la secuencia y
el tamaño de la base de datos.
• Calcula un valor de cobertura
• Calcula un porcentaje de identidad: dice cuantas letras son
iguales para la cobertura encontrada
Características del BLAST
Calcula un puntaje ó Score
• Indica que tan bueno es el alineamiento realizado. Mayor score
significa que es mejor el alineamiento.
• Depende de la cobertura
• El valor se obtiene de los premios o puntajes otorgados cuando
hay un match (letras iguales) o mismatch (letras diferentes) y
los gaps.
Cómo funciona BLAST
• Realiza alineaciones "locales". Por eso es tan eficiente.
• Usa palabras cortas extraídas de la secuencia query: K-mers.
En proteínas son 3-4 amino ácidos, en nucleótidos son 10 a
12 letras.
• La mayoría de las proteínas son de naturaleza modular, con
uno o más dominios funcionales dentro de una proteína. Los
mismos dominios también pueden aparecer en proteínas de
diferentes especies. El algoritmo BLAST está ajustado para
encontrar estos dominios o tramos más cortos de similitud de
secuencia.
• Si, por el contrario, BLAST comenzara intentando alinear dos
secuencias en toda su longitud (lo que se conoce como
alineación global), se detectarían menos similitudes,
especialmente con respecto a dominios y motivos.
Como funciona BLAST. Tres pasos.
1. Corta la secuencia de consulta en
pequeñas "palabras" (Fig. 1A).
2. Utiliza estas palabras cortas para
buscar coincidencias perfectas en todas
las entradas de la base de datos (Figura
1B).
3. Cuando encuentra una coincidencia,
intenta ampliar la alineación
comparando letras consecutivas de la
palabra. Para cada nuevo par de letras,
evalúa si coincide bien (Fig. 1C).
Si es un buen partido, la puntuación
aumenta y si es un mal partido, la
puntuación se reduce.
Resultados BLAST
Resultados BLAST
Resultados BLAST

El valor E describe el número de resultados que podrían


encontrarse por casualidad dada la longitud de la
secuencia y el tamaño de la base de datos. Cuanto menor
sea el valor E, mayores serán las posibilidades de que el
resultado no se deba al azar.
Resultados BLAST

Cobertura: Que el resultado obtenido tenga


el mismo largo de letras o casi el mismo
largo que el que tiene mi busqueda
Resultados BLAST

El porcentaje de identidad dice cuantas


letras son iguales para la cobertura
encontrada
Tipos de BLAST
BLASTP: Base de datos
• Non-redundant (nr): Aquella donde las entradas no estan
repetidas. Se escoge cuando no se está seguro del grupo
taxonómico de su secuencia problema.
• Reference proteins (refseq_proteins): integral, integrada, bien
anotada, no redundante, de secuencias de referencia, incluye
genómica, transcriptómica y proteínas. Se escoge cuando
cuando conozco que mi secuencia se parece a una familia de
proteínas conocidas o cuando quiero comparar contra las
secuencias de funciones conocidas.
BLASTP: Base de datos
• Model organism: secuencias de proteínas bien anotadas de los
organismos modelos, humanos, levaduras, E. Coli, gusanos,
Drosophila, ratones, etc. Escoger cuando quiera comparar
contra proteínas de un organismo modelo.
• UniProt / SWISS-PROT: proteínas curadas con anotación
altamente confiable, poca redundancia e integración con otras
bases de datos. Escoger cuando se quiere estar seguro de la
función de la proteína en varios organismos.
• Patent protein: secuencias extraídas de patentes sometidas a
diferentes oficinas de patentes, Europa, USA y Korea.
BLASTP: Base de datos
• PDB: contiene información acerca de estructuras de proteínas,
ácidos nucleicos y complejos ensamblados de determinadas
experimentalmente
• Metagenomics: estudio de todos los genomas presentes en un
medio ambiente sin identificación previa. Entrega información
de diversidad filogenética y potencial metabólico de una
muestra. Se debe ser cuidadoso con los resultados porque no
es una base muy bien anotada.
• Transcriptome Shotgun Assembly: secuencias de proteínas
ensambladas computacionalmente de los datos primarios de la
base Expressed sequence tags y Next Generation Seq. Se
debe ser cuidadoso con las anotaciones encontradas.
Actividad 1
Anotación de secuencias
Hemos obtenido en un proyecto de secuenciación de
Amblyomma variegatum secuencias de varios genes
tc3, tc320, tc55,tc154
y queremos saber cual es la función de cada una de ellas.
1. Descargue la secuencia e identifique si es ADN o proteína
2. ¿Qué tipo de base de datos sería mejor utilizar ADN o
proteína?
3. Realice la búsqueda con blastn y blastx y comparé los
resultados
Actividad 2. Clasificación de secuencias
Nos envían de un hospital una muestra de sangre de un paciente
para que ayudemos en el diagnóstico. Al parecer tiene una
enfermedad causada por un microorganismo, ¿por cual?.
Para poder solucionar el problema extraemos ADN genómico a partir
de la sangre del paciente y hacemos una PCR utilizando unos
cebadores diseñados para amplificar la región ITS1. Esta región ha
sido ampliamente utilizada para clasificar todo tipo de organismos y
se dispone de numerosas secuencias en la base de datos. Una vez
obtenida la PCR la enviamos a secuenciar y obtenemos la secuencia
para un fragmento del ITS1.
Actividad 3. Clasificación de secuencias
Vamos a utilizar la secuencia del ARN mensajero de la frataxina.
1. Compare los resultados al usar el blastn con la base de datos nr o
la refseq mRNA
2. Utilizando la refseq, ¿Se obtiene el mismo resultado utilizando
blastn y tblastx? ¿Cuántas secuencias se obtienen en uno y otro
caso? ¿Por qué?
3. Revise los E-value

También podría gustarte