0% encontró este documento útil (0 votos)

171 vistas75 páginas

Guía de BLAST para Bioinformáticos

El documento resume el algoritmo BLAST. BLAST realiza búsquedas locales de similitud de secuencias dividiendo las secuencias en palabras clave que se comparan entre sí. Coincidencias iniciales se extienden hasta que la puntuación cae por debajo de un umbral. BLAST devuelve los alineamientos de mayor puntuación y calcula la probabilidad estadística de que sean aleatorios.

Cargado por

Crist Villar

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

171 vistas75 páginas

Guía de BLAST para Bioinformáticos

Cargado por

Crist Villar

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

BLAST

Rodrigo Santamaría

S
BLAST
Introducción
Definición
Familia BLAST
Algoritmo
Salida
Estrategias
Otros programas

S
Introducción

S  BLAST: Basic Local Alignment Search Tool

S  Altschul et al. 1990 (PMID 2231712)
S  Altschul et al. 1997 (PMID 9254694)

S  Es el software más importante en bioinformática

S  Importancia de los estudios de similitud de secuencias
S  Rápido incluso con BBDD muy grandes
S  Fiable a nivel informático y estadístico
S  Flexible, con multitud de parámetros ajustables
Introducción

S  BLAST permite seleccionar una secuencia (query) y realizar

alineamientos de pares de secuencias con todas las
secuencias de base de datos entera (target)
S  Realiza millones de alineamientos
S  Y devuelve los más relacionados con la query
Introducción

S  Needleman-Wunsch (1970) hace alineamientos globales, cuando

normalmente estamos interesados en locales

S  Smith-Waterman (1981) hace alineamientos locales óptimos, pero no

es útil en búsquedas de bases de datos porque es muy intensivo
computacionalmente

S  BLAST (1990) hace alineamientos locales subóptimos, pero

suficientemente sensibles y muy rápidos.
S  Además es accesible online ([Link]
Introducción
Familia BLAST

Programa Query Target (DB) Usos

Nucleótido Nucleótido Por ejemplo para comparar secuencias entre especies o detectar
blastn elementos repetitivos
Proteína Proteína Por ejemplo identificar regiones comunes entre proteínas,
blastp identificar proteínas comunes para estudios filogenéticos
Nucleótido Proteína Determinar si una secuencia de ADN corresponde a una
blastx traducido a proteína conocida. Blastx convierte la secuencia de ADN a las 6
proteína posibles proteínas y las compara con las proteínas de una DB
Proteína Nucleótido Por ejemplo comprobar si una determinada proteína aparece en
tblastn traducido a ADN genómico de otras especies
proteína
Nucleótido Nucleótido Comparar posibles proteínas de una cadena de ADN con
traducido a traducido a posibles proteínas de una DB de ADN. Útil para encontrar
tblastx proteína proteína coincidencias no dadas por métodos tradicionales o que no están
aún en las bases de datos de proteínas. Computacionalmente alto
Introducción
Familia BLAST

S  “Nucleótido traducido a proteína”

S  Una cadena de ADN da lugar a 6 cadenas de amino ácidos
S  2 sentidos (strands) de ADN
S  3 posibles marcos de lectura o reading frames (+0,+1,+2)
Familia BLAST

S  Reglas nemotécnicas

S  n, p, x se refieren a la query
S  t se refiere al target (translated)
S  x/t indican que el query/target está traducido

*blast*

n
-
p
t
x
Selección de Bases de Datos
(NCBI BLAST)

S  Proteínas (para blastp, blastx)

S  GenBank (RefSeq), SwissProt, PIR, PRF
S  BD no redundante (nr): Combina todas las anteriores,
eliminando duplicados

S  ADN (para blastn, tblastn, tblastx)

S  Genoma humano/ratón + transcritos
S  BD no redundante (nr): nucleótidos combinados (sin
duplicados) de GenBank, EMBL, DDBJ y PDB
S  Otras BBDD de secuencias particulares
BLAST
Introducción
Algoritmo
Fases
Evaluación Estadística

Salida
Opciones
Protocolos
Otros programas

S
Algoritmo BLAST

1.  List: se compila una lista preliminar de alineamientos

posibles (palabras), según la secuencia de la query

2.  Scan: se busca en la base de datos por secuencias que

coinciden con las palabras, según un umbral T

3.  Extend: se extienden los pares de palabras para

encontrar aquéllos que superen un umbral S,
reportándose como coincidencias.
Fase 1 - listado

S  Se divide la secuencia en palabras, y para cada palabra w se lista el

conjunto de palabras Sw (a veces llamadas semillas) con un nivel de
coincidencia por encima de un umbral T
S  Para proteínas
S  Las palabras tienen un tamaño por defecto de 3 (203=8000 palabras)
S  Para cada palabra, se identifican las palabras que se parecen a ella
por encima de un umbral T, usando como puntuación una de las
matrices vistas (PAM, BLOSUM)

S  Para genes

S  Las palabras tienen un tamaño por defecto de 11 (411~106)
S  Se identifican palabras que coincidan exactamente (Sw= w)
S  No hay umbral T
Fase 2 - búsqueda

S  Para cada palabra w se escanea la BD en busca de registros

que coincidan con alguna de las palabras en Sw (hits)
S  En el caso de genes, que coincidan exactamente con w

S  (Altschul et al., 1997) acelera el algoritmo buscando

coincidencias con dos palabras w1 y w2 que se encuentren a
una distancia <A
S  Conocido como el método de dos hits (two-hit method).
S  Encuentra 3 veces más coincidencias, pero extiende sólo 1/7
de ellas (es decir, acelera la fase 3)
Fase 3 - extensión

S  Para cada coincidencia, se extiende la palabra en ambas

direcciones, hasta que el valor de coincidencia baja por
debajo de un umbral X
S  De nuevo, se usa para calcular el valor de coincidencia una de
las matrices vistas (PAM, BLOSUM)
Fase 3 - extensión
Aquí se acabaría la
extensión para este X
Score S

X – umbral de
T Cada puntuación se busca en la caída desde el
matriz de sustitución (BLOSUM62). máximo valor
Por ejemplo: B62[V,Y] = -1 hasta el momento
Hit inicial
Fase 3 - extensión

S  La versión actual BLAST de NCBI utiliza tres umbrales X,

correspondientes a tres fases de extensión:
S  Primera fase: la primera extensión termina cuando se llega a
una caída>X1 o a un hueco (gap)
S  Segunda fase: la segunda extensión termina cuando hay una
caída>X2 (contando huecos)
S  Tercera fase: la extensión termina cuando hay una caída>X3
(contando huecos)
Valores y umbrales

S  T: determina las palabras que

se consideran coincidencias
inicialmente

S  X: determina hasta dónde se

considera coincidencia al
extender las palabras

S  Matrices de puntuación

S  S: valor de puntuación,

depende de las secuencias a
comparar y de X, T y la matriz
de puntuación
Parámetros

S  Umbral T é velocidad é sensibilidad ê

S  Tamaño de palabra é velocidad é sensibilidad ê

S  Matriz de puntuación ~ características evolutivas

S  La elección adecuada de estos tres parámetros es clave para

modular la sensibilidad y velocidad de BLAST
Resumen

query
…VTALWGKVNVD…! Listar palabras que LWG IWG MWG VWG FWG !
coinciden por encima de T AWG LWS LWN LWA LYG
VTA LWG KVN!
División en palabras de
tamaño determinado TAL WGK VNV!
Buscar coincidencias en la BD
ALW GKV NVD! Extender hasta que el nivel de
coincidencia baje del umbral X

high-scoring segment pair (HSP)

Evaluación estadística

S  Queremos calcular una medida cuantitativa de la

probabilidad de que los alineamientos encontrados lo sean
por azar

S  Para ello, usamos una distribución de valores extremos en

vez de una distribución normal
S  ¿Por qué?: La caída rápida de la distribución normal a la
derecha hace que se sobreestime la significatividad del
alineamiento à los alineamientos aleatorios no siguen una
distribución normal
Distribución de valor extremo

Distribución normal
Distribución de valor
S  A partir de esta distribución, para
extremo dos secuencias con longitud n y
m, el número esperado (E-valor)
de hits con coincidencia >= S es
S  E=Kmne-λS
S  λ- factor de bajada
S  K - factor de escala

S  S es un raw score (no tiene en

cuenta la distribución de
probabilidad)
Bit scores

S  El bit score (S’) normaliza el raw score (S) en función de los
métodos de puntuación y los tamaños de las secuencias:

! S ! ln K
S' =
ln 2
S  El E-valor de S’ es: E = mn ! 2 "S '
S  m y n son los tamaños de la secuencias query y target

S  S’ permite comparar scores de búsquedas sobre distintas DDBB o

realizadas con distintas matrices de puntuación
Kyλ

S  Dependen de
S  La matriz de puntuación
S  La penalización de gaps
E y p valores

S  p-valor: probabilidad de tener un

alineamiento por casualidad utilizando
score S o mayor.
S  E y p son modos parecidos pero
distintos de representar la
significatividad de un alineamiento
!E
S  La relación entre p y E es: p = 1! e
S  Para E ≤ 0.05 à p ~ E
BLAST
Introducción
Algoritmo
Salida
Cabecera
Resúmenes
Alineamiento
Pie
Protocolos
Otros programas

S
Salida BLAST

S  La estructura básica de una salida BLAST es

S  Cabecera: detalles sobre la consulta (query y target)
S  Resúmenes de una línea: alineamientos significativos
S  Alineamientos: detalles de cada alineamiento significativo
S  Pie: detalles sobre la consulta (resto de parámetros)

S  La salida es similar para toda la familia BLAST

S  Veremos la salida de blastp y algunas peculiaridades del
alineamiento en blastn y blastx
Cabecera

BLASTP 2.2.25+!
Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro!
A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and!
David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new!
generation of protein database search programs", Nucleic!
Acids Res. 25:3389-3402.!
!
Reference for compositional score matrix adjustment: Stephen!
F. Altschul, John C. Wootton, E. Michael Gertz, Richa!
Agarwala, Aleksandr Morgulis, Alejandro A. Schaffer, and!
Yi-Kuo Yu (2005) "Protein database searches using!
compositionally adjusted substitution matrices", FEBS J.!
272:5101-5109.!
!
RID: YYHSBSST014!
!
Database: All non-redundant GenBank CDS!
translations+PDB+SwissProt+PIR+PRF excluding environmental samples!
from WGS projects!
14,316,990 sequences; 4,903,270,308 total letters!
Query= gi|4504349|ref|NP_000509.1| hemoglobin subunit beta [Homo sapiens]!
Resúmenes de una línea

Bit score
Alineamientos

No coincidencia coincidencia

No coincidencia exacta, gap

pero score positivo
Alineamientos - blastn
Alineamientos - blastx

Marco de lectura
Pie
Database: All non-redundant GenBank CDS translations+PDB+SwissProt+PIR+PRF!
excluding environmental samples from WGS projects!
Posted date: Jun 7, 2011 4:38 PM!
Number of letters in database: 608,303,012!
Number of sequences in database: 14,316,990!
!
Lambda K H!
0.320 0.137 0.422 !
K y λ para el cálculo de E-valores
Gapped!

[Link]
Lambda K H!
0.267 0.0410 0.140 !
Matrix: BLOSUM62!
Matriz de puntuación
Gap Penalties: Existence: 11, Extension: 1!
Number of Sequences: 14316990! Penalización para gaps en hits

Más información sobre los resultados de BLAST en

Number of Hits to DB: 150690867! iniciales y en extensiones
Number of extensions: 5974360!
Number of successful extensions: 11879!
Number of sequences better than 100: 127!
Number of HSP's better than 100 without gapping: 0!
Number of HSP's gapped: 11811!
Number of HSP's successfully gapped: 127!
Length of query: 147!
Length of database: 4903270308!
Length adjustment: 110!
Effective length of query: 37!
Effective length of database: 3328401408!
Effective search space: 123150852096!
Effective search space used: 123150852096!
T: 11!
A: 40! Umbral para hits iniciales
X1: 16 (7.4 bits)! Distancia entre los 2 hits
X2: 38 (14.6 bits)! Umbrales de extensión
X3: 64 (24.7 bits)!
S1: 41 (20.4 bits)! Umbrales finales: se desechan alineamientos con
S2: 67 (30.4 bits)! S menor que estos umbrales
BLAST
Introducción
Algoritmo
Salida
Estrategias
Consideraciones generales
Significatividad estadística
Modificación del nº de resultados
Protocolos
Otros programas
S
Consideraciones generales

S  BLAST es una gran herramienta para explorar BBDD de secuencias

S  Para obtener los mejores resultados posibles es esencial:

S  Definir la cuestión que se quiere responder
S  Evaluar cuál será la secuencia de entrada
S  Evaluar cuál será la BD de búsqueda
S  Evaluar cuál será el algoritmo a utilizar
S  Evaluar cuáles serán los parámetros del algoritmo

S  Debemos considerar estos puntos a priori, antes de conocer ningún

resultado
S  De lo contrario, caemos en una espiral de ensayo y error sin criterio.
Consideraciones generales

S  Buena aproximación: tratar las búsquedas BLAST como un

experimento científico más
S  Hipótesis (pregunta)
S  Diseño experimental (secuencia, BD, algoritmo, parámetros)
S  Resultados (salida)
S  Interpretación

S  Mala aproximación: realizar búsquedas con una hipótesis o

diseño pobre, y analizar los resultados en función de si obtengo lo
que quería o no
S  Luego modifico el diseño, hasta que los resultados que obtenga
confirmen lo que quería oír
S  Esta manipulación de los datos es posible en muchos casos, dada
la flexibilidad de parámetros de BLAST.
Consideraciones generales

S  Salida de BLAST

S  Un usuario novato se queda en los resúmenes de una línea
S  Un usuario avanzado examina los alineamientos y su
estadística
S  Un profesional lee la sección final
S  Examina el espacio de búsqueda
S  Umbrales de listado W, T, A
S  Umbrales de extensión X, S
S  Matriz de puntuación
Consideraciones generales

S  Debemos ser capaces de discernir, prever y corregir tres

aspectos fundamentales respecto a la salida del algoritmo
S  El hecho de obtener demasiados alineamientos
S  El hecho de obtener muy pocos alineamientos
S  La significatividad de los alineamientos
Significatividad de los
alineamientos

S  Tras realizar una búsqueda con BLAST, obtenemos una

lista de alineamientos ordenados por su E-valor
S  Un E-valor pequeño es probable que indique un alineamiento
significativo, no solo estadísticamente sino biológicamente
S  Sin embargo, también puede ser un falso positivo
S  Además, por ejemplo, hay proteínas homólogas con una similitud
baja, y por tanto el alineamiento no tendrá un E-valor muy bajo

S  Consideremos un blastp sobre la proteína RBP4

(AAH20633.1), miembro de la familia de las lipocalinas
Significatividad de los
alineamientos
Significatividad de los
alineamientos

S  Primer paso, ir mirando por orden de E-valor

S  Los primeros alineamientos son muy perfectos (E~10100), con
secuencias de nombres similares a RBP4
S  Redundancias que no ha podido resolver NCBI-BLAST, debido a que
no son secuencias totalmente idénticas, etc.
S  Podemos solucionarlo utilizando RefSeq en vez de nr como DB
S  Hacia la mitad de la lista, con E-valor alrededor de 10-10 tenemos
dos secuencias, RBP y apopiloprotein D
S  Estas dos secuencias son muy distintas a pesar de tener E valores
similares
S  Importancia de inspeccionar los alineamientos
Significatividad de los
alineamientos
Una pequeña parte de RBP4 se
alinea con el 94% de RBP

Esta secuencia, con E-valor

parecido, tiene una identidad
mucho menor debido a su tamaño
Significatividad de los
alineamientos

S  Mucho más abajo, encontramos el componente

complementario 8 gamma (NP_000597)
S  Tiene un E-valor muy malo (0.97) y puntuación baja (32.3)
S  La identidad es baja (25%) e incluye tres huecos
S  Parece razonable pensar que las dos proteínas no están
relacionadas
S  ¡Pero lo cierto es que son homólogas!
S  BLAST es sólo una ayuda al descubrimiento de proteínas
homólogas
Significatividad de los
alineamientos

S  Hay varias cuestiones que podemos considerar a la hora de decidir

si dos proteínas son similares
S  E-valor: es una primera pista, pero cuidado con falsos positivos y
con proteínas homólogas con baja identidad

BLAST
S  Tamaño: dos secuencias homólogas no necesariamente tienen el
mismo tamaño, o pueden compartir sólo alguna región
S  Regiones o motivos: por ejemplo RBP4 y 8-gamma comparten un
motivo G*W típico de la familia de las lipocaínas
S  Función biológica: todas las lipocaínas son pequeñas, hidrófilas…
S  Estructura 3D: si las dos proteínas comparten alguna estructura
bien conservada es otra evidencia para su homología
S  …
Reducción del listado de
resultados

S  Es frecuente terminar con listas muy largas de alineamientos

S  Algunas estrategias para reducirlas

S  Usar “refseq” como BD: elimina muchas entradas redundantes
S  Limitar los alineamientos a un solo organismo
S  Limitar a una porción de la secuencia (por ejemplo, un
dominio o región característico de la proteína)
S  Ajustar los parámetros
S  Matriz de puntuación
S  Umbrales T, X, S, E
Reducción del listado de
resultados

S  Secuencias de baja complejidad

S  Secuencias con poca variación de nucleótidos/aminoácidos
S  PPCDPPPPPKDKKKKDDGPP
S  AAATAAAAAAAATAAAAAT
S  Suelen dar lugar a falsas coincidencias
S  NCBI-BLAST tiene una opción para filtrarlas
Incremento del listado de
resultados

S  También es común terminar con listas muy cortas de

alineamientos (o no encontrar alineamientos en absoluto)
S  Muchos genes/proteínas no tienen coincidencias o no se
conocen

S  Algunas estrategias para intentar aumentar las coincidencias

S  Ajustar los umbrales, especialmente el umbral de E-valor
S  Probar matrices PAM más altas o BLOSUM más bajas
S  Buscar en BBDD adicionales
S  …
BLAST
Introducción
Algoritmo
Salida
Estrategias
Protocolos
Mapeo y Exploración
Descubrimiento de genes
Otros programas

S
Protocolos

S  La mayoría de las búsquedas BLAST son de dos tipos

S  Mapeos: encontrar la posición de una secuencia en otra
S  Se espera una coincidencia casi exacta de secuencias
S  El objetivo es encontrar la localización, no asociar las secuencias
S  Ejemplos: encontrar un gen en genoma o una región en proteína
S  Exploraciones: encontrar secuencias funcionalmente afines
S  Las estadísticas son de gran importancia
S  E, matriz de puntuación, % de identidad
S  Y también el conocimiento biológico
S  Filogenético, funcional, estructural, etc.
S  Ejemplo: encontrar proteínas homólogas (RBP4)
Parámetros y protocolos

S  Match/mismatch de nucleótidos (blastn)

S  99% de identidad (mapeo): +1/-3
S  75% de identidad (exploración): +1/-1

S  Matriz de puntuación en aminoácidos (blastp/n)

S  Mapeo: normalmente del mismo organismo o similar
S  BLOSUM62, BLOSUM80, PAM30
S  Exploración:
S  Entre organismos parecidos (BLOSUM62)
S  Entre organismos muy distintos (BLOSUM45)
Parámetros y protocolos

S  Tamaño de palabra (en blastn)

S  Por defecto 11
S  Mapeo: puede ser más larga à más rápido
S  Nunca mayor que la secuencia a mapear
S  Exploración: según lo que se busque, se puede jugar con el tamaño
S  Mejor 9 que 11 en proteínas, evita codones degenerados.

S  Penalización de gaps (blatsp/n)

S  Exploración: penalización alta
S  Un bloque funcional suele tener pocos huecos
S  Mapeo: penalización alta
S  O muy alta, hasta eliminar los saltos, en algunos casos
Parámetros y protocolos

S  E-valor (blastp/n)

S  Exploración: depende de lo estricta que sea
S  Importancia de inspeccionar cada alineamiento por separado
S  Mapeo: muy bajo (en realidad poco importante)
Tipos de mapeos

S  Mapeos
S  Gen sobre genoma: blastn
S  Proteína sobre genoma: tblastn

S  Exploraciones
S  Proteínas homólogas: blastp
S  Genes coincidentes: blastn
S  Genes que codifican proteínas: blastx
S  Genes posibles sobre secuencias
genómicas: tblastx
Descubrimiento de genes

S  Encontrar un nuevo gen en

bioinformática equivale a
descubrir una secuencia de ADN
que no está anotada en una BD
S  No sustituye a las
aproximaciones
experimentales, si no que las
complementa
Descubrimiento de genes
Ejercicio

1.  Elegir una proteína, incluyendo la especie y su identificador

S  p. ej. la beta-globina humana, con id NP_000509

2.  Hacer un tblastn sobre una BD de ADN genómico

S  Evaluar E valores, puntuaciones y alineamientos, determinando:
S  Coincidencia perfecta: ya descubierta
S  Coincidencia cercana: posiblemente no descubierta aún
S  Falso positivo: un resultado que no es homólogo
S  Elegir una coincidencia como candidato a nueva proteína

3.  Reunir información sobre la nueva proteína y su especie

S  Básicamente, la secuencia devuelva por el tblastn y de dónde viene

4.  Demostrar que el gen y su proteína correspondiente son nuevos

S  Hacer un blastx de la secuencia contra la base de datos nr del NCBI
Descubrimiento de genes
Ejercicio

S  Consideraciones
S  Elección de la BD
S  Utilizaremos una BD de Expressed Sequence Tags (cadenas cortas
-800 bases- de ADN expresadas en una región de un organismo en
algún momento de su desarrollo)
S  Hay más probabilidades de encontrar un gen nuevo en un
organismo que no haya sido anotado exhaustivamente
S  Mejor evitar humano, ratón o S. cerevisiae
Descubrimiento de genes
Ejercicio

S  Consideraciones
S  Para el ejercicio, consideraremos que el gen es “nuevo” si,
realizando un blastx/blastp de su secuencia contra la BD no
redundante (nr) del NCBI
S  Si hay una coincidencia del 100% de identidad con alguna proteína de
la BD, de la misma especie que el gen “nuevo”, el gen NO es nuevo
(incluso si tiene por nombre unknown)
S  Si la mejor coincidencia tiene <100% de identidad, es posible que sea
nueva
S  Si hay una coincidencia del 100%, pero en una especie distinta de la que
empezaste, es un gen nuevo
S  Si no hay coincidencias con la proteína original de búsqueda, has
encontrado un gen/proteína que no es homólogo con la búsqueda
original. Probablemente haya habido un error, hay que volver a empezar
o elegir otra proteína.
BLAST
Introducción
Algoritmo
Salida
Estrategias
Protocolos
Otros programas
PSI, RPS, PHI-BLAST
PatternHunter, BLASTZ, MegaBLAST

S
PSI-BLAST

S  Position Specific Iterative BLAST

S  Existen proteínas homólogas que no presentan similitud

S  Podemos usar distintas matrices BLOSUM o PAM en nuestra
búsqueda BLAST para maximizar la sensibilidad de su
alineamiento, pero a veces esto no es suficiente

S  PSI-BLAST es más sensible que BLAST

S  Su objetivo es encontrar proteínas distantemente relacionadas
PSI-BLAST

S  PSI-BLAST consta de 5 pasos

1.  Búsqueda blastp normal de una secuencia contra una BD
2.  Construcción de un alineamiento múltiple de las secuencias
coincidentes, y creación de una matriz de búsqueda especializada
(position-specific scoring matrix, PSSM) basada en dicho alineamiento
3.  Nueva búsqueda usando como matriz de puntuación la PSSM
4.  Se evalúa la significatividad estadística de las coincidencias
5.  Se repite el proceso, pero usando en 1 la PSSM para calcular la matriz
de puntuación, hasta convergencia o nº máximo de iteraciones
PSI-BLAST
PSMM

S  Filas: residuos de la

secuencia de búsqueda

S  Columnas: todos los

aminoácidos

S  La puntuación para un

aminoácido puede variar
dependiendo de su posición
en la secuencia
PSI-BLAST

S  Ventaja: las PSSM aportan mucha sensibilidad al método

S  Permiten asociar secuencias débiles en cuanto a su similitud
pero fuertes en su relación biológica

S  Desventaja: también aumentan el número de falsos positivos

S  Corrupción de la PSSM: cuando se asocia un falso positivo con
la secuencia, éste se incorpora a la PSSM e incrementa la
probabilidad de la inclusión de nuevos falsos positivos.
RPS-BLAST

S  Reverse Position Specific BLAST

S  Utiliza, en vez de una matriz de puntuación tradicional, una

batería con muchas PSSMs
PHI-BLAST

S  Pattern-Hit Initiated BLAST

S  A menudo la proteína de búsqueda contiene un patrón o “firma” en
forma de conjunto de residuos que la definen como parte de una
familia (una enzima, una secuencia que define un dominio funcional
o estructural o una función conocida)

S  PHI-BLAST permite encontrar proteínas

S  Relacionadas significativamente con la proteína de búsqueda (blastp)
S  Que contengan un determinado patrón
S  GXW[YF] à G seguido de cualquier aa (X), seguido de W, e Y ó F
DNA genómico y BLAST

S  Las BBDD de ADN genómico crecen rápidamente, y cada

vez es más común buscar una proteína o secuencia de ADN
contra un genoma.

S  Este es un problema con características específicas

S  El ADN genómico tiene exones e intrones à queremos los exones
S  Queremos contemplar diferencias muy pequeñas tales como SNPs
S  También compararemos secuencias de organismos muy distintos,
con deleciones, duplicaciones, inversiones y translocaciones.

S  Veremos algunas herramientas para búsquedas de este tipo

PatternHunter

S  blastn busca palabras de tamaño 11 que coincidan exactamente

S  Si 1 es una coincidencia, el patrón que se busca es 11111111111

S  PatternHunter cambia el patrón a 110100110010101111

S  Permite mismatches (0s) entre medias, lo que incrementa el número
de hits
S  P. ej. para dos secuencias de 64 nucleótidos con un 70% de similitud,
blastn tiene un 30% de posibilidades de reportar una coincidencia, y
PatternHunter un 47%

S  BLASTZ y MegaBLAST adoptan este tipo de patrones

PatternHunter

S  Incremento de la
sensibilidad con el patrón
“flexibe” de PatternHunter
comparado con los
patrones tradicionales de
tamaño 10 y 11
BLASTZ

S  Se desarrolló para alinear el genoma humano y el de ratón

S  Muy útil para comparar secuencias largas de genoma

S  Básicamente es una modificación del BLAST con huecos

S  Busca coincidencias cortas casi exactas
S  Extiende sin permitir huecos
S  Hace una segunda extensión permitiendo huecos

S  Mejoras
S  Eliminación de patrones ambiguos o repetitivos de ambas secuencias
S  Uso de coincidencias tipo PatternHunter (1110100110010101111)
S  Segunda búsqueda tras una coincidencia, en regiones adyacentes, usando
un tamaño de palabra menor (7)
MegaBLAST

S  Incrementa el tamaño de palabras de 11 a 28 (o hasta 64)

S  Esto acelera mucho su velocidad respecto a blastn
S  Aunque lo hace menos sensible

S  Discontiguous-MegaBLAST adopta la estrategia de

“palabra discontinua” de PatternHunter
Resumen

S  BLAST es una herramienta indispensable S  BLAST utiliza una matriz BLOSUM o
para encontrar relaciones de una PAM, pero versiones más avanzadas y
secuencia con las millones de secuencias cada vez más utilizadas, como PSI-
existentes en las bases de datos públicas, a BLAST, usan matrices específicas
través de alineamientos de pares. dependientes de la posición de los
aminoácidos en la secuencia (PSSM).
S  El algoritmo de BLAST divide la
secuencia de entrada, busca “trozos” S  Es muy importante en una búsqueda
similares en la BD y cuando los encuentra BLAST la elección de la base de datos, el
expande el trozo según una determinada algoritmo y los parámetros más
métrica. Es un modo de alineamiento de adecuados. Es de vital importancia
pares muy efectivo computacionalmente. también saber interpretar los resultados y
discriminar los alineamientos significativos
S  Existen varios algoritmos BLAST de los no significativos.
dependiendo de si comparamos
nucleótidos, proteínas, etc.
Preguntas para debate

S  ¿Considerarías significativo un E-valor de 1, 0.05 o 10-5?

¿Depende de la búsqueda particular que estés realizando?

S  ¿Por qué un programa como BLAST debe tener un

compromiso entre sensibilidad y especificidad? ¿Cómo hace
blastp para ello? (consultar Altschul et al. 1990)

S  ¿Por qué BLAST tiene tantas opciones? ¿NCBI-BLAST

tiene pocas o muchas? ¿Convendría simplificarlo?
Lecturas adicionales

S  Pevsner, 2009: Ch 4 Basic Local Alignment Search Tool (BLAST)

S  Stephen F. Altschul et al., Basic Local Alignment Search Tool. J. Mol.
Biol. 1990; 215:403-410
S  PMID: 2231712

S  Stephen F. Altschul et al., Gapped BLAST and PSI-BLAST: a new

generation of protein database search programs, Nucleic Acids
Research. 1997 Jul 16;25(17):3389-3402
S  PMCID: PMC146917
Ecce homology es una instalación
artística que visualiza el proceso de
búsqueda de secuencias similares
entre el hombre y el arroz con BLAST

El espectador puede modificar y

seleccionar los genes a alinear con sus
movimientos

Proyecto
[Link]
[Link]
Paper:
[Link]
publications/West-et-al-2005_Ecce-
[Link]

También podría gustarte

5 - Blast 2025-1
Aún no hay calificaciones
5 - Blast 2025-1
26 páginas
Guía Completa de Búsqueda BLAST
Aún no hay calificaciones
Guía Completa de Búsqueda BLAST
14 páginas
Análisis de Secuencias y Algoritmos BLAST
Aún no hay calificaciones
Análisis de Secuencias y Algoritmos BLAST
50 páginas
BLAST Bioinformatics
Aún no hay calificaciones
BLAST Bioinformatics
40 páginas
Alineamiento y Filogenética de Secuencias
Aún no hay calificaciones
Alineamiento y Filogenética de Secuencias
49 páginas
Primers Blast (Ncbi)
Aún no hay calificaciones
Primers Blast (Ncbi)
8 páginas
Búsquedas Bioinformáticas de Secuencias
Aún no hay calificaciones
Búsquedas Bioinformáticas de Secuencias
43 páginas
Genética y Biotecnología: Ejercicios y Análisis
Aún no hay calificaciones
Genética y Biotecnología: Ejercicios y Análisis
10 páginas
Análisis Heurístico y Optimo GFS
Aún no hay calificaciones
Análisis Heurístico y Optimo GFS
5 páginas
Introducción a BLAST en Bioinformática
Aún no hay calificaciones
Introducción a BLAST en Bioinformática
1 página
Guía de Uso de BLAST para Bioinformática
Aún no hay calificaciones
Guía de Uso de BLAST para Bioinformática
39 páginas
Taller Alineamiento de Secuencias y Diseño de Primers
Aún no hay calificaciones
Taller Alineamiento de Secuencias y Diseño de Primers
11 páginas
Blast Ncbi
Aún no hay calificaciones
Blast Ncbi
6 páginas
Práctica de Bioinformática: Alineamiento BLAST
Aún no hay calificaciones
Práctica de Bioinformática: Alineamiento BLAST
22 páginas
Análisis Genómico de Infecciones Bacterianas
Aún no hay calificaciones
Análisis Genómico de Infecciones Bacterianas
2 páginas
Genética y Biotecnología: Leyes de Mendel y BLAST
Aún no hay calificaciones
Genética y Biotecnología: Leyes de Mendel y BLAST
6 páginas
Blast
Aún no hay calificaciones
Blast
5 páginas
Alineamiento de Secuencias en Bioinformática
Aún no hay calificaciones
Alineamiento de Secuencias en Bioinformática
21 páginas
Introducción a BLAST en Bioinformática
Aún no hay calificaciones
Introducción a BLAST en Bioinformática
8 páginas
Introducción a BLAST en Bioinformática
Aún no hay calificaciones
Introducción a BLAST en Bioinformática
14 páginas
Uso de BLAST en Alineamiento de Secuencias
Aún no hay calificaciones
Uso de BLAST en Alineamiento de Secuencias
7 páginas
Practica - 6.genbank y BLAST
Aún no hay calificaciones
Practica - 6.genbank y BLAST
4 páginas
Reporte BLAST
Aún no hay calificaciones
Reporte BLAST
13 páginas
Secuenciación y Análisis en Bioinformática
Aún no hay calificaciones
Secuenciación y Análisis en Bioinformática
3 páginas
Secuenciación Sanger y Bioinformática
Aún no hay calificaciones
Secuenciación Sanger y Bioinformática
34 páginas
Alineamiento de Secuencias con BLAST
Aún no hay calificaciones
Alineamiento de Secuencias con BLAST
15 páginas
Introducción a la Bioinformática en Laboratorio
Aún no hay calificaciones
Introducción a la Bioinformática en Laboratorio
20 páginas
Análisis Bioinformático con BLAST en NCBI
Aún no hay calificaciones
Análisis Bioinformático con BLAST en NCBI
9 páginas
Introducción a la Bioinformática
Aún no hay calificaciones
Introducción a la Bioinformática
20 páginas
Análisis de Secuencias de Proteínas MosA y MosB
Aún no hay calificaciones
Análisis de Secuencias de Proteínas MosA y MosB
16 páginas
Introducción a la herramienta BLAST
Aún no hay calificaciones
Introducción a la herramienta BLAST
15 páginas
Introducción A La Bioinformática
Aún no hay calificaciones
Introducción A La Bioinformática
53 páginas
Taller de Alineamiento de Secuencias.
Aún no hay calificaciones
Taller de Alineamiento de Secuencias.
9 páginas
Unidad2 Alineamiento
Aún no hay calificaciones
Unidad2 Alineamiento
60 páginas
Alineación de Secuencias en Biología Molecular
Aún no hay calificaciones
Alineación de Secuencias en Biología Molecular
19 páginas
Ejercicio 1
Aún no hay calificaciones
Ejercicio 1
6 páginas
Taller Bioinformatica
Aún no hay calificaciones
Taller Bioinformatica
9 páginas
Alineamiento de Secuencias: Métodos y Puntuaciones
Aún no hay calificaciones
Alineamiento de Secuencias: Métodos y Puntuaciones
54 páginas
Alineamientos
Aún no hay calificaciones
Alineamientos
34 páginas
Alineamiento de Secuencias con BLAST
Aún no hay calificaciones
Alineamiento de Secuencias con BLAST
33 páginas
A01P RepositoriosGenesGenomas-1
Aún no hay calificaciones
A01P RepositoriosGenesGenomas-1
18 páginas
Introducción a la Bioinformática y su Aplicación
Aún no hay calificaciones
Introducción a la Bioinformática y su Aplicación
23 páginas
Macias Caño Vanesa p1
Aún no hay calificaciones
Macias Caño Vanesa p1
9 páginas
Alineamiento de Secuencias: Métodos y Matrices
Aún no hay calificaciones
Alineamiento de Secuencias: Métodos y Matrices
36 páginas
Alineamiento de Secuencias: Métodos y Análisis
Aún no hay calificaciones
Alineamiento de Secuencias: Métodos y Análisis
36 páginas
Quimica 6
Aún no hay calificaciones
Quimica 6
6 páginas
Alineamiento de Secuencias: Métodos y Algoritmos
Aún no hay calificaciones
Alineamiento de Secuencias: Métodos y Algoritmos
73 páginas
Alineamiento de Secuencias: Algoritmos y Ejemplos
Aún no hay calificaciones
Alineamiento de Secuencias: Algoritmos y Ejemplos
73 páginas
Introducción a la Bioinformática y Bases de Datos
Aún no hay calificaciones
Introducción a la Bioinformática y Bases de Datos
16 páginas
Análisis Bioinformático de Secuencias Nucleotídicas
Aún no hay calificaciones
Análisis Bioinformático de Secuencias Nucleotídicas
21 páginas
P3 - Bioinformática - Sánchez Zamorano Julio César
Aún no hay calificaciones
P3 - Bioinformática - Sánchez Zamorano Julio César
10 páginas
Ejercicios Prácticos con BLAST
Aún no hay calificaciones
Ejercicios Prácticos con BLAST
4 páginas
Practica 7. Identificación Molecular de Bacterias
Aún no hay calificaciones
Practica 7. Identificación Molecular de Bacterias
3 páginas
Alineación de Secuencias en Bioinformática
100% (1)
Alineación de Secuencias en Bioinformática
5 páginas
Análisis de Secuencias de DNA y Herramientas
Aún no hay calificaciones
Análisis de Secuencias de DNA y Herramientas
33 páginas
Alineamiento de Secuencias en Bioinformática
Aún no hay calificaciones
Alineamiento de Secuencias en Bioinformática
5 páginas
Bioinformática: Análisis de Genes y Proteínas
Aún no hay calificaciones
Bioinformática: Análisis de Genes y Proteínas
6 páginas
Diseño de Una Arquitectura para Big Data
Aún no hay calificaciones
Diseño de Una Arquitectura para Big Data
28 páginas
Automatización en Bioquímica Clínica
Aún no hay calificaciones
Automatización en Bioquímica Clínica
512 páginas
Técnicas de Separación en Bioquímica
Aún no hay calificaciones
Técnicas de Separación en Bioquímica
47 páginas
Análisis Bioquímicos en Muestras Humanas
Aún no hay calificaciones
Análisis Bioquímicos en Muestras Humanas
39 páginas
Análisis Bioquímicos y Radiación Electromagnética
Aún no hay calificaciones
Análisis Bioquímicos y Radiación Electromagnética
55 páginas
Análisis Bioquímico de Enzimas Clínicas
Aún no hay calificaciones
Análisis Bioquímico de Enzimas Clínicas
29 páginas
Inducción de Contratistas en Faena MEL y Spence
Aún no hay calificaciones
Inducción de Contratistas en Faena MEL y Spence
86 páginas
Automatización en Bioquímica Clínica
Aún no hay calificaciones
Automatización en Bioquímica Clínica
16 páginas
SENSORES
Aún no hay calificaciones
SENSORES
130 páginas
Especificaciones de Materiales Metálicos
Aún no hay calificaciones
Especificaciones de Materiales Metálicos
34 páginas
Alineamiento Laser
Aún no hay calificaciones
Alineamiento Laser
41 páginas
Codigo Oculto-Celulares
Aún no hay calificaciones
Codigo Oculto-Celulares
15 páginas
Prueba de Precálculo UCR 2016
Aún no hay calificaciones
Prueba de Precálculo UCR 2016
4 páginas
Ensayo La Importancia Del Internet en Los Negocios
Aún no hay calificaciones
Ensayo La Importancia Del Internet en Los Negocios
5 páginas
Correlación de Spearman: Guía Básica
Aún no hay calificaciones
Correlación de Spearman: Guía Básica
16 páginas
Integración de Documentos y Software Libre
Aún no hay calificaciones
Integración de Documentos y Software Libre
140 páginas
Soldadura Robótica y Virtualizada
Aún no hay calificaciones
Soldadura Robótica y Virtualizada
4 páginas
Consultas SQL Básicas en MySQL
0% (1)
Consultas SQL Básicas en MySQL
140 páginas
Proyecto 1 - Probador de Cables Casero
Aún no hay calificaciones
Proyecto 1 - Probador de Cables Casero
12 páginas
Creación y Escaneo de Etiquetas de Producción
Aún no hay calificaciones
Creación y Escaneo de Etiquetas de Producción
6 páginas
Cuestionario sobre Plan de Empresa y Estrategias
Aún no hay calificaciones
Cuestionario sobre Plan de Empresa y Estrategias
7 páginas
Clase 1 - Espacio de Trabajo y Formato de Celdas
Aún no hay calificaciones
Clase 1 - Espacio de Trabajo y Formato de Celdas
8 páginas
Guía de Mantenimiento de Plantas Diésel
Aún no hay calificaciones
Guía de Mantenimiento de Plantas Diésel
34 páginas
Manual IES2000 - Modificado 2019 - 06 (806e)
Aún no hay calificaciones
Manual IES2000 - Modificado 2019 - 06 (806e)
333 páginas
Kidpara Maquinas Electricas
Aún no hay calificaciones
Kidpara Maquinas Electricas
22 páginas
Taller de Simulación de Control PI
Aún no hay calificaciones
Taller de Simulación de Control PI
2 páginas
Manual Básico de Delphi 7: IDE y Operadores
Aún no hay calificaciones
Manual Básico de Delphi 7: IDE y Operadores
49 páginas
Acta de Verificación
Aún no hay calificaciones
Acta de Verificación
3 páginas
Balanceo de Producción en Jamones
89% (9)
Balanceo de Producción en Jamones
64 páginas
Similitudes y diferencias: procesos vs hilos
Aún no hay calificaciones
Similitudes y diferencias: procesos vs hilos
7 páginas
Proyecto Final Sistemas Digitales 1
100% (1)
Proyecto Final Sistemas Digitales 1
40 páginas
Práctica Calificada de Macroeconometría
Aún no hay calificaciones
Práctica Calificada de Macroeconometría
11 páginas
Manual Prácticas Electrónica Semestre 2
Aún no hay calificaciones
Manual Prácticas Electrónica Semestre 2
415 páginas
Influencers y hábitos de consumo millennials Guayaquil
Aún no hay calificaciones
Influencers y hábitos de consumo millennials Guayaquil
18 páginas
FEL Servicio C38588
Aún no hay calificaciones
FEL Servicio C38588
1 página
Adolfo Ibarra Control3
Aún no hay calificaciones
Adolfo Ibarra Control3
4 páginas
Bienvenido A La Extranet de SUNARP
Aún no hay calificaciones
Bienvenido A La Extranet de SUNARP
2 páginas
Acta de Visita Inopinada NCPP
Aún no hay calificaciones
Acta de Visita Inopinada NCPP
7 páginas
Esterilizadores AJC: Innovación y Eficiencia
Aún no hay calificaciones
Esterilizadores AJC: Innovación y Eficiencia
16 páginas