Práctico prueba de ensamblaje con Galaxy
taller de Herramientas para el Análisis de Secuenias y proteı́nas
26 de octubre de 2016
1 Introducción
La tuberculosis bovina es causada por la bacteria Mycobacterium bovis que
además de afectar al ganado, puede infectar otras especies de mamı́feros,
incluyendo al ser humano y animales salvajes que actúan como reservorios
de la enfermedad, haciendo más difı́cil su erradicación. M. bovis es miembro
del Complejo Mycobacterium tuberculosis (MTBC), un grupo de especies
que presentan diferencias epidemiolgicas (distribución geográfica, preferen-
cias de hospedero, virulencia y susceptibilidad ante drogas) pero comparten
un 99.9% de identidad genética. Aun ası́, presentan regiones altamente
polimórficas debido a variaciones en la cantidad de copias y/o posición en
el genoma que han sido recientemente detectadas gracias a las nuevas tec-
nologı́as de secuenciación. En efecto, se ha demostrado la importancia de
la secuenciación genómica en el aumento de la resolución obtenida en el
genotipado por polimorfismos.
2 Objetivos
Ensambaldo de novo de una cepa de Mycobacterium bovis
3 Obtención de datos
Entra a tu usuario en [Link] donde
tienes los datos cargados o cargalos si aun no lo has hecho ( archivos Tb164 [Link]
1
y Tb164 [Link]).
4 Control de Calidad con FASTQC
Siempre el primer paso es controlar la calidad de los reads. Eso nos per-
mite tener información necesaria para configurar los siguientes programas
de nuestro pipeline (en este caso el ensamblador) y por otro lado tener la
oportunidad de filtrar las secuencias de baja calidad que nos pueden llevar
a errores. Ver figure 1
busca la herramienta fastqc
• selecciona el boton de dos hojitas (multiple dataset)
• selecciona ambos archivos fastq (Tb164 [Link] y Tb164 [Link])
• execute
Para visualizar los resultados puedes ver los items 3 y 5 generados con el
botón de visualizar.
Cómo es la calidad de los reads? Es necesario filtrar o trimmear
los reads?
Qué herramienta nos sirve para trimmear los datos? ver en el
menú: NGS: QC and manipulation
5 Ensamblado de Novo
Vamos a utilizar la herramienta Velvet optimiser que toma los reads y genera
varios ensamblados para evaluar el mejor
Mayor información sobre el ensamblado con velvet: [Link]
com/document/pub?id=1B05Znc4rtwbYhKLQjPDOYVKCtm_E7Q5dg2aU9Nln6Fo#
h.tvk14o9ksltw
Busca la herramienta Velvet Optimiser
2
Figure 1: fastqc
• Start k-mer size 51
• End k-mer size 63
• select files (Tb164 [Link] y Tb164 [Link])
5.1 Mirar los resultados
Una vez que finaliza el proceso, debemos tener dos nuevos objetos:
7 VelvetOptimiser on data 1 and data 2: Contigs
8 VelvetOptimiser on data 1 and data 2: Contig Stats
Contigs: Se puede visualizar el primer MB del file. Los contigs tienen un
ID con la forma: NODE XX length XXXX cov [Link] con información
sobre el largo del contig (in k-mer length) y el coverage.
Contig stats: Es una tabla que muestra los contigs y el coverage de k-mers
y que librerı́a contribuyó al coverage. Contigs que tengan un coverage muy
alto (mucho más alto que la media) seguramente corresponan a secuencias
repetidas (i.e. genes ribosomales, familias multigénicas)
3
Si observamos el quinto contig, veremos que hay secuencias con NNN,
por qué existen esas secuencias? Te das una idea de como se
definen (largo)?
6 Estadı́sticas del ensamblaje
Para generar algunas estadı́sticas del ensamblaje podemos utilizar la her-
ramienta FASTA Manipulation − > Fasta Statistics
• Seleccionon los contigs (el objeto 7)
• execute
Observa y discute las estadı́sticas de nuestro primer ensamblado
Que es el N50?
Cuál es largo total?
7 Análisis del coverage
En las estadı́sticas de los resultados del velvet 8 VelvetOptimiser on data
1 and data 2: Contig Stats se puede observar algunos contigs que son
muy cortos. Vamos a filtrar los contigs cortos Para esto vamos a usar la
herramienta: Filter and Sort − > Filter tool
• With following condition ”c2 > 100”
• Execute
Por qué filtramos los contigs cortos?
El nuevo objeto tendrá las estadı́sticas de los contigs mayores a 100 pb. Si
observamos la columna 6 podemos ver variabilidad en el coverage. Si un
contig tiene el doble de covarge que la media, suponemos que esta secuencia
está al menos dos veces en nuestro genoma. Tratemos de identificar algún
contig con un coverage muy alto, y veamos a que corresponde.
4
7.1 Extrar secuencias especı́ficas
Podemos extraer la secuencia fasta de algún contig con un coverage > a 100,
para esto vamos a utilizar la herramienta:
Fasta manipulation − > Fasta Extract Sequence
En mi caso es el contig NODE 39
• Fasta or multifasta file: 7: VevetOptimiser on data 1 and data2:
Contigs
• Sequence ID (or partial): NODE 39
• Execute
El nuevo objeto nuevo tendrá una secuencia fasta
7.2 Identificación mediante Blast
Para identificar de que se trata esta secuencia que parece estar repetida en
el genoma, podemos hacer un blast (fuera de Galaxy)
Selecciona el botón con el ojo para visualizar la secuencia y luego la copias
y vas a la página de blast [Link]
Prueba de realizar un blastn y si los resultados no te ayudan puedes probar
a realizar un blastx
Discutir las herramientas blastn y blastx
A que secuencia corresponde?
Tiene sentido su alto coverage?
Puedes decir a que secuencia corresponde un contig con un cov-
erage mayor a 50, (ejemplo ”NODE 59 ”) ?