0% encontró este documento útil (0 votos)
114 vistas5 páginas

Ensamblaje de Mycobacterium bovis en Galaxy

Este documento describe los pasos para ensamblar de novo el genoma de una cepa de Mycobacterium bovis a partir de datos de secuenciación. Inicialmente se realiza un control de calidad de los reads con FASTQC. Luego se ensambla el genoma con Velvet Optimizer y se analizan las estadísticas del ensamblaje. Finalmente, se identifican contigs con alto coverage, como genes ribosomales, mediante BLAST.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
114 vistas5 páginas

Ensamblaje de Mycobacterium bovis en Galaxy

Este documento describe los pasos para ensamblar de novo el genoma de una cepa de Mycobacterium bovis a partir de datos de secuenciación. Inicialmente se realiza un control de calidad de los reads con FASTQC. Luego se ensambla el genoma con Velvet Optimizer y se analizan las estadísticas del ensamblaje. Finalmente, se identifican contigs con alto coverage, como genes ribosomales, mediante BLAST.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Práctico prueba de ensamblaje con Galaxy

taller de Herramientas para el Análisis de Secuenias y proteı́nas

26 de octubre de 2016

1 Introducción

La tuberculosis bovina es causada por la bacteria Mycobacterium bovis que


además de afectar al ganado, puede infectar otras especies de mamı́feros,
incluyendo al ser humano y animales salvajes que actúan como reservorios
de la enfermedad, haciendo más difı́cil su erradicación. M. bovis es miembro
del Complejo Mycobacterium tuberculosis (MTBC), un grupo de especies
que presentan diferencias epidemiolgicas (distribución geográfica, preferen-
cias de hospedero, virulencia y susceptibilidad ante drogas) pero comparten
un 99.9% de identidad genética. Aun ası́, presentan regiones altamente
polimórficas debido a variaciones en la cantidad de copias y/o posición en
el genoma que han sido recientemente detectadas gracias a las nuevas tec-
nologı́as de secuenciación. En efecto, se ha demostrado la importancia de
la secuenciación genómica en el aumento de la resolución obtenida en el
genotipado por polimorfismos.

2 Objetivos

Ensambaldo de novo de una cepa de Mycobacterium bovis

3 Obtención de datos

Entra a tu usuario en [Link] donde


tienes los datos cargados o cargalos si aun no lo has hecho ( archivos Tb164 [Link]

1
y Tb164 [Link]).

4 Control de Calidad con FASTQC

Siempre el primer paso es controlar la calidad de los reads. Eso nos per-
mite tener información necesaria para configurar los siguientes programas
de nuestro pipeline (en este caso el ensamblador) y por otro lado tener la
oportunidad de filtrar las secuencias de baja calidad que nos pueden llevar
a errores. Ver figure 1

busca la herramienta fastqc

• selecciona el boton de dos hojitas (multiple dataset)

• selecciona ambos archivos fastq (Tb164 [Link] y Tb164 [Link])

• execute

Para visualizar los resultados puedes ver los items 3 y 5 generados con el
botón de visualizar.

Cómo es la calidad de los reads? Es necesario filtrar o trimmear


los reads?

Qué herramienta nos sirve para trimmear los datos? ver en el


menú: NGS: QC and manipulation

5 Ensamblado de Novo

Vamos a utilizar la herramienta Velvet optimiser que toma los reads y genera
varios ensamblados para evaluar el mejor

Mayor información sobre el ensamblado con velvet: [Link]


com/document/pub?id=1B05Znc4rtwbYhKLQjPDOYVKCtm_E7Q5dg2aU9Nln6Fo#
h.tvk14o9ksltw

Busca la herramienta Velvet Optimiser

2
Figure 1: fastqc

• Start k-mer size 51

• End k-mer size 63

• select files (Tb164 [Link] y Tb164 [Link])

5.1 Mirar los resultados

Una vez que finaliza el proceso, debemos tener dos nuevos objetos:
7 VelvetOptimiser on data 1 and data 2: Contigs
8 VelvetOptimiser on data 1 and data 2: Contig Stats

Contigs: Se puede visualizar el primer MB del file. Los contigs tienen un


ID con la forma: NODE XX length XXXX cov [Link] con información
sobre el largo del contig (in k-mer length) y el coverage.

Contig stats: Es una tabla que muestra los contigs y el coverage de k-mers
y que librerı́a contribuyó al coverage. Contigs que tengan un coverage muy
alto (mucho más alto que la media) seguramente corresponan a secuencias
repetidas (i.e. genes ribosomales, familias multigénicas)

3
Si observamos el quinto contig, veremos que hay secuencias con NNN,
por qué existen esas secuencias? Te das una idea de como se
definen (largo)?

6 Estadı́sticas del ensamblaje

Para generar algunas estadı́sticas del ensamblaje podemos utilizar la her-


ramienta FASTA Manipulation − > Fasta Statistics

• Seleccionon los contigs (el objeto 7)

• execute

Observa y discute las estadı́sticas de nuestro primer ensamblado


Que es el N50?
Cuál es largo total?

7 Análisis del coverage

En las estadı́sticas de los resultados del velvet 8 VelvetOptimiser on data


1 and data 2: Contig Stats se puede observar algunos contigs que son
muy cortos. Vamos a filtrar los contigs cortos Para esto vamos a usar la
herramienta: Filter and Sort − > Filter tool

• With following condition ”c2 > 100”

• Execute

Por qué filtramos los contigs cortos?

El nuevo objeto tendrá las estadı́sticas de los contigs mayores a 100 pb. Si
observamos la columna 6 podemos ver variabilidad en el coverage. Si un
contig tiene el doble de covarge que la media, suponemos que esta secuencia
está al menos dos veces en nuestro genoma. Tratemos de identificar algún
contig con un coverage muy alto, y veamos a que corresponde.

4
7.1 Extrar secuencias especı́ficas

Podemos extraer la secuencia fasta de algún contig con un coverage > a 100,
para esto vamos a utilizar la herramienta:
Fasta manipulation − > Fasta Extract Sequence
En mi caso es el contig NODE 39

• Fasta or multifasta file: 7: VevetOptimiser on data 1 and data2:


Contigs

• Sequence ID (or partial): NODE 39

• Execute

El nuevo objeto nuevo tendrá una secuencia fasta

7.2 Identificación mediante Blast

Para identificar de que se trata esta secuencia que parece estar repetida en
el genoma, podemos hacer un blast (fuera de Galaxy)

Selecciona el botón con el ojo para visualizar la secuencia y luego la copias


y vas a la página de blast [Link]

Prueba de realizar un blastn y si los resultados no te ayudan puedes probar


a realizar un blastx

Discutir las herramientas blastn y blastx


A que secuencia corresponde?
Tiene sentido su alto coverage?
Puedes decir a que secuencia corresponde un contig con un cov-
erage mayor a 50, (ejemplo ”NODE 59 ”) ?

También podría gustarte