0% encontró este documento útil (0 votos)
19 vistas31 páginas

5 - Secuenciacià N NGS, Ensamblaje y Anotaciã N de Genomas

El documento aborda la secuenciación, ensamblaje y anotación de genomas, destacando la importancia de la secuenciación para el análisis evolutivo, la identificación de rutas metabólicas y la búsqueda de nuevos fármacos. Se describen las diferentes generaciones de técnicas de secuenciación, desde la primera hasta la tercera, y se explican los procesos de ensamblaje y anotación de genomas. Además, se detallan conceptos clave como genes, intrones, exones y el formato FASTQ, así como las diferencias en la transcripción entre procariotas y eucariotas.

Cargado por

etchemara
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
19 vistas31 páginas

5 - Secuenciacià N NGS, Ensamblaje y Anotaciã N de Genomas

El documento aborda la secuenciación, ensamblaje y anotación de genomas, destacando la importancia de la secuenciación para el análisis evolutivo, la identificación de rutas metabólicas y la búsqueda de nuevos fármacos. Se describen las diferentes generaciones de técnicas de secuenciación, desde la primera hasta la tercera, y se explican los procesos de ensamblaje y anotación de genomas. Además, se detallan conceptos clave como genes, intrones, exones y el formato FASTQ, así como las diferencias en la transcripción entre procariotas y eucariotas.

Cargado por

etchemara
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

DEPARTAMENTO DE QUIMICA

Y MEDIO AMBIENTE

Secuenciación,
ensamblaje y anotación
de genomas

15 de abril del 2025


Para que sirve secuenciar un genoma?
✓ La secuenciación de un genoma completo provee información acerca de
regiones codificantes y no codificantes
✓ Determinar rutas metabólicas posibles.
✓ Permite realizar análisis evolutivos entre especies.
✓ Búsqueda de nuevos fármacos para atacar enfermedades.
✓ Predicción de susceptibilidad o resistencia a enfermedades.

2
Métodos de secuenciación
En el año 2005 cuando comenzaron a surgir nuevos métodos que cambiarían por completo el panorama conocido
hasta entonces. Son las llamadas Técnicas de Secuenciación Masiva, Secuenciación de Alto Rendimiento o NGS (Next
Generation Sequencing)

Primera generación Segunda generación Tercera generación

• Maxam-Gilbert • Roche 454 • Pacific Bioscience


(degradación (pirosecuenciacion) (2010)
química) (1977) (1997) • Oxford Nanopore
• Sanger (terminación • Illumina (2007) (2015)
de cadena) (1977) • SOLİD (2006)
• Ion Torrent (2010)

3
Primera generación (Ej: Secuenciación Sanger)

• Cuatro reacciones de secuenciación separadas (cuatro • Uso de terminadores marcados con grupos
desoxinucleótidos estándar dATP, dGTP, dCTP y dTTP). fluorescentes (1 reacción)
• Electroforesis en gel (lectura desde el gel) • Electroforesis capilar y uso de secuenciador

4
Secuenciación Shutgun

✓ La secuenciación shotgun se desarrolló para lograr


secuenciar grandes fragmentos de ADN en 1979.

✓ El ADN es fragmentado al azar en numerosos pequeños


fragmentos, los que fueron secuenciados por el método
de Sanger, generando pequeños reads.

✓ La secuenciación Shotgun inició la era de secuenciación


de genomas.

5
Segunda generación (Ej: Secuenciación Illumina)

Creación de librerías NGS Amplificación clonal de la librería Secuenciación Masiva Paralela


(proceso de indexado o (múltiples copias de cada fragmento de la (Base Calling, proceso para deducir
barcoding) librería para poder secuenciarlo) el orden de los nucleótidos)

6
Secuenciación
por Illumina

Fuente: DNA Sequencing Methods: From Past to Present (Eren et al., 2022)

Illumina sequencing: https://www.youtube.com/watch?v=WNM6A9h6GJI

7
Sistemas de secuenciación - Illumina

• Secuenciación de genomas completos en pocos días y a bajo costo.


• Se pueden generar una gran cantidad de datos.

8
Tercera generación (Ej: Secuenciación Nanopore)

Single Molecule Sequencing

9
Otros links de interés
✓ Ion Torrent: https://www.youtube.com/watch?v=zBPKj0mMcDg
✓ PacBio: https://www.youtube.com/watch?v=_lD8JyAbwEo
✓ Nanopore: https://www.youtube.com/watch?v=RcP85JHLmnI

10
Comparación de tecnologías de secuenciación

Fuente: DNA storage: research landscape and future prospects (Dong et al., 2020)

11
Generación de secuencias de ADN

Fuentes:
Exploring Diversity of Soil Microorganisms: A Multidimensional Approach (Goss-Souza et al., 2016)
The Genome Sequence Archive Family: Toward Explosive Data Growth and Diverse Data Types (Chen et al., 2021)

12
Pasos de la secuenciación

13
Proceso general de secuenciación

14
Etapas principales del proceso de secuenciación

Secuenciación de Genoma
Determinar el orden de los nucleótidos (secuencia) en una molécula de ADN.

Ensamblaje de Genoma
Reconstruir la secuencia completa de ADN a partir de fragmentos cortos (reads).

Anotación de Genomas
Determinar la presencia de genes en la secuencia y asignar su función posible de
acuerdo a homologías.

15
Estrategias de ensamblaje de secuencias
Una vez secuenciados estos pequeños fragmentos, el siguiente paso es restituir la secuencia completa. Para ello
existen dos grandes estrategias, en función de si existe una secuencia o genoma de referencia o no.

Ensamblaje de Novo Mapeo o resecuenciación

• Los fragmentos se ensamblan unos con • Los fragmentos obtenidos durante la


otros en función de los solapamientos y secuenciación se comparan (alinean)
sin existir una secuencia previa de con una secuencia de referencia
referencia
• Método mucho más rápido y menos
• Método largo y costoso ya que utiliza costoso computacionalmente
grandes recursos computacionales

16
Ensamblaje de Novo
• Single Read: Lectura obtenida a partir de un
solo extremo del inserto.
• Paired Ends: Lectura obtenida a partir de
ambos extremos del inserto y en direcciones
opuestas.
• Overlap: Región solapada de dos o más
secuencias.
• Contigs: Tramos continuos de secuencia
obtenidos al solapar varias lecturas.
• Scaffolds: Conjunto de contigs que no solapan
entre si (los scaffolds tienen gaps) pero que se
sabe que van juntos gracias a la información de
los paired ends o mate pairs.
• Coverage: (Cobertura) Número de reads que cubren una base, es decir número de veces que se ha secuenciado una base.

17
Paired ends y Mate pairs

Los mate pairs son pares de secuencias leídas que provienen de extremos opuestos de un fragmento largo de ADN, lo
cual puede suponer una ventaja a la hora de emparejar lecturas a mayores distancias y de cubrir mejor las regiones
altamente repetitivas.

18
Formato FastQ
El formato FASTQ fue creado en el Trust Sanger
Institute para guardar la secuencia de nucleótidos
junto al nivel de calidad de las lecturas, y
actualmente se ha convertido en un formato común
de salida para la mayoría de las plataformas de
secuenciación.

La cuarta línea está formada por los valores de


calidad de la secuencia (puntuación Phred) y por
tanto debe tener la misma longitud que la segunda
línea.

19
Anotación de genomas
La anotación es el proceso de agregar información biológica a las secuencias de ADN. No solo
trataremos de identificar las ubicaciones de los genes, sus regiones codificantes, las regiones
reguladoras, etc., sino que también será imprescindible conocer qué hacen dichos genes

Anotación estructural Anotación automática


(ubicación de los genes, regiones (realizada a través de análisis
codificantes, regiones reguladoras, etc.) bioinformático)

Anotación manual (curación)


Anotación funcional (manual interviene, además, la
Asociar una función a los genes experiencia humana)

20
Recordar conceptos importantes
DEFINICIÓN DE GENOMA: El genoma eucariótico se define como todo el DNA presente en los
cromosomas, más el DNA mitocondrial.

DEFINICIÓN DE GEN: Un gen es un segmento de DNA que se encuentra después de un promotor y que
puede ser trascrito por una RNA polimerasa originando un RNA funcional (mRNA, rRNA, tRNA, snRNA,
ribozimas u otro tipo de RNA).

21
Anotación estructural
Proceso de identificar las regiones del ADN genómico que codifican genes. Esto incluye genes que codifican
proteínas, así como genes de ARN, pero también puede incluir la predicción de otros elementos funcionales
como las regiones reguladoras.

Métodos basados en homología


Búsqueda de genes mediante comparación de
secuencias (Ej:BLAST)

Métodos ab initio (predicción de genes)


Predicción de estructuras génicas basándose
en las características del propio genoma

22
Anotación estructural
➢ Señales conservadas: codón de inicio y stop, sitios de splicing, unión a ribosoma, etc.
➢ Contenido del gen: características estadísticas (contenido G+C, uso de codones, periodicidades, etc.).
➢ Herramientas comunes: Modelos ocultos de Markov (HMM) / Redes neuronales

Procariotas:
• Promotores definidos (caja de Pribnow,
sitios de unión a factores de transcripción).
• Genes organizados como marcos de lectura
abiertos (ORF) continuos y largos.
• Ejemplo Software: FGENESB

Eucariotas:
• Algunas señales útiles: islas CpG, sitios de
poli(A), sitios de splicing.
• Ejemplo: softwares FGENESH y GENSCAN

23
Estructura
de genes
en
eucariotas

24
Promotores
• Son secuencias de ADN cercanas al lugar de inicio del gen, y a los cuales se une la RNA POLIMERASA
para iniciar el proceso de transcripción.

• En eucariotas existe un promotor para cada gen, mientras que en las células procariotas puede existir
un solo promotor para un mismo conjunto de genes.

• Además de ésta existen otras diferencias entre ambos tipos de células. Mientras en procariotas la
RNA polimerasa se une directamente al promotor, en eucariotas necesita la presencia de FACTORES
DE TRANSCRIPCÍÓN BASALES, que son proteínas que se deben unir previamente al promotor.

25
Motivos conservados (motifs) en promotores
Son secuencias cortas y relativamente conservadas que no siempre están presentes en todos los genes. Pueden ser
variables y generar falsos positivos, ya que pueden aparecer al azar en otras regiones del genoma.

En procariotas:
• Caja de Pribnow: secuencia TATAAT, ubicada ~-10 nucleótidos del sitio de inicio.
• Región -35: secuencia TTGACA, ubicada ~-35 nucleótidos del inicio de transcripción.

En eucariotas:
• TATA box: motivo TATAWDR, ubicado ~-17 nucleótidos del inicio (W = A/T; D = no C; R = G/A)
• CCAAT box y GC box: presentes en posiciones más variables.

26
Secuencias promotoras

27
Intrones y exones
• La gran mayoría de los genes eucariotas
presentan unos sitios de unión INTRÓN-
EXÓN muy bien conservados.

• Generalmente los intrones comienzan con el


dinucleótido GT y terminan con AG
cumpliendo con la llamada REGLA GT-AG.

• Se observan también otros nucleótidos bien


conservados, tanto en los extremos como en
una zona cercana al extremo 3', llamada sitio
de ramificación o branch site.

28
Open Reading Frames (ORFs)
Un ORF (Open Reading Frame) es una sección de ADN con la potencialidad para traducirse a una cadena peptídica
o una proteína, y por tanto debe de estar delimitada entre un codón de inicio y un codón de terminación.

Generalmente, para que una secuencia de nucleótidos pueda


ser considerada como un ORF válido deberá tener al menos
unos 300 residuos desde el codón de inicio al codón de
terminación

29
Anotación funcional
Utiliza los resultados de la anotación estructural para predecir la secuencia de la proteína.

Permite inferir:
• Función bioquímica y biológica.
• Modificaciones postraduccionales.
• Presencia de dominios funcionales.
• Localización subcelular.
• Interacciones proteína-proteína.
• Enfermedades asociadas.

Fuentes de información:
• Publicaciones científicas con datos experimentales.
• Análisis directo de la secuencia proteica.
• Comparación con proteínas de organismos relacionados (homología).

30
Conceptos importantes
Término Descripción ¿Se traduce?
Gen Unidad funcional de ADN que codifica un Puede o no
producto (ARN o proteina).
Incluye UTRs, intrones, CDS, promotor)
ORF Secuencia continua de codones entre un codón Potencialmente si
(Open Reading Frame) de inicio (AUG) y un codon de stop (UAA, UAG
o UGA), potencialmente traducible
CDS Parte del gen que se traduce en proteína Si
(Coding sequence)
UT Segmento del ADN que se transcribe en un solo Incluye regiones traducidas y
(Unidad transcripcional) ARN (puede incluir varios genes). Incluye UTRs, no traducidas
CDSs, terminador)
UTR Región del ARN que no se traduce, pero regula No
(untranslated region) la traducción y estabilidad

31

También podría gustarte