PacBio Sequencing and Its Applications
● Introducción
Aunque las tecnologías de secuenciación de segunda generación (SGS) han ofrecido
grandes mejoras con respecto a la secuenciación Sanger, sus limitaciones, especialmente
sus cortas longitudes de lectura, las hacen poco adecuadas para algunos problemas
biológicos concretos, como el ensamblaje y la determinación de regiones genómicas
complejas, la detección de isoformas de genes y la detección de metilación. La
secuenciación en tiempo real de una sola molécula (SMRT), desarrollada por Pacific
BioSciences (PacBio), ofrece un enfoque alternativo para superar muchas de estas
limitaciones. Para ser concisos, en lo sucesivo nos referiremos a ella como "secuenciación
PacBio", aunque la comunidad también utiliza "secuenciación SMRT".
A diferencia de la SGS, la secuenciación PacBio es un método de secuenciación en tiempo
real y no requiere una pausa entre los pasos de lectura. Estas características distinguen la
secuenciación PacBio de la SGS, por lo que se clasifica como secuenciación de tercera
generación (TGS). Aquí resumiremos los mecanismos y el rendimiento de la secuenciación
PacBio. La secuenciación PacBio ofrece longitudes de lectura mucho más largas y
ejecuciones más rápidas que los métodos SGS, pero se ve obstaculizada por un menor
rendimiento, una mayor tasa de errores y un mayor coste por base. Dado que las ventajas
de la secuenciación PacBio y la SGS son complementarias, examinaremos las estrategias
de secuenciación híbrida que hacen uso de ambas tecnologías para superar las
desventajas de cada una por separado. También discutiremos las aplicaciones de la
secuenciación PacBio a varias áreas de investigación, incluyendo el genoma, el
transcriptoma y la epigenética. Mientras que las aplicaciones razonables de la
secuenciación PacBio a la investigación genómica se limitaban inicialmente al acabado de
genomas microbianos relativamente pequeños, la secuenciación PacBio puede utilizarse
ahora para estudiar genomas mucho más grandes, incluido el humano, gracias a las nuevas
técnicas computacionales y a las mejoras en la tecnología de secuenciación. Las largas
longitudes de lectura de la secuenciación PacBio también hacen que la tecnología sea
adepta a la identificación y cuantificación de isoformas, incluyendo nuevas isoformas,
particularmente cuando se utiliza junto con SGS. Además, al monitorizar el tiempo entre
incorporaciones de bases, la cinética de secuenciación PacBio permite la detección directa
de modificaciones de bases, como la N6-metiladenina (m6A) y la N4-metilcitosina (m4C).
Mecanismo y rendimiento
La secuenciación PacBio captura la información de la secuencia durante el proceso de
replicación de la molécula de ADN objetivo. La plantilla, denominada SMRTbell, es un ADN
circular cerrado de una sola hebra que se crea ligando adaptadores de horquilla a ambos
extremos de una molécula de ADN de doble hebra (dsDNA) objetivo (Figura 1). Cuando se
carga una muestra de SMRTbell en un chip llamado célula SMRT (Figura 2), un SMRTbell
se difunde en una unidad de secuenciación llamada guía de onda de modo cero (ZMW),
que proporciona el menor volumen disponible para la detección de luz. En cada ZMW, se
inmoviliza una única polimerasa en la parte inferior, que puede unirse a cualquiera de los
adaptadores de horquilla de la SMRTbell e iniciar la replicación (Figura 3A). Se añaden a la
célula SMRT cuatro nucleótidos marcados con fluorescencia, que generan espectros de
emisión distintos. A medida que una base es retenida por la polimerasa, se produce un
pulso de luz que identifica la base (Figura 3B). Los procesos de replicación en todas las
ZMW de una célula SMRT se registran mediante una "película" de pulsos de luz, y los
pulsos correspondientes a cada ZMW pueden interpretarse como una secuencia de bases
(denominada lectura larga continua, CLR). La plataforma más reciente, PacBio RS II, suele
producir películas de secuenciación de 0,5-4 h de duración. Dado que la SMRTbell forma un
círculo cerrado, después de que la polimerasa replique una hebra del dsDNA objetivo,
puede continuar incorporando bases del adaptador y luego la otra hebra. Si el tiempo de
vida de la polimerasa es lo suficientemente largo, ambas hebras pueden ser secuenciadas
múltiples veces (llamadas "pasadas") en un solo CLR. En este caso, el CLR puede dividirse
en múltiples lecturas (llamadas subreads) reconociendo y cortando las secuencias del
adaptador. La secuencia de consenso de múltiples subreads en una sola ZMW produce una
lectura de secuencia circular de consenso (CCS) con mayor precisión. Si un ADN diana es
demasiado largo para ser secuenciado varias veces en una ZMW, no se puede generar una
lectura CCS, y en su lugar se obtiene una única subred. Dado que la secuenciación de
PacBio tiene lugar en tiempo real, la variación cinética interpretada a partir de la película de
pulsos de luz puede analizarse para detectar modificaciones de bases, como la metilación.
_________________________________________________________________________
Figure 1. SMRTbell template
Los adaptadores de horquilla (verde) se ligan al extremo de una molécula de ADN de doble
cadena (amarillo y morado), formando un círculo cerrado. La polimerasa (gris) se ancla al
fondo de una ZMW e incorpora bases a la cadena leída (naranja).
Figure 2. A single SMRT cell
Cada célula SMRT contiene 150.000 ZMWs. Aproximadamente entre 35.000 y 75.000 de
estos pozos producen una lectura en una corrida que dura entre 0,5 y 4 horas, lo que
resulta en 0,5-1 Gb de secuencia.
Figure 3. Sequencing via light pulses
A. Una SMRTbell (gris) se difunde en una ZMW, y el adaptador se une a una polimerasa
inmovilizada en el fondo. B. Cada uno de los cuatro nucleótidos está marcado con un
colorante fluorescente diferente (indicado en rojo, amarillo, verde y azul, respectivamente
para G, C, T y A), de modo que tienen espectros de emisión distintos. Cuando la polimerasa
mantiene un nucleótido en el volumen de detección, se produce un pulso de luz que
identifica la base. (1) Un nucleótido marcado con fluorescencia se asocia con la plantilla en
el sitio activo de la polimerasa. (2) Se eleva la salida de fluorescencia del color
correspondiente a la base incorporada (amarillo para la base C como ejemplo aquí). (3) El
producto de colorante-pirofosfato se escinde del nucleótido y se difunde fuera de la ZMW,
terminando el pulso de fluorescencia. (4) La polimerasa se traslada a la siguiente posición.
(5) El siguiente nucleótido se asocia con la plantilla en el sitio activo de la polimerasa,
iniciando el siguiente pulso de fluorescencia, que aquí corresponde a la base A.
_________________________________________________________________________
Una ventaja importante de la secuenciación PacBio es la longitud de las lecturas. Mientras
que el sistema PacBio RS original con la primera generación de química (química C1)
generaba longitudes de lectura medias en torno a los 1.500 pb, el sistema PacBio RS II con
la actual química C4 presenta longitudes de lectura medias superiores a los 10 kb, con un
N50 de más de 20 kb (es decir, más de la mitad de los datos son lecturas de más de 20 kb)
y longitudes de lectura máximas de más de 60 kb (Figura 4). Por el contrario, la longitud
máxima de lectura de Illumina HiSeq 2500 es sólo de 250 pb (utilizando el modo de
ejecución rápida). Las cortas longitudes de lectura de SGS son normalmente incapaces de
abarcar regiones repetitivas con al menos una secuencia única de flanqueo. En estos
casos, el origen de una lectura no puede determinarse con precisión. Los consiguientes
alineamientos múltiples y desalineamientos conducen a problemas en el análisis posterior,
incluyendo la estimación de la abundancia y la llamada de la variación estructural (SV).
Debido a las longitudes de lectura mucho más largas de la secuenciación PacBio, la
ubicación precisa y la secuencia de las regiones repetitivas a menudo pueden resolverse
mediante regiones únicas dentro de una sola lectura. Aunque existen algunas regiones
repetitivas extremadamente grandes que son más largas que las lecturas de PacBio,
podrían resolverse con suficiente heterogeneidad.
_________________________________________________________________________
Figure 4. PacBio RS II read length distribution using P6-C4 chemistry
Los datos se basan en una biblioteca de E. coli de 20 kb seleccionada por tamaño,
utilizando una película de 4 horas. Cada célula SMRT produce entre 0,5 y 1 mil millones de
bases. La química P6-C4 es actualmente la química de secuenciación más avanzada que
ofrece PacBio.
_________________________________________________________________________
Sin embargo, en comparación con la SGS, el rendimiento de la secuenciación PacBio es un
inconveniente. Hay 150.000 ZMW en una sola celda SMRT, cada una de las cuales puede
producir una sub-lectura o una lectura CCS. Normalmente, sólo 35.000-70.000 de los
150.000 pozos de ZMW en una célula SMRT producen lecturas exitosas, debido a la falta
de anclaje de una polimerasa o a la carga de más de una molécula de ADN en una ZMW. El
rendimiento típico del sistema PacBio RS II es de 0,5-1 mil millones de bases por celda
SMRT. El flujo de trabajo completo -desde la preparación de la plantilla hasta el análisis de
la llamada de base primaria- dura menos de un día. Aunque el PacBio RS II genera casi 10
veces más datos de secuencias que el antiguo sistema PacBio RS con la química C1,
todavía no proporciona el alto rendimiento que ofrecen las técnicas SGS, como el Illumina
HiSeq 2500. Utilizando los nuevos kits de reactivos HiSeq SBS v4, Illumina HiSeq 2500
produce hasta 8.000 millones de lecturas de 125 pb de extremo emparejado (1 billón de
bases) por dos celdas de flujo durante una ejecución de 6 días, lo que supone un
rendimiento diario de ∼167.000 millones de bases (utilizando el modo de ejecución de alto
rendimiento).
Otro punto débil notable de la secuenciación de PacBio es que la tasa de error de una RLC
es relativamente alta (alrededor del 11%-15%). Dado que los errores se distribuyen
aleatoriamente en los CLR, la tasa de error puede reducirse generando lecturas de CCS
con suficientes pases de secuenciación. Una cobertura de 15 pases produce una precisión
superior al 99%. Sin embargo, el número de pases de secuenciación y la longitud de la
lectura CCS son un compromiso, dado que la longitud total de un CLR está limitada por el
tiempo de vida de la polimerasa. Es decir, las secuencias más largas dan lugar a menos
pases en una RLC, y por tanto a una menor precisión, y viceversa.
Los puntos fuertes y débiles de la secuenciación SGS y PacBio son complementarios, lo
que motivó una estrategia innovadora, la secuenciación híbrida, para integrar ambas
técnicas. Estos enfoques suelen implicar el uso de los datos de alto rendimiento y alta
precisión de las lecturas cortas para corregir los errores de las lecturas largas, con el fin de
reducir la cantidad necesaria de datos de secuencias de lecturas largas, más costosas, y
salvar las subredes relativamente largas, pero más propensas a errores. Además, las
lecturas largas de PacBio pueden proporcionar alineaciones fiables, andamiajes y
detecciones aproximadas de variantes genómicas, mientras que las lecturas cortas refinan
las alineaciones/ensamblajes/detecciones a una resolución de un solo nucleótido. La alta
cobertura de los datos de SGS también puede utilizarse en el análisis cuantitativo posterior.
En general, la secuenciación PacBio proporciona lecturas muy largas con una alta tasa de
error y un bajo rendimiento. Su rendimiento relativo comparado con las plataformas de
secuenciación de primera, segunda y tercera generación se muestra en la Tabla 1. PacBio
RS II, que utiliza la sexta generación de polimerasas y la cuarta generación de química
(química P6-C4), proporciona una longitud de lectura media más larga que las plataformas
SGS, pero tiene una tasa de error de una sola pasada más alta y un menor rendimiento.
Además, la secuenciación PacBio es también más rápida pero más costosa que la mayoría
de los otros métodos.
_________________________________________________________________________
Aplicaciones a la investigación del genoma
● Ensamblaje de novo.
El ensamblaje de novo del genoma es una de las principales aplicaciones de la
secuenciación de PacBio porque las lecturas largas pueden proporcionar grandes
andamiajes. Las lecturas largas de PacBio superan muchas de las limitaciones del
ensamblaje del genoma con datos de SGS, como la presencia de regiones genómicas
altamente repetitivas. Aunque la tasa de error de los datos de PacBio es mayor que la de
SGS, el aumento de la cobertura o la secuenciación híbrida podrían mejorar en gran medida
la precisión. Los intentos de ensamblaje genómico de novo con datos de PacBio partieron
de objetivos pequeños, como los genomas microbianos. El proceso de ensamblaje
genómico jerárquico (HGAP) desarrollado por Chen et al. genera ensamblajes de novo
utilizando datos de secuenciación PacBio a partir de una única biblioteca de ADN shotgun
de inserción larga]. Además, algunos métodos que utilizan datos de secuenciación híbridos,
incluyendo ALLPATHS-LG, PacBio Corrected Reads pipeline, SPAdes, y
SSPACE-LongRead, se han aplicado para completar ensamblajes de genomas bacterianos.
La Tabla 2 proporciona una lista de ensamblajes de novo seleccionados producidos usando
la secuenciación de PacBio sola o usando la secuenciación híbrida, junto con algunos de
sus logros notables.
_________________________________________________________________________
_________________________________________________________________________
Las ventajas de la secuenciación PacBio son evidentes en el ensamblaje de novo producido
por Brown et al., que compararon la secuenciación PacBio con los ensamblajes híbridos
Illumina, 454 e Illumina/454 para terminar el borrador del genoma de 100 contig de
Clostridium autoethanogenum DSM 10061. C. autoethanogenum es un acetógeno capaz de
producir etanol a partir de monóxido de carbono, por lo que es de gran interés
biotecnológico. Su genoma tiene un contenido de GC del 31,1% y contiene repeticiones,
profagos y nueve copias de los operones del gen rRNA, por lo que se clasifica como un
genoma de Clase III, la clasificación de genomas más compleja en cuanto a contenido de
repeticiones y tipo de éstas. Utilizando sólo una preparación de biblioteca PacBio y dos
células SMRT, se pudo ensamblar de novo todo el genoma en un solo contig, a pesar de la
complejidad del genoma de C. autoethanogenum. Ningún método basado en datos SGS
pudo ensamblar el genoma en menos de 22 contigs, y cada uno de los ensamblajes SGS
contenía al menos cuatro regiones de repetición colapsadas, mientras que el ensamblaje
PacBio no tenía ninguna.
Además, un ensamblaje de novo del genoma del cloroplasto de Potentilla micrantha
utilizando la secuenciación de PacBio cubrió la totalidad de los 154.959 pb del genoma del
cloroplasto en un único contig. Esto supuso una mejora respecto al ensamblaje de Illumina,
que cubría el 90,59% del genoma en siete contigs. El ensamblaje de PacBio tampoco reveló
ningún sesgo en la cobertura de las regiones ricas en GC y resolvió 187 ambigüedades en
el ensamblaje de Illumina, incluyendo largas regiones de repetición invertida que son
características de los genomas de cloroplastos.
A diferencia de los genomas relativamente pequeños, el ensamblaje de genomas grandes
mediante la superposición de lecturas de secuencias puede ser más caro desde el punto de
vista informático. Para superar este obstáculo, Berlin et al. desarrollaron el Proceso de
Alineación MinHash (MHAP) para el solapamiento eficiente de lecturas largas ruidosas.
MHAP crea una representación compacta de las lecturas de secuenciación utilizando una
técnica de reducción de la dimensionalidad llamada MinHash. En comparación con BLASR,
otro alineador capaz de solapar las lecturas de PacBio, MHAP construyó eficazmente
ensamblajes de novo comparables o mejorados del genoma humano y de los genomas de
cuatro organismos modelo (Escherichia coli, Saccharomyces cerevisiae, Arabidopsis
thaliana y Drosophila melanogaster) utilizando la secuenciación de PacBio sin lecturas
cortas SGS. En particular, este método dio como resultado un ensamblaje 600 veces más
rápido para D. melanogaster. Este ensamblaje contenía sólo 132 contigs, y resolvía
potencialmente 52 de las 124 lagunas en el genoma de referencia de la versión 5 de D.
melanogaster.
El ensamblaje del genoma humano haploide realizado por MHAP es altamente contiguo y
cierra potencialmente 51 de los 819 huecos en GRCh38. Como ejemplo de una región difícil
de ensamblar, el complejo mayor de histocompatibilidad (MHC), que tiene un papel
importante en la inmunidad, se dividió en más de 60 contigs en el ensamblaje de Illumina,
mientras que el 97% de la región se ensambló en sólo dos contigs utilizando la
secuenciación de PacBio. Las lecturas largas de PacBio también permitieron reconstruir las
secuencias heterocromáticas repetitivas en las regiones teloméricas. En los seres humanos,
la pérdida de telómeros se ha asociado a enfermedades, como los síndromes de
envejecimiento prematuro y el cáncer. La secuenciación de PacBio ofrece una mejora
respecto a los genomas de referencia actuales, en los que las regiones teloméricas están
poco anotadas, lo que mejorará el estudio de las enfermedades asociadas a los telómeros.
En 2015, otro ensamblaje de novo de un genoma humano haploide realizado por Chaisson
et al. cerró 50 de las 164 lagunas de GRCh37 y acortó otras 40 lagunas. 39 de los 50
huecos cerrados incluían repeticiones cortas en tándem (STRs) en regiones ricas en GC.
Los STRs son elementos repetitivos de 2-6 nucleótidos que generalmente no son
secuenciables más allá de 100 bp por SGS. Este ensamblaje también identificó 47.238
posiciones de puntos de ruptura, resolviendo 26.079 variaciones estructurales eucromáticas
(VS) a la resolución de un solo nucleótido, incluyendo inversiones, inserciones complejas y
regiones repetitivas.
Como alternativas al uso de la secuenciación PacBio sola para los ensamblajes de novo de
eucariotas, también se han desarrollado estrategias de corrección de errores utilizando la
secuenciación híbrida. Koren et al. desarrollaron el enfoque PacBio corrected Reads (PBcR)
para utilizar lecturas cortas para corregir los errores de las lecturas largas. PBcR se ha
aplicado al genoma del loro (Melopsittacus undulatus), no secuenciado previamente,
utilizando una cobertura de 5,5× de lecturas de PacBio que se corrigieron con una cobertura
de 15,4× de lecturas de 454, dando lugar a una cobertura de 3,83× de lecturas corregidas.
La corrección de errores requirió 6,8 días para completarse. El ensamblaje de más de 1 Gb
consistía en 15.328 contigs, con un N50 de 93.069 pb. Asimismo, Bashir et al. utilizaron
datos de secuenciación híbrida para ensamblar el genoma de una cepa reciente de cólera
de Haití con una precisión superior al 99,9% en dos contigs casi terminados, resolviendo
completamente regiones complejas con estructuras clínicamente relevantes.
Utilizando el protocolo de secuenciación directa sin construir una biblioteca, los datos de
PacBio pueden generarse a partir de tan solo 1 ng de ADN, mientras que los protocolos
típicos requieren 400-500 ng de ADN esquilado para la preparación de la biblioteca. A costa
de reducir el rendimiento por célula SMRT a unas 3.000 lecturas, lo que limita su utilidad a
genomas pequeños, este método permite generar datos de PacBio en las ocho horas
siguientes a la recepción de la muestra, menos de la mitad del tiempo necesario cuando se
incluye la preparación de la biblioteca. Este método se ha aplicado a la secuenciación de
plásmidos bacterianos portadores de genes de resistencia a los antibióticos, a modelos de
vectores plasmídicos para el análisis de la modificación del ADN, a fragmentos de ADN
lineal que cubren todo un genoma bacteriano y a genomas virales de una o dos cadenas.
Dado que no requiere un conocimiento a priori de ninguna secuencia o reactivos específicos
del organismo, pero ofrece la alta velocidad y el bajo requerimiento de ADN de la
secuenciación directa, este método podría ser aplicable para secuenciar plásmidos, virus,
ADN mitocondrial y patógenos microbianos en un entorno clínico.
● Regiones genómicas problemáticas
El cierre de las brechas en los borradores de genomas también puede realizarse de forma
eficiente mediante la secuenciación PacBio de los productos de la PCR. Este enfoque es
más rentable que la secuenciación Sanger y puede cerrar huecos de más de 2,5 kb en una
sola ronda de reacciones. Sin embargo, existe un sesgo de carga en contra de los
productos de PCR más grandes, ya que los productos de PCR más pequeños se cargan en
los ZMW con mayor eficiencia. Este sesgo puede reducirse si la proporción molar de los
productos de la PCR se ajusta en función de su tamaño y concentración al agruparlos.
Zhang et al. compararon este método de cierre de huecos con la secuenciación Sanger
para 362 huecos de entre 500 pb y 5 kb de 16 genomas diversos. De las brechas menores
de 2,5 kb, el 64% y el 73% se cerraron con la secuenciación de Sanger y PacBio,
respectivamente, mientras que ninguna de las brechas mayores de 2,5 kb se cerró con la
secuenciación de Sanger, en comparación con el 88% con la secuenciación de PacBio.
También descubrieron que sólo la plataforma PacBio podía secuenciar a través de
pequeñas estructuras de horquilla (llamadas hard stops) y que la plataforma PacBio
funcionaba mejor en las regiones de alto GC en comparación con la secuenciación Sanger.
Los STR están asociados a muchos trastornos genéticos y son difíciles de detectar con las
tecnologías SGS. Uno de estos genes es el gen humano del retraso mental X frágil 1
(FMR1). El FMR1 contiene una repetición (CGG)n que es responsable de trastornos
hereditarios como el síndrome del cromosoma X frágil, el síndrome de temblor/ataxia
asociado al cromosoma X frágil, el trastorno neurodegenerativo de inicio en la edad adulta,
la insuficiencia ovárica prematura, los problemas de aprendizaje, los trastornos del espectro
autista, el trastorno por déficit de atención e hiperactividad y las convulsiones. Normalmente
hay entre 7 y 60 repeticiones (CGG), mientras que el rango de permutación es de 60 a 230
repeticiones, y el rango de mutación completo es de más de 230 repeticiones. Loomis et al.
generaron lecturas largas de PacBio para alelos de FMR1 con repeticiones CGG
expandidas en el rango completo de mutaciones. Demostraron que la secuenciación de
PacBio no se vio afectada negativamente por expansiones que superaban las 750
repeticiones, lo que sugiere que la secuenciación productiva está limitada únicamente por
los factores que rigen la vida productiva de la polimerasa y el número deseado de subredes
dentro de una lectura individual de CCS. La secuenciación dirigida por PacBio también se
ha utilizado para resolver la brecha genómica en MUC5AC, que codifica una mucina grande
y secretada que es importante en la fibrosis quística, el cáncer de pulmón y las
enfermedades respiratorias [44]. Mediante la secuenciación de los productos de PCR que
cubren el exón central, también se caracterizaron los STRs entre cuatro individuos.
Mientras que en el examen de los STRs en FMR1 y MUC5AC se utilizó únicamente la
secuenciación PacBio, Doi et al. desarrollaron un método para encontrar rápidamente STRs
largos en genomas personales utilizando la secuenciación híbrida. Aplicaron este método
para localizar un STR asociado a la enfermedad cerebral, la ataxia espinocerebelosa 31
(SCA31). Utilizando la secuenciación PacBio dirigida a este sitio, revelaron que la
inestabilidad de las expansiones de repetición asociadas a SCA31 está determinada por las
repeticiones (TGGAA) y (TAAAATAGAA).
Estas aplicaciones exitosas indican la prometedora utilidad de la secuenciación PacBio para
el estudio de otras enfermedades, como la distrofia miotónica, la enfermedad de Huntington,
la ataxia de Friedreich y la esclerosis lateral amiotrófica-demencia temporal frontal
(ELA-DFT), todas ellas asociadas a expansiones de repetición. A diferencia de la SGS, la
secuenciación PacBio es capaz de obtener información de individuos con STRs expandidos
y probablemente podría desarrollarse como un enfoque de diagnóstico.
● Caracterización de la variación estructural
En comparación con los SNP, las grandes variaciones estructurales (VS), como las
variaciones en el número de copias (CNV), las inversiones neutras en el número de copias,
las inserciones de elementos móviles (MEI), las deleciones, las translocaciones y las
combinaciones de estos eventos, son más difíciles de detectar y caracterizar. La
caracterización de los SV es crucial para el estudio de muchas enfermedades, incluido el
cáncer. Hasta el 13% del genoma humano está sujeto a SVs, que representan la mayoría
de las bases variantes. En el genoma diploide secuenciado por Sanger de un individuo
humano, el 74% de un total de 12,3 Mb de bases variantes eran SVs. Sin embargo, debido
a la corta longitud de secuenciación, los enfoques SGS imponen severas limitaciones en el
estudio de estas complejas SVs, particularmente aquellas que involucran regiones
repetitivas.
La secuenciación PacBio se basa en la tecnología de secuenciación de una sola molécula y
proporciona lecturas mucho más largas. Por lo tanto, es capaz de identificar variaciones de
ADN no-SNP, aunque a costa de mayores tasas de error por nucleótido. En 2014, se
desarrolló una herramienta de detección de VS, MultiBreak-SV, para analizar los datos de
secuenciación de PacBio, las lecturas cortas de extremo pareado o los datos de
secuenciación híbrida. Ritz et al. demostraron que MultiBreak-SV es capaz de detectar SVs
con alta sensibilidad y especificidad aplicando a los datos de PacBio de cuatro fosmidos
humanos. También predijeron 1002 SV en el genoma de una mola hidatidiforme (CHM1tert)
utilizando datos de PacBio, más de la mitad de los cuales fueron confirmados por un
ensamblaje de Illumina.
El desarrollo del cáncer se ha atribuido a SVs que incluyen grandes reordenamientos
cromosómicos, duplicaciones y deleciones. Aunque los SV recurrentes pueden ser
biomarcadores viables para la detección y el pronóstico de la enfermedad, son difíciles de
controlar cuando se desconoce el punto de rotura del SV. En muchos casos, como la
deleción CDKN2A, que disminuye la expresión de múltiples proteínas supresoras de
tumores, los puntos de rotura pueden variar entre individuos. Patel et al. desarrollaron la
Amplificación de Puntos de Ruptura (AmBre), una línea de producción para identificar los
puntos de ruptura del ADN asociados con translocaciones y deleciones conocidas utilizando
la secuenciación PacBio. Utilizando AmBre, descubrieron los puntos de rotura por deleción
de CDKN2A en seis líneas celulares de cáncer, incluida la MCF7, para la que estudios
anteriores no habían podido anotar los puntos de rotura de CDKN2A, probablemente debido
a las secuencias repetitivas.
La primera caracterización de SV en un genoma humano diploide personal se ha llevado a
cabo recientemente con Parliament, una infraestructura de llamada de SV consensuada que
utiliza múltiples métodos de detección de SV y tipos de datos, incluyendo las lecturas largas
de PacBio. Parliament identificó más de 31.007 loci genómicos de entre 100 pb y 1 Mb de
un solo individuo (HS1011) que se desviaban del ensamblaje de referencia hg19. Entre
ellos, 9777 loci, que abarcan 59 Mb del genoma de referencia (1,8%), fueron corroborados
como SV por secuenciación PacBio, secuenciación híbrida local o heurística de múltiples
fuentes. De estos 9777 loci, 3801 loci fueron identificados sólo por datos de lectura larga.
Aplicaciones a la investigación del transcriptoma
● Secuenciación de transcritos mediante Iso-Seq
Comprender la expresión completa de las isoformas de los genes (es decir, los transcritos)
es fundamental para los estudios del transcriptoma. Aunque la SGS se utiliza con frecuencia
para la elaboración de perfiles de genes, a menudo es incapaz de identificar isoformas
génicas de longitud completa y puede introducir un sesgo de amplificación. La SGS se
enfrenta a limitaciones especialmente graves en la recuperación de transcritos y la
discriminación de productos de empalme en el contexto de genomas eucariotas complejos.
Una evaluación de los métodos de SGS para la reconstrucción de transcritos descubrió que
las estimaciones del nivel de expresión variaban mucho entre los distintos métodos, incluso
cuando se basaban en modelos de transcritos similares. Dado que la secuenciación PacBio
produce lecturas más largas, puede utilizarse para identificar de forma más exhaustiva los
transcritos.
Pacific Biosciences ha desarrollado un protocolo, Iso-Seq, para la secuenciación de
transcritos, que incluye la construcción de bibliotecas, la selección del tamaño, la recogida
de datos de secuenciación y el procesamiento de datos. Iso-Seq permite la secuenciación
directa de transcritos de hasta 10 kb sin utilizar un genoma de referencia. El componente
experimental de Iso-Seq consiste en seleccionar y secuenciar transcritos de longitud
completa, y el siguiente paso de procesamiento de datos genera las lecturas de mayor
calidad de cada transcrito seleccionado, llamadas "Reads of Insert". Iso-Seq se ha utilizado
para caracterizar los eventos de splicing alternativo implicados en la formación de los
componentes celulares de la sangre. Esto es fundamental para interpretar los efectos de las
mutaciones que conducen a trastornos hereditarios y cánceres de la sangre, y puede
aplicarse para diseñar estrategias para avanzar en los trasplantes y la medicina
regenerativa. Además, utilizando la secuenciación PacBio en el complemento de ARN
poliadenilado de 20 órganos y tejidos humanos, Sharon et al. obtuvieron 476.000 lecturas
CCS e identificaron ∼14.000 genes empalmados GENCODE. Curiosamente, más del 10%
de sus alineaciones representan estructuras de intrones no anotadas previamente.
No obstante, la sensibilidad del método Iso-Seq está limitada por los siguientes factores (1)
la selección de transcripciones de longitud completa no es completa, por lo que no todas las
lecturas de inserción representan transcripciones de longitud completa; (2) es probable que
las transcripciones muy largas no sean secuenciadas en su totalidad debido al límite de
longitud de secuenciación; (3) las lecturas de alta calidad (lecturas CCS) sólo pueden ser
generadas si el cDNA objetivo es lo suficientemente corto como para ser secuenciado por
múltiples pases. Como Pacific Biosciences ha estado mejorando el rendimiento y el tiempo
de la película de secuenciación, la limitación podría reducirse, aunque no completamente.
Una forma alternativa de superar esta limitación es integrar las lecturas cortas de SGS y las
largas de PacBio a través de la secuenciación híbrida.
● Identificación de isoformas genéticas mediante secuenciación híbrida
Además del ensamblaje del genoma, la secuenciación híbrida también puede aplicarse a la
corrección de errores de las lecturas largas de transcritos de PacBio. Además, puede
mejorar la identificación de isoformas genéticas y la estimación de su abundancia. Au et al.
han desarrollado la herramienta LSC para la corrección de lecturas crudas de PacBio
mediante lecturas cortas de SGS. Aplicando esta herramienta a 100.000 subredes de
PacBio del cerebro humano y a 64 millones de lecturas cortas de 75 pb de Illumina,
redujeron la tasa de error de las lecturas largas en más de 3 veces. Para identificar y
cuantificar las isoformas genéticas de longitud completa, también desarrollaron una
herramienta de detección y predicción de isoformas (IDP), que utiliza las lecturas largas de
TGS y las cortas de SGS. Aplicando LSC e IDP a las lecturas largas de PacBio y a las
lecturas cortas de Illumina del transcriptoma de células madre embrionarias humanas
(hESC), detectaron 8084 isoformas génicas anotadas en RefSeq en su totalidad y
predijeron otras 5459 isoformas génicas mediante inferencia estadística. En comparación
con Cufflinks, una herramienta ampliamente utilizada para la identificación y cuantificación
de isoformas genéticas basada en lecturas cortas de SGS, IDP tuvo una sensibilidad mucho
mayor para la identificación de isoformas (62% de verdaderos positivos para IDP frente al
20% de verdaderos positivos para Cufflinks) con una tasa de falsos positivos del 5%. Más
de un tercio de las 5459 isoformas predichas por IDP eran nuevas, y 273 de ellas se
transcribían a partir de 216 loci génicos no anotados. La mejor identificación del
transcriptoma de las células madre embrionarias (hESC) obtenida mediante la
secuenciación híbrida facilitará el desarrollo de modelos de diferenciación y compromiso
celular dentro del embrión en desarrollo y una mejor comprensión de los mecanismos
moleculares implicados en el mantenimiento de la pluripotencia. La IDP-fusión también se
ha lanzado recientemente para la identificación de genes de fusión, sitios de fusión e
isoformas de genes de fusión a partir de transcriptomas de cáncer. En la línea celular
humana de cáncer de mama MCF7, la IDP-fusión detectó genes de fusión con una precisión
mucho mayor que las herramientas no híbridas que utilizan sólo TGS y SGS (69% de
verdaderos positivos para la IDP-fusión frente al 31% de TRUP, el 23% de TopHat-Fusion y
el 21% de Iso-Seq), con una sensibilidad similar.
● Transcriptomas personales
Se espera que los transcriptomas personales tengan aplicaciones en la comprensión de la
biología y las enfermedades individuales, pero se ha demostrado que la SGS no es lo
suficientemente precisa para la identificación y cuantificación de las variantes genéticas e
isoformas génicas de un individuo. Utilizando una estrategia de secuenciación híbrida que
combina lecturas largas de PacBio y lecturas cortas de Illumina, Tilgner et al. secuenciaron
los transcriptomas de linfoblastoides de tres miembros de la familia para producir y
cuantificar una anotación genómica personalizada mejorada. Se utilizaron alrededor de
711.000 lecturas CCS para identificar nuevas isoformas, y se utilizaron ∼100 millones de
lecturas Illumina paired-end para cuantificar la anotación personalizada, lo que no puede
lograrse solo con la cantidad relativamente pequeña de lecturas largas. Este método
produjo lecturas que representaban todos los sitios de empalme de un transcrito para la
mayoría de los genes suficientemente expresados de menos de 3 kb. Proporcionó un
enfoque de novo para determinar las variaciones de un solo nucleótido (SNV), que podría
utilizarse para mejorar la inferencia del haplotipo del ARN. Al producir adicionalmente los
transcriptomas de ambos padres, descubrieron que la secuenciación de PacBio mejoraba la
precisión de los transcriptomas personales a pesar de la alta tasa de error de los datos de
PacBio. Las moléculas individuales pueden atribuirse al alelo del que fueron transcritas, lo
que también podría permitir la evaluación de la expresión alélica o isoforma sesgada.
Aplicaciones a la investigación epigenética
Las modificaciones del ADN pueden influir en una serie de procesos en muchos
organismos, como la expresión de los genes, el silenciamiento de los mismos, las
interacciones entre el huésped y los patógenos, y la replicación, reparación y regulación de
la transcripción del ADN. En los genomas bacterianos, la N6-metiladenina (m6A), la
N4-metilcitosina (m4C) y la 5-metilcitosina (m5C) funcionan como componentes de los
sistemas de restricción-modificación (MR). Junto con la m6A y la m5C, las bases modificadas
como la 5-hidroximetilcitosina (5-hmC), la 5-formilcitosina (5fC) y la 5-carboxilcitosina (5caC)
también están presentes en los genomas eucariotas. Sin embargo, debido a que la SGS
carece de métodos sencillos para determinar la localización de la mayoría de las
modificaciones del ADN, muchas modificaciones del ADN han sido típicamente ignoradas.
La metilación de la citosina es la modificación del ADN más ampliamente estudiada. La
secuenciación de bisulfito es el método de secuenciación de alto rendimiento más común
para la detección de estos eventos epigenéticos en todo el genoma, normalmente utilizando
lecturas cortas de Illumina. Este método consiste en tratar el ADN con un reactivo de
bisulfito que convierte la citosina no metilada en uracilo, pero requiere un genoma de
referencia bien definido. Los pasos de preparación de la muestra pueden ser costosos y
requerir mucho tiempo, y las condiciones de reacción necesarias pueden degradar el ADN.
La secuenciación por bisulfito también está limitada a la detección de formas específicas de
metilación que pueden sufrir esta conversión. Más importante aún, no puede discriminar
entre C, m5C y 5hmC.
En contraste con la conversión de bases empleada en la secuenciación de bisulfitos, la
secuenciación PacBio utiliza un enfoque alternativo para detectar directamente las
modificaciones epigenéticas nativas. Controla el tiempo entre las incorporaciones de bases
en la cadena de lectura, llamadas duraciones entre pulsos (IPDs). La diferencia de IPDs
entre las bases normales y las modificadas sirve como señal para detectar las
modificaciones de las bases (Figura 5). Esta técnica es aplicable a la detección de
modificaciones de ADN o ARN y supera muchas de las limitaciones y cargas de la
secuenciación por bisulfito, con características cinéticas únicas observables para más de 25
tipos de modificaciones de bases. Sin embargo, debido a que las señales de variación
cinética producidas por las modificaciones m5C son muy débiles, la secuenciación PacBio
no puede detectar las modificaciones m5C con gran precisión.
_________________________________________________________________________
Figure 5. Detection of methylated bases using PacBio sequencing
La secuenciación PacBio puede detectar bases modificadas, incluida la m6A (también
conocida como 6mA), mediante el análisis de la variación del tiempo entre las
incorporaciones de bases en la cadena de lectura.
_________________________________________________________________________
La resecuenciación de seis bacterias, incluyendo Geobacter metallireducens GS-15,
Chromohalobacter salexigens, Vibrio breoganii 1C-10, Bacillus cereus ATCC 10987,
Campylobacter jejuni subsp. jejuni 81-176, y C. jejuni NCTC 11168, por Murray et al.
utilizando la secuenciación PacBio dio como resultado el descubrimiento de nuevos
patrones de metilación m6A y m4C en cada genoma. También se asignaron las
metiltransferasas (MTas) m6A y m4C responsables de esos patrones. Este estudio demostró
que la secuenciación PacBio proporciona información no sólo sobre qué genes de MTasas
están activos, sino también sobre sus secuencias de reconocimiento al alinear las bases
metiladas con sus firmas cinéticas.
Utilizando los datos de variación cinética obtenidos mediante la secuenciación PacBio, Fang
et al. detectaron 49.311 residuos m6A y 1407 residuos m5C en un genoma de E. coli
patógeno. También fueron capaces de deducir los sitios objetivo de las MTasas que
catalizan las modificaciones m6A utilizando únicamente los datos de variación cinética de la
secuenciación PacBio. Además, descubrieron que un componente de MTasa de un sistema
de MR afectaba a la expresión génica y a la replicación del ADN, lo que sugiere que los
sistemas de MR funcionan más allá de la protección de los genomas del huésped contra el
ADN extraño.
La detección de motivos epigenéticos mediante la secuenciación PacBio no se limita a
entornos con referencias completas o muestras de alta cobertura. Beckmann et al. han
demostrado la capacidad de la secuenciación PacBio para recuperar motivos epigenéticos
previamente descubiertos con modificaciones m6A y m4C tanto en escenarios de baja
cobertura como de alta contaminación. También fueron capaces de recuperar muchos
motivos de tres cepas mixtas (E. coli, G. metallireducens y C. salexigens), incluso cuando
las secuencias de los motivos de los genomas de interés se solapan sustancialmente, lo
que sugiere que la secuenciación PacBio es aplicable a la metagenómica. Señalan que la
secuenciación híbrida sería más rentable que el uso de la secuenciación PacBio por sí sola
para detectar y definir con precisión los k-mers para genomas de baja proporción.
Los motivos epigenéticos también pueden detectarse junto con el ensamblaje de novo
utilizando la secuenciación PacBio, como se hizo con Helicobacter pylori. H. pylori es una
bacteria que se encuentra en los estómagos de aproximadamente dos tercios de la
población mundial y que puede causar úlceras y provocar cáncer de estómago. Su genoma
tiene un tamaño de alrededor de 1,6 Mb con un contenido de GC del 39% y una alta
diversidad alélica. La secuenciación del genoma completo mediante la plataforma PacBio
de ocho cepas de H. pylori ha determinado recientemente un contig único y completo para
cada cepa mediante ensamblaje de novo. Además, en este estudio, la información de
metilación proporcionada por la secuenciación PacBio condujo adicionalmente a la
identificación de motivos epigenéticos que se asociaron con factores de virulencia.
Para aumentar la precisión de la detección de las modificaciones del ADN y reducir o
eliminar la cobertura necesaria de los datos de control libres de modificaciones, Feng et al.
desarrollaron un modelo jerárquico bayesiano empírico para la incorporación de datos
históricos de secuenciación PacBio. Dado que el contexto de la secuencia local puede
explicar aproximadamente el 80% de la variación en la cinética de la polimerasa cerca de un
sitio de incorporación determinado, estiman una tasa cinética esperada de la polimerasa en
ese sitio de incorporación utilizando datos históricos. Demostraron que este método puede
aumentar la precisión de la detección con un coste de secuenciación reducido aplicando su
modelo para detectar modificaciones en plásmidos con sitios modificados conocidos y una
cepa de E. coli K-12. Este modelo se ha implementado en el paquete R "seqPatch"
(disponible en https://github.com/zhixingfeng/seqPatch).
La heterogeneidad intercelular, es decir, el estado diferencial de modificación del ADN entre
las células de una población, es una de las principales causas de la heterogeneidad
fenotípica en muchos organismos. Para detectar cuantitativamente la heterogeneidad
intercelular en las modificaciones del ADN del genoma, Feng et al. desarrollaron qDNAmod,
una herramienta bioinformática para el análisis de datos de secuenciación PacBio.
Aplicando qDNAmod a la cepa ST556 de Streptococcus pneumoniae, Feng et al.
determinaron que cuatro motivos de metilación altamente significativos contenían m6A.
Mapearon estos motivos en el genoma y encontraron que la heterogeneidad intercelular de
la metilación está mediada por dos sistemas de MR de tipo I. Por lo tanto, sus estudios
demuestran que la investigación de la heterogeneidad intercelular en las modificaciones del
ADN del genoma previamente indetectables (como m6A y m4C) se ve facilitada por la
detección directa de las modificaciones en moléculas individuales mediante la
secuenciación PacBio.
Discusión
En los últimos años, la secuenciación PacBio se ha aplicado para ensamblar o resecuenciar
de novo una gran variedad de genomas (desde pequeños microbios hasta humanos),
caracterizar la complejidad de los transcriptomas a nivel de isoformas y estudiar las
modificaciones de las bases. En el cuadro 3 se resumen las ventajas y los logros de la
secuenciación PacBio en los últimos años.
_________________________________________________________________________
_________________________________________________________________________
Mientras tanto, también se han desarrollado varias herramientas bioinformáticas relevantes.
Como demuestran estos estudios recientes, la secuenciación PacBio ofrece una
oportunidad sin precedentes para superar muchos de los obstáculos a los que se enfrenta la
SGS al proporcionar longitudes de lectura más largas, información sobre la variación
cinética y tiempos de ejecución más cortos, aunque la tecnología todavía tiene margen de
mejora en otros aspectos, como la elevada tasa de error de los datos brutos de una sola
pasada. La obtención de una profundidad de lectura suficiente para construir una secuencia
de consenso suficientemente precisa puede ser costosa para genomas grandes y
complejos. En cambio, obtener una alta cobertura para genomas más pequeños es más
asequible. En el caso de los genomas microbianos, la cobertura de 100× es fiable para
resolver las regiones repetitivas y cuesta menos de 1.000 dólares con una preparación de
biblioteca de 20 kb. Aunque PacBio sigue siendo superado por SGS en cuanto a
rendimiento, la química de secuenciación, los flujos de trabajo del protocolo y el software
siguen mejorando. Una de estas mejoras será la carga activa para aumentar la tasa de
carga exitosa de una sola polimerasa en cada pozo de ZMW. En un futuro próximo, es
probable que ni la secuenciación PacBio ni la SGS sean sustituidas por la otra.
Como la secuenciación PacBio y la SGS tienen cada una su propia fuerza y debilidad, la
secuenciación híbrida se ha convertido en un enfoque más popular para aprovechar
plenamente las ventajas de ambas plataformas. En particular, la secuenciación híbrida hace
que el coste y la carga de trabajo sean más aceptables para los laboratorios de
investigación biomédica de pequeño tamaño en comparación con la secuenciación PacBio
sola, y aporta información exclusiva que no está disponible en la SGS. Los datos de PacBio
de lectura larga arrojan luz sobre problemas insolubles en la SGS, mientras que el resultado
de la investigación puede cuantificarse o refinarse hasta la resolución de un solo nucleótido
mediante la integración con datos de SGS de alto rendimiento y alta precisión.
Aunque la secuenciación PacBio puede coexistir con la SGS y complementarla, se enfrenta
a la competencia de otras tecnologías TGS en desarrollo, como Oxford Nanopore
Technologies (ONT). ONT es la segunda plataforma TGS comercializada desde 2014.
Aunque solo se han publicado estudios y datos muy limitados de ONT, muestra ventajas y
desventajas similares: Las lecturas de ONT son largas pero tienen una tasa de error aún
mayor que la de la secuenciación de PacBio. Sin embargo, a diferencia de la estrategia de
CCS de PacBio de secuenciar repetidamente un objetivo con muchas pasadas para mejorar
la precisión, la ONT está limitada a sólo dos pasadas por diseño, por lo que su alta tasa de
error es una desventaja importante. Aunque las longitudes de las lecturas en muchos de los
estudios actuales que utilizan ONT no han superado las de la secuenciación de PacBio,
ONT podría ofrecer potencialmente lecturas medias más largas que PacBio. Además, el
ONT MinION™ es un dispositivo USB portátil y muy pequeño, lo que lo diferencia de todas
las tecnologías de secuenciación existentes. Además, su precio mucho más bajo (1.000
dólares en el programa de acceso temprano de ONT) podría convertir a ONT en una
medida experimental de rutina en los laboratorios biomédicos.
En enero de 2015, el Dr. Jonas Korlach, director científico de Pacific Biosciences, predijo
que el rendimiento de la secuenciación de PacBio se multiplicará por cuatro en 2015,
alcanzando al menos 4 Gb por ejecución de célula SMRT, y que la longitud media de las
lecturas de la secuenciación de PacBio alcanzará los 15-20 kb durante 2015. En
septiembre, la empresa anunció su nuevo sistema Sequel, que contará con un millón de
ZMW por célula SMRT en lugar de 150.000 y, por tanto, ofrecerá siete veces más lecturas
por célula SMRT, según PacBio. También ofrecerá la flexibilidad de hasta 16 celdas SMRT
por ejecución. El sistema Sequel costará 350.000 dólares, menos de la mitad que el PacBio
RS II (750.000 dólares), y el director general de PacBio, Mike Hunkapiller, afirma que el
sistema será capaz de obtener un genoma humano 10× en un día con un coste de
consumibles de 3.000 dólares. Según Dan Zabrowski, de Roche, que se asoció con Pacific
Biosciences para desarrollar el sistema Sequel, este sistema servirá de base para una serie
de plataformas clínicas a finales de 2016, allanando el camino para que la secuenciación de
PacBio se utilice para el diagnóstico. Aunque la secuenciación de PacBio ha demostrado
sus ventajas en algunos nichos exclusivos, el coste y el rendimiento han impedido hasta
ahora su aplicación más amplia, ya que muchas investigaciones biomédicas se centran en
el extenso y complicado genoma humano. El mayor rendimiento y la reducción de costes
del sistema Sequel pueden remediar esta limitación.