Transcriptómica
Carlos J. Minahk
Instituto de Química Biológica “Dr. Bernabé Bloj”. Fac. de Bioq., Qca y Fcia. - UNT
Instituto Superior de Investigaciones Biológicas (CONICET/UNT)
[Link]@[Link]
Tel: 0381-4248921 int. 205
Si bien conociendo el genoma de un organismo podemos predecir hasta cierto punto la
expresión de los genes codificados e inferir las diferentes actividades enzimáticas y
metabólicas derivadas (genómica), el mero conocimiento de la secuencia completa del
DNA no puede darnos ninguna certeza. Es preciso estudiar qué genes se expresan en un
determinado momento y en una determinada condición (transcriptómica), y para conocer
el cuadro completo es necesario hacer un estudio de las proteínas presentes en cada
situación y cómo interaccionan entre sí (proteómica e interactómica). Los diferentes
procesos biológicos que se activan o desactivan a consecuencia de estos cambios tiene
impacto en los metabolitos que se generan en las células (metabolómica).
El genoma es algo fijo, no cambia la información con el tiempo en una misma célula.
Por el contrario, los RNA que se expresen en cada célula sí cambian en el tiempo, cambian en respuesta a los
estímulos a los que son sometidas las células.
El hecho que una célula tenga presente en su genoma un determinado gen no significa necesariamente que ese
gen se expresará en algún momento. Por ejemplo el gen que codifica para la albúmina no se expresará nunca
en una neurona.
Las funciones y actividades metabólicas que desarrolle una determinada célula dependerá entonces no de los
genes presentes en su DNA sino de aquellos genes que se expresen.
El conjunto de todos los RNA de todo tipo que presenta un célula se denomina transcriptoma y su estudio se
denomina transcriptómica.
El transcriptoma es dinámico a diferencia del genoma.
Tipos de RNA
RNA codificante
RNA de transferencia (~15% del total de RNA)
ncRNA “housekeeping”
RNA mensajero
(1 al 5% del RNA
~360 mil moléculas) RNA ribosómico (≥ 80% del total de RNA)
≥ 200 nucleótidos
RNA no codificante largo
RNA no codificante
ncRNA regulatorio
(de 19 a 22 nucleótidos)
< 200 nucleótidos
RNA pequeño nucleolar
RNA pequeño de interferencia
RNA pequeño nuclear
RNA asociados a PIWI (piRNA)
RNA por masa Inamura (2017) Cells 6(2):1
RNA por número de moléculas
Palazzo & Lee (2015) Front. Genet. 6:2
Para estudiar la expresión de RNA se pueden utilizar técnicas de hibridación como Northern blot y microarray
El Northern blot solo permite analizar en forma semi-cuantitativa la expresión de genes utilizando sondas específicas
para los mRNA en estudio. Similar a lo que sucede con la PCR en tiempo real, que es una excelente herramienta,
cuantitativa, pero limitada a un grupo reducido de genes (cebadores específicos para cada uno)
El microarray permite estudiar todos los mRNA que se están expresando en un determinado tiempo, mediante el uso
de chips conteniendo las secuencias de todos los genes conocidos. Sin embargo, esta técnica no permite encontrar
nuevos transcriptos ya que está limitada a las sondas que tiene cada chip, fusiones de genes e isoformas no se
pueden encontrar, tampoco variantes de nucléotido único. Por último, no son sensibles para detectar diferencias
sutiles en los niveles de expresión.
Las tecnologías de secuenciación de nueva generación (NGS) son las más utilizadas en los últimos años para
estudiar el transcriptoma.
proyectos que incluyen microarrays
proyectos que incluyen NGS
Proyectos de investigación
aprobados por NIH para
estudiar expresión de Chimenti (2017)
genes [Link]
mRNA Seq
El primer paso luego de realizar el experimento es extraer y purificar el RNA mensajero. Será diferente el
procedimiento según se esté trabajando con una célula eucariota o con una célula procariota. Luego se procede a la
secuenciación
1) poliA para captura de RNA
Ejemplo de análisis de
mRNA de célula eucariota
2) fragmentación del RNA por Illumina
3) síntesis de la primera hebra de cDNA
4) síntesis de la segunda hebra de cDNA
5) reparación de los extremos 5’ y adenilación de los extremos 3’
6) ligación de los adaptadores de secuenciación
7) amplificación por PCR de los fragmentos ligados
[Link]
Secuenciación sin síntesis de ac. nucleicos largos (Nanopore)
Mediante una secuencia adaptadora se une a
un motor que permite la entrada de una hebra
de DNA a través de un poro por el que pasa
corriente. Los cambios que se ven en la
corriente dependerá del tamaño de la base
nitrogenada que esté entrando.
Permite secuenciar fragmentos muy largos de
DNA (tercera generación de secuenciadores).
Leggett & Clark (2017) J Exp Bot 20: 5419–5429
Utilizando esta tecnología se puede
secuenciar RNA, ya se convirtiendo
primero el RNA a cDNA y luego
pasandolo por el poro o secuenciar
directamente el RNA sin necesidad del
paso de retrotranscripción.
Este método aún necesita ser pulido,
pero tiene un gran potencial.
Soneson et al (2019) Nat Commun 10: 3359
Para bacterias es mucho más complicado porque los mRNA no tienen poliA
En primer lugar es preciso enriquecer las a. captura de RNA b. degradación del RNA procesado
muestras en mRNA por lo menos del 1-5% al perlas magnéticas con sondas que se
50% del total de RNA disminuyendo el rRNA + unen específicamente al rRNA
tRNA de 95% a 50%.
Existen diferentes métodos, el más común es
el “ribosomal RNA capture”.
exonucleasa que específicamente degrada los 5’P RNAs
(exonucleasa terminadora dependiente de 5’ monofosfato - TEX)
Otro método muy común es utilizar una
enzima de E. coli para agregar
RNA total
específicamente poliA al mRNA (y luego se
puede seguir trabajando como mRNA de Solo el 5% del total del
RNA es mRNA, el resto
células eucariotas).
es rRNA y tRNA
También se puede hacer “pull-down” utilizando
algún anticuerpo específico contra una
proteína que interaccione con el rRNA y así c. poliadenilación selectiva de los mRNAs d. captura de RNAs que interactúan con una proteína específica
eliminarlo enzima poliA polimerasa de E. coli que
lisis de células
selectivamente poliadenila los mRNAs
Por último, se puede degradar el rRNA y el Co-IP de RNA con proteína de unión a rRNA
tRNA porque tienen en su extremo 5’ un
monofosfato en lugar del trifosfato que tienen
los mRNA y hay nucleasas específicas para purificación del RNA
eso.
conversión a cDNA
poliA RNA puede ser purificado con oligo dT para de Sorek & Cossart
ahí formar directamente cDNA secuenciación (2010) Nat Rev Genet
11: 9-16
Por esta razón se utiliza el tag-RNA Seq
Problema de usar TEX: puede
pasar que algunos mRNA tengan
un procesamiento tal que haga que
no presenten un trifosfato en su
extremo 5’ y en ese caso son
degradados por este sistema y no
los vemos en la secuenciación.
Consiste en ligar primero una secuencia a los RNA procesados.
PSS-tag (secuencia “start” de procesado)
Luego se trata con la fosfatasa alcalina del tabaco para eliminar un
pirofosfato de los RNA no procesados (mayormente mRNA).
Finalmente se realiza una segunda ligación. TSS-tag (secuencia
“start” de transcripción)
Una vez enriquecida la muestra de RNA en mRNA se procede a obtener el cDNA
utilizando cebadores al azar o un oligo dT si se usó la estrategia de unir la cola de
poliA
cebadores de hexámeros al azar
3’ Secuenciación por NGS, al igual
5’
que el RNA de células eucariotas,
plan B: unir poliA a cada mRNA la plataforma más utilizada es
Illumina
5’ 3’
A diferencia del genoma, donde todos los genes están presentes en el mismo orden (salvo alguna duplicación), no todos
los mRNA se expresan al mismo nivel, por eso es muy importante la cobertura de secuencia, es decir cuántas veces se
leerá en promedio cada secuencia. Si no hay demasiadas lecturas es posible que la expresión de algunos genes pase
desapercibida, en particular los genes que se expresan en niveles bajos. Por otro lado, un mRNA puede que no sea
encontrado en un experimento, pero al repetir el exp. (réplica) hay más chances de encontrarlo.
Estos dos parámetros son importantes: tanto cuantos millones de lecturas hace el equipo por experimento como el
número de réplicas que tenga dicho experimento.
genes expresados diferencialmente (DE)
réplicas Vs. número de lecturas por experimento (en millones)
genes con altos niveles de expresión todos los otros genes
Chimenti (2017) [Link] Liu & White (2014) Bioinformatics 30:301-4
Una vez completada la secuenciación se realizan los controles de calidad de las secuencias obtenidas de la misma
forma que se analizaban las secuencias de genomas secuenciados.
El paso siguiente es el de alinear cada fragmento
secuenciado con un genoma o alternativamente con un
transcriptoma ya depositado. En el caso de comparar
las secuencias con un genoma hay que tener cuidado
con las uniones debidas a diferentes procesos de
“splicing”. Es un trabajo muy complejo.
Se requiere el uso de diferentes programas para llegar
al resultado final:
1) primero controlar y corregir las secuencias
2) alinear las secuencias para saber la identidad de c/u
3) ensamblar las secuencias y calcular el grado de
expresión
4) de ser necesario, comparar la expresión diferencial
entre diferentes condiciones
Una lectura corta puede estar
cortada por un intrón cuando
se alinea con un genoma de
referencia
HiSAT2 y StringTie son algunas de
las herramientas bioinformáticas
más utilizadas para analizar los
fragmentos secuenciados y
compararlos con alguna referencia.
También pueden realizar anotación
de novo.
En todos los casos, deben
utilizarse diferentes programas
para analizar los datos siguiendo
un orden.
Chung, M., Bruno, V.M., Rasko, D.A. et al. Best practices on the differential expression
analysis of multi-species RNA-seq. Genome Biol 22, 121 (2021)
Por otro lado, también se pueden alinear las secuencias obtenidas en la secuenciación con transciptomas anotados (en
vez de hacerlo contra genomas de referencia). Esto se llama pseudo-alineamiento y es una salida mucho más rápida
que la anterior, solo que está limitada a que existan transcriptomas depositados. Por otro lado, haciendo esto se
sacrifica la posibilidad de encontrar nuevos transcriptos. Es una estrategia mucho más ágil y más corta que comparar
genomas.
En estos casos, son precisos otros programas como ser Kallisto y Salmon-Quasi
genoma
ventajas: puede alinear isoformas nuevas
desventajas: difícil, alineamientos incorrectos, problemas con el “splicing”, alineamiento con pseudogenes o con genes relacionados
transcriptoma
La transcriptómica se utiliza principalmente para conocer qué genes se expresan en una condición comparada
con otra. Análisis cualitativo
Pero las NGS aplicadas al estudio del transcriptoma también permiten cuantificar cuánto hay de cada
transcripto. Cuantas más copias haya de un determinado mRNA, tanto mayor será la señal/lectura obtenida.
En general se compara la expresión de los transcriptos entre 2 o más situaciones o condiciones diferentes pero
también se puede comparar la expresión de varios genes en una misma condición.
Otro problema al momento de
Un inconveniente
comparar la expresión en 2
de la cuantificación
condiciones diferentes es el
por NGS es que los
número de lecturas (“reads”) en
transcriptos largos
cada una de esas mediciones. Si
tendrán más
en un experimento se obtienen
lecturas que los
más lecturas, habrá más
cortos, lo que
profundidad, mayores lecturas para
introduce un sesgo
cada gen y se puede concluir
que es preciso
erroneamente que tiene mayor
corregir en cada
expresión.
medición.
Kadakkuzha et al. (2016) Nutraceuticals cap 18: 227-237
Lo mismo pasa si se tienen más millones de lecturas y se
quiere comparar la expresión de un gen
Aún cuando haya mismo número de copias de estos 3
transcriptos, voy a creer erróneamente que hay A>B>C
A
D 1 copia y 60 lecturas
B
E
2 copias y 48 lecturas
F
3 copias y 48 lecturas
Las lecturas obtenidas se deben normalizar para evitar estos problemas. Una forma es la RPKM (reads per
kilobase million) o también FPKM (fragments per kilobase milion). Alternativamente se puede utilizar TPM (transcripts
per million)
Ejemplo: estudio de 4 genes de diferente
tamaño. La expresión se mide en 3
experimentos independientes Primero se debe normalizar por profundidad de lectura
Secuenciación de los fragmentos
En RPKM primero se suman todas las lecturas de cada
experimento (cada réplica)
4 genes Luego se dividen esos números en un millon (en este
ejemplo se divide en 10 porque se están considerando
muy pocas lecturas)
Lecturas en cada réplica
Lecturas por millón
Normalización de resultados de transcriptómica por RPKM
Luego se debe normalizar
por el tamaño de los genes
en estudio
Estos son los valores
finales luego de dividir por
los millones de lecturas de
cada experimento y los
tamalos de cada gen
Para nomalizar por TPM (transcriptos por millón) se hacen los mismos cálculos pero en otro orden
Primero se normaliza por el tamaño de cada gen Luego se normaliza por la profundidad de lecturas sobre los
(se dividen las lecturas en las kilobases de cada gen) valores ya normalizados por los tamaños de los genes
Se suman las lecturas en cada réplica (cada columna por
separado), se dividen en un millón (en 10 en este ejemplo) y
luego se dividen los valores normalizados por el tamaño de los
genes por el factor obtenido de las lecturas
Una alternativa para cuantificar niveles de 2 ó más mRNAs en una misma condición es cuantificar por secuenciación
de los extremos 3’ de los mRNAs
Con esta estrategia se pierde la capacidad de analizar los posibles cambios en las secuencias de los transcriptos
(análisis cualitativo) para enfocarse exclusivamente en la medición cuantitativa
Es un procedimiento mucho más
rápido y sencillo.
El método 3’RNA Seq da solo una
secuencia por cada transcripto
Tandonnet & Torres (2016) Genom Data 11:9-16
Una forma de expresar los resultados de transcriptómica es la gráfica de volcán
Permita realizar una rápida comparasión de la expresión entre 2 condiciones diferentes
Además de permitir cuantificar los mRNA y de realizar análisis de expresión diferencial de genes en diferentes
condiciones y tiempos, el estudio del transcriptoma permite corregir y complementar los estudios genómicos:
a. descubrimiento de nuevos genes
una secuencia, un RNA, que aparece donde no
había nada en el genoma anotado puede deberse
a dos razones:
1) gen que codifica para un péptido pequeño 2) un nuevo RNA no codificante
b. corrección en la anotación de genes
También puede pasar que la predicción de un gen haya estado mal hecha y se
haya anotado una secuencia de inicio incorrecta. Al secuenciar los RNA
aparecerá un transcripto con otro inicio y eso permitirá la posterior corrección del
gen
Sorek & Cossart
(2010) Nat Rev Genet
codón de inicio predicho codón de inicio real 11: 9-16
c. definición de URs A diferencia del anterior punto, si el transcripto
secuenciado es más largo que el predicho, eso
implica que ese RNA tiene una región no traducida
d. definición de la estructura de los operones
Los estudios in silico del genoma pueden haber predicho una determinada estructura de un operón, en este
Sorek & Cossart
ejemplo, un operón de 4 genes. Sin embargo, los resultados de la transcriptómica permiten ver que en realidad (2010) Nat Rev Genet
el sistema tiene un operón de 3 genes y luego el cuarto gen se transcribe en forma independiente 11: 9-16
La transcriptómica trajo asociada la cuarta generación de secuenciación de ácidos nucleicos: secuenciación in situ
Existe una variedad de técnicas relacionadas, pero todas apuntan a obtener información de la expresión genética en
una célula determinada o en diferentes células de un tejido.
Stahl et al. (2016) Science 353: 78-82
En este protocolo, un corte fino de un tejido se coloca sobre un chip diseñado con 1007 regiones separadas, cada
una de las cuales contiene muchas copias de un oligonucleótido único y de secuencia conocida para ese punto en
el chip.
Los cortes son analizados por imágenes, cada pixel identificado y asociado a un tipo celular.
Una vez permeabilizadas las células, los mRNA se unirán por su poliA a las regiones de captura conteniendo poli dT. Se
realizará una retrotranscripción y luego los cDNA conteniendo el código de barras se cortarán y serán secuenciados por
Illumina.
Finalmente se analizará qué secuencias fueron identificadas y cuánto había de cada una en cada spot del chip,
correlacionando esto con la información del tipo celular presente
Además de los mRNA existen otros RNA que son estudiados por secuenciación: los RNA cortos y los RNA largos no
codificantes.
Los diferentes lncRNA
intrónico intergénico divergente reciben su nombre de
acuerdo a dónde se
encuentran codificados
RNA codificando proteína
Arrigoni et al (2016) Polycomb Group Proteins pp 125-135
RNA codificando proteína
antisentido
Los miRNA y los siRNA
tienen una actividad
regulatoria
postranscripcional,
aunque por mecanismos
diferentes
(no son los únicos RNA
pequeños, pero sí los más
estudiados)
[Link]
Koturbash et al. (2015) Biomark Med 9:1153-76
Las claves para identificar exitosamente RNA no codificantes es secuenciar todos los RNA que no sean RNA
ribosómico y luego eliminar de la base de datos obtenida todos los RNA que codifiquen para alguna proteína
(mRNA) o sean RNA procesados a tRNA.
No se purifica el
extracción de RNA total RNA con oligo dT
y eliminación del rRNA
(a diferencia de todos los
casos anteriores, para Remoción de los transcriptos que
RNA no codificante no se codifican para proteínas
transcriptos ensamblados
puede porque no todos
preparación de la los ncRNA tienen poliA) transcriptos conocidos por
biblioteca y secuenciación codificar proteínas
selección de tamaño >200 nt dentro de los
RNA no codificantes encontrados para
lncRNA y <200 nt para RNA pequeños
alineamiento de las lecturas con un
genoma de referencia
Análisis del potencial codificante de
los transcriptos largos encontrados
ensamble de los transcriptos sets de transcriptos no codificantes largos lncRNA y RNA
cortos siRNA, miRNA, piwiRNA, etc
adaptado de: Arrigoni et al (2016) Polycomb Group Proteins pp 125-135
si se purificaran los RNA a partir de sus poliA, aproximadamente la mitad de los lncRNA y todos los RNA pequeños se
perderían porque no tienen esta secuencia en su extremo 3’. Por eso se prefiere obtener el RNA total y luego eliminar
específicamente en rRNA por algún método (similar a lo visto en bacterias)
Illumina ribo-zero magnetic kit
([Link]
NEBNext rRNA Depletion kit
([Link]