0% encontró este documento útil (0 votos)
58 vistas171 páginas

Bioinformática: Estructuras y Funciones

Este documento describe varios métodos para predecir estructuras proteicas terciarias, incluyendo determinación experimental mediante cristalografía de rayos X y resonancia magnética nuclear, así como predicción computacional a través de enhebrado, modelado basado en homología y ab initio. También cubre temas como acceso a bases de datos de estructuras proteicas, predicción de función proteica usando motivos y matrices de puntuación por posición específica, y redes de interacción proteica.

Cargado por

Jenny S-boom
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
58 vistas171 páginas

Bioinformática: Estructuras y Funciones

Este documento describe varios métodos para predecir estructuras proteicas terciarias, incluyendo determinación experimental mediante cristalografía de rayos X y resonancia magnética nuclear, así como predicción computacional a través de enhebrado, modelado basado en homología y ab initio. También cubre temas como acceso a bases de datos de estructuras proteicas, predicción de función proteica usando motivos y matrices de puntuación por posición específica, y redes de interacción proteica.

Cargado por

Jenny S-boom
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Introducción a la

Bioinformática 9
Material basado en presentaciones de
Francisco Flores, Ph.D.

Carlos Noceda
Estructuras proteicas terciarias
• Determinación experimental
• Cristalografia de rayos X
• Utilizada para la determinación del 80% de las estructuras
• Requiere alta concentración de proteína
• Requiere cristales
• Puede encontrar cadenas laterales de aminoácidos
• Primera estructura resuelta: Mioglobina
• Resonancia Magnética Nuclear
• Campo magnético aplicado a la proteína en solución
• Se puede resolver estructuras de hasta 350 aminoácidos
• No requiere cristalización
• Microscopía electrónica
Determinación experimental

Selección de proteína de interés

Obtención y caracterización de la proteína

Determinación del modelo

Envío a la base de datos (PDB database)


Acceso a archivos PDB
Swiss-Prot, NCBI, EMBL

Protein Data Bank

CATH, Dali, SCOP,


FSSP
bases de datos que interpretan PDB files
Predicción de estructuras 3D
1.ab initio (predicción de estructura proteica de
novo)

2.Enhebrar (Threading)

3.Modelamiento basado en homología


Ab initio
• Trata de determinar estructuras
terciarias sin utilizar estructuras
conocidas como base
• El proceso algorítmico se basa en
principios físicos de los residuos de
la cadena peptídica
• Requieren amplios recursos
computacionales
Threading
• Se alinean segmentos de una
secuencia en forma de dobleces
y una puntuación basada en
energía se obtiene por
alineamiento
• Se utiliza programación dinámica
para encontrar el alineamiento
con mejor puntaje y se
categorizan los resultados
• Los dobleces con mayores
puntajes son seleccionados para
modelar la secuencia problema
(query)
Threading

Se muestra la energía entre pares de aminoácidos en función de la


distancia entre ellos. Esta información se usa en programas de
threading
A) Interacción entre Val-Leu
B) Interacción entre Phe-Trp
Número de dobleces encontrados

• Barras rojas simbolizan el número de dobleces


acumulado, barras azules el número de dobleces por año
Predicciones 3D mediante
threading
Modelamiento basado en
homología
• Alineamiento de secuencias
• Alineamiento estructural
• Se obtienen mejores
modelos a partir de
secuencias (target y
template) cercanamente
relacionadas
A) Superposición de un
segmento de lysozyma (verde)
y a-lactalbumina (azul),
mostrando a los enlaces
disulfuro en amarillo
B) Alineamiento de las
secuencias de los dos
fragmentos
Laboratorio
• Predicción de estructura terciaria
Introducción a la
Bioinformática 10
Material basado en presentaciones de
Francisco Flores, Ph.D.

Carlos Noceda
Predicción de función proteica
• Motifs, profiles
• Interacciones proteína-proteína
• Expresión Génica
Motifs
• Familias de secuencias se forman por procesos
evolutivos
• Divergencia de secuencias puede dificultar la
búsqueda de homólogos
• Residuos “clave” dentro de una secuencia corta
pueden servir de referencia para inferir función de
proteínas desconocidas
• Determinar la secuencia de un motif puede ayudar
en el alineamiento de nuevas secuencias
Motif patterns
• Se usa el código IUPAC
• x: se usa cuando cualquier aminoácido es aceptable
• []: para mostrar ambigüedades
• {}: para mostrar residuos que no estan permitidos
• -: para separar elementos
• (2): para mostrar que un residuo se repite 2 veces
• <: N-terminal
• >:C-terminal
• Inflexible!

Fuente: Provart, N. Bioinformatic methods II


Position-Specific Scoring Matrices
(PSSMs)
• Alineamientos de secuencias homólogas revelan
patrones de conservación que reflejan función
• Patrones pueden ser usados para encontrar
secuencias con función similar
PSSMs
• Matrices de puntuación por posición específica
• Son una extensión de las matrices de puntuación por
sustitución
• Se calculan a partir de secuencias alineadas (multiple
sequence alignment-MSA)
• Ejemplo: dedo de zinc
PSSMs
• Dedo de zinc
Base de datos de dominios conservados

Ejemplo: Citocromo c

Incluye recursos como PSSMs pfam00034 : Cytochrome c.


Ejemplo: Citocromo c

PSSM matrix at NCBI (matrix view) pfam00034 : Cytochrome c.


Example: Citocromo c

Matriz PSSM(stacked view)


Hidden Markov Models
• Generan modelos probabilísticos para:
• Encontrar genes
• Buscar perfiles
• Hacer alineamientos múltiples
• Identificar sitios de regulación
• Tratan de encontrar buenas secuencias de estados
• Propiedad de Markov:
• HMMs no tienen memoria
• El futuro se ve afectado sólo por el estado actual
Composición de HMM
• Alfabeto
• Caracteres emitidos por le modelo
• Nucleótidos
• Aminoácidos
• Estados
• Describen propiedades interesantes del
sistema (escondidos)
• Probabilidades de inicio
• Probabilidad de iniciar en un estado
determinado
• Probabilidades de transición
• Probabilidad de cambiar de un estado a
otro
• Probabilidades de emisión
• Probabilidad, para cada letra del
alfabeto, de ser emitida cuando el
modelo esta en un estado determinado
• Deben sumar 1

Chuan Sheng Foo, 2007 Hidden Markov Models: Decoding and Evaluation
Encontrando sitios de splicing con
HMM
• Alfabeto: A, C, T, G
• Estados:
• Exon (E)
• Splice-site (5)
• Intron (I)
• Probabilidad de inicio
• 1
• Probabilidades de transición
• Indicado por flechas en el modelo
• Probabilidades de emisión
• Abundancia de nucleótidos
• Uniforme en exones
• Desigual en intrones
• Probabilidad de un nucleótido específico en sitio de splicing
• Probabilidad para cada línea de “parsing”
• Producto de las probabilidades de transición y emisión
• Información generada:
• Recorrido de los estados (state path)
• Secuencia observada (observed sequence)
• Encontrar el recorrido óptimo (algoritmo de Viterbi)
Creando perfiles con HMM
• Es necesario determinar
• Topología de los HMM (estados y transiciones)
• Parámetros (probabilidades de emisión y transición)
• Los valores de los parámetros son determinados por un
proceso llamado training
• Existen tres diferentes estados
• Match: un residuo en el query se alinea con un
residuo en el reference
• Insert: un residuo del query se alinea con un gap
en el reference
• Delete: se crea un gap en el query que se alinea
con un residuo en el reference
Creando perfiles con HMM
• Los perfiles de HMM son similares a un PSSM
• Un perfil de HMM posee información de cada
aminoácido presente en una posición específica de
una secuencia consenso
• Un perfil de HMM indica puntajes para posiciones
específicas de inicio y extensión de gaps
HMM-Ejemplo

Fuente: Provart, N. Bioinformatic methods II


El algoritmo de Viterbi (decoding)
• Busca determinar cual es el “pars” (state path) con
mayor probabilidad dada la secuencia observada
• Programación dinámica
Sequence Logos

H: entropía de Shannon (entropía de la información), máximo valor de R es 4.32


bits
Otros recursos
• Pfam– Search
• PfamA: Alineamientos curados
• PfamB: Alinemientos generados automáticamente
• Domain Organisation: arquitectura
• HMM logo
• Species: ortólogos
• Interactions
• Prosite
• Expert to contact by email
• Consensus pattern
• SMART
• Repeticiones internas
• Peptidos de señal
• Regiones de baja complejidad
• InterProScan
• Colección de bases de datos de motifs, dominios y perfiles HMM
Ejercicio
• Buscar proteína de interés en la base de datos de
dominios conservados (CDD) y en pfam
• Observar el PSSM de la familia de proteínas a la
cual pertenece y la puntuación de la proteína de
interés de acuerdo a esta matriz
• Determinar que dominios posee, cuales son sus
funciones, a que superfamilia pertenece y cual es
su estructura tridimensional
• Explorar opciones en pfam: arquitecturas, HMM
logos, Taxonomía (species)
Interacciones proteína-proteína
• Las proteínas son indispensables para la gran
mayoría de procesos celulares
• La expresión proteica es un proceso dinámico
• Las proteínas no actúan solas
• Conocer las interacciones de una proteína puede
ayudar a entender su función
• Se puede inferir función si se sabe la función de la
proteína interactuante
• Tamaño aproximado de interactoma: 650 000
Métodos para identificar
interacciones proteicas
• Co-Inmunoprecipitación
https://www.youtube.com/watch?v=OrVVZ8X3n6k
• Pull down
https://www.youtube.com/watch?v=kqhK2LZytlo
• Far-Western blot
https://www.youtube.com/watch?v=Xs9z8Zy3hv8
• Yeast two hybrid
https://www.youtube.com/watch?v=ff0NwNiH4pg
• Tandem affinity purification
http://www.jove.com/video/3643/identification-
protein-interacting-partners-using-tandem-affinity
• Interologs
High troughput
Ontología génica
• Lenguaje común para describir aspectos de un
producto génico
• Función molecular
• Procesos biológicos
• Localización subcelular
Ejercicio (BioGRID)
• Buscar interacciones de BRCA2 de Homo sapiens en
el “General Repository for Interaction Datasets”
• Qué métodos se han utilizado para determinar
interacciones?
• Cuál de las interacciones es la menos confiable?
• Analizar las ontologías génicas de una de las
proteínas interactuantes
• Tienen sentido?
• Observar la red de interacciones “network” de
forma gráfica
Fuente: Provart, N. Bioinformatic methods II
Introducción a la
Bioinformática 11
Material basado en presentaciones de
Francisco Flores, Ph.D.

Carlos Noceda
Análisis de transcritos
Introducción
Diseño Experimental

Un requisito importante para resolver las


inquietudes del estudio biológico de interés es la
calidad de los datos de generados en el estudio
de RNA-seq a través de la aplicación de un
adecuado diseño experimental
Para la ejecución de un buen diseño experimental
deben tomarse en cuenta los siguientes aspectos
(Conesa A. et al 2016):

• Selección del tipo de librería


• Profundidad de la secuenciación
• Número apropiado de replicas según el sistema
biológico de estudio
• Adecuada ejecución del experimento de
secuenciación
• Presupuesto $$$
Pautas a considerar en el diseño
experimental
¿Cuál es mi pregunta biológica?
¿Qué necesito secuenciar?
¿Qué tipo de secuenciación debo
hacer?
¿ longitud de las lecturas ?
¿Cual plataforma?
¿SE o PE?
¿Cuánto multiplexado puedo hacer?
¿Debería agrupar muestras?
¿Cuántas réplicas necesito?
¿Qué pasa con los duplicados?
Pautas a considerar en el diseño
experimental
• ¿Con que estás trabajando?
• Nuevo: poca o ninguna información
• Algunos datos: ESTs o Unigenes
• Borrador básico del genoma
• Pocos miles de contigs
• Alguna anotación, principalmente ab initio
• Buen borrador del genoma
• - Pocos miles de scaffolds para brazos de cromosomas
• - Mejores anotaciones con verificación humana
• Organismo modelo
• Genoma completamente secuenciado
• Anotaciones de alta confianza
• Mapas y marcadores genéticos
• Datos de mutantes disponibles
Selección del método apropiado

La intención del estudio y la escala van a determinar la metodología que será


seleccionada para estudiar la expresión génica
• Real-time PCR (PCR en tiempo real) con alta sensibilidad permite el
análisis de un grupo pequeño de genes
• Los microarreglos (microarrays) permiten analizar muchos genes al
mismo tiempo aunque con menor sensibilidad que el PCR en tiempo real.
No apto para genes con bajos niveles de expresión (Zhao, S. et al. 2014) .
• RNA-seq o secuenciación de ARN mediante tecnología de
secuenciación de alto rendimiento permite secuenciar directamente los
transcriptos, reconocer ARNs no codificantes, identificar sitios de inicio de
transcripción o caracterizar la ubicación exacta de modificaciones
epigenéticas. Además, permite analizar muestras de especies para las que
no hay un genoma de referencia anotado y permite detectar transcritos en
un rango dinámico mayor. Sin embargo, esta es una tecnología aún
costosa y con análisis computacionales y estadísticos intensivos.
Métodos de transcriptómica en el
tiempo

Figura 1. Uso del métodos de transcriptómica a lo largo del tiempo. Artículos


publicados desde 1990, que se refieren a la secuenciación de ARN (negro),
microarreglo de ARN (rojo), marcador de secuencia expresada (azul) y análisis serial
/ cap de la expresión génica (amarillo)

Lowe, R., Shirley, N., Bleackley, M., Dolan, S., & Shafee, T. (2017). Transcriptomics
technologies. PLoS computational biology, 13(5), e1005457.
Análisis de datos – RNA –seq

Herramientas Genomas de Capacidad de


Bioinformáticas referencia análisis
Reproducibilidad
Se refiere a la obtención de las mismas conclusiones biológicas independientemente de la
herramienta bioinformática usada. Igualmente sucede con las muestras biológicas, si se
utilizan muestras comparables y protocolos de laboratorio similares. Para garantizar la
reproducibilidad se debe (Marioni et al, 2008):

• Incluir controles
pruebas estadísticas
réplicas biológicas
adecuadas
y técnicas

• conocer los
lineamientos
• Profundidad de la
necesarios para
secuenciación
publicar datos de
RNA-Seq
Replicas biológicas y réplicas
técnicas
• Biológicas
Capturar la variabilidad biológica entre tratamientos se logra
realizando el número de réplicas adecuadas. Anders y Huber,
2010 recomiendan tres réplicas biológicas por tratamiento, es
decir tres tratamientos idénticos por separado.
Más es mejor (depende del presupuesto)
Agrupación con barcodes: cada muestra es una réplica
Agrupación sin barcodes: cada agrupación es una réplica
Replicas biológicas y réplicas
técnicas
• Técnicas
• Permiten determinar la variación dentro de la
preparación de una muestra
• Mientras más muestras biológica mejor
• Útil a través de carriles para mitigar los efectos del
carril
• Comparación de dos diseños para probar la expresión diferencial entre los tratamientos A y B. El tratamiento A se denota por tonos
rojos y tratamiento B por tonos azules. En el diseño de bloque equilibrado ideal (izquierda) consta de seis muestras (m=6), que usan
barcodes, siendo agrupadas, y procesadas ​juntas. La codificación en el diseño de bloque equilibrado da como resultado seis réplicas
técnicas (T = 6 ) de cada muestra. El diseño de la derecha representa un experimento típico de RNA-Seq y consta de las mismas seis
muestras, sin barcodes.

Auer, P. L., & Doerge, R. W. (2010). Statistical design and analysis of RNA sequencing data. Genetics, 185(2), 405-416.
Las muestras
• La colecta de las muestras se debe hacer cuidadosamente y
consistentemente para reducir problemas posteriores en la
cuantificación de la expresión génica.
• Idealmente, las muestras frescas deben ser congeladas a -
80°C inmediatamente o preservadas en sustancias
estabilizadoras como el RNAlater (ThermoFisher). El objetivo
es reducir la degradación del ARN que es un proceso natural
que sucede rápidamente en las células.

• Otro aspecto importante al considerar las muestras es el


número de réplicas. El número va a depender de la
variabilidad biológica en los organismos de estudio y en la
variabilidad técnica de las metodologías, además va a influir
en el poder estadístico. Cada experimento debe incluir al
menos tres réplicas para evaluar la replicabilidad de los
resultados
Evaluación de la calidad de RNA
• Después de realizado el proceso de extracción de ARN se
debe cuantificar y medir la degradación.
• El RNA-integrity number corresponde a la razón entre la
cantidad de ARNr 28S y 18S presente en una muestra
después de la extracción de ARNs totales en
organismos eucariotas y es útil para estimar la
degradación del ARN.
• La estimación del ARNr 28S y 18S se hace con
electroforesis capilar en el Bioanalyzer (Agilent) o el
Qiaxcel (Qiagen).
• Un RIN adecuado para estudios de expresión génica
debe ser mayor a 7.
• Un RIN bajo indica que la degradación de los ARNs
• Electroferograma mostrando la calidad de tres diferentes ARNs, intacto (RIN = 10),
parcialmente degradado (RIN = 5) y completamente degradado (RIN=3)
Mueller, O., Lightfoot, S., & Schroeder, A. (2004). RNA integrity number (RIN)–standardization of RNA quality control. Agilent application note,
publication, 1, 1-8.
Procesando el RNA para
secuenciación
• Depende del objetivo principal de la investigación
• El ARNm es el objetivo principal sin embargo el ARNr es
la molécula más abundante en los tejidos y debe ser
eliminada. Se puede realizar mediante:
• Enriquecimiento usando oligos PolyA (eucariotas)
• Perlas de Oligo-dT
• Altamente eficiente para obtener ARNm y eliminar el ARNr
• No se puede utilizar con ARN no poliA
• Enriquecimiento de ARNm (procariotas)
• rRNA depletion, se eliminan mayor cantidad de ARNr
Cubillos, A. E. R., Jiménez, L. P., & GIRALDO, A. J. B. (2014). Analizando datos de
RNA-Seq en Procariotas: una revisión para no expertos. Acta Biológica
Colombiana, 19(2), 131-142.
Controles
• Incluir controles negativos en
cada uno de los pasos de
manipulación de las muestras
para evaluar fuentes de
contaminación.
• incluir controles positivos
como transcritos de referencia
(spike-ins) es útil para evaluar Spike-in control. En el mix 1 el transcrito A (rojo), por
el error en las secuencias y ejemplo, está 4 veces más representado que en el mix 2
para normalizar las librerías. de modo que al secuenciar ambos se esperaría encontrar
una proporción similar en el número de reads obtenidas.
Permitiendo evaluar fallas en la cuantificación de
transcritos. Tomado de: Thermofisher.com
Secuenciación Ilumina
• Se usan equipos de secuenciación de
segunda generación (NGS) o high-throughput
sequencing, como el HiSeq o el IonTorren
transcriptoma transcriptoma
secuenciación de una
eucariota con genoma eucariota genes de
sola célula
de referencia baja expresión
• 100 millones de • se necesitan menos
• 5 millones de reads reads (100M) de 1 millón de reads
(5M) para la cuantificación
• Cuantificar genes de
mediana y alta
expresión
Secuenciación Ilumina

• Secuenciación por síntesis (Sequencing-by-synthesis,


SBS)
• Usa nucleótidos marcados.
• Cada inserto tiene dos extremos, se puede secuenciar solo
uno de ellos a lo que se llama single-end sequencing (SE), o
ambos extremos a lo que se llama paired-end sequencing
(PE)
• Para efectos de RNA-Seq, el paired-end sequencing es más
adecuado puesto que permite detectar isoformas y
transcritos de novo, y para transcriptomas poco anotados.
Introducción
Análisis con genoma de
referencia
• Para el análisis de la expresión génica y la anotación de las
transcripciones de un organismo del cual se dispone un genoma de
referencia se debe mapear las lecturas de RNA-seq en el genoma, lo
pasos a considerar son los siguientes (Conesa et al, 2016) :
✔Control de calidad
✔Alineamiento
✔Cuantificación
✔Expresión diferencial
✔Perfil funcional
Haas, B. J., & Zody, M. C. (2010). Advancing RNA-seq
analysis. Nature biotechnology, 28(5), 421-423.
Control de calidad
• La adquisición de datos de RNA-seq consta de varios
pasos: obtención de lecturas sin procesar, alineación de
lectura y cuantificación. En cada uno de estos pasos, las
verificaciones de calidad de los datos deben ser
aplicadas conforme se muestra a continuación .
• Lectura de secuencias crudas
✔Calidad de las lecturas
✔Porcentaje de GC (guaninas y citocinas)
✔Número de nucleótidos sin identificar
✔Presencia de secuencias repetidas o contaminaciones
externas
Cómo evaluar la calidad de las
secuencias
• Usualmente se usa la herramienta FastQC para evaluar calidad de secuencias de lecturas
provenientes de Ilumina mientras que NGSQC puede aplicarse a cualquier plataforma de
secuenciación.
• Es común observar una disminución en la calidad en el extremo 3’ de las secuencias
• Posterior a la verificación de calidad se pulen las secuencias (trimming) este proceso
incluye eliminación de adaptadores y primers, y la eliminación de secciones con baja
calidad (QC<20 ó 30).
• Dos programas muy utilizados para esto son Trimmomatic (Bolger, AM, et al, 2014) y
FASTX-Toolkit (http://hannonlab.cshl.edu/fastx_toolkit/index.html).
• Al final de este proceso se vuelve a hacer un control de calidad para evaluar la mejora en
los datos.
• En este paso también se evalúa la presencia de contaminantes (son secuencias que no
provienen del organismo de interés), para ser eliminadas. Un programa útil para realizar
esto es DeconSeq (Schmieder R y Edwards R. 2011)
FASTA
• Representación basada en texto de la secuencia de ADN o
proteína.
• La primera línea comienza con un > y es la descripción de la
secuencia.
• La siguiente línea es la secuencia.
• Sin extensión de archivo estándar
.fa .fasta .fas
Ejemplo:
>My_gene|some description
AGAAAATAGAGAGGCCAGACGATAGATAGAGATCAGCCCCAGACGCGCGAA
FASTQ

• Cada lectura es de cuatro líneas


@ va seguido de la ID de lectura
Secuencia
+ opcionalmente seguido del ID
de secuencia nuevamente
Caracteres de calidad
• Cada caracter equivale a un
número de calidad
Indicadores de calidad
• p es la probabilidad de que la llamada base sea incorrecta
Q= -10 log10 p
El valor de la calidad se traduce al lenguaje ASCII usando Q+33 (Sanger Institute Standard), Solexa
usa Q + 64 al igual que Illumina 1.3 1.5 pero 1.8 volvió a Q + 33.
No hay un standard Score

http://en.wikipedia.org/wiki/FASTQ_format

http://en.wikipedia.org/wiki/FASTQ_format
Control de calidad
• Single - end reads SE: La sescuncia del fragmento
es secuenciada en una sola dirección
• Paired –end : Un fragmento es secuenciado por
ambos lados 5´y 3´dando lugar a lecturas forward y
reverse. Lecturas de PE pueden mejorar la
exactitud del mapeo contra el genoma de
referencia. El tamaño de fragmento puede ser de
200 a 500 bp
Lecturas paired End PE
• Se obtiene dos archivos
*_1.fq & *_2.fq
• Los pares se emparejan
por posición en el archivo
• Las identificaciones deben
coincidir.
• Es muy importante
asegurarse de que ha
descargado cada archivo.
Evaluación de la calidad – FastQC
• Verificación de la calidad – Reporte de FastQC
Per base calidad de secuencia -
FastQC

Secuencia de buena calidad Secuencia de mala calidad

La grafica muestra la secuencia en pares de bases versus la calidad valores superiores a 20 (eje Y) son tomados como una
calidad aconsejable, secuencias con valores bajos de (QC<20 ó 30) deben ser cortadas o eliminadas
Filtrado o Trimming archivos
FASTQ
Cuando filtrar
• Las lecturas que tiene QC bajos
• Contenidos de N ( bases no
definidas)
• Limpiar secuencias de baja
complejidad
• Revisar duplicados
• Revisar contaminaciones con
adaptadores
Filtrado o Trimming archivos
FASTQ
• Como filtrar
• Fastx http://hannonlab.cshl.edu/fastx_toolkit/
• PRINSEQ http://prinseq.sourceforge.net/
• FastqMcf https://expressionanalysis.github.io/ea-utils/
• Tally and Reaper
https://github.com/micans/reaper/blob/master/doc/tally.az
m
• ShortRead (R)

https://bioconductor.org/packages/release/bioc/html/ShortRea
d.html
• Trimmomatic
http://www.usadellab.org/cms/?page=trimmomatic
Alineamiento o mapeo
• Las lecturas se alinean contra regiones del genoma o transcriptoma de
referencia
• Un importante parámetro de calidad es el porcentaje de lecturas mapeadas,
que es un indicador de la precisión y de la presencia de contaminantes ADN en
la secuencia.
• El porcentaje va a ser menor si se usa un transcriptoma de referencia pues
se estará perdiendo información de transcritos no anotados
• Si las lecturas se acumulan principalmente en el extremo 3 'de las
transcripciones en muestras seleccionadas con poli (A), esto podría indicar una
calidad baja de ARN.
• El contenido de GC de las lecturas mapeadas pueden revelar sesgos de PCR.
• El alineamiento se realiza con programas que se llaman Mappers, de los
cuales hay múltiples opciones según la aplicación. Los mejores son los
splice-aware mappers como HISAT2, BWA, STAR. Estos programas
detectan las intersecciones con exones.
Alineamiento de una secuencia
• Es el proceso de comparar y detectar similitudes
entre dos secuencias biológicas, el cual se ha vuelto
muy útil en un sinfín de aplicaciones
bioinformáticas. (Prjibelski et al., 2019).
Dos secuencias alineadas
con secuencias homólogas
(negro) y no homólogas
(rojo).
Distancia Hamming=3 (número de caracteres sin match).

Una de las principales características del algoritmo de un


alineador/mapeador es asignar distancias de edición.
Elementos a tomar en cuenta en una
alineamiento
¿De qué depende qué similitudes entre dos
secuencias sean detectadas?
R: Depende de los objetivos particulares del proceso/algoritmo de alineamiento
como lo son:
• Score del alineamiento: Valor de medición del grado de similitud.
• Distancia Hamming: Número de caracteres que no dan match.
• Distancia de edición: mínimo número de sustituciones, inserciones o
deleciones.
• Porcentaje alineamiento: Se refiere a la proporción de caracteres alineados
sobre el total de caracteres.
Prjibelski et al., 2019
BLAST: el clásico algoritmo de alineamiento

B L A S T
Basic Local Alignment Search Tool

Tomada de: https://blast.ncbi.nlm.nih.gov/Blast.cgi

El algoritmo de BLAST es la herramienta más popular utilizada en bioinformática


(Altschul et al., 1990). Es utilizada generalmente para secuencias cortas y tiene
distintas variaciones:
• Blastn • Blastp
• MegaBlast • BlastX
• TBlastn • TblastX
https://blast.ncbi.nlm.nih.gov/Blast.cgi
Alineamiento de lecturas de
secuenciación
Lecturas de
✔ Secuenciación secuenciación
✔ Control de calidad filtradas
✔ Alineamiento
✔ Cuantificación
✔ Expresión diferencial Alineamiento a
Ensamblado de
genoma de
✔ Perfil funcional referencia
novo

70-100% de las <70% de las lecturas


lecturas deberían deberían alinear
alinear
Dobin et al., 2013 Conesa et al., 2016
Alineamiento del genoma completo
Cuando se tiene un genoma de referencia del organismo de estudio, las
lecturas filtradas de secuenciación de RNA-Seq se pueden alinear al genoma
completo y así identificar y clasificar los transcritos con base en su
“correspondencia” entre las lecturas y el genoma.
En este ejemplo se puede
observar el alineamiento
de lecturas a la secuencia
del genoma y que
“corresponden” a los
exones de la secuencia de
un gen.
Tomada de: Lowe et al, 2017
Alineamiento del genoma completo:
Secuencias homólogas
Cuando dos secuencias se alinean puede ocurrir:
• Que sean idénticas: Aquí lo más probable es que sea la misma secuencia si es el
mismo genoma o que desciendan una misma de la otra si son genomas distintos.
• Que sean similares: En este caso el parecido puede deberse a que ambas secuencias
descienden de un ancestro en común (homología).
• Que no sean parecidas: Esto puede deberse a que su parecido es muy bajo o
simplemente no cubren con los requerimientos para alinear al genoma.
Métodos más utilizados para el
alineamiento de lecturas al genoma:
Bowtie y Bowtie2
Bowtie
Bowtie
2

✔ Rápido
✔ Ultrarápido ✔ Sensible
✔ Eficiente con bajos recursos computacionales ✔ Eficiente
✔ Alinea lecturas cortas ✔ Alinea lecturas cortas y largas
✔ Efectivo para usarse en genomas de referencia grandes

http://bowtie- http://bowtiebio.sourceforge.net/bowtie2/index.shtm
bio.sourceforge.net/index.shtml l
Langmead et al., 2009; Langmead et al., 2010 Langmead et al., 2012
Métodos más utilizados para el
alineamiento de lecturas al genoma:
TopHat2
TopHat2

✔ Es un alineador utilizado para buscar splicing entre exones vecinos


✔ Utiliza Bowtie
✔ Rápido
✔ Útil para lecturas de secuenciación cortas

https://ccb.jhu.edu/software/tophat/index.shtml
Kim et al., 2013
Métodos más utilizados para el
alineamiento de lecturas al genoma:
HISAT2
HISAT2

✔ Índice jerárquico
✔ Sensible para alinear lecturas de RNA-Seq
✔ Basado en Bowtie2
✔ Usa HISAT y TopHat2
✔ Utiliza poca memoria

http://www.ccb.jhu.edu/software/hisat/index.sht
mlKim et al., 2015
Formatos de salida de archivos de
alineamiento
• Los archivos de almacenamiento de salida para los alineamientos son
principalmente archivos SAM y archivos BAM (versión binaria de SAM),
los cuales en estructura son muy similares.

Ejemplo de archivo de salida en formato SAM. Figura tomada de manual samtools

Li et al., 2009.
Características generales de los archivos de salida
SAM y BAM
Características SA BA
generales M M
• Formato basado en texto.
• Almacenan secuencias alineadas a
un genoma de referencia.
• Soporta lecturas cortas y largas
producidas por las diferentes
plataformas de secuenciación.
• Archivo de texto separado por
tabulador.
• Archivos grandes en tamaño.
• Archivos comprimidos en tamaño.
Li et al., 2009; https://samtools.github.io/hts-specs/SAMv1.pdf
Manipulación de archivos SAM:
SAMtools
Universalmente los archivos de texto SAM son los archivos de salida más
utilizados para resultados de alineamiento con casi todos los programas lo cual
lo hace muy flexible. La herramienta para manipular estos archivos y cambiarlos
de tipo de formato, ordenarlo, unir diferentes archivos, indexarlo y generar
archivos de alineamiento en un formato de posición se llama SAMtools.
Principales comandos en SAMtools:

o import: conversión SAM a BAM.


o view: Conversión de BAM a SAM y recuperación de sub-alineamiento.
o sort: ordenar alineamiento.
o merge: Unir múltiples alineamientos ordenados.
o index: Indexar alineamiento ordenado.
o faidx: Visualizador de texto alineado.
o pileup: Generador de salida de archivo basado en posición.
http://samtools.sourceforge.net/; https://samtools.github.io/hts-specs/SAMv1.pdf
Manipulación de archivos BAM:
bedtools
bedtools es una herramienta muy útil y flexible para manipular archivos de
tareas y de salida de programas genómicos. bedtools permite intersectar, unir,
contar, complementar y mover intervalos genómicos a partir de múltiples
archivos de diferentes extensiones, como lo son BED, GFF, GTF, VCF y BAM.

Principales comandos en bedtools:

o bamtobed: conversión de alineamientos BAM a BED.


o bamtofastq: Conversión de BAM a FASTQ.
o bedtobam: Conversión intervalos a texto BAM.
o coverage: Calcular la cobertura en intervalos definidos.
o getfasta: Usar intervalos para extraer secuencias a partir de archivos FASTA.
o multicov: Contar cobertura a partir de archivos BAM a intervalos específicos.
o sort: Ordenar los intervalos de un archivo.
https://bedtools.readthedocs.io/en/latest/
Geniza & Jaiswal, 2017.
Ensamblado de transcriptoma de novo
• El ensamblado de un transcriptoma de novo es
muy útil cuando no se tiene un genoma de
referencia con el cual alinear, lo que
comúnmente pasa en organismos no modelo.

Ventajas:
✔ Generar un transcriptoma core
✔ Se puede explorar diversidad de transcritos
✔ Explorar patrones de expresión
✔ Nuevas isoformas de transcritos

Esquema de ensamblado de novo de transcriptomas de


aguacate y mango. Figura tomada de Chabikwa et al., 2020 Geniza & Jaiswal, 2017.
Esquema de ensamblado de
transcriptoma de novo

Esquema de métodos de ensamblado de novo y evaluación


de transcriptomas de transcriptomas de diferentes especies.
En recuadros verdes los más utilizados. Modificada de
Hölzer and Marz, 2019. Geniza & Jaiswal, 2017; Hölzer and Marz, 2019.
Métodos de ensamblado de
transcriptoma de novo
El proceso de ensamblado del transcriptoma es muy similar al de ensamblado de genoma,
aunque existen algunas diferencias:
• los transcritos tienen diferentes niveles de expresión.
• Cada locus produce distintos transcritos.
• Cada tipo celular y condición ambiental produce diferentes transcritos.
• Los transcritos de baja expresión pueden llegar a considerarse errores de secuenciación.
• Las regiones repetidas son uno de los mayores problemas para construir los transcritos.
Ensambladores:
✔ Velvet/Oases
Ensambladores más ✔ Trinity
utilizados y populares: ✔ SPAdes
✔ BinPacker

Haas & Zody, 2010 ; Martin & Wang, 2011; Conesa et al., 2016; Sahraeian et al., 2017; Lima et al., 2017; Hölzer & Marz, 2019.
Velvet/Oases

Lanzado en 2008 y fue desarrollada específicamente para


ensamblar genomas a partir de lecturas cortas, Utilizando el
algoritmo de las gráficas de Brujin. Oases usa el ensamblado
producido por Velvet y clusteriza los contigs en loci. Oases. Es
capaz de identificar eventos de splicing. La unión de los
ensamblados que se producen permite la generación de un
modelo génico consenso.
Servino et al., 2008; Schulz et al., 2012.

Hölzer & Marz, 2019.


Trinity
Fue lanzado en 2013, también usa el algoritmo de gráficas de Brujin para
lecturas cortas. Combina 3 programas independientes para procesar las
lecturas:
1) Inchworm: ensambla las lecturas en transcritos.
2) Chrysalis: clusteriza los transcritos ensamblados y construye las gráficas
de Brujin para cada cluster.
3) Butterfly: Analiza las gráficas de Brujin y genera los transcritos de
tamaño más grande.
Haas, 2013.

Hölzer & Marz, 2019.


SPAdes
Se lanzó en 2012 y tenía intensiones de usarse en transcriptómica single-
cell de pequeños genomas. rnaSPAdes se agregó en 2015 y su propósito
fue ajustar las desigualdades de la cobertura y profundidad de
experimentos de RNA-Seq. SPAdes produce 3 diferentes ensamblados:

▪ Un ensamblado que contiene todos los transcritos


▪ Un ensamblado que contiene los transcritos más largos y altamente
expresados
▪ Un ensamblado que contiene los transcritos cortos y expresados más
débilmente.
Bankevich et al., 2012.

Hölzer & Marz, 2019.


BinPacker
• Se lanzó en 2016. A diferencia de los otros ensambladores.
Incorpora la información de cobertura para construir gráficas de
splicing. Donde cada gráfico de splicing es representativo de
todos los transcritos de un locus específico.
Liu et al., 2016.
Evaluación de los transcriptomas
ensamblados de novo
La medida apropiada para medir la calidad del ensamblado se denomina ExN50, el cual
examina los transcritos más altamente expresados que representan el 50% de los datos de
expresión.
El ensamblador Trinity permite calcular de forma más sencilla este valor. Además las
métricas básicas son la longitud de los transcritos, la media y la mediana de los transcritos.
Además los siguientes softwares pueden utilizarse para evaluar la calidad de los
ensamblados:
rnaQUAST: Con genoma de referencia se puede evaluar la calidad y puede comparar diferentes
ensamblados (Simao et al., 2015).
TransRate: Toma las lecturas y el ensamblado y muestra el potencial de artefactos que pudieron
ser generados (Smith-Unna et al., 2016).
CD-HIT-EST: Identifica redundancia entre transcritos e isoformas con expresión baja. Remueve
todas las secuencias inespecíficas (Li et al., 2006).

Hölzer & Marz, 2019.


Regiones genómicas utilizadas en los formatos de
anotación
TSS TSS
Gen= 5´UTR+CDS+Intronic+3´UTR

v Intergenic Region
(IGR)

5´ UTR
CDS
TSS: Sitio de inicio de la transcripción
Intronic
5´UTR: Región no traducida 5´
CDS: Secuencia codificante (exón)
3´ UTR
Intronic: Región intrónica
3´UTR: Región no traducida 3´
IGR: Región intergénica
Regiones genómicas utilizadas en los formatos de
anotación: Dependiente de datos
Genoma y transcriptoma de referencia: Transcriptoma de
• IGR referencia:
• TSS • TSS
• Intronic • CDS
• CDS • Intronic
• TE
• sRNAs
• Repetitive elements

Sin transcriptoma de referencia: A considerar:


• CDS • RACE-PCR
• Intronic (solo para algunos casos splicing) • CAGE-Seq
• Strand-specific RNA-Seq
• long-read sequencing RNA-Seq
Regiones genómicas utilizadas en los formatos de
anotación: A considerar
RACE-PCR
CAGE-Seq
RACE-Seq

Técnica de biología molecular para conocer Técnica utilizada en biología molecular para
la longitud completa del transcrito de RNA. encontrar los sitios de inicio de la transcripción
(TSS) de los transcritos.

• Consiste en producir cDNA a partir del RNA de interés • El análisis de expresión de Cap (CAGE) mapea los sitios de
• Esto a través de la transcripción reversa. iniciación (TSS).
• Seguido de amplificación con PCR. • Funciona para transcritos que tengan Cap, ya sean
• Las moléculas generadas por RACE se pueden secuenciar codificantes o no codificantes.
(RACE-Seq) y obtener en el genoma completo. • Transcripción reversa con primers al azar, seguido de una
biotinilización para mantener solo el 5´Cap.
Olivarius et al., 2009; Lagarde et al., 2016. Takahasi et al.,
2012.
Regiones genómicas utilizadas en los formatos de
anotación: A considerar
Strand specific- Long-read
RNA-Seq RNA-Seq

Técnica de preparación de librería de secuenciación Técnica de preparación de librería para secuenciación


para obtener la cadena específica de un transcrito de última generación obteniendo lecturas largas.

• La técnica de preparación de la librería es similar a la de • Permite generar transcritos completos.


RNA-Seq. • Donde no existe necesidad de ensamblarlos
• Se inserta un adaptador para conocer el sentido de la • Permite encontrar nuevos genes y eventos de splicing
transcripción.
• Utilizando adaptadores con su orientación conocida o por
modificaciones químicas de las cadenas.

Hunt, 2015. https://www.pacb.com/applications/rna-sequencing/


Cómo son los formatos de anotación
definidos por regiones genómicas
Varios formatos existen para almacenar
información sobre la localización en el
genoma de los sitios de inicio de la
transcripción, exones, intrones, etc.

Todos los formatos tienen una línea por


característica genómica. Sin embargo, la
naturaleza de la información contenida en cada
columna puede variar entre formatos. Los más
utilizados son: GFF, GTF y BED. Ejemplo de formato BED. En las columnas se
aprecia el cromosoma, el inicio, fin de la secuencia
entre otras características.
http://gmod.org/wiki/GFF2 or https://www.sanger.ac.uk/resources/software/gff/spec.html)
http://gmod.org/wiki/GFF3)
Formato General Feature Format (GFF)
GFF2 GFF3
Contiene los siguientes campos: Contiene los siguientes campos:
1. Secuencia de referencia: ejemplo cromosoma 1. Secuencia de referencia: ejemplo cromosoma
“chr2” “chr1”
2. Fuente: describe cómo fue hecha la anotación 2. Fuente: describe cómo fue hecha la anotación
(ejemplo, nombre del software. (ejemplo, nombre del software.
3. Método: tipo de anotación (ejemplo:”gene”). 3. Tipo: un término de gene ontology.
4. Posición de inicio. 4. Posición de inicio.
5. Posición de paro. 5. Posición de paro.
6. Score: identidad de secuencia. 6. Score: identidad de secuencia.
7. Cadena: forward (“+”) y reverse (“-”). 7. Cadena: forward (“+”) y reverse (“-”).
8. Fase: Fase de codón cuando la anotación está 8. Fase: Fase de codón cuando la anotación está
ligada a proteínas. ligada a proteínas.
9. Grupo: Contiene la clase e ID de anotación. 9. Atributos: lista de características como: ID,
nombre, alias, parent, target, gap, etc.
Formato General Transfer Format (GTF)
El formato GTF está basado en el
formato GFF (columnas 1 a 8). A
diferencia de los formatos GFF,
los valores tipo (novena columna)
son separados por un espacio (no
TAB) y termina en una semi
columna. Mientras que los
identificadores globales de Ejemplos de formatos
localización son los mismos. GTF.

http://mblab.wustl.edu/GTF2.html (or, for the most recent version: http://mblab.wustl.edu/GTF22.html).


Formato BED
El formato BED es el formato más
simple de guardar tracks de
anotación. Requiere
forzosamente los campos de
Ejemplos de formatos BED con 6 columnas.
cromosoma, inicio y paro y puede
tener hasta 9 campos opcionales.
Convirtiendo archivos entre formatos:
gff2bed
En ocasiones necesitamos migrar el contenido de un formato a otro. Para esto, es muy
útil utilizar algunas herramientas que nos hagan esta conversión.

gff2bed: Es un script derivado del


programa BEDOPS v2.4.39, que convierte
archivos en formato GFF3 a formato BED.

NOTA: Para que funcione mejor este convertidor, podemos checar la validez del formato GFF3
aquí: http://genometools.org/cgi-bin/gff3validator.cgi

https://bedops.readthedocs.io/en/latest/content/reference/file-management/conversion/gff2bed.html
Convirtiendo archivos entre formatos:
GFF tools
GFF tools es una colección de herramientas para manipular formatos de GFF en versión
3 estructuradas en Python y Perl. Normalmente son muy útiles convirtiendo entre
formatos GTF, BED, GFF3 y GenBank.

Las conversiones se hacen con los siguientes programas:


• GTF_to_GFF3
• GFF3_to_GTF
• BED_to_GFF3
• GFF3_to_BED
• GenBank_to_GFF3

https://bmi.inf.ethz.ch/supplements/gff-tools
Convirtiendo archivos entre formatos:
GFF utilities
GFF utilities es una serie de programas utilizados para procesar archivos en formato
GTF/GFF. Consta de 2 herramientas principales: 1) gffread y 2)gffcompare.

gffread puede usarse para validar, filtrar, gffcompare puede usarse para comparar, unir,
convertir anotar
y realizar otras operaciones en los formatos GFF. y estimar la precisión de uno o más archivos GFF.

http://ccb.jhu.edu/software/stringtie/gff.shtml
Filtrando transcritos a partir del
ensamblado de transcritos
Antes de la anotación de los transcritos se pueden filtrar los transcritos
ensamblados por distintos pasos:

• Búsqueda de similitud con proteínas u otros transcritos (BLAST)


• Búsqueda de señal de péptidos (SignalP)
• Dominios de Proteína (HMMER o PFAM)
• Abundancia de isoformas (Kallisto o Salmon)
• Predecir secuencias codificantes (proteínas) : TransDecoder
• Anotación (Trinotate, Blast2GO)
El objetivo principal es generar un set de transcritos que correspondan >75% del set original
NOTA: Filtrar no es lo mismo que “desechar”. Siempre se puede regresar a los transcritos que se filtraron para checarlos
Búsqueda de similitud de secuencia: BLAST
Cuando se tiene un set de transcritos ya sea de ensamblado de transcriptoma
de novo o mapeado al genoma de referencia, el primer paso que se puede
hacer para anotar los transcritos es hacer búsquedas de similitud con
proteomas/transcritos ya anotados del genoma de referencia o bien para
genomas cercanos al estudiado. Si la homología es alta por asociación se puede
predecir la función del transcrito.

Bray et al., 2016; https://pachterlab.github.io/kallisto/about


Búsqueda de señal de péptidos:
SignalP
SignalP es el método más usado para la predicción de señales de péptidos a
partir de secuencias de aminoácidos. Es una herramienta que puede distinguir
entre varios tipos de señales, gracias a su algoritmo basado en redes
neuronales profundas (Deep neural network).

Una señal cercana a 0 indica que no hay señal peptídica (no


codificante).
Una señal cercana a 1 indica que hay señal peptídica

NOTA: Se puede utilizar el código del programa y existe


servidor web para su uso.
Gráfico de salida de SignalP de una proteína de E. coli.

Almagro-Armenteros et al., 2019; http://www.cbs.dtu.dk/services/SignalP/


Dominios de proteína:
HMMER/PFAM
HMMER es un servidor web rápido y sensible utilizado para hacer
búsqueda de similitud de dominios de nucleótidos y proteína, utilizando
el algoritmo de las modelos ocultas de Markov.
http://hmmer.org/

PFAM es una de las base de datos más grande de familias de proteínas


donde cada familia está representada por alineamientos múltiples de
secuencia en modelos ocultos de Markov.
http://pfam.xfam.org/

NOTA: Son herramientas muy útiles para encontrar proteínas con funciones conservadas.

Finn et al., 2011; Finn et al., 2014


Abundancia de isoformas: Kallisto
kallisto es un algoritmo para cuantificar abundancias de transcritos de datos de
RNA-Seq o a partir de secuencias blancos en lecturas de secuenciación. Basado
en la idea de pseudoalineamientos para determinar de una rápida forma la
compatibilidad de las lecturas con sus blancos.

NOTA: kallisto tiene la particularidad de ser muy eficiente y rápido para el procesamiento de datos.

Bray et al., 2016; https://pachterlab.github.io/kallisto/about


Abundancia de isoformas:
Salmon

Salmon es una herramienta para cuantificar transcritos a partir de RNA-Seq.


Requiere un set de transcritos blanco a cuantificar. Solamente se necesita las
lecturas en donde se va a identificar la cuantificación.

El algoritmo se basa en dos fases:


1)Indexado: Se indexan los transcritos de particular interés (set de transcritos de referencia.
2) Cuantificación: Es específico al set indexado

Pattro et al., 2017; https://combine-lab.github.io/salmon/


Anotación: predicción de proteínas
con TransDecoder
TransDecoder es un algoritmo muy útil que identifica regiones codificantes en
secuencias de transcritos. su característica principal es que tiene la dualidad para
hacer la predicción a partir de ensamblados de transcritos de novo (Trinity), así
como basados en alineamiento al genoma (TopHat y Cufflinks).
Sigue estos criterios principales:
• Una longitud mínima de ORF
• Un score de potencial codificante
• Modelado la predicción de un codón de inicio
• Generación de un péptido putativo en pfam.

https://github.com/TransDecoder/TransDecoder/wiki
Anotación: Blast2GO
Blast2GO es una plataforma web para la anotación
funcional y análisis genómico.

• Fácil de usar e intuitivo


https://www.blast2go.com/ • Útil para anotación funcional
• Configurable para hacer la anotación funcional al
gusto.

NOTA: Es una herramienta limitada por el uso restringido a su compra.

Conesa et al., 2008; https://www.blast2go.com/


Trinotate,
una de las herramientas
más completa que asocia todos los
filtros de anotación
Trinotate es una plataforma web diseñada para la
anotación funcional de transcriptomas de forma
automática, especialmente para transcriptomas
ensamblados de novo de organismos no modelo.

• Utiliza diferentes métodos de anotación


• Incluye búsqueda de homología de secuencia (BLAST).
• Identificación de dominio de proteínas (HMMER/pfam).
• Señales de péptidos.
• Bases de datos de anotación (GO/KEGG)).

NOTA: Es una herramienta muy funcional y gratuita.


https://github.com/Trinotate/Trinotate.github.io/wiki/TrinotateWe
b
Bases de datos para anotación de
transcritos
vs

✔ Entorno muy amigable e intuitivo ✔ Utilizable en todos los sistemas operativos


✔ Fácil de manejar ✔ No tiene límites de renglones y columnas
✔ Utilizable en todos los sistemas operativos ✔ No tiene límites para guardar variables y caracteres
✔ Limitado con el número de renglones ✔ Búsqueda simple con queries
✔ Limitada la búsqueda ✔ No es amigable e intuitivo
✔ Conocimiento dé código y algoritmo
Bases de datos para anotación de
transcritos: MySQL
Para el correcto almacenamiento y creación de bases de datos de
transcritos la mejor manera de hacerlo es mediante MySQL. Una
herramienta para crear, administrar y generar bases de datos.

Estructura de una base de datos en MySQL:


https://www.mysql.com/ 1. Tablas
2. Campos
3. Registros
4. Lenguaje SQL
Conteo de transcritos
El conteo y/o cuantificación de transcritos es uno de los pasos más importantes al
realizar análisis de expresión diferencial mediante RNA-Seq. El enfoque más simple
de aproximación es el conteo del número de lecturas que mapean a cada gen.

Counts 12 6 12 6 6

Representación de los fragmentos de lecturas


mapeadas a cada gen. Figura modificada de
Mukherjee, 2019.
Conteo de transcritos:
funcionamiento
Este tipo de programas de cuantificación de transcritos a nivel de genes necesita un
archivo GTF que contiene los modelos génicos, donde cada modelo representa la
estructura de transcritos producidos. Sin embargo, las cuentas crudas de lecturas se
ven afectadas por 1)la longitud del transcrito y 2)el número total de lecturas.

Transcritos más largos en


tamaño tienen cuentas más
altas, teniendo la misma
expresión
Programas para conteo: HTSeq-Count
Archivo de Lista de
Es la forma más simple de alineamiento características
contar lecturas sin normalizar. de lecturas genómicas (GTF)
Sin embargo, es necesario
normalizar para tener correctos
niveles de expresión cuando se
quieren comparar entre
tratamientos.

Lista de cuentas
crudas por gen
HTSeq-Count tiene 3 modos de
identificación
• Unión: Se refiere a la unión de todos los sets. Esta
opción es la más recomendada.
• Intersección estricta: Solo toma en cuenta la
intersección de todos los sets.
• Intersección no vacía: Toma la intersección no vacíos.

Uso del programa


htseq-count [options] <alignment_files> <gff_file>

Explicación gráfica del algoritmo HTSeq-count.


(https://htseq.readthedocs.io/en/release_0.11.1/count.html)
Programas para conteo: simpleRNASeq

simpleRNASeq es una función de conteo de lecturas incluída


en el paquete de R llamada easyRNASeq. Esta función parte de
la anotación en GTF o GFF y el archivo de lecturas para
después manipular las lectura y el archivo de anotación en
intervalos.

Esquema de easyRNASeq
Programa para cuantificación: Salmon
Salmon es una herramienta para cuantificar la expresión de transcritos, el cual
utiliza algoritmos recientes que acoplan el pseudo-mapping para estimar
expresión rápidamente.

✔ Puede estimar cuantificación desde archivos FASTQ .


✔ Opcionalmente se pueden utilizar archivos de alineamiento SAM/BAM.
✔ El algoritmo trabaja en dos fases (1) indexado y (2) cuantificación.
✔ Se puede hacer un indexado a partir de un set de transcrito proveído.
✔ El modo basado en alineamiento no requiere indexado.

Patro et al., 2017.


Normalización de datos de
conteo/cuantificación de transcritos
Después que se estima el conteo de los
transcritos es importante normalizar los datos
para poder comparar niveles de expresión
entre muestras.

▪ Normalizar el tamaño del transcrito y el número de lecturas por muestra.


▪ Corrección de la longitud del tamaño del gen.
▪ La medida Reads per Kilobase of exon model per million reads (RPKM).
▪ La medida Fragments per kilobase of exon model per million reads mapped (FPKM).
▪ La medida de transcritos por millón (TPM).
Normalización de lecturas en RPKM
Para normalizar en RPKM se deben tomar en cuenta
estos 3 pasos:

1. Contar el total de lecturas en cada muestra y dividirlo


entre el número 1,000,000. (Factor de 1 millón).
2. Dividir las lecturas en la escala de 1 millón. Esto
normaliza la profundidad por muestra.
3. Dividir las lecturas por millón entre el valor de
longitud del gen en kilobases. Aquí tiene RPKM.

RPKM = numReads / ( geneLength/1000 * totalNumReads/1,000,000 )


Evans et al., 2018
Normalización de lecturas en FPKM
La normalización en FPKM es muy similar a RPKM. Donde
originalmente RPKM se ha hecho para ARN-Seq de single-end,
mientras que FKPM se realiza para el ARN-Seq de paired-end.

1. En la normalización de FPKM con secuenciación de paired-end


se tienen 2 lecturas que deben corresponder al mismo
fragmento.
2. La diferencia entre RPKM Y FPKM toma en cuenta las dos
lecturas para un mismo fragmento.
Normalización de lecturas en TPM
Las TPM son una unidad normalizada de expresión de ARN-Seq
donde se tiene una lectura por cada millón de moléculas de ARN.

Para calcularlo:
1. El número de lecturas crudas se divide entre la longitud del
transcrito.
2. La suma de la expresión de todos los transcritos normalizados
es dividida entre 1 millón para crear un factor de escala.
3. Cada expresión normalizada del transcrito es dividida entre el
factor de escala, lo cual resulta en el valor TPM.
Normalización de lecturas en TPM
Las TPM son una unidad normalizada de expresión de ARN-Seq
donde se tiene una lectura por cada millón de moléculas de ARN.

Para calcularlo:
1. El número de lecturas crudas se divide entre la longitud del
transcrito.
2. La suma de la expresión de todos los transcritos normalizados
es dividida entre 1 millón para crear un factor de escala.
3. Cada expresión normalizada del transcrito es dividida entre el
factor de escala, lo cual resulta en el valor TPM.

Abrams et al., 2019


¿Qué es la expresión diferencial?
Es un análisis donde se toman los datos de expresión
normalizados y se llevan a cabo análisis estadísticos
para descubrir cambios significativos en los niveles
de expresión entre grupos de muestras.

Métodos estadísticos:
• Fold-change
• T-test
• Anova

http://personales.upv.es/jcanizar/modulo_3/diferenciales_4.html
Métodos de expresión diferencial
Métodos de distribución binomial negativa Métodos con enfoque bayesiano

• EdgeR • baySeq
• DESeq • EBSeq
baySeq

baySeq es un paquete de bioconductor que identifica


expresión diferencial en datos de cuentas de lecturas de RNA-
Seq. El cual usa un modelo emírico bayesiano para estimar la
máxima verosimilitud de la expresión diferencial.

Hardcastle et al., 2010; http://www.bioconductor.org/packages/release/bioc/html/baySeq.h


EBSeq
R/EBSeq es un paquete de R para identificar genes e
isoformas que se encuentran diferencialmente expresadas en
dos o más condiciones biológicas en un experimento de ARN-
Seq. Este paquete también utiliza el método bayesiano.

Gould et al., 2013; https://www.biostat.wisc.edu/~kendzior/EBSEQ/


edgeR: el más utilizado utilizando réplicas

Es un paquete de R/Bioconductor para hacer análisis de expresión diferencial en


perfiles con réplicas biológicas. Implementa una metodología estadística basada en
la distribución binomial negativa, test exactos y modelos lineales generalizados. La
ventaja que tiene este paquete es que puede analizar expresión diferencial de
ARN-Seq, ChiP-Seq, ATAC-Seq, Bisulfite-Seq, etc.

Robinson et al., 2010; https://bioconductor.org/packages/release/bioc/html/edgeR.html


DESeq
Es un paquete de R/Bioconductor para hacer análisis de expresión diferencial
estimando la variancia promedio dependiente de los datos de conteo a partir de
ARN-Seq. Donde la significancia estadística está basada en la distribución binomial
negativa. Actualmente se ha desarrollado DESeq2 donde se mejora la estimación
del fold-change y la dispersión de los datos.

Love et al., 2014; https://bioconductor.org/packages/release/bioc/html/edgeR.html


Expresión diferencial
Todas las herramientas que realizan análisis de expresión diferencial
(DGE) están basadas en dos principios principales:

1. Estimar la intensidad/magnitud de expresión diferencial entre


dos o más condiciones. Esto se representa por el Fold-change,
siempre tomando en cuenta la profundidad y la variabilidad.
2. Calcular la significancia estadística de la diferencia corregida por
múltiples test estadísticos.
Análisis de expresión diferencial

En resumen, las herramientas que tienen el mejor desempeño son edgeR (Robinson
et al., 2010), DESeq/DESeq2 (Anders and Huber, 2010; Love et al., 2014) y limma-
voom (Ritchie et al., 2015).

DESeq y lima-voom son más


conservadores que edgeR. Sin Todas las herramientas están
embargo, edgeR está recomendado basadas en el lenguaje de R y usan
para experimentos con pocas complejos métodos estadísticos.
réplicas.
Resumen de las características clave
de los programas principales para
análisis de DGE
Característica DESeq2 edgeR limmaVoom
Normalización de profundidad Factor tamaño TMM modo gen TMM modo
modo muestra gen
Estimar dispersión Inferencia Inferencia Varianzas
condicional condicional (media residuales
(dispersión máxima moderada) (varianza
individual) global)
Distribución Binomial negativa Binomial negativa Log-normal
Test para expresión diferencial Test Wald; LRT Test exacto; LRT Test-t
Falso positivo Bajo Bajo Bajo
Detección de isoformas No No No
diferenciales
Soporte de experimentos Sí Sí Sí
multifactoriales
Tiempo de corrida (promedio) Segundos Segundos Segundos
Estimando la diferencia de expresión para un gen
Todos las herramientas (explicadas en este módulo) que
se utilizan para el análisis de DGE determinan las
diferencias de la cuantificación de las lecturas entre
condiciones usando modelos de regresión que son
aplicados a cada gen.

Y= b₀ + b₁ * x + e
Donde:

Y= total (todas las condiciones) de cuentas de transcritos para un gen


b₀= Es el intercepto
X= es la condición
e= error
b₁ = es el coeficiente que captura la diferencia
Modelado de las lecturas
Distribución de Distribución
Poisson binomial negativa

Varianza = media SD/media


*Esto permite encontrar aquellos *Permite capturar la
genes con grandes diferencias. sobredispersión

La precisión de la distribución binomial negativa depende en gran medida del número de réplicas
Probando la hipótesis nula
En los análisis de expresión diferencial, la hipótesis nula es que no
existe diferencia entre el valor promedio de las lecturas de las
diferentes condiciones para un gen.

✔ A partir de esto, se utiliza el valor P ara asignar la probabilidad.


✔ Generalmente la variación se mide con pruebas T
✔ Puede evaluarse con ANOVA

ES IMPORTANTE TOMAR UN VALOR P < 0.05 PARA EVITAR FALSOS


POSITIVOS
Diagrama de flujo de DESeq2
La parte limitante en DESeq2 es el modelado de las cuentas para cada gen

La segunda parte estima los log2 Fold Changes

1)
La tercera parte asigna los valores P para la
Expresión diferencial
2)

3)
https://hbctraining.github.io/DGE_workshop/lessons/04_DGE_DESeq2_analysis.htm
l
Diseño de fórmulas
El diseño debe tener todos los factores de tus
metadatos, incluyendo los que más fuente de variación.
El último factor en la fórmula debería ser la condición de
interés.

design <- ~ sex + age + treatment

https://hbctraining.github.io/DGE_workshop/lessons/04_DGE_DESeq2_analysis.htm
l
Se necesitan solamente dos líneas de
código para obtener los resultados
de DGE
## Crear el objeto DESeq
dds <- DESeqDataSetFromMatrix(countData = data; colData = meta, design = ~ sampletype)

##Correr análisis
dds <- DESeq(dds)
estimating size factors
estimating dispersions
gene-wise dispersion
estimates mean-dispersion
relationship final
dispersion estimates
fitting model and testing

Visualización de corrida de DESeq en terminal de R


Para mostrar los resultados de la
corrida de DESeq
## Mostrar resultados de corrida con DESeq
res <- results(dds)
##Mostrar solo las primeras líneas de los
resultados
head(results(dds, tidy=TRUE))
Resumen de los resultados
Este comando resume los genes
diferencialmente expresados totales y cuántos summary(res)
están sobreregulados y desregulados.
Ordenar los resultados por valor-p
Este comando muestra los resultados
ordenados por valor p en orden descendente. res <- res[order(res$padj),]
head(res)
edgeR es muy similar a DESeq2
Los siguientes comandos son para instalar ##instalar edgeR de bioconductor
edgeR en terminal de R ⮚ source(http://www.bioconductor.org/biocLite.R)
⮚ biocLite(“edgeR”)
⮚ library(edgeR)

##Convertir matriz de conteos en objeto y checar resultados


Después se necesita convertir la ⮚ edgeR..DGElist <- DGElist(counts = readcounts, group = sample_info.edgeR)
matriz de cuentas en un objeto de ⮚ head(edgeR,DGElist$counts)
edgeR ⮚ edgeR,.DGElist$samples

Se calcula la normalización de ##Normalizar los factores por el tamaño de las bibliotecas


factores por biblioteca ⮚ edgeR..DGElist <- calcNormFactors(edgeR.DGElist, method = “TMM”)
⮚ edgeR.DGElist$simples
Determinar DGE en edgeR
## Especificar el diseño
> design <- model.matrix(~sample_info.edger)

## estimar la dispersión de los datos


> edgeR.DGElist <- estimateDisp(edgeR.DGElist, design)

## correr el test del modelo binomial negativo


> edger_fit <- glmFit(edgeR.DGElist, design)ample

##Desarrollar la prueba para cada gen


> edger_lrt <- glmLRT(edger_fit)
Extraer resultados de DGE en edgeR
## Extraer resultados de edger_lrt$table ordenados por valor p
> DGE.results_edgeR <- topTags(edger_lrt, n = Inf,
3 sort.by = "PValue", adjust.method = "BH")
DGE con lima-voom
Limma fue diseñado originalmente para análisis de expresión
de datos de microarreglos. Los pasos de limma son:

• Calcular las cuentas para cada gen y transformarlas en (log).


• Elegir el modelo linear (log-cpm) tomando en cuenta el diesño.
• Usar el resultado residual para medir la varianza global.
• Obtener el valor de cada observación en cada gen.
• Estimar el valor de desviación estándar mediante la inversa del cuadrado
Durante la prueba de expresión diferencial.
Expresión diferencial con python
La expresión diferencial con Python es muy útil para hacerlo de una forma
rápida y escalable. Para esto, se han diseñado módulos para análisis de datos
de secuenciación de single-cell.
Los módulos de Python hacen los siguiente:
1. Análisis de expresión diferencial en el módulo de.test.*
2. Análisis de enriquecimiento de genes en el módulo de.enrich.*
Tablas de expresión diferencial
Con las tablas de expresión diferencial se pueden filtrar los
genes de interés por aquellos que pasen el filtro de interés de
valor p, por un Fold Change determinado, etc

Además:
• Se pueden graficar análisis de componentes principales.
• Se pueden hacer gráficos de volcán (distribución de expresión diferencial).
• Se podrían hacer gráficos de calor (heatmaps) para ver patrones de expresión.
UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16

CARRERA: Ingeniería en Biotecnología

GUÍA PARA LAS PRÁCTICAS DE LABORATORIO, TALLER O CAMPO


PERIODO PREGRADO- May22-
ASIGNATURA: Bioinformática NIVEL: Pregrado
LECTIVO: Sept22
7161, 7162, PRÁCTICA
DOCENTE: Carlos Noceda NRC: 6
7163 N°:
LABORATORIO DONDE SE DESARROLLARÁ LA
Virtual
PRÁCTICA:
TEMA DE LA
Predicción de estructura terciaria
PRÁCTICA:
INTRODUCCIÓN:
Una estructura proteica terciaria representa la conformación tridimensional de una cadena polipeptídica. Experimentalmente, la
estructura terciaria de una proteína se determina principalmente mediante cristalografía de rayos x o resonancia magnética nuclear.
También es posible predecir la estructura terciaria de una proteína mediante algoritmos bioinformáticos si se conoce su secuencia
de aminoácidos. La predicción de estructura terciaria es fundamental para el desarrollo biotecnológico de nuevas moléculas de
interés farmacológico o productivo. Los métodos de predicción bioinformática de estructura proteica terciaria incluyen al threading,
modelamiento basado en homología y modelamiento ab initio. Los dos primeros utilizan información contenida en bases de datos
de estructuras tridimensionales resueltas experimentalmente, mientras que la tercera se basa en principios físicos de los
aminoácidos. En esta práctica utilizaremos un programa de predicción de estructura terciaria basado en homología, Phyre2, que
usa modelos escondidos de Markov para identificar el modelo tridimensional más probable para una secuencia de aminoácidos.
Compararemos la estructura generada por Phyre2 con proteínas homólogas.

OBJETIVOS:

 Predecir la estructura tridimensional de una proteína a partir de su estructura primaria.


 Hacer un alineamiento estructural de la proteína predicha con su homólogo más cercano.
 Reconocer los posibles sitios activos de la proteína modelada.

MATERIALES:

REACTIVOS: N/A INSUMOS: N/A

EQUIPOS: Computador

MUESTRA:
Secuencia de aminoácidos de nuestra proteína de interés
MPHSTALPEARPTKMSALGAVIALLLWGQLFAVDSGNDVTDIADDGCPKPPEIAHGYVEHSVRYQCKNYYKLRTEGDGVYTLNNEKQ
WINKAVGDKLPECEADDGCPRPPEIAHGYGKESVRYQCKNYYKLRGEGDGVYTLNDKKQWINKAVGDKLPECEAVCGKPKNPANP
VQRILGGHLDVKGSFPWQAKMVSHHNLTTGATLINEQWTTAKNLFLNHSENATAKDIAPTLTLKNAKKQLAEIEKVVLHPNYSQVDIGI
LKLKQKVSVNERVMPICLPKDYAEVGKVGYVSGWGRNAQFKFTDHLKYVMTPVADQDQCIRHYEGSTVPEKKTPRSPVGVQPIQNE
HTFCAGMSKYQEDTCYGDAGSAFAVHDLEEDTWYATGILSFDRSCAVAEYGLISKVTSIQDWVQKTIAEN

INSTRUCCIONES:

- I Verifique su conexión a internet y utilice de preferencia el navegador Chrome o Firefox


- Descargar e instalar el programa UCSF Chimera https://www.cgl.ucsf.edu/chimera/

ACTIVIDADES POR DESARROLLAR:


UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16

CARRERA: Ingeniería en Biotecnología

1. Predicción de estructura tridimensional


a) Correr la secuencia de interés en el programa Phyre2 en línea
b) Observar la estructura tridimensional predicha en Chimera
c) Explorar las diferentes formas de visualizar la proteína en Chimera con la opción de menú “Presets”
d) Observar la secuencia de aminoácidos con la opción de menú “Favorites”
e) Colorear las hélices alfa de amarillo y las láminas beta de verde con la opción de menú “Tools”, “Depiction”.
f) Enfocar la imagen en el residuo 85 y mostrar su cadena lateral usar la opción “Tools”, “Sequence”, “Sequence” y seleccionar
el residuo deseado con la opción de menú “Actions”, “Atoms/Bonds”, “show”.
g) Identificar todos los residuos que está a una distancia de 5 angstroms o menos del residuo 85 con la opción de menú
“Select”, “Zone”.
2. Alineamiento estructural
a) Descargar el archivo pdb del modelo que usa Phyre2 como plantilla
b) Medir la distancia entre el nitrógeno delta del residuo 483 y el carbono gamma del residuo 532 en la estructura 21zjk. Mostrar
las cadenas laterales de los residuos, seleccionar los átomos deseadso manteniendo aplastado Ctrl+Shift. Obtener distancia
con la opción de menú “Tools”, “Structure Analysis”, “Distances”, “Create”
c) Hacer una búsqueda del homólogo más cercano a nuestra secuencia de interés en RCSB y descargar el archivo pdb de
esta proteina
d) Explorar las diferentes formas de visualizar la proteína en Chimera con las opciones de menú “Actions” y “Select”
e) Hacer un alineamiento estructural de nuestro modelo con el modelo que usa Phyre2 como plantilla y con el primer hit de
RSCB con la opción de menú “Tools”, “Structure Comparison”, “Match Maker”. Eliminar todas las cadenas del primer hit de
RCSB que no se alineen con la estructura de Phyre2. Una vez seleccionadas las cadenas que se quiere eliminar ir a
“Actions”, “Atoms-bonds”, “delete”.
f) Observar las regiones conservadas en un alineamiento múltiple de las cadenas homólogas con la opción de menú “Tools”,
“Structure Comparison”, “Match-Align”
3. Reconocer potenciales sitios activos
a) Revisar la información sobre las estructuras con las que se alineó la estructura tridimensional de nuestra proteína
b) Determinar los posibles sitios funcionales de nuestra proteína
c) Mostrar los potenciales sitios funcionales de nuestra proteína en forma de esferas

RESULTADOS OBTENIDOS:
Presentar un informe de la práctica que contenga la siguiente información
- Modelo tridimensional predicho por Phyre2 mostrando hélices alfa en amarillo y láminas beta en verde
- Acercamiento del residuo 85 en donde se observa su cadena lateral
- Alineamiento estructural del modelo predicho por Phyre2 y la estructura correspondiente al modelo que usa Phyre2 como
plantilla y la cadena homóloga del primer hit de la búsqueda en RCSB
- Estructura tridimensional de nuestra proteína mostrando sus potenciales sitios activos en forma de esferas
Responder:
- ¿Cuáles son los pasos que se describen durante la corrida del programa Phyre2?
- ¿Cuál de los pasos toma más tiempo?
- ¿En el modelo “Preset” “Interactive 3” de Chimera, qué representa el color azúl y qué representa el color rojo?
- ¿El modelo utilizado por Phyre2 como base para la predicción de estructura terciaria corresponde al mismo que detecta la
búsqueda en la base de datos RCSB como el homólogo más cercano a nuestra secuencia?
- ¿Cuál es la distancia entre el nitrógeno delta del residuo 483 y el carbono gamma del residuo 532 en el modelo utilizado
por Phyre2?
UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16

CARRERA: Ingeniería en Biotecnología

- ¿Cuál de las cadenas de la proteína obtenida de la búsqueda en RSCB es homóloga a nuestra proteína?
- ¿Qué residuos son potencialmente parte del o los sitios activos de nuestra proteína? ¿Por qué?

CONCLUSIONES:

 Las herramientas de modelamiento de estructuras tridimensionales nos ayudan a predecir la función de nuestra proteína de
interés
 Phyre2 nos permite obtener un modelo de nuestra proteína que puede ser manipulado en Chimera
 Es posible alinear secuencias con base en sus estructuras tridimensionales para descubrir características que no se logran ver
en un alineamiento de estructura primaria

RECOMENDACIONES:
 Explorar más utilidades del programa Chimera.
 Revisar si todas las proteínas analizadas en esta práctica pertenecen a la misma familia de proteínas.
 Investigar acerca de programas similares a Phyre2 y Chimera

FIRMAS

F: …………………………………………. F: …………………………………………. F: ……………………………………………..

Nombre: Carlos Noceda Nombre: Dra. Blanca Naranjo Nombre:


COORDINADOR DE ÁREA DE COORDINADOR DE LABORATORIOS
DOCENTE CONOCIMIENTO
UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16

CARRERA: Ingeniería en Biotecnología

GUÍA PARA LAS PRÁCTICAS DE LABORATORIO, TALLER O CAMPO


PERIODO PREGRADO May22-
ASIGNATURA: Bioinformática NIVEL: 5 Pregrado
LECTIVO: Sept22
DOCENTE: Carlos Noceda NRC: 7161, 7161, 7163 PRÁCTICA N°: 7
LABORATORIO DONDE SE DESARROLLARÁ LA
Virtual
PRÁCTICA:
TEMA DE LA Expresión Génica
PRÁCTICA:
INTRODUCCIÓN:

RNA-seq, secuenciación de RNA, utiliza la secuenciación de nueva generación (NGS) para detectar la presencia y cantidad de
RNA mensajero en una muestra biológica en un momento específico. Esto, con el fin de analizar cambios en el transcriptoma, por
ejemplo, la observación de transcritos resultantes del splicing alternativo, modificación post-transcripcional, fusiones génicas,
mutaciones y cambios de expresión de genes.
Por ende, en este trabajo se realizará el análisis de datos resultantes de secuenciación de RNA, con el fin de observar el cambio de
expresión de genes. Se utilizarán datos reportados por Wu y colaboradores en 2014, en el que se trata de encontrar el rol que
cumple el factor de transcripción Tal1 en la regulación génica de la hematopoyesis en células de ratones. Para esto se tomaron
células madre embrionarias de ratón como control y megacariocitos como tratamiento.

OBJETIVOS:

 Analizar datos de secuenciación de ARN utilizando un genoma de referencia


 Reconstruir transcritos de novo
 Detectar genes expresados diferencialmente

MATERIALES:

REACTIVOS: N/A INSUMOS: N/A

EQUIPOS: Computador

MUESTRA:
Los datos proporcionados son parte de un tutorial de Galaxy. Un subset de los datos de secuenciación paired-end de muestras de
ratones (Wu et al. en 2014 /DOI:10.1101/gr.164830.113). El objetivo de este ejercicio es identificar qué transcritos están presentes
en los estados celulares G1E y megacariocitos y cuales se expresan diferencialmente entre los dos estados. Con este fin, se
construyeron bibliotecas de RNA-seq a partir de células de ratón, tipo G1E, y megacariocitos y se secuanciaron de foma masiva
con tecnología Illumina. Usaremos una estrategia de reconstrucción de transcripción de novo para inferir estructuras de
transcripción de lecturas que no hayan sido reportadas en anotaciones previas. Esto nos permitirá identificar nuevos transcritos e
isoformas novedosas de transcritos conocidos, así como identificar transcritos expresadas diferencialmente. Los datos fueron
subidos a bases de datos Zenodo, en los siguientes links.

Lecturas:
https://zenodo.org/record/583140/files/G1E_rep1_forward_read_%28SRR549355_1%29
https://zenodo.org/record/583140/files/G1E_rep1_reverse_read_%28SRR549355_2%29
https://zenodo.org/record/583140/files/G1E_rep2_forward_read_%28SRR549356_1%29
https://zenodo.org/record/583140/files/G1E_rep2_reverse_read_%28SRR549356_2%29
https://zenodo.org/record/583140/files/Megakaryocyte_rep1_forward_read_%28SRR549357_1%29
UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16

CARRERA: Ingeniería en Biotecnología

https://zenodo.org/record/583140/files/Megakaryocyte_rep1_reverse_read_%28SRR549357_2%29
https://zenodo.org/record/583140/files/Megakaryocyte_rep2_forward_read_%28SRR549358_1%29
https://zenodo.org/record/583140/files/Megakaryocyte_rep2_reverse_read_%28SRR549358_2%29

Archivo de anotación:
https://zenodo.org/record/583140/files/RefSeq_reference_GTF_%28DSv2%29

INSTRUCCIONES:

1. Ingresar a https://usegalaxy.org/ y registrar una nueva cuenta en la opción Login or Register.

Creación de una historia


1. Click en el ícono + que se encuentra en la parte superior del panel History
2. Click sobre Unnamed History para cambiar el nombre, se sugiere nombrar como Análisis RNA-seq DeNovo

Subida de datos a plataforma

1. Abra el administrador de carga de datos en la parte izquierda de la pantalla (Upload Data)


2. Copie los enlaces para el archivo de anotaciones y lecturas en la pestaña Paste/ Fetch Data
3. Pegue los enlaces en el campo de texto (primero los enlaces de las lecturas)
4. Cambiar el tipo de datos de los read files a fastqsanger en pestaña Type
5. Presione Start
6. Pegue el enlace delo archivo de anotación en el campo de texto
7. Cambie el tipo de datos del archivo de anotaciones a gtf y asigne el genoma como mm10 en pestaña Genome
8. Presione Start
9. Una vez subidos los archivos al historial, cambie sus nombres. En el ícono de lápiz en las secuencias subidas, para
retener solo la información necesaria (por ejemplo, cambiar “G1E_rep1_forward_read_%28SRR549355_1%29” por
"G1E_R1F")

ACTIVIDADES POR DESARROLLAR:

1) Análisis de calidad de secuencia


a. Buscar FastQC en las herramientas de Galaxy.
b. Seleccionar la opción “Multiple datasets” dentro de “Short read data from your current history”
c. Ejecute FastQC en los archivos de lectura forward y reverse para evaluar la calidad de las lecturas.

2) Recorte de secuencias

Recorte las bases de baja calidad de los extremos de las lecturas para aumentar la eficiencia del mapeo. Ejecute Trimmomatic en
cada par de lecturas hacia adelante y hacia atrás con la siguiente configuración:

1. “Single-end or paired-end reads?”: Paired-end (two separate input files)


2. “Input FASTQ file (R1/first of pair)”: G1E_R1F
3. “Input FASTQ file (R2/second of pair)”: G1E_R1R
4. “Perform initial ILLUMINACLIP step?”: No

Extra: Vuelva a ejecutar FastQC en lecturas recortadas e inspeccione las diferencias. Compare las longitudes de secuencias y si
UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16

CARRERA: Ingeniería en Biotecnología

funcionó la herramienta Trimmomatic. Utilice los archivos pareados resultantes de Trimmomatic.

3) Mapeo

Ahora que se han recortado nuestras lecturas y hay un ensamblaje de genoma de referencia para el ratón, alinearemos las lecturas
recortadas con el genoma. Herramienta RNA STAR: Ejecute RNA STAR en un par de lectura forward/reverse y modifique las
siguientes configuraciones:

1. “Single-end or paired-end reads?”: Paired-end


2. “FASTA/Q file #1”: Trimmomatic on G1E_rep1 forward read (R1 paired)
3. “FASTA/Q file #2”: Trimmomatic on G1E_rep1 reverse read (R2 paired)
4. “Custom or built-in reference genome”: Use built in index
5. “Use genome without built in gene-model“
6. “Select a reference genome”: Mouse (Mus Musculus): mm10
7. “Gene model (gff3,gtf) file for splice junctions”: GFT referencia

Herramienta RNA STAR: Ejecute en los pares de lectura de forward / reverse restantes con los mismos parámetros.

4) Reconstrucción del transcriptoma de novo

Ahora que ya se han mapeado las lecturas al genoma del ratón con RNA STAR, se desea determinar las estructuras de
transcripción que están representadas por las lecturas alineadas. Esto se llama reconstrucción del transcriptoma de novo.

1. Herramienta Stringtie: Ejecute Stringtie en las alineaciones RNA STAR utilizando los parámetros predeterminados.
2. Utilice el modo por lotes para analizar las cuatro muestras Forward
3. “Specify strand information”: Forward (FR)
4. En “Advanced options” seleccionar “Yes” en “Output gene abundance estimation file?” y colocar una palabra (puede ser
“OUT”) en el recuadro de “Name prefix for output transcripts”

5) Ensamblaje del transcriptoma

Se acabaron de generar cuatro transcriptomas con Stringtie que representa cada una de las cuatro bibliotecas de RNA-seq que son
del análisis. Estos transcriptomas aun no han sido comparados con un transcriptoma de referencia, por ende se va a realizar una
base de datos de transcriptomas para conocer las estructuras de transcripción que corresponden con la transcripción anotada. Se
usará la herramienta Stringtie - Merge para combinar estructuras de transcripción redundantes en las cuatro muestras y la
referencia RefSeq (archivo gtf). Una vez que se hayan combinado las estructuras de transcripción, se usará GFFcompare para
anotar las transcripciones del transcriptoma recién creado para saber la relación de cada transcripción con la referencia de RefSeq.

1. Herramienta Stringtie-merge: Ejecute Stringtie-merge en las transcripciones ensambladas de Stringtie junto con el archivo
de anotaciones RefSeq que importamos anteriormente.
2. “Transcripts”: 4 ensamblajes de StringTie
3. “Reference annotation to include in the merging”: RefSeq_reference_GTF
4. Herramienta GFFCompare: Ejecute GFFCompare en el transcriptoma generado por Stringtie-merge junto con el archivo
de anotación RefSeq.
5. “GTF inputs for comparison”: output de Stringtie-merge
6. “Use Reference Annotation”: Yes
7. “Choose the source for the reference annotation”: Historia
8. “Reference Annotation”: RefSeq_reference_GTF
UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16

CARRERA: Ingeniería en Biotecnología

9. “Use Sequence Data”: Yes


10. “Choose the source for the reference list”: Locally cached
11. “Using reference genome”: ‘Mouse (Mus Musculus): mm10’

6) Análisis de expresión diferencial

Para comparar la abundancia de transcripciones entre diferentes estados celulares, el primer paso esencial es cuantificar el
número de lecturas por transcripción. htseqCount es una de las herramientas más populares para contar lecturas en características
genómicas.

1. Herramienta htseqCount: Ejecute htseqCount en las lecturas alineadas (output RNA STAR) utilizando la base de datos de
transcriptomas GFFCompare como archivo de anotación.
2. “Alignment file”: 4 archivos read alineados de RNA STAR
3. “Specify strand information”: Stranded (Forward)
4. “GFF file”: GTF Secuencia de referencia
5. “ID Attribute”: transcript_id

La expresión de la transcripción se estima a partir de los recuentos de lecturas, esto es absolutamente esencial para obtener
resultados precisos. DESeq2 es una gran herramienta para el análisis diferencial de la expresión génica. Acepta recuentos de
lectura producidos por htseqCount.

1. Herramienta DESeq2: Ejecute DESeq2 con los siguientes parámetros:


2. “1: Factor”
3. “1: Factor level”: G1E
4. “Counts file(s)”: archivos de htseqCount correspondientes a las dos réplicas de G1E
5. “2: Factor level”: Mega
6. “Counts file(s)”: archivos de htseqCount correspondientes a las dos réplicas de Mega
7. “Visualising the analysis results”: Yes
8. “Output normalized counts table”: Yes

Nota: las columnas obtenidas de los outputs de DeSeq2 (en orden)

 Identificadores de genes
 Recuentos promedio normalizados, promediados sobre todas las muestras de ambas condiciones
 Logaritmo (base 2) del cambio de pliegue (los valores corresponden a una regulación al alza o a la baja en relación con la
condición enumerada como Nivel de factor 1)
 Estimación de error estándar para la estimación de cambio de log2 veces
 Estadística de Wald
 Valor p para la significancia estadística de este cambio
 Valor p ajustado para pruebas múltiples con el procedimiento Benjamini-Hochberg que controla la tasa de falsos
descubrimientos (FDR)
7) Filtración de datos

Ejecute Filter para extraer genes con un cambio significativo en la expresión génica (p-value ajustado inferior a 0,05) entre
muestras tratadas y no tratadas.

1. Se seleccionará la herramienta “Filter data on any column using simple expressions”


UNIVERSIDAD DE LAS FUERZAS ARMADAS – ESPE
CÓDIGO: SGC.DI.505
VERSIÓN: 1.0
DEPARTAMENTO DE CIENCIAS DE LA VIDA Y LA AGRICULTURA FECHA ULTIMA
REVISIÓN: 26/10/16

CARRERA: Ingeniería en Biotecnología

2. En “With following condition” se usará “c7<0.05” para ajustar el filtrado por p-value.
3. Para diferenciar los genes que están sobre-regulados de los sub-regulados la condición será “c3>0”
8) Visualización de los gráficos

Se utilizarán los graficos para la evaluación del análisis de expresión diferencial. En ese habrán Histograma, MA, Dispersión y
Heatmap plots que servirán para observar el comportamiento de los genes.

RESULTADOS OBTENIDOS:
El estudiante debe ser capaz de responder las siguientes preguntas:

 ¿Cuál es la longitud de lectura de G1E R1 forward read?


 ¿Cuántas transcripciones tienen un cambio significativo en la expresión entre estas condiciones?
 ¿Hay más genes regulados hacia arriba o hacia abajo en las muestras tratadas?
 ¿Qué indica el diagrama MA?

CONCLUSIONES:

 La limpieza de secuencias es importante para tener datos de buena calidad para el mapeo correcto de los transcritos con el
genoma de referencia.
 La herramienta de StringTie-merge permite generar un banco de datos de los transcritos para agrupar las lecturas de acuerdo
al archivo de anotaciones del ratón.
 DeSeq2 es una herramienta útil para destacar la expresión diferencial de genes y así conocer su comportamiento.

RECOMENDACIONES:

 Se recomienda observar que las secuencias obtenidas de Zenodo, sean correctamente descargadas.
 Utilizar los datos de secuencias pareados para el análisis de expresión diferencial.

Práctica desarrollada por PhD F. Flores

FIRMAS

F: …………………………………………. F: …………………………………………. F: ……………………………………………..

Nombre: Carlos Noceda Nombre: Dra. Blanca Naranjo Nombre:


COORDINADOR DE ÁREA DE COORDINADOR DE LABORATORIOS
DOCENTE CONOCIMIENTO
24/8/22, 15:37 Sistema Virtual de Educación [Anuncios]

Anuncios


CARLOS MARIA NOCEDA ALONSO - 24/08/2022

no leído

Para tener en cuenta en informe y examen:

Phyre2 envía al e-mail que incluye:

Un fichero pdb que corresponde al modelo predicho más probable. Es decir, en el caso de la
secuencia problema, este modelo más probable no se alinea (desde el punto de vista de
secuencia y 3D) durante los primeros 105 aminoácidos con su correspondiente plantilla
(“template”). Por tanto, hagan el ejercicio con otros aminoácidos (quien lo haya hecho con
otra predicción más probable, no se preocupe, no importa, pero tengan en cuenta lo que
estoy comentando).
Un enlace a un html que trae información adicional. Ahí se puede descargar un fichero zip
que incluye ficheros pdb de los modelos predichos (unos más probables que otros). Esa
misma información se encuentra accesible desde el html que se despliega, en una tabla
ordenada en que podemos encontrar por orden de probabilidad el modelo predicho (el
primero sería el que habría que utilizar), la confiabilidad del alineamiento (entendiendo éste
como de secuencia y de estructura 3D), y la coincidencia del alineamiento de secuencia
(mucho mayor, 70%, para el primer modelo predicho). Además, en al primera columna se
encuentra un enlace que nos lleva a la proteína real que se utiliza como plantilla para
construir cada uno de los modelos, y en la segunda lo que cubre el “alineamineto” (secuencia
+ 3D). Efectivamente, el modelo que hay que usar en la actividad 2 sería el primero (sobre el
que se construye el modelo más probable conjuntando el “alineamiento” y la cobertura,
coincidencia del alineamiento de secuencias (si alguien usó otro no se preocupen).
Efectivamente, no se alcanzan los residuos que se piden estudiar (la plantilla no tiene tantos
aminoácidos: por tanto, utilicen otros).

A pesar de que no tenemos el aminoácido que se pide estudiar en el modelo (actividad 1) ni los
que nos piden estudiar en la plantilla , el Prof. F. Flores, que elaboró esta guía 6, indica que el
semestre pasado sí funcionaba para esa secuencia de aminoácidos problema. ¿Qué pudo haber
ocurrido? Es posible que actualizaciones en las bases de datos (y quizá en los programas
también), que serán supuestamente mejoras, nos conduzcan a modelos y plantillas diferentes
(seguramente más confiables), que los resultados que se ofrecían pro Phyre2 el semestre pasado…
Hemos de ajustar la guía cada año, pues, indicando que se estudien otros aminoácidos…

Disculpen las molestias, y tengan en cuenta todo esto para informe y examen.

categoría:
Anuncio

https://evirtual2.espe.edu.ec/anuncios.cgi?id_curso=46302 1/18

También podría gustarte