0% encontró este documento útil (0 votos)
231 vistas46 páginas

Tutorial Ensembl

Cargado por

Patt Castellanos
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
231 vistas46 páginas

Tutorial Ensembl

Cargado por

Patt Castellanos
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ENSEMBL

Delgado Escamilla Idanlya Deleysi


Rodriguez Cruz Yeraldine
Tenorio Tranquilino Evelyn Guadalupe
ENSEMBL
Plataforma bioinformática que se centra
en la anotación y análisis de genomas de
diversas especies, incluyendo humanos,
animales y plantas.
Proporciona información detallada sobre
la ubicación y función de los genes,
elementos reguladores y otras
características genómicas.
PÁGINA PRINCIPAL
PÁGINA PRINCIPAL
Menú de Navegación Superior

BLAST/BLAT: Tools: Acceso


Herramientas a otras Downloads:
para buscar herramientas Descargas de
secuencias de y recursos datos y Para acceder o
ADN o proteínas útiles. herramientas. Blog: Enlace al blog registrarse
en los genomas. de Ensembl.

Help & Docs:


Recursos de ayuda y Barra de búsqueda
VEP (Variant BioMart: documentación.
Effect Predictor): Herramienta de
Analiza variantes minería de datos
genéticas y para exportar
predice sus conjuntos de
consecuencias datos
funcionales. personalizados.
PÁGINA PRINCIPAL
Barra de Búsqueda y Lista de Herramientas
BLAST/BLAT: Variant Effect
BioMart: Herramienta de Predictor (VEP):
Herramienta de búsqueda de Analiza variantes
minería de datos. secuencias. genéticas.

Permite buscar genes,


secuencias específicas,
variantes, etc., en todas las
especies o en genomas
específicos.
PÁGINA PRINCIPAL
Favourite genomes (Genomas
Selección de Especie y Genoma favoritos): Puedes editar y gestionar
tus genomas favoritos aquí.

"Select a species"
(Seleccionar una
especie): Aquí puedes
elegir la especie para la
cual deseas acceder a la
información del
genoma.

Se presentan algunas especies destacadas con información adicional:


Pig breeds (Razas de cerdos): Muestra el genoma de referencia del cerdo y
otras 12 razas adicionales.
Especies específicas (por ejemplo, Homo sapiens, Mus musculus): Muestra
información sobre genomas específicos, como el humano (GRCh38.p14),
ratón (GRCm39), y pez cebra (GRCz11).
PÁGINA PRINCIPAL
Herramientas para análisis detallados
Compare genes across species: Retrieve gene sequence:
Permite comparar genes entre Esta función permite obtener
diferentes especies para la secuencia de nucleótidos o
identificar similitudes y aminoácidos de un gen
diferencias en sus secuencias y específico
funciones.

Find SNPs and other variants for Find a Data Display:


my gene: Proporciona acceso a
Esta funcionalidad permite buscar herramientas de visualización
polimorfismos de un solo que permiten ver datos
nucleótido (SNPs) y otras variantes específicos de genes o genomas
genéticas asociadas a un gen de manera gráfica.
específico.

Use my own data in Ensembl:


Gene expression in different Puedes integrar tus propios
tissues: datos en la plataforma, lo que
Aquí puedes explorar la expresión puede ser útil para comparar o
génica del gen de interés en
diversos tejidos, lo que proporciona visualizar tus datos junto con la
información sobre dónde y en qué información genómica
medida se expresa el gen. disponible en Ensembl.
EJEMPLO DE BÚSQUEDA
Gen: TP53 SUMMARY
Descripción: El gen codifica la proteína
Sinónimos del tumor p53
Número de acceso: HGNC:11998
Ubicación en el
Cromosoma 17: Acerca de este Gen:
Cromosoma: 17 transcripciones,
Hebra: Hebra inversa ortólogos, parálogos,
Coordenadas fenotipos
genómicas
Secuencias de
Nombre Referencia
Proteínas
correspondientes
al identificador
asociadas con este
gen Conjunto
consensuado de
secuencias de
codificación para
genes
Marco de referencia
genómico estable para
Tipo de Gen: describir variantes de
Codificación de secuencia para este
proteínas gen.
Agregar/eliminar datos de visualización
Compartir
Cambiar tamaño de imagen
Exportar imagen
SUMMARY
Restablecer configuración

Información de Genes (conjunto completo de GENCODE 44):


Detalles específicos sobre algunos genes: Se mencionan detalles sobre
genes específicos, como ATP1B2, WRAP53, y APS, incluyendo
información sobre transcripciones, ubicación en el genoma, longitud
de la codificación, y posiblemente funciones biológicas como
degradación mediada por decaimiento sin sentido.
SUMMARY Gene: TP53 ENSG00000141510:
Descripción del gen TP53
Splice variants Sinónimos del gen
Ubicación en el cromosoma 17
Transcripciones, ortólogos, parálogos,
fenotipos

Agregar/Quitar : Modifica las pistas


de datos de las variantes de empalme.
Compartir
Cambia el tamaño de la visualización.
Restablecer Configuración
Restablecer Orden de Pistas

Indica el tamaño de la región genómica (7.67Mb / 42.76 kb)


MANE Select Transcripts: Muestra información específica sobre las
transcripciones
Specific Splice Variants (Ejemplos):
ATP182-201-ENST00000250111 >: Descripción de una variante específica
con su identificador
Protein coding: Indica que esta variante es de codificación de proteínas.
SUMMARY Transcript ID: Identificación única de la transcripción.
Name: Nombre de la transcripción.
Transcript comparison bp: Número de pares de bases en la transcripción.
Show transcript table: Muestra una tabla con información Protein: Tamaño de la proteína codificada por la transcripción.
detallada sobre las transcripciones. Biotype: Tipo de biotipo de la transcripción (en este caso, Protein coding).
Show/hide columns: Permite mostrar u ocultar columnas CCDS: Identificador de la secuencia de codificación de consenso.
adicionales en la tabla UniProt Match: Coincidencia con identificadores UniProt.
Filter:Facilita la capacidad de filtrar y seleccionar RefSeq Match: Coincidencia con identificadores RefSeq.
transcripciones específicas según criterios particulares. Flags: Indicadores o marcadores adicionales asociados con la transcripción.

Ejemplo de Transcripción: CCDS: CCDS11118.


ENST00000269305.9 (TP53-201): Coincidencia UniProt: P04637-1.
Tamaño: 2512 pares de bases. Coincidencia RefSeq: NM_000546.6.
Proteína: 393 aminoácidos. Marcadores adicionales: MANE Select, Ensembl Canonical
SEQUENCE
Gen: TP53 (ENSG00000141510)
Descripción: Proteína p53 asociada a tumores
[Fuente: HGNC Symbol; Acc: HGNC:11998].
Sinónimos del Gen: LFS1, P53.
Ubicación: Cromosoma 17: 7,661,779-7,687,538
(hebra inversa).
Referencia del Genoma: GRCh38:CM000679.2.
Acerca de este Gen: Tiene 27 transcripciones
(variantes de empalme), 251 ortólogos, 2 parálogos
y está asociado con 280 fenotipos.

Secuencia y exones marcados


SEQUENCE Gen: TP53 (ENSG00000141510)
Descripción: Proteína p53 asociada a
tumores [Fuente: Símbolo HGNC; Acc:
HGNC:11998].
Sinónimos del Gen: LFS1, P53.
Ubicación: Cromosoma 17: 7,661,779-
7,687,538 (hebra inversa).
Referencia del Genoma:
GRCh38:CM000679.2.
Acerca de este Gen: Posee 27
transcripciones (variantes de empalme),
251 ortólogos, 2 parálogos y está asociado
Comparative Genomics: con 280 fenotipos.
Alineaciones Genómicas: Muestra alineaciones de secuencias genómicas.
Árbol Genealógico del Gen: Visualización de relaciones evolutivas.
Ortólogos: 251 genes relacionados evolutivamente.
Parálogos: 2 genes con un ancestro común
SEQUENCE
Árbol genético
GeneTree: ENSGT00950000183153
identificador único para el árbol filogenético
Número de genes: 668 Indica la cantidad total de
genes incluidos en este árbol filogenético.
Número de nodos de especiación: 576 Número de
veces que una especie ancestral se dividió en
dos especies distintas.
Número de duplicación: 68 Indica cuántas veces
ocurrió un evento de duplicación génica en el
árbol filogenético.
Número de ambiguos: 23 Eventos ambiguos o
inciertos en el árbol filogenético.
Número de eventos de división de genes: 0 No hubo
eventos de división de genes en este árbol
filogenético.
Gene gain/loss tree
SEQUENCE
El árbol de ganancia/pérdida de genes resume la historia filogenética de una familia de genes Ensembl mostrando
eventos de ganancia de genes (expansiones) y eventos de pérdida de genes (contracciones) a lo largo del tiempo

-Rama roja en el árbol


indica una expansión
significativa del gen
-Rama verde denota una
contracción

Los números en cada nodo se


refieren al número de genes
diferentes en la especie
ancestral
Orthologues
SEQUENCE
Un ortólogo es un gen que se
encuentra en diferentes especies y que
Las especies se agrupan por clados en la tabla como primates, roedores, peces, etc.
ha evolucionado a partir de un gen
ancestral común debido a la
especiación. A pesar de las posibles
diferencias en la secuencia de
nucleótidos, mantienen una función
biológica similar en las especies
relacionadas.

Los tipos de ortólogos se asignan comparando dos especies y son los siguientes: Los ortólogos se definen en
Ortólogos 1 a 1: solo se encuentra una copia en cada especie Ensembl como genes cuyo nodo
Ortólogos de 1 a muchos: un gen de una especie es ortólogo de múltiples genes de otra especie. ancestro más común es un
Ortólogos de muchos a muchos: se encuentran múltiples ortólogos en ambas especies evento de especiación.
Paralogues
SEQUENCE
Los parálogos se definen en Ensembl como genes para los cuales el nodo ancestro más común es un evento
de duplicación.

Un gen parálogo es un gen que se origina a través de


La tabla muestra el nivel taxonómico del nodo de duplicación del ancestro, una duplicación génica en el genoma de una misma
el ID y el nombre del gen Ensembl, la ubicación del parálogo y el especie. Estas copias duplicadas, comparten una
porcentaje de aminoácidos idénticos en el parálogo en comparación con el secuencia de ADN similar debido a su origen común,
gen de interés (% ID objetivo). La identidad del gen de interés en pero han evolucionado de manera independiente con
el tiempo. Pueden tener funciones similares o
comparación con el parálogo es la consulta %ID.
divergentes debido a cambios evolutivos acumulativos
después de la duplicación.
ONTOLOGIES
Las tablas de ontología genética muestran los términos GO asociados con las transcripciones Ensembl de
este gen. Hay tres tablas GO separadas para cada gen, correspondientes a GO: Proceso biológico, GO:
Función molecular y GO: Componente celular.

GO: Molecular function

Función molecular :transcripción unión Ensembl asocia términos GO a genes


a región reguladora cis mediante mapeos UniProt.
ONTOLOGIES Proceso biológico: GO:0000122 regulación negativa
de la transcripción por la ARN polimerasa
GO: Biological process

GO: Cellular component


Componentes celulares: Cromatina, núcleo, nucleoplasma, etc.
FENOTIPO Todo esto nos dice que la proteína de interés es una proteína que
se encuentra en el núcleo de las células que cumple con una
En este apartado podemos obtener información como: función en el control de la división celular y si no funciona
Descripción del gen: Proteína tumoral p53 correctamente, desencadena la presencia de los tumores.
Sinónimos del gen: LFP1, P53 Existen 27 transcritos, es decir, la obtención de una secuencia de
Localización: Cromosoma 17 RNA basada en una de DNA
Acerca del gen: Este gen tiene 27 transcritos, 251 251 especies que poseen homólogos de este gen y únicamente 2
ortólogos, 2 paralogos y está asociado con 280 fenotipos asociados a una duplicación
FENOTIPO
En este apartado podemos obtener información como:
Sourse: Fuente de donde se obtuvo el Study:
Descripción del gen: Proteína tumoral p53
Sinónimos del gen: LFP1, P53 fenotipo y enfermedad Te redirige al enlace donde se
Localización: Cromosoma 17 realizaron los estudios de dichos
Acerca del gen: Este gen tiene 27 transcritos, 251 enfermedades
ortólogos, 2 paralogos y está asociado con 280 fenotipos

Enlace que desplegá tabla de


transcritos

Phenotype, disease and trait:


Se observan los fenotipos, y la
enfermedad relacionada con cada una
Al dar click se despliega la tabla de
Aquí podemos observar los transcritos, es decir, las secuencias de RNA obtenidas a partir del
los transcritos
gen con DNA podemos ver que para este gen hay 27 transcritos, y que todos ellos codifican
para la proteína de interés, encargada de la división celular.

Al desplegar la tabla
de transcritos se
puede obtener la
siguiente
información.
ID de transcritos,
nombre, pares de
bases, proteína,
biotipo, CDS, link
que te redirigen a
UniProt
VARIANT En el recuadro amarillo se observa la leyenda que dice: que existen más de 15,000 variantes para
TABLE mostrar, por lo que en la página únicamente se muestran las variantes exonicas.

Esta tabla nos ayuda a observar


las variantes que se tienen de un
mismo gen, así como que es lo
que cambia una de otra,
podemos ver que todas están
localizadas en el cromosoma 17
y que cambia en el número de
pares de bases que tienen, así
como el cambio en las pares de
bases y el tipo de consecuencia
que tienen que van desde que se
pare la síntesis, hasta que haya
una variante del mensaje que
codifica, teniendo así una
proteína no funcional
VARIANT En el recuadro amarillo se observa la leyenda que dice:
que existen más de 15,000 variantes para mostrar, por lo
que en la página únicamente se muestran las variantes
TABLE exonicas.

Se observa el ID de la variante

Cromosoma de localización, y pares


de bases

Clase de variación: del tipo SPN,


deleción, inserción, entre otros...

Tipo de consecuencia:
Es decir que error de cada una de las
variantes, que pueden ser: stop
“perdido”, variante en el marco de
lectura, sentido erróneo
VARIANT IMAGE
A partir de la versión 93 de Ensembl, está apartado, no se encuentra, por eso al dar click en el enlace se redirige a una
publicación de la misma página web
Esta imagen ayuda a observar las variantes genéticas a través de diferentes transcripciones del gen, para poder destacar
su localización; sin embargo, como se conoce, un gran número de estas variantes se vuelve en un desorden colorido, es
por ello que esta opción está inhabilitada para los humanos, sin embargo, la información sigue almacenada
STRUCTURAL VARIANTS
LA PSICOLOGÍA DE LOS
COLORES

En este apartado se pueden observar la secuencia sentido y antisentido u la proteína codificante


Dentro del mismo apartado de “structual variants” se puede observar las variantes cortas o pequeñas,
las largas, somáticas, y la regulación de la construcción
Y en la parte de abajo se observa la simbología, del gen, las estructuras variantes, y de regulación

Se entiende por
variantes a un cambio en
el DNA de manera
permanente, por lo que
el gen se ve alterado, y a
su vez la proteina
codificante
Nombre de la variante

Cromosoma y pares de bases donde se


localiza la variante

Tamaño del genoma en pares de bases

Clase de la variante*

Descripción del estudio donde se


encontró dicha variante

* Todas las marcadas son del tipo CNV las cuales incluyen: inserciones, deleciones y duplicaciones de segmentos de ADN
GENE EXPRESSION Aquí se puede observar la expresión
del gen en el cuerpo humano,
femenino, masculino, así como en el
cerebro

Como se puede ver en la


simbología, el color de
azul más intenso es
donde hay una alta
expresión, seguido de una
tonalidad media, y al
final el azul cielo quiere
decir una baja expresión
Así como mi es por
métodos de
transciptomica o
proteomica
MOLECULAR
INTERACTIONS
Se observa la
comparación de la
interacción de Homo
sapiens con su ID del gen
(marcado en rojo), con
otras especies (marcado
en verde) como Bacillus,
Yersenia, entre otras
especies, así también se
observa la molécula con
la que interactúa y en
este caso todas son
proteínas
REGULATION
Se observan la regulación, la codificación de las proteínas, así como la simbología en la parte de abajo
SUPPORTING En este apartado encontramos la evidencia de apoyo, donde
aparece el transcrito, el enlace que nos redirige la evidencia, y
EVIDENNCE el exón en donde se encuentra
ID HISTORY / GENE-HISTORY
Podemos encontrarlo con este
Se tienen la información de la Se encuentra en la base de datos:
número de identificación, así como su
proteína en el código de aminoácidos homo.sapiens.core.110-38
última versión
de 1 sola letra
ENSG00000141510.18
TRANSCRIPTOS
La transcripción es el primer paso de la
expresión génica y su objetivo es producir
una copia de ARN de la secuencia de
ADN de un gen.

Al elegir un transcripto del gen TP53, se


encuentra información acerca de:
Tipo de transcripto.
Descripción del mismo.
Localización en cromosoma.
Información adicional como el
número de exones, dominios,
variantes alelicas etc
EXONES/INTRONES
Señalización de intrones, exones y
variantes diferenciadas por color

Exones y intrones en formato lista marcados por color de


acuerdo a la variante presente en la secuencia. Los exones se
muestran en letras mayúsculas y la secuencia flanqueante e
intrones en letras minúsculas.
DNAc
En está sección se muestra la secuencia de
transcripción (ADNc), la secuencia codificante debajo
de ella y la secuencia de proteína en la tercera línea.

Señalización de codones, exones y variantes


marcado por color de acuerdo al sentido 3´ y
5´ entre otros.

Secuencias marcadas por colores de acuerdo


a la variación encontrada en la secuencia
como el UTR o Región no traducida que
está resaltada en amarillo oscuro.
PROTEÍNA
En está sección se muestra la secuencia de aminoácidos del trascripto elegido.

Secuencia de aminoácidos
con exones marcados azul y
residuos con sitios de
empalme en rojo.
PROTEIN SUMMARY

Señalización en mapa de proteinas de


acuerdo a la afectación

Visualizaciones de variantes en la
proteína con diferentes bases de datos
como Pfam, PANTHER, Prosite, entre
otros. Además de factores de
transcripción, superfamilia etc., en mapa.
DOMAINS & FEATURES
En esta tabla se enumeran los motivos y
dominios del transcripto, muestra el
número inicial y final del dominio en el
péptido, además el nombre del dominio y
link de acceso de acuerdo a la base de
datos del mismo.

Se muestran tablas que enumeran los


Coiled-coils con inicio y final de estos.
PDB 3D PROTEIN MODEL

Se muestra una estructura


proteica en PDB en 3D para
una proteína que contiene la
variante seleccionada.

Opciones para modificar el modelo 3D


señalizado por colores , como exones,
información de proteína etc.
ALPHAFOLD PREDICTED MODEL
En está sección se obtiene la estructura 3D de
una proteína a partir de su secuencia de
aminoácidos.

Secuencia de aminoácido de la proteina del


transcrito

Opciones para modificar el modelo 3D con


señalización por colores con la opción de
seleccionar las variantes que se toleran o se
eliminan.

Modelo 3D de PDB.
VARIANTS

Tabla en formato de lista que resume las


variaciones de secuencia corta con ID de variante,
tipo de consecuencia, fuente, evidencia, codón,
entre otros datos que proporciona información de
su ubicación.

VARIANT TABLE

Tabla de variaciones de una proteína en


trascrito resumida de acuerdo a regiones no
traducidas, evidencia, entre otras
caracteristicas.
VARIANT IMAGE

En está sección se muestra un mapa líneal de


variantes en toda la secuencia del transcripto,
genes involucrados, entre otros además de la
longitud de este en kb.

Recuadro de señalización de acuerdo a lo


presentado en mapa.
HAPLOTYPES
Son diferentes versiones de regiones
particulares del genoma que se encuentran
en diferentes individuos. Pueden incluir
pequeñas diferencias en la secuencia o
diferencias más grandes, como diferentes
genes u orden de genes en comparación
con el ensamblaje primario.

Tabla enumerando el haplotipo en la proteína


involucrada, frecuencia, indicadores que
señalan la posibilidad de que el cdón tenga un
cambio, además de AFR, AMR entre otras
características.
ID HISTORY Identificación, última versión y el estatus en el que se
encuentra el historia de transcripciones y proteinas.
Asi como archivo de datos del ID consultado, los
ensamblajes genómicos y las versiones.

Tabla de versiones, archivos de historial de proteinas


y transcriptos de acuerdo al gen, con su secuencia
obtenida.

También podría gustarte