TP Nº3: Alineamiento múltiple de secuencias (CLUSTAL)
Objetivos
Comprender cómo se realizan alineamientos múltiples y realizarlos utilizando el programa Clustal
Omega .
Resultados
I) Alineamiento múltiple usando matrices
1- Obtenga de las bases de datos del NCBI las secuencias proteicas de las siguientes proteínas en
formato FASTA:
En primer lugar obtuvimos de las bases de datos del NCBI las secuencias proteicas de las siguientes
proteínas en formato FASTA:
a)MIOGLOBINA (Mb)
>NP_976312.1 myoglobin [Homo sapiens]
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTAL
GGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYK
ELGFQG
b)CITOGLOBINA (Cgb)
>NP_599030.1 cytoglobin [Homo sapiens]
MEKVPGEMEIERRERSEELSEAERKAVQAMWARLYANCEDVGVAILVRFFVNFPSAKQYFSQFKHMEDPLEME
RSPQLRKHACRVMGALNTVVENLHDPDKVSSVLALVGKAHALKHKVEPVYFKILSGVILEVVAEEFASDFPPETQ
RAWAKLRGLIYSHVTAAYKEVGWVQQVPNATTPPATLPSSGP
c) HEMOGLOBINA SUBUNIDAD-α (HbA2)
>NP_000508.1 hemoglobin subunit alpha [Homo sapiens]
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVA
HVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
d) HEMOGLOBINA SUBUNIDAD-β (HbB)
>NP_000509.1 hemoglobin subunit beta [Homo sapiens]
MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAF
SDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKY
H
2- Complete las siguientes matrices, comparando las secuencias de a pares con el programa
BLASTp del NCBI. Para estos cálculos usar la matriz BLOSUM45.
Rellene cada campo con el bit-SCORE del alineamiento:
3- Analice los resultados obtenidos:
Por motivos inherentes al funcionamiento del programa de alineamiento, las matrices no son
perfectamente simétricas, aunque estemos comparando las mismas proteínas. Por lo tanto, para
observar su similitud, primero promediamos los valores las celdas [a,b] y [b,a] y volcamos los
resultados en sendas tablas, para luego comparar los resultados obtenidos:
a) ¿Cuáles son las proteínas más parecidas entre sí?
Las más parecidas son HbA2 con HbB (resaltado en verde), con un bit-SCORE alto y marcadamente
superior a todas las demás comparaciones. Por otro lado, su porcentaje de residuos con
alineamiento positivo también es el más alto.
b) ¿Cuáles son las más diferentes entre sí?
las proteínas más diferentes resultan la Mb (mioglobina) y la HbB (resaltado en rojo), con el menor
valor de bit-SCORE y porcentaje de aminoácidos con alineamiento positivo dentro de los dos más
bajos.
Suponga que si quiere comparar una tercera secuencia (C) con otras dos agrupadas juntas (AB), el
SCORE del alineamiento de esta tercera con las otras dos es: (Score AC + Score BC)/2
4- Agrupe las dos proteínas más parecidas (AB) y complete la siguiente matriz con los nuevos
SCORES calculados (y asigne los nombres a A, B, C y D).
Agrupamos las dos proteínas más parecidas (HbA2 y HbB) y las comparamos con las dos restantes.
Luego completamos la siguiente matriz con los nuevos bit-SCORES y porcentajes de positivos
calculados, donde:
score [HbA2,HbB] Cgb = (score HbA2 Cgb + score HbB Cgb) / 2
score [HbA2,HbB] Mb = (score HbA2 Mb + score HbB Mb) / 2
5- Analice:
a) ¿Qué proteína C o D es más parecida al par AB?
La Citoglobina es más parecida al conjunto HbA2-HbB, debido a que tiene un bit-SCORE y un
porcentaje de positivos más alto que la mioglobina.
b) La proteína que figura como respuesta de la pregunta anterior, ¿es más parecida a AB que a la
otra proteína restante?
Acá se obtiene un resultado contradictorio debido a que según el bit score, la citoglobina sería más
parecida a la mioglobina, pero según el % de positivos sería más parecida al par HbA2-HbB. Esta
ambigüedad se debe a la similitud de los valores comparados (Cgb con Mb y Cgb con HbA2-HbB) y
variabilidades lógicas que ocurren al comparar distintos parámetros.
Si consideramos el bit score como un mejor parámetro de evaluación que el % de positivos debido
a su valor estadístico, diríamos que la Cgb es más parecida a la Mioglobina que al par de
hemoglobinas.
6- En base a las respuestas obtenidas anteriormente, elija el árbol filogenético que le parece más
probable y complete con los nombres de las proteínas. Justifique.
En base a los resultados obtenidos y la elección del bit score como un mejor parámetro de
evaluación, podríamos describir la relación entre las cuatro proteínas mediante el árbol filogenético
que se muestra más abajo, donde los grupos HbA2-HbB y Mb-Cgb corresponden a ramas diferentes
del arbol.
II) Alineamiento múltiple usando Clustal Omega
Obtenga del NCBI las secuencias de las siguientes proteínas humanas en formato FASTA:
a) Mioglobina (Mb), b) Citoglobina (Cgb), c) Globina Alfa (HbA2) y d) Globina Beta (HbB) e) Globina
Zeta (HbZ) f) Neuroglobina (Ngb) g) Cadena Mu de la Hb (HbM) h) Delta globina (HbD) i) Globina
Epsilon (HbE) j) Theta Globina (HbT) k) A-Gamma Globina (HbG1), l) G-Gamma Globina (HbG2)
(¡son las que obtuvo en el TP anterior realizando PSI-BLAST con la Mb!).
1- Obtuvimos del NCBI las siguientes secuencias proteicas humanas en formato FASTA:
a)MIOGLOBINA
>NP_976312.1 myoglobin [Homo sapiens]
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTAL
GGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYK
ELGFQG
b)CITOGLOBINA
>NP_599030.1 cytoglobin [Homo sapiens]
MEKVPGEMEIERRERSEELSEAERKAVQAMWARLYANCEDVGVAILVRFFVNFPSAKQYFSQFKHMEDPLEME
RSPQLRKHAC
RVMGALNTVVENLHDPDKVSSVLALVGKAHALKHKVEPVYFKILSGVILEVVAEEFASDFPPETQRAWAKLRGLI
YSHVTAAY
KEVGWVQQVPNATTPPATLPSSGP
c) HEMOGLOBINA SUBUNIDAD-α
>NP_000508.1 hemoglobin subunit alpha [Homo sapiens]
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVA
HVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
d)HEMOGLOBINA SUBUNIDAD-β
>NP_000509.1 hemoglobin subunit beta [Homo sapiens]
MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAF
SDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKY
H
e) HEMOGLOBINA SUBUNIDAD- ζ
>NP_005323.1 hemoglobin subunit zeta [Homo sapiens]
MSLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHFDLHPGSAQLRAHGSKVVAAVGDAVKSIDD
IGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAARFPADFTAEAHAAWDKFLSVVSSVLTEKYR
f)NEUROGLOBINA
>NP_067080.1 neuroglobin [Homo sapiens]
MERPEPELIRQSWRAVSRSPLEHGTVLFARLFALEPDLLPLFQYNCRQFSSPEDCLSSPEFLDHIRKVMLVIDAAVT
NVEDLSSLEEYLASLGRKHRAVGVKLSSFSTVGESLLYMLEKCLGPAFTPATRAAWSQLYGAVVQAMSRGWDG
E
g) HEMOGLOBINA SUBUNIDAD-μ
>NP_001003938.1 hemoglobin subunit mu [Homo sapiens]
MLSAQERAQIAQVWDLIAGHEAQFGAELLLRLFTVYPSTKVYFPHLSACQDATQLLSHGQRMLAAVGAAVQHV
DNLRAALSPLADLHALVLRVDPANFPLLIQCFHVVLASHLQDEFTVQMQAAWDKFLTGVAVVLTEKYR
h) HEMOGLOBINA SUBUNIDAD-δ
>NP_000510.1 hemoglobin subunit delta [Homo sapiens]
MVHLTPEEKTAVNALWGKVNVDAVGGEALGRLLVVYPWTQRFFESFGDLSSPDAVMGNPKVKAHGKKVLGA
FSDGLAHLDNLKGTFSQLSELHCDKLHVDPENFRLLGNVLVCVLARNFGKEFTPQMQAAYQKVVAGVANALAH
KYH
i) HEMOGLOBINA SUBUNIDAD-ε
>NP_005321.1 hemoglobin subunit epsilon [Homo sapiens]
MVHFTAEEKAAVTSLWSKMNVEEAGGEALGRLLVVYPWTQRFFDSFGNLSSPSAILGNPKVKAHGKKVLTSFG
DAIKNMDNLKPAFAKLSELHCDKLHVDPENFKLLGNVMVIILATHFGKEFTPEVQAAWQKLVSAVAIALAHKYH
j) HEMOGLOBINA SUBUNIDAD-θ1
>NP_005322.1 hemoglobin subunit theta-1 [Homo sapiens]
MALSAEDRALVRALWKKLGSNVGVYTTEALERTFLAFPATKTYFSHLDLSPGSSQVRAHGQKVADALSLAVERLD
DLPHALSALSHLHACQLRVDPASFQLLGHCLLVTLARHYPGDFSPALQASLDKFLSHVISALVSEYR
k) HEMOGLOBINA SUBUNIDAD-γ1
>NP_000550.2 hemoglobin subunit gamma-1 [Homo sapiens]
MGHFTEEDKATITSLWGKVNVEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLG
DATKHLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH
l) HEMOGLOBINA SUBUNIDAD-γ2
>NP_000175.1 hemoglobin subunit gamma-2 [Homo sapiens]
MGHFTEEDKATITSLWGKVNVEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLG
DAIKHLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTGVASALSSRYH
1- ¿Qué aminoácidos se encuentran completamente conservados? ¿Con qué símbolo los
identifica el programa?
Como se puede observar en la imagen siguiente en los recuadros color negro, en la alineación
obtenemos 7 aminoácidos que se encuentran completamente conservados: Triptofano, Arginina,
Prolina, Fenilalanina y dos Histidinas. El programa los identifica con un asterisco “*” en la parte
inferior de cada columna.
2- Mire y guarde cada uno de los archivos generados ¿Qué información contiene cada uno de
ellos?
El programa genera una serie de archivos con diferente información en cada uno. Ellos son:
Input Sequences: Tiene la información de las secuencias ingresadas en la consulta.
Tool Output: Hoja de ruta que fue siguiendo el algoritmo.
Alignment in CLUSTAL format with base/residue numbering: El alineamiento múltiple con las
características de los aminoácidos conservados, semi-conservados, etc, en formato CLUSTAL
Guide Tree: Contiene el árbol armado a partir de la matriz de distancia de las comparaciones de a
pares de las distintas proteínas, realizada en forma iterativa. No tiene en cuenta principios de
parsimonia.
Phylogenetic Tree: Es un árbol que construido a partir del alineamiento múltiple de las secuencias
utilizadas.
Percent Identity Matrix: matriz de identidad entre pares de secuencias input.
3- Se sabe que en las globinas un aminoácido clave es la histidina que coordina al hierro. ¿Está
conservada? En la mioglobina se trata de la histidina 94 (en alineamientos múltiples se pierde la
numeración de residuos de acuerdo con la proteína original).
Como se ve marcado en la imagen siguiente, es un residuo que se encuentra conservado en todas
las globinas analizadas.
4- ¿Hay alguna otra histidina conservada?
Como mencionamos anteriormente y evaluamos en el TP2, hay dos histidinas que se conservan en
todas las secuencias analizadas. Una es la H94 y la otra la H83 (tomando la numeración de la Mb),
ambas partícipes en la unión al grupo hemo.
5- ¿Qué tipo de residuos se encuentran más conservados: los residuos cargados, polares o
hidrofóbicos? Ayúdese con los colores. ¿Por qué cree que esto es así?
Los residuos hidrofóbicos se encuentran mucho más conservados que los hidrofílicos. Esto
probablemente se deba a que estos suelen conformar el core hidrofóbico, que es fundamental para
el correcto plegamiento de las globinas en su estructura tridimensional característica.
Adicionalmente, los aromáticos se encuentran altamente conservados y cumplen una función
similar a los mencionados anteriormente, formando parte del core hidrofóbico. A diferencia de
estos, los aromáticos interactúan con residuos de la misma naturaleza por medio de interacciones
del tipo “apilamiento aromático”.
Figura 2: Alineamiento de las secuencias resaltando hidrofobicidad en posiciones conservadas(rojo a azul) y
aminoácidos aromáticos (negro).
6- Sabiendo que los siguientes aminoácidos Trp 15, Arg 32, Phe 44, His 65, Leu 90, Ile/Val 100, Phe
124 están involucrados en la unión del hemo, ¿qué puede decir de su conservación?
Ubicamos estos residuos en el alineamiento múltiple y comprobamos que se conservan en todas las
proteínas (flechas rojas). Las únicas excepciones (recuadros rojos) fueron la variación L90V de la
Citoglobina y la variación V100I de la Mioglobina, pero en ambos casos el reemplazo fue por un
aminoácido muy similar.
7- ¿Qué es una secuencia consenso?
Una secuencia consenso es la secuencia de nucleótidos o aminoácidos más frecuente en cada
posición en un alineamiento múltiple de secuencias.
Como resultado, en cada posición se verá reflejado el aminoácido que más veces aparezca en esa
columna. En caso de que no haya uno que prevalezca, el programa lo marca con un signo + y luego
detalla los aminoácidos más comunes y su ocupancia relativa.
Se puede relacionar con el logo, en donde se observan las letras de los residuos presentes en cada
columna con un tamaño que se relaciona con la frecuencia del aminoácido en esa posición. Puede
colorearse de diversas maneras (conservación, hidrofobicidad, etc.).
8- Analice los dos tipos de árboles. ¿En qué se diferencian?
Tenemos dos opciones de representación del árbol filogenético:
En el Cladograma se alargan los brazos para poder visualizar mejor, en el árbol Real la distancia entre
brazos representan distancias evolutivas Por lo tanto, la estructura del árbol en ambos casos se
conservan pero en el cladograma se pierde la noción de la distancias evolutivas entre proteínas.
9- ¿Cuáles son las dos proteínas con mejor alineamiento?
10- ¿Cuál es la proteína más parecida a la mioglobina?
9 y 10. 9/10- Analizando la matriz de identidad podemos ver que las dos proteínas con mejor
alineamiento son las subunidades gamma-1 y gamma-2 de la hemoglobina (resaltado en verde). Por
otro lado, la citoglobina resulta la proteína más parecida a la mioglobina (resaltado en rojo).
11- Describa brevemente la evolución de las globinas en el genoma humano.
Observando el árbol filogenético que se presenta más abajo podemos distinguir primeramente que
tanto la mioglobina como la citoglobina forman un grupo separado de las diferentes subunidades
de la hemoglobina y la neuroglobina, pero lo suficientemente diferentes entre sí como para no
formar un nodo entre ellas. Luego, dentro de las hemoglobinas también podemos distinguir dos
grupos bien definidos: los de las subunidades α,θ,μ y ζ por un lado, y las subunidades β, δ, ε, y γ-1 y
γ-2.
Coherentemente, si analizamos la matriz de identidad, afloran esos mismos grupos proteicos, como
se muestra en la figura siguiente, donde se marcan en rojo las hemoglobinas del grupo α y en verde
las del grupo β. En celeste se muestran los valores más altos de identidad para la mioglobina,
citoglobina y neuroglobina, todos por debajo de 35%, lo que puede referir a una mayor distancia
evolutiva de estas proteínas respecto al resto. Es interesante remarcar que el porcentaje de
identidad más alto para la neuroglobina es con la subunidad ε de la hemoglobina, mientras que para
la citoglobina corresponde a la subunidad ζ, sin embargo, las diferencias entre estas proteínas son
importantes como para clasificarlas en grupo separados.
En efecto, estas observaciones son consistentes con lo que se encuentra descripto en la literatura,
donde se agrupan a las subunidades β, δ, ε, γ-1 y γ-2 por un lado (o β-like hemoglobins), con escasas
diferencias en su secuencia, con una estructura terciaria similar y todas ubicadas en el cromosoma
11. Por otro lado, está el grupo de las α-like hemoglobinas que engloba a las subunidades restantes.
Por otro lado, están la mioglobina, la citoglobina y la neuroglobina, con menor porcentaje de
identidad, claras diferencias en sus estructuras terciarias y funciones que se saben diferentes.
Como se ve en la figura siguiente, las relaciones filogenéticas establecidas para las globinas humanas
presentan algunas diferencias respecto al árbol filogenético que obtuvimos por alineamiento
múltiple, sobre todo en relación a la distancia evolutiva relativa de la neuroglobina, la citoglobina y
la mioglobina. Sin embargo, la relación citoglobina/mioglobina se mantiene y sólo difiere en la
posición de la neuroglobina en un punto anterior de la historia evolutiva, resaltando la utilidad de
la técnica sencilla que empleamos.