0% encontró este documento útil (0 votos)
81 vistas27 páginas

Alineamiento Multiple Tipo Clustal

Este documento describe una práctica de biología molecular sobre el uso del alineamiento múltiple Clustal para identificar zonas comunes entre secuencias de nucleótidos o aminoácidos. El objetivo es usar Clustal Omega para alinear múltiples secuencias de proteínas de arroz, trigo, cebada y maíz y analizar los resultados para identificar regiones conservadas. El procedimiento incluye cargar las secuencias en Clustal Omega, seleccionar el formato de salida y someter el trabajo para obtener un alineamiento col
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
81 vistas27 páginas

Alineamiento Multiple Tipo Clustal

Este documento describe una práctica de biología molecular sobre el uso del alineamiento múltiple Clustal para identificar zonas comunes entre secuencias de nucleótidos o aminoácidos. El objetivo es usar Clustal Omega para alinear múltiples secuencias de proteínas de arroz, trigo, cebada y maíz y analizar los resultados para identificar regiones conservadas. El procedimiento incluye cargar las secuencias en Clustal Omega, seleccionar el formato de salida y someter el trabajo para obtener un alineamiento col
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Entregado por: Valeria Gutierrez Ruiz

Fecha: 31 de octubre de 2022


Docente: Walter Ricardo López
Asignatura: Biología molecular

Practica: Uso del alineamiento múltiple tipo Clustal

Objetivo: Usar una estrategia de alineamiento múltiple para identificar zonas comunes
entre secuencias de nucleótidos o aminoácidos.

Introducción:
Hoy en día disponemos de muchas secuencias de moléculas de interés biológico dispuestas
en diferentes en bases de datos obtenidas en múltiples estudios en todo el mundo, esto
permite tener acceso a abundante información de interés particular en muchas
investigaciones. Sin embargo, una de las primeras preguntas que surge al tener estas
secuencias (nucleótidos o aminoácidos) es:
¿La secuencia de interés es única o comparte similaridad con otras secuencias antes
reportadas? Es en este momento que diferentes aproximaciones bioinformáticas cobran
importancia al permitirnos comparar nuestra secuencia de forma individual con las
secuencias disponibles en las bases de datos (alineamiento tipo Blast), o comparar varias
secuencias conocidas al tiempo (alineamiento tipo Clustal).
Conocer las secuencias de nucleótidos o aminoácidos de un gen o proteína en un organismo
en particular es importante por:
1- En muchos casos permite identificar la función del gen.
2- Permite inferir el parentesco evolutivo entre secuencias.
3- Permite identificarlas similaridades estructurales con otras secuencias.
Un alineamiento múltiple es una estrategia que implica comparar mínimo tres secuencias
de nucleótidos o aminoácidos, para esto se pueden usar varios algoritmos como Clustal
Omega, Kalign, MAFFT, MUSCLE y prank.
En esta practica usaremos el programa Clustal omega que funciona bien para secuencias
relativamente parecidas, pero falla en el caso de secuencias más distantes.

Procedimiento.
1- Descargue las secuencias de aminoácidos que se encuentran en la sección de
laboratorios del Google class room.
>NP_001043858_Oryza_sativa_Japonica_Group
MRERGEMREAKAPLIAEAAEHISHSHGSGSSGTGSHTSGGGGGWRGSRQYQRRSDALAYG
NRYQKAAALVDLAEDGVGIPEDVLNDTRFERAMRFYFVYLRLDWLWSLNLFALILLNFLEKPL
WCRGYSQHACDQRDLYFLGQLPYLSKTESLIYEGLTLVILVMDIFYPLSYEGLNLFWKNTINKLK
VLLLFILACDILVFAFSPQPFRVAPYIRVAFLIMNIRELRMCAVTLVGMVGTYLNVLALSLLFLLF
ASWLAYVTFEDTPQGKTVFSSYGTTLYQMFILFTTSNNPDVWVPAYKSSRWSSLFFIVYVLLG
VYFLTNLILAVIYDSFKEQLAKQVSQADCTRKSILEKAFGIIDATGQGYLNKEQCLSLLDELNKYR
SLPKTSREDFELIFAELDQSGDFKVTSEEFATLCNTIAIKFQKEPPPSYLEKYPSFYHSALCEWLKS
FVRSPLFEYIVIFVLLMNLVAVIIETTLDIENSSSQKVWQEVEFVFGWIYVIEMALKIFSLGFGAY
WMEGQNKFDFVLTWTIFIGETLTFAFPSKLSFLSNGEWIRYLLLGRMLRLTRILLQVRRFRAFV
ATFFTLMSSLMPYLGIVFCTLCIYCSLGLQIFGGIVYAGNPTLEETDLFSNDYLLFNFNDYPSGM
VTLFNLLVMGNWQAWMESYRQLTGSYWSLIYFVSFYLISVLLLLNLIVAFVLEAFFAEMELEKD
GEADIQDPTLEGRNRRRSVRVRTKGTMVDILLHHMLSNELDGSQNRDQ

>BAC80148_Oryza_sativa_Japonica_Group
MRERGEMREAKAPLIAEAAEHISHSHGSGSSGTGSHTSGGGGGWRGSRQYQRRSDALAYG
NRYQKAAALVDLAEDGVGIPEDVLNDTRFERAMRFYFVYLRLDWLWSLNLFALILLNFLEKPL
WCRGYSQHACDQRDLYFLGQLPYLSKTESLIYEGLTLVILVMDIFYPLSYEGLNLFWKNTINKLK
VLLLFILACDILVFAFSPQPFRVAPYIRVAFLIMNIRELRMCAVTLVGMVGTYLNVLALSLLFLLF
ASWLAYVTFEDTPQGKTVFSSYGTTLYQMFILFTTSNNPDVWVPAYKSSRWSSLFFIVYVLLG
VYFLTNLILAVIYDSFKEQLAKQVSQADCTRKSILEKAFGIIDATGQGYLNKEQCLSLLDELNKYR
SLPKTSREDFELIFAELDQSGDFKVTSEEFATLCNTIAIKFQKEPPPSYLEKYPSFYHSALCEWLKS
FVRSPLFEYIVIFVLLMNLVAVIIETTLDIENSSSQKVWQEVEFVFGWIYVIEMALKIFSLGFGAY
WMEGQNKFDFVLTWTIFIGETLTFAFPSKLSFLSNGELIRYLLLGRMLRLTRILLQVRRFRAFVA
TFFTLMSSLMPYLGIVFCTLCIYCSLGLQIFGGIVYAGNPTLEETDLFSNDYLLFNFNDYPSGMV
TLFNLLVMGNWQAWMESYRQLTGSYWSLIYFVSFYLISVLLLLNLIVAFVLEAFFAEMELEKD
GEADIQDPTLEGRNRRRSVRVRTKGTMVDILLHHMLSNELDGSQNRDQ

>Q6YLX9_Triticum_aestivum
MSEAEAPLITEEAAERGLASSGSRRLSDGAGGQGSRKYRRRSDALAYGDRYQKAAALVDLAE
DGVGIPEDVLNDTRFGRAMSFYFVYLRLDWLWSLNLFALILLNFLEKPLWCRKDALQAYDQR
DLYFLGQLPYFSKTESLIYEGLTLVILVMDIFCPLSYEGLNIFWRSTTNKLKIVLLFILACDILVFAFS
SQPFRLAPYIRVVFLIMTIRELRMCAITLAGLIGTYLNVLALSLLFLLFASWLAYVTFEDTPQGKTI
FSSYGVTLYQMFVLFTTSNNPDVWVHAYKIPRWYSLFFIVYVLLGVYFLTNLILAVIYDSFKEQF
AKQLVQVDSIRKNILQKAFDLIDTNNRGYLDREQCISLLNELNKYRSLPKTSREDFELIFAELDRS
GDFKVTSEEFADLCNTIAIKFQKEPPPSYLEKFPFYHSPLCGRLKSFVRSRMFEYIIVFVLLINLVA
VIIETTLDIENSSSQETWQEVEFFLGWIYVAEMALKIFSLGFGAYWMEGQNKFDFVLTWTIFIG
ETLTFAFPSKLPFLSNGEWIRYLLLGRVLRLTRILLQVQRFRAFVATFFTLMSSLMPYLGIVFCVL
CMYCSIGLQIFGGIVYAGNPTLEETDLFNNDYLLFNFNDYPSGMVTLFNLLVMGNWQVWM
ESYWQLTGTSWSLIYFVSFYLISILLLLNLIVAFVLEAFFAEMELEKGEEVDIQNPTSGGIKKRRS
MRVRSKGTMVDILLHHMLSNELDGSQNS

>Q6S5H8_Hordeum_vulgare
MSEAQAPLITEEAAERGLASSGSRRLSDGGGGQGSRKYRRRSDALAHGDRYQKAAALVDLAE
DGVGIPEDVLNDTRFGRAMSFYFVYLRLDWLWSLNIFALILLNFLEKPLWCRKDALHACDQR
DMYFLGQLPYFSKTESLIYEGLTLVILVMEILCPLSYEGLNIFWRSTTNKLKILLLFILACDILVFAFS
SQPFRLAPYIRVVFLIMTIRELRMCAITLAGLIGTYLNVLALSLLFLLFASWLAYVTFEDTPQGKTI
FSSYGVTLYQMFVLFTTSNNPDVWVPAYKISRWYSLFFIVYVLLGVYFLTNLILAVIYDSFKEQF
AKQLVQVDAIRKNILQKAFELIDTNTRGYLDREQCISLLNELNKYRSLPKTSREDFELIFAELDRS
GDFKVTSEEFADLCNTIAIKFQKEPPPSYLEKFPFYHSPVCGRLKSFVRSRTFEYIIVFVLLINLVAV
IIETTLDIENSSSQETWQEVEFFLGWIYVAEMALKIFSLGFGAYWMEGQNKFDFVLTWTIFIGE
TLTFAFPSKLPFLSNGEWIRYLLLGRVLRLTRILLQVQRFRVFVATFFTLMSSLMPYLGIVFCILC
MYCSLGLQIFGGIVYAGNPTLEETDLFSNDYLLFNFNDYPSGMVTLFNLLVMGNWQVWMES
YWQLTGSSWSLIYFVSFYLISILLLLNLIVAFVLEAFFAEMELEKGEEVDIQSPTSGGIKKRRSMR
VRSKGTMVDILLHHMLSNELDGSQNS

>ACG26617_Zea_mays
MTEVEAPLITEVEEAEGRGFRGSASAGGARSGLGSGVRGTRQYHRRSDALAYGDRYQKAAAL
VDLAEDGVGIPEDVLNDTRFERAMRFYFVYLRLDWLWSLNLFALILLNFLEKPLWCQKYAPHT
CDQRDLYFLGQLPYLSKTESLIYEALTLVILVLDIFYPLSYEGLNLFWKNSMNKLKVLLLFILACDIL
VFMLSSGPFRVAPYIRVVFLIMTIRELRMCAVTLVGIVGTYLNVLALSLLFLLFASWLAYVTFED
TPQGKTIFTSYGTTLYQMFVLFTTSNNPDVWVPAYKSSRWNALFIVIYVLLGVYFLTNLILAVIY
DSFKEQLAKQLAQMDSIRKSILQKAFDLIDTNGQGYLNKEQCISLLDELNKYRSLPKTSREDFELI
FSELDRSGDFKVTSEEFADLCNTIAIKFQKEPPPSYLEKYLSFYHSPQCERLKSFVRSRLFEYIVVF
VLLVNLIAVVIETTLDIENSSSQKVWQEVEFVFGWIYVVEMALKIFSLGFGAYWMEGQNKFDF
VITWTIFIGETLTFAFPSTLPFLSNGEWIRYLLLGRMLRLTRILLQIRRFRAFVATFFTLMSSLLPYL
GTVFCILCVYCSIGLQFFGGIVYAGNLKLEETDLFGNDYLLFNFNDYPSGMVTLFNLLVMGNW
QVWMESYAHLTGSSWSLVYFISFYLISVLLLLNLIVAFVLEAFFAEMELEKAGEADTQDSTPQG
RNKRRSMRARTKGTMVDILLHHMLSNELDGSQNSD
>NP_567258_Arabidopsis_thaliana

MEDPLIGRDSLGGGGTDRVRRSEAITHGTPFQKAAALVDLAEDGIGLPVEILDQSSFGESARYY
FIFTRLDLIWSLNYFALLFLNFFEQPLWCEKNPKPSCKDRDYYYLGELPYLTNAESIIYEVITLAILL
VHTFFPISYEGSRIFWTSRLNLVKVACVVILFVDVLVDFLYLSPLAFDFLPFRIAPYVRVIIFILSIRE
LRDTLVLLSGMLGTYLNILALWMLFLLFASWIAFVMFEDTQQGLTVFTSYGATLYQMFILFTTS
NNPDVWIPAYKSSRWSSVFFVLYVLIGVYFVTNLILAVVYDSFKEQLAKQVSGMDQMKRRML
EKAFGLIDSDKNGEIDKNQCIKLFEQLTNYRTLPKISKEEFGLIFDELDDTRDFKINKDEFADLCQ
AIALRFQKEEVPSLFEHFPQIYHSALSQQLRAFVRSPNFGYAISFILIINFIAVVVETTLDIEESSAQ
KPWQVAEFVFGWIYVLEMALKIYTYGFENYWREGANRFDFLVTWVIVIGETATFITPDENTFF
SNGEWIRYLLLARMLRLIRLLMNVQRYRAFIATFITLIPSLMPYLGTIFCVLCIYCSIGVQVFGGL
VNAGNKKLFETELAEDDYLLFNFNDYPNGMVTLFNLLVMGNWQVWMESYKDLTGTWWSI
TYFVSFYVITILLLLNLVVAFVLEAFFTELDLEEEEKCQGQDSQEKRNRRRSAGSKSRSQRVDTLL
HHMLGDELSKPECSTSDT

2- En el motor de búsqueda de su elección escriba la palabra Clustal o si lo prefiere


ingrese a este link: https://www.ebi.ac.uk/Tools/msa/clustalo/

3- Seleccione la opción clustal omega, en la página encontrara lo siguiente.


4- En la página encontrara una primera opción en la cual debe seleccionar el tipo de
secuencias que va a introducir para el análisis (nucleótidos o proteínas).

5- Ingrese en el espacio en blanco las secuencias que desea analizar, step 1.

6- En la sección output format “formato de salida” seleccione la opción clustalw with


character counts, step 2.

7- seleccione la opción ‘Submit your job” para que el análisis inicie, Step3
8- En la sección de resultados encontrará.
9- Al revisar la sección de aligments note que encontrará las secuencias agrupadas
de acuerdo a su parecido, revise todo el resultado.
10- El algoritmo usa los siguientes símbolos en los resultados que se despliegan:
a. El símbolo “*” para identificar un aminoácido o base nitrogenada que sea
igual en todas las secuencias.
b. El símbolo “-“ para mostrar la no similaridad en una posición especifica.
c. El símbolo “:” existe una conservación fuerte de ese residuo.
d. El símbolo “.” existe una conservación débil de ese residuo.
e. Espacio” ( )” no hay coincidencia.
11- Seleccione la opción “Show colors”, encontrará con colores las aminoácidos o
bases nitrogenadas comunes en una posición.
12- Seleccione la “Guide tree”, encontrará un árbol de agrupación por similaridad de
las secuencias, en las ramas del árbol se muestran las secuencias cercanas.
13- Seleccione la “Results summary”, encontrará el resumen de todos los resultados a
través de hiperlinks.

Preguntas
1- ¿Qué diferencia existe entre el guide tree y el phyogentic tree?
Guide tree es un conjunto rápido de comparaciones de secuencias para crear un
agrupamiento jerárquico de estas mismas, mientras que phyogentic tree es una
representación acerca de las relaciones evolutivas entre un grupo de organismos,
además, puede construirse con las características morfológicas, bioquímicas,
conductuales o moleculares de las especies u otros grupos de estos mismos. [5][6]

2- ¿Qué es un dominio proteico?


Un dominio proteico es la zona de la proteína donde se halla mayor densidad, es
decir, donde hay más plegamientos. Una cadena polipeptídica puede tener uno o
más dominios. Si una proteína está formada por más de una cadena polipeptídica,
los dominios de cada cadena de polipéptidos son sus dominios. Inclusive una
proteína formada por más de una cadena polipeptídica puede tener un solo
dominio, compartido por las cadenas de polipéptidos. Un dominio de proteína se
autoestabiliza y se pliega independientemente del resto. Cada dominio forma una
estructura tridimensional plegada compacta. Muchas proteínas constan de varios
dominios. Un dominio puede aparecer en una variedad de proteínas diferentes. La
evolución molecular usa dominios como bloques de construcción y estos pueden
recombinarse en diferentes arreglos para crear proteínas con diferentes funciones.
En general, los dominios varían en longitud desde aproximadamente 50
aminoácidos hasta 250 aminoácidos. [7]

3- ¿Cómo identificar un dominio en un alineamiento?


4- Descargue las siguientes secuencias y realice un alineamiento tipo clustal
Secuencias, Gene id:
a. 947170
>NC_000913.3:c2823769-2822708 Escherichia coli str. K-12 substr.
MG1655, complete genome
ATGGCTATCGACGAAAACAAACAGAAAGCGTTGGCGGCAGCACTGGGCCAGATT
GAGAAACAATTTGGTAAAGGCTCCATCATGCGCCTGGGTGAAGACCGTTCCATG
GATGTGGAAACCATCTCTACCGGTTCGCTTTCACTGGATATCGCGCTTGGGGCAG
GTGGTCTGCCGATGGGCCGTATCGTCGAAATCTACGGACCGGAATCTTCCGGTA
AAACCACGCTGACGCTGCAGGTGATCGCCGCAGCGCAGCGTGAAGGTAAAACCT
GTGCGTTTATCGATGCTGAACACGCGCTGGACCCAATCTACGCACGTAAACTGG
GCGTCGATATCGACAACCTGCTGTGCTCCCAGCCGGACACCGGCGAGCAGGCAC
TGGAAATCTGTGACGCCCTGGCGCGTTCTGGCGCAGTAGACGTTATCGTCGTTGA
CTCCGTGGCGGCACTGACGCCGAAAGCGGAAATCGAAGGCGAAATCGGCGACT
CTCACATGGGCCTTGCGGCACGTATGATGAGCCAGGCGATGCGTAAGCTGGCGG
GTAACCTGAAGCAGTCCAACACGCTGCTGATCTTCATCAACCAGATCCGTATGAA
AATTGGTGTGATGTTCGGTAACCCGGAAACCACTACCGGTGGTAACGCGCTGAA
ATTCTACGCCTCTGTTCGTCTCGACATCCGTCGTATCGGCGCGGTGAAAGAGGGC
GAAAACGTGGTGGGTAGCGAAACCCGCGTGAAAGTGGTGAAGAACAAAATCGC
TGCGCCGTTTAAACAGGCTGAATTCCAGATCCTCTACGGCGAAGGTATCAACTTC
TACGGCGAACTGGTTGACCTGGGCGTAAAAGAGAAGCTGATCGAGAAAGCAGG
CGCGTGGTACAGCTACAAAGGTGAGAAGATCGGTCAGGGTAAAGCGAATGCGA
CTGCCTGGCTGAAAGATAACCCGGAAACCGCGAAAGAGATCGAGAAGAAAGTA
CGTGAGTTGCTGCTGAGCAACCCGAACTCAACGCCGGATTTCTCTGTAGATGATA
GCGAAGGCGTAGCAGAAACTAACGAAGATTTTTAA

b. 944922
>NC_000913.3:250898-251953 Escherichia coli str. K-12 substr. MG1655,
complete genome
ATGCGTAAAATCATTCATGTGGATATGGACTGCTTTTTCGCCGCAGTGGAGATGC
GCGACAATCCCGCCCTGCGCGATATCCCTATTGCTATTGGCGGCAGCCGCGAACG
TCGGGGGGTGATCAGCACCGCCAATTATCCCGCGCGTAAATTTGGCGTACGTAG
CGCTATGCCGACAGGGATGGCGCTCAAATTATGCCCACATCTCACCTTGCTTCCG
GGGCGCTTTGACGCCTACAAAGAAGCCTCAAATCATATCCGTGAAATCTTCTCGC
GCTACACCTCGCGCATTGAACCGTTGTCACTGGATGAGGCTTATCTCGATGTCAC
CGATAGCGTCCATTGCCACGGTTCTGCGACCCTCATCGCCCAGGAAATCCGCCAG
ACAATCTTCAACGAGCTGCAACTGACGGCGTCTGCGGGCGTGGCACCAGTAAAG
TTTCTCGCCAAAATCGCCTCCGACATGAATAAACCCAACGGCCAGTTTGTGATTAC
GCCGGCAGAAGTTCCGGCATTTTTACAAACCTTACCGCTGGCAAAAATCCCCGGC
GTCGGCAAAGTCTCAGCGGCAAAACTGGAAGCGATGGGGCTGCGGACCTGCGG
TGATGTACAAAAGTGTGATCTGGTGATGCTGCTTAAACGCTTTGGCAAATTTGGC
CGCATTTTGTGGGAGCGTAGTCAGGGGATTGACGAACGCGATGTTAACAGCGAA
CGGTTGCGAAAATCCGTCGGCGTGGAACGCACGATGGCGGAAGATATTCATCAC
TGGTCTGAATGTGAAGCGATTATCGAGCGGCTGTATCCGGAACTTGAACGCCGT
CTGGCAAAGGTAAAACCTGATTTACTGATTGCTCGCCAGGGGGTGAAATTAAAG
TTCGACGATTTTCAGCAAACCACCCAGGAGCACGTCTGGCCGCGGCTGAATAAA
GCTGATCTAATCGCCACCGCGCGTAAAACCTGGGATGAACGCCGCGGCGGGCG
CGGTGTGCGTCTGGTGGGGCTGCATGTGACGTTGCTTGACCCGCAAATGGAAAG
ACAACTGGTGCTGGGATTATGA

c. 948356
>NC_000913.3:4046966-4049752 Escherichia coli str. K-12 substr. MG1655,
complete genome
ATGGTTCAGATCCCCCAAAATCCACTTATCCTTGTAGATGGTTCATCTTATCTTTAT
CGCGCATATCACGCGTTTCCCCCGCTGACTAACAGCGCAGGCGAGCCGACCGGT
GCGATGTATGGTGTCCTCAACATGCTGCGCAGTCTGATCATGCAATATAAACCGA
CGCATGCAGCGGTGGTCTTTGACGCCAAGGGAAAAACCTTTCGTGATGAACTGT
TTGAACATTACAAATCACATCGCCCGCCAATGCCGGACGATCTGCGTGCACAAAT
CGAACCCTTGCACGCGATGGTTAAAGCGATGGGACTGCCGCTGCTGGCGGTTTC
TGGCGTAGAAGCGGACGACGTTATCGGTACTCTGGCGCGCGAAGCCGAAAAAG
CCGGGCGTCCGGTGCTGATCAGCACTGGCGATAAAGATATGGCGCAGCTGGTGA
CGCCAAATATTACGCTTATCAATACCATGACGAATACCATCCTCGGACCGGAAG
AGGTGGTGAATAAGTACGGCGTGCCGCCAGAACTGATCATCGATTTCCTGGCGC
TGATGGGTGACTCCTCTGATAACATTCCTGGCGTACCGGGCGTCGGTGAAAAAA
CCGCGCAGGCATTGCTGCAAGGTCTTGGCGGACTGGATACGCTGTATGCCGAGC
CAGAAAAAATTGCTGGGTTGAGCTTCCGTGGCGCGAAAACAATGGCAGCGAAGC
TCGAGCAAAACAAAGAAGTTGCTTATCTCTCATACCAGCTGGCGACGATTAAAAC
CGACGTTGAACTGGAGCTGACCTGTGAACAACTGGAAGTGCAGCAACCGGCAGC
GGAAGAGTTGTTGGGGCTGTTCAAAAAGTATGAGTTCAAACGCTGGACTGCTGA
TGTCGAAGCGGGCAAATGGTTACAGGCCAAAGGGGCAAAACCAGCCGCGAAGC
CACAGGAAACCAGTGTTGCAGACGAAGCACCAGAAGTGACGGCAACGGTGATTT
CTTATGACAACTACGTCACCATCCTTGATGAAGAAACACTGAAAGCGTGGATTGC
GAAGCTGGAAAAAGCGCCGGTATTTGCATTTGATACCGAAACCGACAGCCTTGA
TAACATCTCTGCTAACCTGGTCGGGCTTTCTTTTGCTATCGAGCCAGGCGTAGCG
GCATATATTCCGGTTGCTCATGATTATCTTGATGCGCCCGATCAAATCTCTCGCGA
GCGTGCACTCGAGTTGCTAAAACCGCTGCTGGAAGATGAAAAGGCGCTGAAGGT
CGGGCAAAACCTGAAATACGATCGCGGTATTCTGGCGAACTACGGCATTGAACT
GCGTGGGATTGCGTTTGATACCATGCTGGAGTCCTACATTCTCAATAGCGTTGCC
GGGCGTCACGATATGGACAGCCTCGCGGAACGTTGGTTGAAGCACAAAACCATC
ACTTTTGAAGAGATTGCTGGTAAAGGCAAAAATCAACTGACCTTTAACCAGATTG
CCCTCGAAGAAGCCGGACGTTACGCCGCCGAAGATGCAGATGTCACCTTGCAGT
TGCATCTGAAAATGTGGCCGGATCTGCAAAAACACAAAGGGCCGTTGAACGTCT
TCGAGAATATCGAAATGCCGCTGGTGCCGGTGCTTTCACGCATTGAACGTAACG
GTGTGAAGATCGATCCGAAAGTGCTGCACAATCATTCTGAAGAGCTCACCCTTCG
TCTGGCTGAGCTGGAAAAGAAAGCGCATGAAATTGCAGGTGAGGAATTTAACCT
TTCTTCCACCAAGCAGTTACAAACCATTCTCTTTGAAAAACAGGGCATTAAACCGC
TGAAGAAAACGCCGGGTGGCGCGCCGTCAACGTCGGAAGAGGTACTGGAAGAA
CTGGCGCTGGACTATCCGTTGCCAAAAGTGATTCTGGAGTATCGTGGTCTGGCG
AAGCTGAAATCGACCTACACCGACAAGCTGCCGCTGATGATCAACCCGAAAACC
GGGCGTGTGCATACCTCTTATCACCAGGCAGTAACTGCAACGGGACGTTTATCGT
CAACCGATCCTAACCTGCAAAACATTCCGGTGCGTAACGAAGAAGGTCGTCGTAT
CCGCCAGGCGTTTATTGCGCCAGAGGATTATGTGATTGTCTCAGCGGACTACTCG
CAGATTGAACTGCGCATTATGGCGCATCTTTCGCGTGACAAAGGCTTGCTGACCG
CATTCGCGGAAGGAAAAGATATCCACCGGGCAACGGCGGCAGAAGTGTTTGGTT
TGCCACTGGAAACCGTCACCAGCGAGCAACGCCGTAGCGCGAAAGCGATCAACT
TTGGTCTGATTTATGGCATGAGTGCTTTCGGTCTGGCGCGGCAATTGAACATTCC
ACGTAAAGAAGCGCAGAAGTACATGGACCTTTACTTCGAACGCTACCCTGGCGT
GCTGGAGTATATGGAACGCACCCGTGCTCAGGCGAAAGAGCAGGGCTACGTTG
AAACGCTGGACGGACGCCGTCTGTATCTGCCGGATATCAAATCCAGCAATGGTG
CTCGTCGTGCAGCGGCTGAACGTGCAGCCATTAACGCGCCAATGCAGGGAACCG
CCGCCGACATTATCAAACGGGCGATGATTGCCGTTGATGCGTGGTTACAGGCTG
AGCAACCGCGTGTACGTATGATCATGCAGGTACACGATGAACTGGTATTTGAAG
TTCATAAAGATGATGTTGATGCCGTCGCGAAGCAGATTCATCAACTGATGGAAAA
CTGTACCCGTCTGGATGTGCCGTTGCTGGTGGAAGTGGGGAGTGGCGAAAACTG
GGATCAGGCGCACTAA

d. 944877
>NC_000913.3:205126-208608 Escherichia coli str. K-12 substr. MG1655,
complete genome
ATGTCTGAACCACGTTTCGTACACCTGCGGGTGCACAGCGACTACTCGATGATCG
ATGGCCTGGCCAAAACCGCACCGTTGGTAAAAAAGGCGGCGGCGTTGGGTATG
CCAGCACTGGCGATCACCGATTTCACCAACCTTTGTGGTCTGGTGAAGTTCTACG
GAGCGGGACATGGCGCAGGGATTAAGCCTATCGTCGGGGCAGATTTTAACGTCC
AGTGCGACCTGCTGGGTGATGAGTTAACCCACCTGACGGTACTGGCGGCGAACA
ATACCGGCTATCAGAATCTGACGTTGCTGATCTCAAAAGCGTATCAGCGCGGGTA
CGGTGCCGCCGGGCCGATCATCGATCGCGACTGGCTTATCGAATTAAACGAAGG
GTTGATCCTTCTTTCCGGCGGACGCATGGGCGACGTCGGACGCAGTCTTTTGCGT
GGTAACAGCGCGCTGGTAGATGAGTGTGTCGCGTTTTATGAAGAACACTTCCCG
GATCGCTATTTTCTCGAGCTGATCCGCACCGGCAGGCCGGATGAAGAAAGCTAT
CTGCACGCGGCGGTGGAACTGGCGGAAGCGCGCGGTTTGCCCGTCGTGGCGAC
CAACGACGTGCGCTTTATCGACAGCAGCGACTTTGACGCACACGAAATCCGCGTC
GCGATCCACGACGGCTTTACCCTCGACGATCCTAAACGCCCGCGTAACTATTCGC
CGCAGCAATATATGCGTAGCGAAGAGGAGATGTGTGAGCTGTTTGCCGACATCC
CCGAAGCCCTTGCCAACACCGTTGAGATCGCCAAACGCTGTAACGTAACCGTGCG
TCTTGGTGAATACTTCCTGCCGCAGTTCCCGACCGGGGACATGAGCACCGAAGAT
TATCTGGTCAAGCGTGCAAAAGAGGGCCTGGAAGAGCGTCTGGCCTTTTTATTCC
CTGATGAGGAAGAACGTCTTAAGCGCCGCCCGGAATATGACGAACGTCTGGAGA
CTGAACTTCAGGTTATCAACCAGATGGGCTTCCCGGGCTACTTCCTCATCGTTATG
GAATTTATCCAGTGGTCGAAAGATAACGGCGTACCGGTAGGGCCAGGCCGTGGC
TCCGGTGCGGGTTCACTGGTGGCCTACGCGCTGAAAATCACCGACCTCGATCCGC
TGGAATTTGACCTGCTGTTCGAACGTTTCCTTAACCCGGAACGTGTCTCCATGCCT
GACTTCGACGTTGACTTCTGTATGGAGAAACGCGATCAGGTTATCGAGCACGTA
GCGGACATGTACGGTCGTGATGCGGTATCGCAGATCATCACCTTCGGTACAATG
GCGGCGAAAGCGGTGATCCGCGACGTAGGCCGCGTGCTGGGGCATCCGTACGG
CTTTGTCGATCGTATCTCGAAACTGATCCCGCCCGATCCGGGGATGACGCTGGCG
AAAGCGTTTGAAGCCGAGCCGCAGCTGCCGGAAATCTACGAAGCGGATGAAGA
AGTTAAGGCGCTGATCGACATGGCGCGCAAACTGGAAGGGGTCACCCGTAACGC
CGGTAAGCACGCCGGTGGGGTGGTTATCGCGCCGACCAAAATTACCGATTTTGC
GCCGCTTTACTGCGATGAAGAGGGCAAACATCCGGTCACCCAGTTTGATAAAAG
CGACGTTGAATACGCCGGACTGGTGAAGTTCGACTTCCTTGGTTTGCGTACGCTC
ACCATCATCAACTGGGCGCTGGAGATGATCAACAAGCGGCGGGCGAAGAATGG
CGAGCCGCCGCTGGATATCGCTGCGATCCCGCTGGATGATAAGAAAAGCTTCGA
CATGCTGCAACGCTCGGAAACCACGGCGGTATTCCAGCTTGAATCGCGCGGCAT
GAAGGACCTGATCAAGCGTCTACAACCTGACTGCTTCGAAGATATGATCGCCCTA
GTGGCACTGTTCCGCCCCGGTCCGTTGCAATCAGGGATGGTGGATAACTTTATCG
ACCGTAAACATGGTCGTGAAGAGATCTCCTATCCGGACGTACAGTGGCAGCATG
AAAGCCTGAAACCGGTACTGGAGCCAACCTACGGCATTATCCTGTATCAGGAAC
AGGTCATGCAGATTGCGCAGGTGCTTTCTGGTTATACCCTCGGTGGCGCGGATAT
GCTGCGTCGTGCGATGGGTAAGAAAAAGCCGGAAGAGATGGCTAAGCAACGTT
CTGTATTTGCTGAAGGTGCAGAAAAGAACGGAATCAACGCTGAACTGGCGATGA
AAATCTTCGACCTGGTGGAGAAATTCGCTGGTTACGGATTTAACAAATCGCACTC
TGCGGCCTATGCTTTGGTGTCATATCAAACGTTATGGCTGAAAGCGCACTATCCT
GCGGAGTTTATGGCGGCGGTAATGACCGCCGATATGGACAACACCGAGAAGGT
GGTGGGTCTGGTGGATGAGTGCTGGCGGATGGGGCTGAAAATCCTGCCACCAG
ATATAAACTCCGGTCTTTACCATTTCCACGTCAACGACGACGGCGAAATCGTGTA
TGGTATTGGCGCGATCAAAGGGGTCGGTGAAGGTCCGATTGAGGCCATCATCGA
AGCCCGTAATAAAGGCGGCTACTTCCGCGAACTGTTTGATCTCTGCGCCCGTACC
GACACCAAAAAGTTGAACCGTCGCGTGCTGGAAAAACTGATCATGTCCGGGGCG
TTTGACCGTCTTGGGCCACATCGCGCAGCGCTGATGAACTCGCTGGGCGATGCG
TTAAAAGCGGCAGATCAACACGCGAAAGCGGAAGCTATCGGTCAGGCCGATATG
TTCGGCGTGCTGGCCGAAGAGCCGGAACAAATTGAACAATCCTACGCCAGCTGC
CAACCGTGGCCGGAGCAGGTGGTATTAGATGGGGAACGTGAAACGTTAGGCCT
GTACCTGACCGGACACCCTATCAACCAGTATTTAAAAGAGATTGAGCGTTATGTC
GGAGGCGTAAGGCTGAAAGACATGCACCCGACAGAACGTGGTAAAGTCATCAC
GGCTGCGGGGCTCGTTGTTGCCGCGCGGGTTATGGTCACCAAGCGCGGCAATCG
TATCGGTATCTGCACGCTGGATGACCGTTCCGGGCGGCTGGAAGTGATGTTGTTT
ACTGACGCCCTGGATAAATACCAGCAATTGCTGGAAAAAGACCGCATACTTATCG
TCAGCGGACAGGTCAGCTTTGATGACTTCAGCGGTGGGCTTAAAATGACCGCTC
GCGAAGTGATGGATATTGACGAAGCCCGGGAAAAATATGCTCGCGGGCTTGCTA
TCTCGCTGACGGACAGGCAAATTGATGACCAGCTTTTAAACCGACTCCGTCAGTC
TCTGGAACCCCACCGCTCTGGGACAATTCCAGTACATCTCTACTATCAGAGGGCG
GATGCACGCGCGCGGTTGCGTTTTGGCGCGACGTGGCGTGTCTCTCCGAGCGAT
CGTTTATTAAACGATCTCCGTGGCCTCATTGGTTCGGAGCAGGTGGAACTGGAGT
TTGACTAA

De acuerdo a los resultados responda:


 Existen regiones comunes entre las secuencias.
Al analizar los resultados Crustal , de las secuencias, podemos ver que hay
muy pocas regiones comunes entre ellas, para sustentar lo anterior, se
presentan los bloques donde hay alguna coincidencia entre las secuencias.
 De acuerdo a los resultados, ¿como agruparía según su similaridad las
secuencias?
Teniendo en cuenta que por las pocas similaridades entre las secuencias, las
agruparía por medio de un Guide Tree, el cual se muestra a continuación

5- Realice el mismo procedimiento para el siguiente grupo de proteínas de origen


viral, para esto descargue las siguientes secuencias ingresando al NCBI, sección
Protein.
a. YP_009825051.1
>NC_004718.3:21492-25259 SARS coronavirus Tor2, complete genome
ATGTTTATTTTCTTATTATTTCTTACTCTCACTAGTGGTAGTGACCTTGACCGGTGCACC
ACTTTTGATGATGTTCAAGCTCCTAATTACACTCAACATACTTCATCTATGAGGGGGG
TTTACTATCCTGATGAAATTTTTAGATCAGACACTCTTTATTTAACTCAGGATTTATTTC
TTCCATTTTATTCTAATGTTACAGGGTTTCATACTATTAATCATACGTTTGGCAACCCTG
TCATACCTTTTAAGGATGGTATTTATTTTGCTGCCACAGAGAAATCAAATGTTGTCCGT
GGTTGGGTTTTTGGTTCTACCATGAACAACAAGTCACAGTCGGTGATTATTATTAACA
ATTCTACTAATGTTGTTATACGAGCATGTAACTTTGAATTGTGTGACAACCCTTTCTTT
GCTGTTTCTAAACCCATGGGTACACAGACACATACTATGATATTCGATAATGCATTTA
ATTGCACTTTCGAGTACATATCTGATGCCTTTTCGCTTGATGTTTCAGAAAAGTCAGGT
AATTTTAAACACTTACGAGAGTTTGTGTTTAAAAATAAAGATGGGTTTCTCTATGTTTA
TAAGGGCTATCAACCTATAGATGTAGTTCGTGATCTACCTTCTGGTTTTAACACTTTGA
AACCTATTTTTAAGTTGCCTCTTGGTATTAACATTACAAATTTTAGAGCCATTCTTACA
GCCTTTTCACCTGCTCAAGACATTTGGGGCACGTCAGCTGCAGCCTATTTTGTTGGCT
ATTTAAAGCCAACTACATTTATGCTCAAGTATGATGAAAATGGTACAATCACAGATGC
TGTTGATTGTTCTCAAAATCCACTTGCTGAACTCAAATGCTCTGTTAAGAGCTTTGAGA
TTGACAAAGGAATTTACCAGACCTCTAATTTCAGGGTTGTTCCCTCAGGAGATGTTGT
GAGATTCCCTAATATTACAAACTTGTGTCCTTTTGGAGAGGTTTTTAATGCTACTAAAT
TCCCTTCTGTCTATGCATGGGAGAGAAAAAAAATTTCTAATTGTGTTGCTGATTACTCT
GTGCTCTACAACTCAACATTTTTTTCAACCTTTAAGTGCTATGGCGTTTCTGCCACTAA
GTGAATGATCTTTGCTTCTCCAATGTCTATGCAGATTCTTTTGTAGTCAAGGGAGATG
ATGTAAGACAAATAGCGCCAGGACAAACTGGTGTTATTGCTGATTATAATTATAAATT
GCCAGATGATTTCATGGGTTGTGTCCTTGCTTGGAATACTAGGAACATTGATGCTACT
TCAACTGGTAATTATAATTATAAATATAGGTATCTTAGACATGGCAAGCTTAGGCCCT
TTGAGAGAGACATATCTAATGTGCCTTTCTCCCCTGATGGCAAACCTTGCACCCCACC
TGCTCTTAATTGTTATTGGCCATTAAATGATTATGGTTTTTACACCACTACTGGCATTG
GCTACCAACCTTACAGAGTTGTAGTACTTTCTTTTGAACTTTTAAATGCACCGGCCACG
GTTTGTGGACCAAAATTATCCACTGACCTTATTAAGAACCAGTGTGTCAATTTTAATTT
TAATGGACTCACTGGTACTGGTGTGTTAACTCCTTCTTCAAAGAGATTTCAACCATTTC
AACAATTTGGCCGTGATGTTTCTGATTTCACTGATTCCGTTCGAGATCCTAAAACATCT
GAAATATTAGACATTTCACCTTGCGCTTTTGGGGGTGTAAGTGTAATTACACCTGGAA
CAAATGCTTCATCTGAAGTTGCTGTTCTATATCAAGATGTTAACTGCACTGATGTTTC
TACAGCAATTCATGCAGATCAACTCACACCAGCTTGGCGCATATATTCTACTGGAAAC
AATGTATTCCAGACTCAAGCAGGCTGTCTTATAGGAGCTGAGCATGTCGACACTTCTT
ATGAGTGCGACATTCCTATTGGAGCTGGCATTTGTGCTAGTTACCATACAGTTTCTTTA
TTACGTAGTACTAGCCAAAAATCTATTGTGGCTTATACTATGTCTTTAGGTGCTGATA
GTTCAATTGCTTACTCTAATAACACCATTGCTATACCTACTAACTTTTCAATTAGCATTA
CTACAGAAGTAATGCCTGTTTCTATGGCTAAAACCTCCGTAGATTGTAATATGTACAT
CTGCGGAGATTCTACTGAATGTGCTAATTTGCTTCTCCAATATGGTAGCTTTTGCACAC
AACTAAATCGTGCACTCTCAGGTATTGCTGCTGAACAGGATCGCAACACACGTGAAG
TGTTCGCTCAAGTCAAACAAATGTACAAAACCCCAACTTTGAAATATTTTGGTGGTTTT
AATTTTTCACAAATATTACCTGACCCTCTAAAGCCAACTAAGAGGTCTTTTATTGAGGA
CTTGCTCTTTAATAAGGTGACACTCGCTGATGCTGGCTTCATGAAGCAATATGGCGAA
TGCCTAGGTGATATTAATGCTAGAGATCTCATTTGTGCGCAGAAGTTCAATGGACTTA
CAGTGTTGCCACCTCTGCTCACTGATGATATGATTGCTGCCTACACTGCTGCTCTAGTT
AGTGGTACTGCCACTGCTGGATGGACATTTGGTGCTGGCGCTGCTCTTCAAATACCTT
TTGCTATGCAAATGGCATATAGGTTCAATGGCATTGGAGTTACCCAAAATGTTCTCTA
TGAGAACCAAAAACAAATCGCCAACCAATTTAACAAGGCGATTAGTCAAATTCAAGA
ATCACTTACAACAACATCAACTGCATTGGGCAAGCTGCAAGACGTTGTTAACCAGAAT
GCTCAAGCATTAAACACACTTGTTAAACAACTTAGCTCTAATTTTGGTGCAATTTCAAG
TGTGCTAAATGATATCCTTTCGCGACTTGATAAAGTCGAGGCGGAGGTACAAATTGA
CAGGTTAATTACAGGCAGACTTCAAAGCCTTCAAACCTATGTAACACAACAACTAATC
AGGGCTGCTGAAATCAGGGCTTCTGCTAATCTTGCTGCTACTAAAATGTCTGAGTGTG
TTCTTGGACAATCAAAAAGAGTTGACTTTTGTGGAAAGGGCTACCACCTTATGTCCTT
CCCACAAGCAGCCCCGCATGGTGTTGTCTTCCTACATGTCACGTATGTGCCATCCCAG
GAGAGGAACTTCACCACAGCGCCAGCAATTTGTCATGAAGGCAAAGCATACTTCCCT
CGTGAAGGTGTTTTTGTGTTTAATGGCACTTCTTGGTTTATTACACAGAGGAACTTCTT
TTCTCCACAAATAATTACTACAGACAATACATTTGTCTCAGGAAATTGTGATGTCGTTA
TTGGCATCATTAACAACACAGTTTATGATCCTCTGCAACCTGAGCTTGACTCATTCAAA
GAAGAGCTGGACAAGTACTTCAAAAATCATACATCACCAGATGTTGATCTTGGCGAC
ATTTCAGGCATTAACGCTTCTGTCGTCAACATTCAAAAAGAAATTGACCGCCTCAATG
AGGTCGCTAAAAATTTAAATGAATCACTCATTGACCTTCAAGAATTGGGAAAATATGA
GCAATATATTAAATGGCCTTGGTATGTTTGGCTCGGCTTCATTGCTGGACTAATTGCC
ATCGTCATGGTTACAATCTTGCTTTGTTGCATGACTAGTTGTTGCAGTTGCCTCAAGG
GTGCATGCTCTTGTGGTTCTTGCTGCAAGTTTGATGAGGATGACTCTGAGCCAGTTCT
CAAGGGTGTCAAATTACATTACACATAA

b. YP_009047204.1
>NC_019843.3:21456-25517 Middle East respiratory syndrome-related
coronavirus isolate HCoV-EMC/2012, complete genome
ATGATACACTCAGTGTTTCTACTGATGTTCTTGTTAACACCTACAGAAAGTTACGTTGA
TGTAGGGCCAGATTCTGTTAAGTCTGCTTGTATTGAGGTTGATATACAACAGACTTTC
TTTGATAAAACTTGGCCTAGGCCAATTGATGTTTCTAAGGCTGACGGTATTATATACC
CTCAAGGCCGTACATATTCTAACATAACTATCACTTATCAAGGTCTTTTTCCCTATCAG
GGAGACCATGGTGATATGTATGTTTACTCTGCAGGACATGCTACAGGCACAACTCCA
CAAAAGTTGTTTGTAGCTAACTATTCTCAGGACGTCAAACAGTTTGCTAATGGGTTTG
TCGTCCGTATAGGAGCAGCTGCCAATTCCACTGGCACTGTTATTATTAGCCCATCTAC
CAGCGCTACTATACGAAAAATTTACCCTGCTTTTATGCTGGGTTCTTCAGTTGGTAATT
TCTCAGATGGTAAAATGGGCCGCTTCTTCAATCATACTCTAGTTCTTTTGCCCGATGGA
TGTGGCACTTTACTTAGAGCTTTTTATTGTATTCTAGAGCCTCGCTCTGGAAATCATTG
TCCTGCTGGCAATTCCTATACTTCTTTTGCCACTTATCACACTCCTGCAACAGATTGTTC
TGATGGCAATTACAATCGTAATGCCAGTCTGAACTCTTTTAAGGAGTATTTTAATTTAC
GTAACTGCACCTTTATGTACACTTATAACATTACCGAAGATGAGATTTTAGAGTGGTT
TGGCATTACACAAACTGCTCAAGGTGTTCACCTCTTCTCATCTCGGTATGTTGATTTGT
ACGGCGGCAATATGTTTCAATTTGCCACCTTGCCTGTTTATGATACTATTAAGTATTAT
TCTATCATTCCTCACAGTATTCGTTCTATCCAAAGTGATAGAAAAGCTTGGGCTGCCTT
CTACGTATATAAACTTCAACCGTTAACTTTCCTGTTGGATTTTTCTGTTGATGGTTATAT
ACGCAGAGCTATAGACTGTGGTTTTAATGATTTGTCACAACTCCACTGCTCATATGAA
TCCTTCGATGTTGAATCTGGAGTTTATTCAGTTTCGTCTTTCGAAGCAAAACCTTCTGG
CTCAGTTGTGGAACAGGCTGAAGGTGTTGAATGTGATTTTTCACCTCTTCTGTCTGGC
ACACCTCCTCAGGTTTATAATTTCAAGCGTTTGGTTTTTACCAATTGCAATTATAATCTT
ACCAAATTGCTTTCACTTTTTTCTGTGAATGATTTTACTTGTAGTCAAATATCTCCAGCA
GCAATTGCTAGCAACTGTTATTCTTCACTGATTTTGGATTACTTTTCATACCCACTTAGT
ATGAAATCCGATCTCAGTGTTAGTTCTGCTGGTCCAATATCCCAGTTTAATTATAAACA
GTCCTTTTCTAATCCCACATGTTTGATTTTAGCGACTGTTCCTCATAACCTTACTACTAT
TACTAAGCCTCTTAAGTACAGCTATATTAACAAGTGCTCTCGTCTTCTTTCTGATGATC
GTACTGAAGTACCTCAGTTAGTGAACGCTAATCAATACTCACCCTGTGTATCCATTGT
CCCATCCACTGTGTGGGAAGACGGTGATTATTATAGGAAACAACTATCTCCACTTGAA
GGTGGTGGCTGGCTTGTTGCTAGTGGCTCAACTGTTGCCATGACTGAGCAATTACAG
ATGGGCTTTGGTATTACAGTTCAATATGGTACAGACACCAATAGTGTTTGCCCCAAGC
TTGAATTTGCTAATGACACAAAAATTGCCTCTCAATTAGGCAATTGCGTGGAATATTC
CCTCTATGGTGTTTCGGGCCGTGGTGTTTTTCAGAATTGCACAGCTGTAGGTGTTCGA
CAGCAGCGCTTTGTTTATGATGCGTACCAGAATTTAGTTGGCTATTATTCTGATGATG
GCAACTACTACTGTTTGCGTGCTTGTGTTAGTGTTCCTGTTTCTGTCATCTATGATAAA
GAAACTAAAACCCACGCTACTCTATTTGGTAGTGTTGCATGTGAACACATTTCTTCTAC
CATGTCTCAATACTCCCGTTCTACGCGATCAATGCTTAAACGGCGAGATTCTACATAT
GGCCCCCTTCAGACACCTGTTGGTTGTGTCCTAGGACTTGTTAATTCCTCTTTGTTCGT
AGAGGACTGCAAGTTGCCTCTTGGTCAATCTCTCTGTGCTCTTCCTGACACACCTAGT
ACTCTCACACCTCGCAGTGTGCGCTCTGTTCCAGGTGAAATGCGCTTGGCATCCATTG
CTTTTAATCATCCTATTCAGGTTGATCAACTTAATAGTAGTTATTTTAAATTAAGTATAC
CCACTAATTTTTCCTTTGGTGTGACTCAGGAGTACATTCAGACAACCATTCAGAAAGT
TACTGTTGATTGTAAACAGTACGTTTGCAATGGTTTCCAGAAGTGTGAGCAATTACTG
CGCGAGTATGGCCAGTTTTGTTCCAAAATAAACCAGGCTCTCCATGGTGCCAATTTAC
GCCAGGATGATTCTGTACGTAATTTGTTTGCGAGCGTGAAAAGCTCTCAATCATCTCC
TATCATACCAGGTTTTGGAGGTGACTTTAATTTGACACTTCTAGAACCTGTTTCTATAT
CTACTGGCAGTCGTAGTGCACGTAGTGCTATTGAGGATTTGCTATTTGACAAAGTCAC
TATAGCTGATCCTGGTTATATGCAAGGTTACGATGATTGCATGCAGCAAGGTCCAGC
ATCAGCTCGTGATCTTATTTGTGCTCAATATGTGGCTGGTTACAAAGTATTACCTCCTC
TTATGGATGTTAATATGGAAGCCGCGTATACTTCATCTTTGCTTGGCAGCATAGCAGG
TGTTGGCTGGACTGCTGGCTTATCCTCCTTTGCTGCTATTCCATTTGCACAGAGTATCT
TTTATAGGTTAAACGGTGTTGGCATTACTCAACAGGTTCTTTCAGAGAACCAAAAGCT
TATTGCCAATAAGTTTAATCAGGCTCTGGGAGCTATGCAAACAGGCTTCACTACAACT
AATGAAGCTTTTCAGAAGGTTCAGGATGCTGTGAACAACAATGCACAGGCTCTATCC
AAATTAGCTAGCGAGCTATCTAATACTTTTGGTGCTATTTCCGCCTCTATTGGAGACAT
CATACAACGTCTTGATGTTCTCGAACAGGACGCCCAAATAGACAGACTTATTAATGGC
CGTTTGACAACACTAAATGCTTTTGTTGCACAGCAGCTTGTTCGTTCCGAATCAGCTG
CTCTTTCCGCTCAATTGGCTAAAGATAAAGTCAATGAGTGTGTCAAGGCACAATCCAA
GCGTTCTGGATTTTGCGGTCAAGGCACACATATAGTGTCCTTTGTTGTAAATGCCCCT
AATGGCCTTTACTTCATGCATGTTGGTTATTACCCTAGCAACCACATTGAGGTTGTTTC
TGCTTATGGTCTTTGCGATGCAGCTAACCCTACTAATTGTATAGCCCCTGTTAATGGCT
ACTTTATTAAAACTAATAACACTAGGATTGTTGATGAGTGGTCATATACTGGCTCGTC
CTTCTATGCACCTGAGCCCATTACCTCCCTTAATACTAAGTATGTTGCACCACAGGTGA
CATACCAAAACATTTCTACTAACCTCCCTCCTCCTCTTCTCGGCAATTCCACCGGGATT
GACTTCCAAGATGAGTTGGATGAGTTTTTCAAAAATGTTAGCACCAGTATACCTAATT
TTGGTTCCCTAACACAGATTAATACTACATTACTCGATCTTACCTACGAGATGTTGTCT
CTTCAACAAGTTGTTAAAGCCCTTAATGAGTCTTACATAGACCTTAAAGAGCTTGGCA
ATTATACTTATTACAACAAATGGCCGTGGTACATTTGGCTTGGTTTCATTGCTGGGCT
TGTTGCCTTAGCTCTATGCGTCTTCTTCATACTGTGCTGCACTGGTTGTGGCACAAACT
GTATGGGAAAACTTAAGTGTAATCGTTGTTGTGATAGATACGAGGAATACGACCTCG
AGCCGCATAAGGTTCATGTTCACTAA

c. YP_009724390.1
>NC_045512.2:21563-25384 Severe acute respiratory syndrome coronavirus 2
isolate Wuhan-Hu-1, complete genome
ATGTTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACC
AGAACTCAATTACCCCCTGCATACACTAATTCTTTCACACGTGGTGTTTATTACCCTGA
CAAAGTTTTCAGATCCTCAGTTTTACATTCAACTCAGGACTTGTTCTTACCTTTCTTTTC
CAATGTTACTTGGTTCCATGCTATACATGTCTCTGGGACCAATGGTACTAAGAGGTTT
GATAACCCTGTCCTACCATTTAATGATGGTGTTTATTTTGCTTCCACTGAGAAGTCTAA
CATAATAAGAGGCTGGATTTTTGGTACTACTTTAGATTCGAAGACCCAGTCCCTACTT
ATTGTTAATAACGCTACTAATGTTGTTATTAAAGTCTGTGAATTTCAATTTTGTAATGA
TCCATTTTTGGGTGTTTATTACCACAAAAACAACAAAAGTTGGATGGAAAGTGAGTTC
AGAGTTTATTCTAGTGCGAATAATTGCACTTTTGAATATGTCTCTCAGCCTTTTCTTAT
GGACCTTGAAGGAAAACAGGGTAATTTCAAAAATCTTAGGGAATTTGTGTTTAAGAA
TATTGATGGTTATTTTAAAATATATTCTAAGCACACGCCTATTAATTTAGTGCGTGATC
TCCCTCAGGGTTTTTCGGCTTTAGAACCATTGGTAGATTTGCCAATAGGTATTAACATC
ACTAGGTTTCAAACTTTACTTGCTTTACATAGAAGTTATTTGACTCCTGGTGATTCTTCT
TCAGGTTGGACAGCTGGTGCTGCAGCTTATTATGTGGGTTATCTTCAACCTAGGACTT
TTCTATTAAAATATAATGAAAATGGAACCATTACAGATGCTGTAGACTGTGCACTTGA
CCCTCTCTCAGAAACAAAGTGTACGTTGAAATCCTTCACTGTAGAAAAAGGAATCTAT
CAAACTTCTAACTTTAGAGTCCAACCAACAGAATCTATTGTTAGATTTCCTAATATTAC
AAACTTGTGCCCTTTTGGTGAAGTTTTTAACGCCACCAGATTTGCATCTGTTTATGCTT
GGAACAGGAAGAGAATCAGCAACTGTGTTGCTGATTATTCTGTCCTATATAATTCCGC
ATCATTTTCCACTTTTAAGTGTTATGGAGTGTCTCCTACTAAATTAAATGATCTCTGCTT
TACTAATGTCTATGCAGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCT
CCAGGGCAAACTGGAAAGATTGCTGATTATAATTATAAATTACCAGATGATTTTACAG
GCTGCGTTATAGCTTGGAATTCTAACAATCTTGATTCTAAGGTTGGTGGTAATTATAA
TTACCTGTATAGATTGTTTAGGAAGTCTAATCTCAAACCTTTTGAGAGAGATATTTCAA
CTGAAATCTATCAGGCCGGTAGCACACCTTGTAATGGTGTTGAAGGTTTTAATTGTTA
CTTTCCTTTACAATCATATGGTTTCCAACCCACTAATGGTGTTGGTTACCAACCATACA
GAGTAGTAGTACTTTCTTTTGAACTTCTACATGCACCAGCAACTGTTTGTGGACCTAA
AAAGTCTACTAATTTGGTTAAAAACAAATGTGTCAATTTCAACTTCAATGGTTTAACA
GGCACAGGTGTTCTTACTGAGTCTAACAAAAAGTTTCTGCCTTTCCAACAATTTGGCA
GAGACATTGCTGACACTACTGATGCTGTCCGTGATCCACAGACACTTGAGATTCTTGA
CATTACACCATGTTCTTTTGGTGGTGTCAGTGTTATAACACCAGGAACAAATACTTCTA
ACCAGGTTGCTGTTCTTTATCAGGATGTTAACTGCACAGAAGTCCCTGTTGCTATTCAT
GCAGATCAACTTACTCCTACTTGGCGTGTTTATTCTACAGGTTCTAATGTTTTTCAAAC
ACGTGCAGGCTGTTTAATAGGGGCTGAACATGTCAACAACTCATATGAGTGTGACAT
ACCCATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGG
GCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGTCACTTGGTGCAGAAA
ATTCAGTTGCTTACTCTAATAACTCTATTGCCATACCCACAAATTTTACTATTAGTGTTA
CCACAGAAATTCTACCAGTGTCTATGACCAAGACATCAGTAGATTGTACAATGTACAT
TTGTGGTGATTCAACTGAATGCAGCAATCTTTTGTTGCAATATGGCAGTTTTTGTACAC
AATTAAACCGTGCTTTAACTGGAATAGCTGTTGAACAAGACAAAAACACCCAAGAAG
TTTTTGCACAAGTCAAACAAATTTACAAAACACCACCAATTAAAGATTTTGGTGGTTTT
AATTTTTCACAAATATTACCAGATCCATCAAAACCAAGCAAGAGGTCATTTATTGAAG
ATCTACTTTTCAACAAAGTGACACTTGCAGATGCTGGCTTCATCAAACAATATGGTGA
TTGCCTTGGTGATATTGCTGCTAGAGACCTCATTTGTGCACAAAAGTTTAACGGCCTT
ACTGTTTTGCCACCTTTGCTCACAGATGAAATGATTGCTCAATACACTTCTGCACTGTT
AGCGGGTACAATCACTTCTGGTTGGACCTTTGGTGCAGGTGCTGCATTACAAATACCA
TTTGCTATGCAAATGGCTTATAGGTTTAATGGTATTGGAGTTACACAGAATGTTCTCT
ATGAGAACCAAAAATTGATTGCCAACCAATTTAATAGTGCTATTGGCAAAATTCAAGA
CTCACTTTCTTCCACAGCAAGTGCACTTGGAAAACTTCAAGATGTGGTCAACCAAAAT
GCACAAGCTTTAAACACGCTTGTTAAACAACTTAGCTCCAATTTTGGTGCAATTTCAA
GTGTTTTAAATGATATCCTTTCACGTCTTGACAAAGTTGAGGCTGAAGTGCAAATTGA
TAGGTTGATCACAGGCAGACTTCAAAGTTTGCAGACATATGTGACTCAACAATTAATT
AGAGCTGCAGAAATCAGAGCTTCTGCTAATCTTGCTGCTACTAAAATGTCAGAGTGT
GTACTTGGACAATCAAAAAGAGTTGATTTTTGTGGAAAGGGCTATCATCTTATGTCCT
TCCCTCAGTCAGCACCTCATGGTGTAGTCTTCTTGCATGTGACTTATGTCCCTGCACAA
GAAAAGAACTTCACAACTGCTCCTGCCATTTGTCATGATGGAAAAGCACACTTTCCTC
GTGAAGGTGTCTTTGTTTCAAATGGCACACACTGGTTTGTAACACAAAGGAATTTTTA
TGAACCACAAATCATTACTACAGACAACACATTTGTGTCTGGTAACTGTGATGTTGTA
ATAGGAATTGTCAACAACACAGTTTATGATCCTTTGCAACCTGAATTAGACTCATTCA
AGGAGGAGTTAGATAAATATTTTAAGAATCATACATCACCAGATGTTGATTTAGGTG
ACATCTCTGGCATTAATGCTTCAGTTGTAAACATTCAAAAAGAAATTGACCGCCTCAA
TGAGGTTGCCAAGAATTTAAATGAATCTCTCATCGATCTCCAAGAACTTGGAAAGTAT
GAGCAGTATATAAAATGGCCATGGTACATTTGGCTAGGTTTTATAGCTGGCTTGATTG
CCATAGTAATGGTGACAATTATGCTTTGCTGTATGACCAGTTGCTGTAGTTGTCTCAA
GGGCTGTTGTTCTTGTGGATCCTGCTGCAAATTTGATGAAGACGACTCTGAGCCAGT
GCTCAAAGGAGTCAAATTACATTACACATAA

d. PDB: 7LRT_C
>pdb|7LRT|C Chain C, SARS-CoV-2 spike glycoprotein
QCVNLTTRTQLPPAYTNSFTRGVYYPDKVFRSSVLHSTQDLFLPFFSNVTWFHAIHVSGT
NGTKRFDNPVLPFNDGVYFASTEKSNIIRGWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQ
FCNDPFLGVYYHKNNKSWMESEFRVYSSANNCTFEYVSQPFLMDLEGKQGNFKNLREF
VFKNIDGYFKIYSKHTPINLVRDLPQGFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSS
GWTAGAAAYYVGYLQPRTFLLKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSN
FRVQPTESIVRFPNITNLCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKC
YGVSPTKLNDLCFTNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSN
NLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPT
NGVGYQPYRVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFL
PFQQFGRDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEV
PVAIHADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNS
PGSASSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTMYIC
GDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFGGFNFSQ
ILPDPSKPSKRSPIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFNGLTVLPPLLTD
EMIAQYTSALLAGTITSGWTFGAGPALQIPFPMQMAYRFNGIGVTQNVLYENQKLIANQ
FNSAIGKIQDSLSSTPSALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDILSRLDPPE
AEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMSECVLGQSKRVDFCGKGYHL
MSFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAHFPREGVFVSNGTHWFVTQR
NFYEPQIITTDNTFVSGNCDVVIGIVNNTVYDPLQPELDSFKEELDKYFKNHTSPDVDLGDI
SGINASVVNIQKEIDRLNEVAKNLNESLIDLQELGKYEQ

e. PDB: 7LRT_B
>pdb|7LRT|B Chain B, SARS-CoV-2 spike glycoprotein
QCVNLTTRTQLPPAYTNSFTRGVYYPDKVFRSSVLHSTQDLFLPFFSNVTWFHAIHVSGT
NGTKRFDNPVLPFNDGVYFASTEKSNIIRGWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQ
FCNDPFLGVYYHKNNKSWMESEFRVYSSANNCTFEYVSQPFLMDLEGKQGNFKNLREF
VFKNIDGYFKIYSKHTPINLVRDLPQGFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSS
GWTAGAAAYYVGYLQPRTFLLKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSN
FRVQPTESIVRFPNITNLCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKC
YGVSPTKLNDLCFTNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSN
NLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPT
NGVGYQPYRVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFL
PFQQFGRDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEV
PVAIHADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNS
PGSASSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTMYIC
GDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFGGFNFSQ
ILPDPSKPSKRSPIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFNGLTVLPPLLTD
EMIAQYTSALLAGTITSGWTFGAGPALQIPFPMQMAYRFNGIGVTQNVLYENQKLIANQ
FNSAIGKIQDSLSSTPSALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDILSRLDPPE
AEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMSECVLGQSKRVDFCGKGYHL
MSFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAHFPREGVFVSNGTHWFVTQR
NFYEPQIITTDNTFVSGNCDVVIGIVNNTVYDPLQPELDSFKEELDKYFKNHTSPDVDLGDI
SGINASVVNIQKEIDRLNEVAKNLNESLIDLQELGKYEQ

 Existen regiones comunes entre las secuencias.


Entre las 5 secuencias hay muy pocas coincidencias entre ellas, sin embargo,
dos de estas secuencias son iguales, y los 3 restantes son iguales entre ellas,
para ello se presenta la matriz de coincidencias.
 De acuerdo a los resultados, ¿cómo agruparía según su similaridad las
secuencias?
Teniendo en cuenta las observaciones mencionadas en el ítem anterior,
agruparía por medio de un Guide Tree, el cual se muestra a continuación

 ¿De acuerdo a los resultados de qué tipo de proteína son las secuencias,
porque es importante dicha proteína?
El tipo de proteínas presentadas, son glicoproteínas, es decir, que son
moléculas compuestas por una proteína unida a uno o varios glúcidos,
simples o compuestos. Destacan entre otras funciones la estructural y
el reconocimiento celular cuando están presentes en la superficie de
las membranas plasmáticas[8], su función principal es el reconocimiento
celular.

Referencias
[1] https://www.ebi.ac.uk/Tools/msa/clustalo/
[2] https://bioinf.comav.upv.es/courses/intro_bioinf/multiple.html
{3] https://sites.google.com/a/agro.uba.ar/bioinformatica/Home/alineamientosmultiples
[4] http://www.clustal.org/omega/
[5] (n.d.). Why Aren'T Guide Trees (Necessarily) Phylogenetic Trees? - Biostars. Recuperado
el de https://www.biostars.org/p/70676/
[6] Hodge, T. & M. J. T. V. Cope. 2000. A Myosin Family Tree. Journal of Cell Science 113:
3353-3354.

[7] Hodge, T. & M. J. T. V. Cope. 2000. A Myosin Family Tree. Journal of Cell Science 113:
3353-3354.

[8] Bohinski,(1991). Bioquímica. Quinta Edición, Wilmington, Estados Unidos. ISBN 0-201-
62934-8.

También podría gustarte