Exercice 1 (DS 2014)
Calculer les scores des deux alignements suivants à l’aide de matrices de substitution ci
dessous.
A T C G
A 2 0 0 1
T 0 2 1 0
C 0 1 2 0 Pénalités
Ouverture de
G 1 0 0 2
gap: -7
Extension de
gap: -1
Alignement 1
Query A T G T C A T A C G T
Subject A A G A C A - - - G T
Score
Score total :
Alignement 2
Query A T G T C A T A C G T
Subject A A G T C - - A - G T
Score
Score total :
Quel est l'intérêt d’utiliser des matrices de score pour l'alignement ? en se basant sur le score
quel est l’alignement le plus significatif ?
Quel est l’alignement le plus probable d’un point de vue biologique? Justifiez votre réponse.
Quel est l'intérêt général d'aligner deux séquences ?
Exercice 2
Vous allez comparer la séquence PL6 humaine à son orthologue chez la souris.
Voici les 2 séquences ADN (des ARNm ici) : Pl6_hum_dna
>embl|U09584|U09584 Human PL6 protein (PL6) mRNA, complete cds.
ggcgaggggcctacgctgcggcccggcaacaaggcccgactcggcccctcgggaccagag
ccccacccgatcggaagcggatcctttaccagggccataggccagtgactaggccgggcc
tggacctcccatcggggccggactaggacgaggccccggggaggcccctggcctaccaga
cccttttctcaggccgacagccgccaggaagatgcaacgtgccctgccaggcgcccgcca
gcacttgggggccattctggccagcgccagcgtggtggtgaaggctctgtgtgcggcggt
actattcctctacctgctctccttcgccgtggacacaggctgcctggcggtcaccccggg
ctacctctttcctcccaacttctggatctggaccctggccacccatgggctgatggagca
gcatgtgtgggacgtggccatcagcctgacaacggtggtggtggccgggcgtttgctgga
gcccctctggggggccttggagctgctcatcttcttctcagtggtgaatgtgtctgtagg
gctgctgggggccttcgcctacctcctcacctacatggcttccttcaacctggtctacct
gttcactgtccgtatccacggcgccttgggcttcctaggtggcgtcctggtggcactcaa
gcaaaccatgggggactgtgtggtcctgcgagtgccccaggtgcgcgtcagtgtgatgcc
catgctgctgctggcgctgctgctcctgctgcggctcgccacactgctccagagcccggc
gctggcttcctatggcttcgggctgctctccagttgggtatatcttcgcttctaccagcg
ccatagccgaggccgaggggacatggctgaccactttgctttcgccactttcttccctga
gatcctgcagcctgtggtgggtttgctggcgaacttggtgcacagcctcctggtgaaggt
aaagatatgccagaagacggtgaagcgctacgatgtgggtgccccatcctccatcaccat
cagcctgccaggcacagaccctcaagacgccgagcggagaaggcaactggccctgaaggc
actcaatgagcggctgaagagagtggaagaccagtccatctggcccagcatggatgatga
tgaagaggagtctggggccaaggtggacagccccctgccctcagacaaagctcccacacc
cccagggaagggggctgccccagaatccagtctaatcaccttcgaggcagctcccccgac
gctgtaactccagaccaccttgagtgtggcacctcccctcccaagccccccgttgacatc
ctctcagctactccagggcacctgactgctctgaggagagggaagaaggcctgctggggc
tttccatggccttctgctgtttctcgccaacactacccaggactcttgctacctggttcc
aactccagacaaccactatgccaggcccggagcctctgaggcatcggccagtccaggccc
tcatctgaggtaagaatgtacatcagctggcagccccaagcaagtggctgcagggacact
gatgccacagctcctgggccggccctcacatctgaaactggttgccgagagccctgagcc
aaggcaaggatttgccaaaaatgttctgggggcccagcaaatgcaggagccgacctgggg
ctgcacatccctgcccatccccagaaagactgttcctgtcaggatttgtttccctctgct
gtggcggtgactgcttctggaccagaacagctccagctcccaggtattttctacaggacc
acttgagtgggcagccaagcccaggctcgcagtatcaataaagcagttctctgaggaatg
et Pl6_mouse_dna
>embl|AF134238|AF134238 Mus musculus PL6 protein (Pl6) mRNA, complete cds.
gtcgactaggtcccaaggactccgtatcccagcatgccgagaagccggaaggcaagcgct
cagagggcgtactgccgcggtcgccggngggggcgcgcaggcgcggcgcccctgtttgtc
ggccccggagaggggaggaggtaccgtcaagccaaaaccctagcccagccggagctaaac
gggcttgacttgggccggaacgaggcaccagttccccgcagatcgcagagtctcagagtg
gatggaggaagcctagccttgagattaacgctagcctggccgctgggccgacggaacccg
caggcaggcgagcccaagctacccagggcctaacgacaggtccccggcaagaagactttc
tcctcgctttggaactacaaccggatcaaaccggaaccagagccttcccacggaacagaa
gccagtgaagtagccgggcccgggcctcccgtcggggccgaactgggacgaggccccggg
gaggcccctaggccaccttccacacattcccttaagccaacgtccgccaggaagatgcaa
cgcgccctacctggtgcccgccaacatctgggggccatcctggccagcgccagcgtggtg
gtgaaggcactgtgcgccgtggtactgtttctctacctgctttccttcgctgtggacacg
ggctgcctggccgtcaccccaggctaccttttcccacccaacttctggatctggaccctg
gccacccacgggctcatggaacagcacgtgtgggacgtggccattagcctggccacagtg
gttgtggccgggcgattactggagcccctctggggagccttggagctgctcatcttcttc
tcggtggtgaatgtgtcagtggggcttctgggggccctcgcctacctcctcacctacatg
gcttccttcaacttggtttacctgttcactattcgtatccacggcgccctgggtttccta
ggtggtgttctggtagccctcaagcaaactatgggagactgtgtggttctgcgagtgccc
caggtccgcgtcagcgtcgttcccatgctgttgctggcgttgctgctactcctccggttg
gccacgctgctccagagcccagccctggcttcctacggctttgggctgctatccagttgg
gtgtatcttcgcttctatcagcgccatagccggggccgaggggacatggctgaccatttt
gcttttgccaccttcttcccggagatcctgcaaccggtggtggggctgctagcgaacttg
gtgcacggcctcctggtgaaagtaaagatatgccagaagacagtgaagcgctacgatgtg
ggagcgccgtcgtccatcactatcagcctcccaggcacagaccctcaagatgcggagcgc
agaaggcaactagccctaaaggctctcaatgagcggctgaagagagtggaggatcagtca
gcctggcccagcatggatgatgacgaagaggaagctggggcaaaaacggacagtcctctg
cccttagaagaagcttccacgcccccagggaaggtgaccgtcccggaatccagtctcatc
accttggagacagctcccctactctagaccactttgagtgcagttgttgtactcccatgc
cttcccgatccgtctcggctactgcagagcactgactgttctgaggagagggaagagggt
ctgctgggggttcctgtggccttccgctgtgtgtggacaacactaacacaggacccttgt
tgctacctggttctgactccagacaaccacaatgccaggtacggggtctctgagcagcag
ccagtgcagatccccatttgcagtaagattgtacctcagcggtacaattcctcaccaagg
aagtggttgcagggacactggtgccacggctcctgggccagcccttatgtctgaaactgg
ttgccaacagccccgagccaaggcaaggatttgtgtttgccaaaaatgttctggggaccc
agccagtgtgggtctgaacatccccgcccacccccagactgcattctcatcagggtttct
tgtgcccttctgctgtggcagtgacaactgtgcctagccggggctgccacagctcccagg
tattttttacaggaccatctgagcgggcagccaaacctgcttcacagtatcaataaagcg
gttctttgaggtctggc
Faites un alignement des séquences ARN avec l'algorithme d'alignement global stretcher et
l'algorithme d'alignement local water (https://www.ebi.ac.uk/Tools/emboss/) en utilisant les
pénalités de gap suivantes : ouverture 10, extension 1.
A quoi correspond le « . » dans l’alignement ?
Comparez les % d’identité, le % de similarité et le score entre les deux alignements. En se
basant sur ces paramètres quel alignement choisiriez-vous ? Pourquoi ?
Exercice 3
Voici les séquences du gène Alpha-haemoglobin humaine et son ARNm
>HBA1
TGCCCCCGCGCCCCAAGCATAAACCCTGGCGCGCTCGCGGCCCGGCACTCTTCTGGTCCCCACAGACTCA
GAGAGAACCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGC
GCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGTGAGGCTCCCTCCCCTGCTCCGACCCGGGCT
CCTCGCCCGCCCGGACCCACAGGCCACCCTCAACCGTCCTGGCCCCGGACCCAAACCCCACCCCTCACTC
TGCTTCTCCCCGCAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGC
CACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACG
TGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGT
CAACTTCAAGGTGAGCGGCGGGCCGGGAGCGATCTGGGTCGAGGGGCGAGATGGCGCCTTCCTCGCAGGG
CAGAGGATCACGCGGGTTGCGGGAGGTGTAGCGCAGGCGGCGGCTGCGGACCTGGGCCCTCGGCCCCACT
GACCCTCTTCTCTGCACAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAG
TTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAAT
ACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTT
CCTGCACCCGTACCCCCGTGGTCTTTGAATAAAGTCTGAGTGGGCGGCAGCCTGTGTGTG
>ARNm
GTGCTGTCTCCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCAC
GCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAG
ACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAG
AAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTG
TCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTC
CTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCG
GTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAA
Alignez les ces séquences par needle, puis par water (https://www.ebi.ac.uk/Tools/emboss/),
en utilisant des paramètres par défaut.
1- Comparez les % d’identité, le % de similarité et le score entre les deux alignements.
2- A quels éléments du gène correspondent les gaps?
3- D’après vous pourquoi les scores des deux alignements sont-ils identiques, en dépit des
différences soulignées ci-dessus
4- Que se passe-t-il quand vous faites varier les paramètres d’ouverture des gaps (Gap open) à
1 et extension (Gap extend) à 0.5
Exercice 4
On va s’intéresser au gène KCNJ5 humain. Récupérez les séquences des transcrits de ce gène
(NM_000890.5 et NM_001354169.2). Faites un alignement local de ces deux séquences.
Pouvez vous identifier une variation d’épissage ?
Faites un alignement en utilisant les séquences des protéines codées par ces transcrits.
Interprétez.