0% ont trouvé ce document utile (0 vote)
281 vues5 pages

Correction TD3

Transféré par

Hermann Lamien
Copyright
© Attribution Non-Commercial (BY-NC)
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
281 vues5 pages

Correction TD3

Transféré par

Hermann Lamien
Copyright
© Attribution Non-Commercial (BY-NC)
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

BIO6: Bioinformatique applique Correction du TD3 Exercice 1: alignement local, alignement global, lequel choisir ?

Alignement global entre P19525 (E2AK2_HUMAN) et Q9Z1J2 (NEK4_MOUSE) (algorithme Needleman & Wunsch) 8.7 % d'identit 13.8% de similarit 75.8% de gaps longueur alignement: 1084 score: 385 Alignement local (algorithme de Smith & Waterman) 30.3% identit 48 % similarit 16.4 % gaps longueur alignement: 304 score: 390 Le dotplot montre clairement que les 2 squences ont une similarit locale (domaine protine kinase), mais qu'elles ne se ressemblent pas sur toute leur longueur. Forcer l'alignement aligner les 2 squences sur toute la longueur (alignement global) donne un mauvais alignement global: faible identit/similarit, normment de gaps. L'alignement local donne de bien meilleurs rsultats, mais sur une longueur plus limite (304 au lieu de 1084). Pourquoi le score global (385.5) n'est -il que trs faiblement infrieur celui de l'alignement local (390) ? Parce que Needle fait en fait un alignement semi-global, cd qu'il ne pnalise pas les gaps aux extrmits des squences (qui sont la majorit des gaps). Alignement local:
NEK4_MOUSE 9 MRVVGRGSYGEVTLVKHRRDGKQYVIKKLNLRNASSRERRAAEQEAQLLS 58 :.::|.|.:|:|...|||.|||.||||::...| ..||:|.:.|: E2AK2_HUMAN 270 IELIGSGGFGQVFKAKHRIDGKTYVIKRVKYNN------EKAEREVKALA NEK4_MOUSE E2AK2_HUMAN NEK4_MOUSE E2AK2_HUMAN NEK4_MOUSE E2AK2_HUMAN NEK4_MOUSE E2AK2_HUMAN NEK4_MOUSE E2AK2_HUMAN NEK4_MOUSE E2AK2_HUMAN 59 QLKHPNIVTYKESWEGGD----------------------------GLLY :|.|.|||.|...|:|.| ..|: 314 KLDHVNIVHYNGCWDGFDYDPETSDDSLESSDYDPENSKNSSRSKTKCLF 81 IVMGFCEGGDLYRKLKEQKGQLLPESQVVEWFVQIAMALQYLHEKHILHR |.|.||:.|.|.:.:::::|:.|.:...:|.|.||...:.|:|.|.::|| 364 IQMEFCDKGTLEQWIEKRRGEKLDKVLALELFEQITKGVDYIHSKKLIHR 131 DLKTQNVFLTRTNIIKVGDLGIARVLENHGDMASTLIGTPYYMSPELFSN |||..|:||..|..:|:||.|:...|:|.|....:. ||..|||||..|: 414 DLKPSNIFLVDTKQVKIGDFGLVTSLKNDGKRTRSK-GTLRYMSPEQISS 181 KPYNYKSDVWALGCCVYEMATLKHAFNAKDMNSLVYRIIEGKLPPMPKVY :.|..:.|::|||.. :|.|.|..:.....|..:..:...: :..:: 463 QDYGKEVDLYALGLI---LAELLHVCDTAFETSKFFTDLRDGI--ISDIF 231 STELAELIRTMLSRRPEERPSVRSILRQPYIKHHISLFLEATKAKTSKNN ..:...|::.:||::||:||:...|||. |...|....||. 508 DKKEKTLLQKLLSKKPEDRPNTSEILRT----------LTVWKKSPEKNE 281 VKNC ...| 548 RHTC 284 551

313 80 363 130 413 180 462 230 507 280 547

On repre les 2 premiers vnements d'insertion dltion sur l'alignement et le dotplot: petite insertion dans la squence humaine, et grande dltion dans la squence humaine (ou petite dltion dans la squence souris, et grande insertion dans la squence souris, on ne peut pas trancher entre ces 2 scnarios ici). Alignement global de P36914 et gi|89285001: identit: 3.5% similarit: 5.3% gaps: 90.6% score: 138 longueur: 1027 Alignement local de P36914 et gi|89285001: identit: 32.7% similarit: 49.1% gaps: 13.6% score: 142 longueur: 110 Mme commentaire: similarit locale (dotplot); mauvais alignement global, bon alignement local. Point commun entre les 2 squences: domaine CBM20 (en regardant les fiches UniProt) Exercice 2: comparaison d'ADN ou de protines ? Moyenne d'identit de squence entre 2 squences d'ADN alatoires de longueur 200: 43% identit, 28.9% de gaps (moyenne sur 4 paires alatoires) Entre 2 squences protiques alatoires (longueur 200): 11.6% identit, 17.4% similarit, 62.7% gaps Moralit: il est plus facile d'avoir un fort pourcentage d'identit/similarit entre 2 squences d'ADN qu'entre 2 squences protiques alatoires; une identit de 50% entre 2 squences d'ADN n'est pas trs significatif d'une vraie homologie (cela pourrait tre d au hasard), alors que ce serait trs significatif entre 2 protines. Exercice 3: premiers pas avec BLASTp Blast de la squence de P36914 (issue de UniProt) contre la banque nr: premire squence trouve dans nr: la squence P36914 elle-mme (100% identit)

Attention! : cette squence est prsente 4 fois dans la banque nr XP_001827696 P36914 ABA62323 BAE66563 C'est chaque fois la mme squence, et BLAST les a regroup dans la liste des rsultats! premier vrai homologue trouv: ref|XP_002384946.1|

99% identit; 100% positifs (=similarit); 0% gaps score brut: 3217; score normalis: 1243 bits E-value: 0.0 ... dernier homologue de la liste:

Attention! par dfaut, BLAST ne vous donne que les 100 premiers HSP trouves; cela ne signifie pas qu'il n'y a pas d'autres homologues si on allonge la liste. On peut modifier le nombre d'alignements sur la page d'accueil de BLAST, en cliquant sur le lien Algorithm parameters:

BLASTP de la mme protine contre SwissProt: Moins de rsultats avec de hauts scores (moins de barres rouges): normal, SwissProt est 20 fois plus petite que nr (rappel: nr contient SwissProt). Les HSP ont l'air d'tre localises dans 2 rgions de notre protine de dpart : une longue partie plutt en N terminal, et une courte partie plutt en C terminal Extrait de la fiche Pfam de cette protine de dpart:

La protine P36914 contient 2 domaines protiques: Glyco_hydro_15 et CBM_20. Les alignements locaux concernent ces 2 domaines protiques; BLAST trouve dans SwissProt des squences qui possdent soit l'un, soit l'autre domaine, soit les 2 ensemble (premires HSP reprsentes comme barres rouges). Alignement avec P07683: contre nr ou SwissProt, les alignements sont identiques (mme alignement, mme score brut et renormalis, etc...) Par contre: les E-value sont diffrentes: 10-70 pour l'alignement contre SwissProt 2x10-69 pour l'alignement contre nr Il y a un facteur 20 entre ces 2 Evalue, qui reflte le fait que nr est 20 fois plus grand que SwissProt.

Moralit: on a un risque de faux-positif (= conclure l'homologie alors que les squences ne sont pas homologues) 20 fois plus lev contre nr que contre SwissProt. Mme si le risque reste astronomiquement petit, et que dans les 2 cas, l'homologie est certaine (on est bien en dessous des 10-10)! Si on restreint nr aux seules squences de mammifres: Les alignements locaux se font au niveau du domaine CBM20, mais pas qu niveau du premier domaine Glyco_hydro_15 Conclusion: il ne semble pas exister de squences protiques mammifres possdant le domaine GH15 (sinon ces squences auraient donn de bons alignements qui seraient apparus dans le graphique). Ce domaine est responsable d'un processus mtabolique des glucides qui n'est pas prsent chez les mammifres, mais uniquement chez les champignons. Par contre, le domaine CBM20 est reprsent dans certaines squences mammifres. Exercice 4: utilisation de BLASTx ARNm en horizontal ADN gnomique en vertical Chaque ligne blanche reprsente un exon (commun entre les 2 squences). Ces exons sont interrompus par des introns (que l'on trouve uniquement dans la squence d'ADN gnomique) Aux extrmits 5' et 3', l'ADN gnomique est plus long que l'ARN messager: l'ARN messager reprsente un transcrit particulier, qui a un site d'initiation de la transcription dcal par rapport au site standard. Par contre, on voit aussi (cercle rouge) que la squence d'ARN messager contient une partie que l'on trouve pas dans l'ADN gnomique: c'est la queue poly-A (la ligne blanche ne va pas jusqu'au bord droit) Le navigateur de gnome d'Ensembl montre les diffrents transcrits alternatifs du gne en question; le transcrit le plus long est SLC39A7-003 (flche bleue), mais certains transcrits commencent aprs (flche rouge par exemple)

Le dotlet ne permet pas de rpondre la question de la prsence ou non d'UTR: rien ne distingue les UTR des parties traduites dans la squence d'ARNm. Pour reprer les UTR, il faut comparer la protine l'ARNm: c'est ce que permet BLASTX BLASTX traduit navement l'ARNm en protine (dans les 6 cadres de lectures possibles), et compare le rsultat une banque de donnes protique (ici nr) Le diagramme indique que les parties 5' et 3' de l'ARN messager, traduite dans les 6 cadres de lecture possibles, ne ressemblent aucune protine connue (pas d'alignement). Par contre, la partie centrale (entre les positions 345 et 1751 de l'ARNm) a une trs forte similarit avec des protines, notamment la protine code par le gne SLC39A7 humain (99% identit). Il est probable que

l'ARNm corresponde ce gne. Recherche de rgions codantes:


Blastx d'un fragment d'ADN inconnu contre nr: la traduction de ce fragment dans le cadre de lecture -1 ressemble des protines connues, mais uniquement pour la partie N terminale. Le fragment semble donc contenir un gne sur le brin reverse complmentaire entre les positions 0 et ~ 600. Le gne est incomplet: en effet, la protine homologue fait 361 AA, alors que l'alignement s'arrte au bout de 192 AA, simplement parce qu'on est arriv au dbut du fragment d'ADN position 4.

Vous aimerez peut-être aussi