0% ont trouvé ce document utile (0 vote)
51 vues8 pages

TP2 Bioinformatique EST 2025

Le document décrit une méthode pour identifier l'origine d'une séquence ADN en utilisant l'outil d'alignement BLAST sur la base de données GenBank. Il détaille les étapes d'analyse, l'interprétation des résultats, et les critères de pertinence tels que l'E-Value, le score d'alignement, le pourcentage d'identité et la couverture de la requête. Enfin, il souligne l'importance d'une analyse statistique pour valider les résultats obtenus.

Transféré par

soukainakaoui
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
51 vues8 pages

TP2 Bioinformatique EST 2025

Le document décrit une méthode pour identifier l'origine d'une séquence ADN en utilisant l'outil d'alignement BLAST sur la base de données GenBank. Il détaille les étapes d'analyse, l'interprétation des résultats, et les critères de pertinence tels que l'E-Value, le score d'alignement, le pourcentage d'identité et la couverture de la requête. Enfin, il souligne l'importance d'une analyse statistique pour valider les résultats obtenus.

Transféré par

soukainakaoui
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

GBM/EST/AGADIR

TP N 2 Bio-informatique
Mars 2025

Identification de l'Origine d'une Séquence ADN par Comparaison


avec GenBank

CTTCTCTCTCCATTCAGTGCACGCGTTACTTTGGCTAAAAGGAGGTGAGCGGCACTCTGCCCTTCCAGAGCAAGCATGGAGCAACAGGATCAGAGCATGAAGGAAGG
GAGGCTGACGCTTGTGCTTGCCCTGGCAACCCTGATAGCTGCCTTTGGGTCATCCTTCCAGTATGGGTACAACGTGGCTGCTGTCAACTCCCCAGCACTGCTCATGC
AACAATTTTACAATGAGACTTACTATGGTAGGACCGGTGAATTCATGGAAGACTTCCCCTTGACGTTGCTGTGGTCTGTAACCGTGTCCATGTTTCCATTTGGAGGGT
TTATCGGATCCCTCCTGGTCGGCCCCTTGGTGAATAAATTTGGCAGAAAAGGGGCCTTGCTGTTCAACAACATATTTTCTATCGTGCCTGCGATCTTAATGGGATGCA
GCAGAGTCGCCACATCATTTGAGCTTATCATTATTTCCAGACTTTTGGTGGGAATATGTGCAGGTGTATCTTCCAACGTGGTCCCCATGTACTTAGGGGAGCTGGCCC
CTAAAAACCTGCGGGGGGCTCTCGGGGTGGTGCCCCAGCTCTTCATCACTGTTGGCATCCTTGTGGCCCAGATCTTTGGTCTTCGGAATCTCCTTGCAAACGTAGAT
GGCTGGCCGATCCTGCTGGGGCTGACCGGGGTCCCCGCGGCGCTGCAGCTCCTTCTGCTGCCCTTCTTCCCCGAGAGCCCCAGGTACCTGCTGATTCAGAAGAAAGA
CGAAGCGGCCGCCAAGAAAGCCCTACAGACGCTGCGCGGCTGGGACTCTGTGGACAGGGAGGTGGCCGAGATCCGGCAGGAGGATGAGGCAGAGAAGGCCGCGGG
CTTCATCTCCGTGCTGAAGCTGTTCCGGATGCGCTCGCTGCGCTGGCAGCTGCTGTCCATCATCGTCCTCATGGGCGGCCAGCAGCTGTCGGGCGTCAACGCTATCT
ACTACTACGCGGACCAGATCTACCTGAGCGCCGGCGTGCCGGAGGAGCACGTGCAGTACGTGACGGCCGGCACCGGGGCCGTGAACGTGGTCATGACCTTCTGCGC
CGTGTTCGTGGTGGAGCTCCTGGGTCGGAGGCTGCTGCTGCTGCTGGGCTTCTCCATCTGCCTCATAGCCTGCTGCGTGCTCACTGCAGCTCTGGCACTGCAGGACA
CAGTGTCCTGGATGCCATACATCAGCATCGTCTGTGTCATCTCCTACGTCATAGGACATGCCCTCGGGCCCAGTCCCATACCCGCGCTGCTCATCACTGAGATCTTCC
TGCAGTCCTCTCGGCCATCTGCCTTCATGGTGGGGGGCAGTGTGCACTGGCTCTCCAACTTCACCGTGGGCTTGATCTTCCCGTTCATCCAGGAGGGCCTCGGCCCG
TACAGCTTCATTGTCTTCGCCGTGATCTGCCTCCTCACCACCATCTACATCTTCTTGATTGTCCCGGAGACCAAGGCCAAGACGTTCATAGAGATCAACCAGATTTTC
ACCAAGATGAATAAGGTGTCTGAAGTGTACCCGGAAAAGGAGGAACTGAAAGAGCTTCCACCTGTCACTTCGGAACAGTGACTCTGGAGAGGAAGCCAGTGGAGCT
GGTCTGCCAGGGGCTTCCCACTTTGGCTTATTTTTCTGACTTCTAGCTGTCTGTGAATATCCAGAAATAAAACAACTCTGATGTGGAATGCAGTCCTCATCTCCAGCC
TCCCCACCCCAGTGGGAACTGTGCAAAGGGCTGCCTTGCTGTTCTTGAAGCTGGGCTGTCTCTCTCCATGTTGGCCTGTCACCAGACCCGAGTCAATTAAACAGCTG
GTCCTCCACTTTGCTGGTTCAGCCTTCGTGTGGCTCCTGGTAACGTGGCTCCACCTTGATGGGTCAACCTTTGTGTGGCTCCTGGTAACATAACAACAACAGTTACTA
TAGTGGTGAGATGGAAGGAATCAAATTTTGCCAGAGAAACTAACTCGGTGGCCCCAACAGGTCTTCCGGGGCCATGGGCATTTGTTTAGAGCCAAATTCATCCTCTT
ACCAGATCCTTTTCCAGAAATACCTGTCTAGGAAGGTGTGATGTCAGAAACAATGACATCCAGAAAGCTGAGGAACAGGTTCCTGTGGAGACACTGAGTCAGAATTC
TTCATCCAAATTATTTTGTTAGTGGAAAATGGAATTGCTTCTGTGTAGTCAATAAAATGAACCTGATCACTTTTC

✓ On souhaite déterminer l’origine cette séquence.


✓ On propose d’utiliser pour cela, un outil d’alignement de séquences (BLAST) qui
compare la séquence à analyser avec toutes celles enregistrées dans la base de données de
séquences nucléotidiques GenBank.
✓ Pour cela nous allons utiliser labase de données NCBI.
Étapes d'analyse de la séquence avec BLAST

1. Accéder à NCBI

• Ouvrir un navigateur : Lancez votre navigateur Internet (Chrome, Firefox, etc.).


• Aller sur NCBI : Tapez [Link] dans la barre d'adresse et appuyez
sur Entrée.

2. Nous allons choisir l’onglet Analyse


3. Sur la page “Analyze” nous choisirons “Basic local alignment search tool (Blast) ”.

4. Sur la page BLAST choisir « Nucléotide BLAST » :

5. Entrez la séquence de requête :

Copier-coller, la séquence «requête» dans la fenêtre «Enter Query Sequence».

Pour un BLAST standard, on ne modifie aucune option. Nous laissons les options par défaut.

Nous cliquons sur le bouton «BLAST».


6. Interprétation des résultats

Lorsqu'une recherche est effectuée avec BLAST, les résultats se présentent sous la forme d'une
liste de séquences alignées, classées selon leur pertinence. Cette pertinence est déterminée par
plusieurs critères, parmi lesquels la E-Value (ou Expect Value) est fondamentale.
✓ E-Value (Valeur d'attente)

• Définition : L'E-Value indique la probabilité que l'alignement observé soit dû au hasard.


Une valeur plus faible signifie une plus grande confiance dans la similarité observée.
• Interprétation : Cherchez les alignements avec les valeurs d'E-Value les plus basses,
idéalement inférieures à 0,01 ou même 0,001 pour des résultats très significatifs.

✓ Score d'alignement

• Définition : C'est une mesure de la qualité de l'alignement. Plus le score est élevé, mieux
les séquences s'alignent.
• Interprétation : Comparez les scores entre les résultats. Un score plus élevé est préféré,
surtout si l'E-Value est similaire.

❖ Calcul : La E-Value est dérivée du score d'alignement :

o Score Élevé → E-Value Faible


o Score Faible → E-Value Élevée

❖ En somme, la E-Value est cruciale pour interpréter les résultats de BLAST et


déterminer la pertinence des similarités entre séquences.

Lorsque plusieurs séquences présentent des E-value équivalentes et des scores très proches, il est
possible d’utiliser d’autres critères afin de les discriminer :

✓ Pourcentage d'identité (%)

• Définition : Cela représente le pourcentage de positions dans l'alignement où les


nucléotides sont identiques.
• Interprétation : Un pourcentage d'identité élevé (proche de 100 %) indique une forte
similarité. Cela signifie que les deux séquences sont très similaires, voire identiques.

✓ Query Cover (Couverture de la requête)

• Définition : C'est la proportion de la séquence requête qui a été alignée avec la séquence
de la base de données.
• Interprétation : Un Query Cover de 100 % signifie que toute votre séquence a été utilisée
dans l'alignement, ce qui est idéal pour une comparaison complète.
Exemple d'interprétation

Supposons que vous obteniez les résultats suivants :

• Séquence 1 :
o E-Value : 0.0001
o Score : 250
o % d'identité : 100%
o Query Cover : 100%
• Séquence 2 :
o E-Value : 0.0001
o Score : 240
o % d'identité : 99.5%
o Query Cover : 100%

Conclusion :

• La première séquence est plus pertinente car elle a un score plus élevé et un pourcentage
d'identité de 100 %. Cela indique que la séquence étudiée correspond très probablement à
la séquence d'une fonction biologique spécifique (par exemple, un gène ou un ARN).

• Remarque : Dans l’exemple utilisé, les deux premières séquences ont la même E-value.
Mais la première séquence présente un score plus élevé ainsi qu’une % d’identité supérieur
(100% contre 99,86 % pour la deuxième). On peut ainsi affirmer que la séquence étudiée
correspond à la séquence de l’ARNm du gène GLUT5 chez l’Homme.

7. Rassembler des informations supplémentaires

• Pour chaque séquence alignée, cliquez sur le numéro d'accès GenBank pour obtenir des
détails supplémentaires. Vous y trouverez des informations sur l'organisme d'origine,
l'auteur, l'affiliation, ainsi que des données sur la fonction biologique.
Comparaison des Séquences :

o Comparer une séquence avec toutes les séquences d'une base de données permet
d'obtenir une liste classée par score.
o Les meilleurs scores indiquent une parenté fonctionnelle ou biologique.

Analyse Statistique :

o Il est nécessaire d'effectuer une analyse statistique pour :


▪ Évaluer la crédibilité d'un alignement ou d'un score.
▪ Éviter les conclusions basées sur le hasard.
Interprétation des Scores :

o En général, un alignement est considéré comme significatif (ou pertinent) si le score est
supérieur à 70 % de la longueur de la séquence que vous avez analysée.
o Voici comment cela se traduit :
▪ 70% ≤ ID < 100% : Cela indique que les séquences sont faiblement similaires. Elles
partagent certaines caractéristiques, mais il y a aussi des différences notables.
▪ ID = 100% : Cela signifie que les séquences sont identiques. Chaque position
dl'alignement est la même.

En résumé :

▪ Scores élevés : Indiquent des séquences qui sont très similaires (meilleure
correspondance).
▪ Scores autour de 70% : Indiquent des similarités, mais avec des différences
significatives.
▪ Scores à 100% : Indiquent une identité parfaite entre les séquences

Vous aimerez peut-être aussi