0% ont trouvé ce document utile (0 vote)
393 vues9 pages

Blast

Ce document décrit les principes et méthodes de comparaison de séquences en bioinformatique, notamment l'alignement de paires et multiple de séquences ainsi que l'utilisation de BLAST pour identifier des similarités entre séquences nucléiques.

Transféré par

Ahgaslay
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
393 vues9 pages

Blast

Ce document décrit les principes et méthodes de comparaison de séquences en bioinformatique, notamment l'alignement de paires et multiple de séquences ainsi que l'utilisation de BLAST pour identifier des similarités entre séquences nucléiques.

Transféré par

Ahgaslay
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

La comparaison

La comparaison de séquences est l’outil central en bioinformatique

1-Recherche de similitudes entre séquences (source : Daniel Gautheret ESIL, Université de


la Méditerranée,V.2004.4 http://www.esil.univ-mrs.fr/~dgaut/Cours):

-La recherche de similitudes entre séquences est un élément fondamental qui constitue
souvent la première étape des analyses de séquences. Elle permet de révéler des régions
proches dans leur séquence primaire en se basant sur le principe de parcimonie, c'est-à-dire en
considérant le minimum de changements en insertion, suppression, ou substitution qui
séparent deux séquences.

-On peut apprendre ainsi, par association, des informations importantes sur la structure, la
fonction ou l'évolution des biomolécules. Cette méthode est largement utilisée dans les
recherches de motifs à travers une séquence, dans la caractérisation de régions communes ou
similaires entre deux ou plusieurs séquences, dans la comparaison d'une séquence avec
l'ensemble ou sous-ensemble des séquences d'une base de données, ou bien encore dans
l'établissement d'un alignement multiple sur lequel sont basées les analyses d'évolution
moléculaire.

Il existe deux types d’alignement :

Alignement par pair :

1-1 Alignement exact par programmation dynamique :


Global (Needleman & Wunch)
Local (Smith& Watermann)

-L'alignement global est conçu pour comparer des séquences


homologues sur toute leur longueur.
-L'alignement local est conçu pour rechercher des régions semblables entre A et B.

1-2 Recherche dans une banque (Alignement approximatif)


BLAST (le plus utilisé voir le cours ci-dessous)

Alignement multiple (à voir dans un autre cours) :

ClustalW
MUSCLE
MAFFT
2-Intérêt de comparer des séquences :

-identifier des séquences découvertes dans une expérience du laboratoire


-identifier l’organisme responsable d’une infection
-déterminer les mouvements de populations au cours de l’histoire
-identifier une protéine proche dont la structure est connue d’une autre protéine
impliqué dans une maladie afin de concevoir un médicament.
-Comparer de nouveau gènes issus d’un génome récemment séquencé à ceux déjà
connus
-comparer des gènes de différentes espèces

3-Principe de la comparaison de séquences (source : Initiation à la bioinformatique – 20


mars 2013)

Repose sur des calculs matriciels ou des algorithmes complexes qui rendent des résultats sous
forme de données statistiques (% match, score, e-value…)
Logiciel d’alignement le plus connu = BLAST (Basic Local Alignment Search Tool)
Inférer les fonctions de nouvelles séquences protéiques issues de génomes récemment
séquencés.
Démarche globale :

1-Alignement de séquences

2- Score de similitude

3-Degré d’homologie

4-Identification, prédiction de structure de propriétés, de fonction

Les alignements « rapides » (BLAST) (source : Hubert Wassner, Introduction à la


bioinformatiquePLU4199Support de cours, version : 13/05/07, http://professeurs.esiea.fr/wassner)

Un des plus connus est BLAST, il a l'avantage d'utiliser une technique de recherche rapide
qui lui a permis de devenir l'outil le plus utilisé pour les recherches dans les bases de
données... Il en existe plusieurs implémentations.
L'interface web donne une représentation graphique des alignements avec les séquences
Un score en terme de probabilité est attribué à chaque alignement. L' « E value » ou
« Expectancy » est une estimation de l'espérance du nombre d'alignements similaires
qu'on aurait pu trouver par hasard en fonction de la qualité de l'alignement et de la taille de la
banque dans laquelle on a effectué la recherche.
Ainsi plus cette valeur est petite plus on peut considérer cette ressemblance entre la séquence
« requête » et la séquence trouvée comme « ayant du sens biologique ». Dit autrement plus
cette valeur est grande (se rapproche ou dépasse 1) plus la ressemblance est due a un simple
hasard.
Comment identifier par Blast la séquence d’acide nucléique suivante?

>STM1826

CCCCAGTCGCTTGACCCTACCGTGGTTAGCTGCCTCCTTGCGGTTAGCGCACTACCTTCGGGTAAAACCAACTC
CCATGGTGTGACGGGCGGTGTGTACAAGGCCCGGGAACGTATTCACCGCAGCATGCTGATCTGCGATTACTAG
CGATTCCAACTTCATGCACTCGAGTTGCAGAGTGCAATCCGAACTGAGATGGCTTTTGGAGATTAGCTCGACAT
CGCTGTCTCGCTGCCCACTGTCACCACCATTGTAGCACGTGTGTAGCCCAGCCCGTAAGGGCCATGAGGACTT
GACGTCATCCCCACCTTCCTCTCGGCTTATCACCGGCAGTCCCCTTAGAGTGCCCAACTAAATGCTGGCAACTA
AGGGCGAGGGTTGCGCTCGTTGCGGGACTTAACCCAACATCTCACGACACGAGCTGACGACAGCCATGCAGC
ACCTGTTCTGGGGCCAGCCTAACTGAAGGACATCGTCTCCAATGCCCATACCCCGAATGTCAAGAGCTGGTAA
GGTTCTGCGCGTTGCTTCGAATTAAACCACATGCTCCACCGCTTGTGCGGGCCCCCGTCAATTCCTTTGAGTTTT
AATCTTGCGACCGTACTCCCCAGGCGGAATGTTTAATGCGTTAGCTGCGCCACCGAACAGTATACTGCCCGAC
GGCTAACATTCATCGTTTACGGCGTGGACTACCAGGGTATCTAATCCTGTTTGCTCCCCACGCTTTCGCACCTCA
GCGTCAGTAATGGACCAGTAAGCCGCCTTCGCCACTGGTGTTCCTCCGAATATCTACGAATTTCACCTCTACACT
CGGAATTCCACTTACCTCTTCCATACTCAAGATACCCAGTATCAAAGGCAGTTCCGCAGTTGAGCTGCGGGATT
TCACCCCTGACTTAAATATCCGCCTACGTGCGCTTTACGCCCAGTAATTCCGAACAACGCTAGCCCCCTTCGTAT
TACCGCGGCTGCTGGCACGAAGTTAGCCGGGGCTTCTTCTCCGACTACCGTCATTATCTTCATCGGTGAAAGAG
CTTTACAACCCTAAGGCCTTCATCACTCACGCGGCATGGCTGGATCAGGCTTGCGCCCATTGTCCAATATTCCCC
ACTGCTGCCTCCCGTAGGAGTTTGGGCCGTGTCTCAGTCCCAATGTGGCTGATCATCCTCTCAGACCAGCTATG
GATCGTCGCCTTGGTAGGCCTTTACCCCACCAACTAGCTAATCCAACGCGGGCCAATCCTTCCCCGATAAATCTT
TCCCCCGTAGGGCGTATGCGGTATTAATTCCAGTTTCCCGGAGCTATTCCGCAGGAAAGGGTATGTTCCCACGC
GTTACTCACCCGTCTGCCACTCCCCTTGCGGGGCGTTCGAC

Figure1 : Interface google, recherche de NCBI (National center for biotechnology


information)
BLAST

Figure 2 : Sélectionner BLAST

Figure 3 : choisir le type de BLAST (dans notre cas on choisi nucléotide BLAST)

Famille des BLAST :

Il existe plusieurs BLAST en fonction du type de molécule à aligner :


Figure4 : Variants de BLAST (Emese MEGLECZ, bioinformatique appliquée)
Insertion de la séquence

Figure5 : Copier la séquence nucléotidique et la coller dans la fenêtre et lancer BLAST en


bas de la page

Figure6 : interface BLAST recherche des séquences homologues

Résultats de la recherche BLAST :

Les résultats de la recherche Blast se divisent en 4 parties


Banque nucléique interrogée
Numéro de la séquence
soumise (query) Type de BLAST effectué.

Nature de la molécule

Taille de la séquence

Figure7 : Récapitulatif de la requête (partie1)

Longueur de l’alignement ce trait représente


représenté en couleur la séquence ucléotidique

soumise (long. 1323pb)

chaque trait de couleur représente


un alignement entre la séquence de
départ et une séquence de la
banque de donnée sélectionnée
couleur → score
longueur → taille de l'alignement
= HSP ("high scoring pair")

Figure8: Représentation graphique (partie2)


Figure9 : Description des résultats (valeurs quantitatives de l’alignement : Max score, total
score, query cover, E-value,% identité).(partie3)

Les alignements :
Sur la figure suivante, nous avons l’alignement de notre séquence avec les séquences trouvées
dans la banque de séquences interrogée.

Nous allons prendre un exemple d’une séquence la plus proche de la notre


Notre séquence est proche de la
séquence ARNr16S de Rhizobium sp.
strain Umk34.

Score : 2529bits

Expect :0

Identities : 1372/1373(99%)

Gaps :1/1373 (0%)

Figure10 : séquence proche de la notre (le score doit être élevé, la E-value doit tendre vers 0 ,
les identities vers 99-100% et le nombre de gaps bas (tend vers le 0) (partie4).

Vous aimerez peut-être aussi