Master Agroalimentaire S2
Techniques d’analyses des biomolécules
Bioinformatique
Cours 4
Alignement de séquences
L’algorithme BLAST
Pr Amal Maurady
Département des sciences de la vie
FSTT - 2019-2020
2
3
4
5
Problématiques
Est-ce que cette séquence contient un gène?
Est-ce que ce gène fait partie d’une famille
connue?
Quelle est la fonction de cette protéine?
Est-ce que cette protéine existe dans
d’autres organismes?
Est-ce que d’autres protéines ont les mêmes
domaines ou motifs structuraux?
6
Pourquoi rechercher des séquences
dans les banques?
Identifier des protéines homologues:
Orthologue: organisme différents
Paralogue: organisme identiques
Déterminer si des séquences ont une
fonction similaire ou proche.
Déterminer des familles des protéines ayant
un domaine conservé.
7
Localiser des régions codantes et non
codantes
Aligner des séquences génomiques ADN et
des séquences exprimées (cDNA, EST)
Déterminer la similarité entre les séquences
8
Exemple de séquence :
9
Un alignement permet :
De superposer deux séquences et de trouver
soit :
[Link] les caractères sont les mêmes: une
Identité
2. Si les caractères ne sont pas les mêmes:
une Substitution
[Link] l 'une des position est un espace:
Insertion/ délétion
10
Homologue & Similaire
Le pourcentage de Similarité (%) = Présence
d'un ensemble de position identiques et
conservatives dans deux séquences
Deux séquences sont Homologues = fait
référence à une parenté évolutive entre
séquences
11
Matrices d’alignements
Matrice BLOSUM (BLOcks SUbstitutions
Matrices)
La matrice PAM souffre du choix restringent
des familles de protéines
pour calculer les probabilités p(A--->G)
12
Matrice BLOSUM 62
Score positif pour les identités,
et négatif pour les mismatchs
13
14
15
Alignement de séquences
Alignement global:
Seq1
Seq2
Alignement local:
Seq1
Seq2
Recherche de motif:
Seq1
Seq2
16
Alignement local
Similarité locale entre S1 et S2: Valeur max d’un alignement
entre deux facteurs qcq de S1 et S2
Exemple: Score 2 pour match et -1 pour mismatch ou espace
CAGCAC TT – GG AT TCTCGG
ll l l l
TAGT TT A GG -T GGCAT
Problème: Retrouver les deux facteurs des deux séquences de
similarité locale maximale
Fonction de score pour les substitutions de nucléotides ou
d’AA
Fonction de score pour les trous (gaps)
17
Méthodes utilisées pour l’alignement local
Méthode exacte: Smith-Waterman
Algorithme exact en O(n2) utilisant la programmation dynamique
Trop coûteux pour parcourir une banque de données
Heuristiques: Méthodes approximatives. Pas sûr d’obtenir le
meilleur résultat
FASTA et BLAST: Heuristiques les plus utilisées. Basées sur une idée
de filtrage
Sélectionner des parties de la base de donnée par une
méthode de recherche exacte
Pour chaque partie (intervalle) vérifier si une similarité locale
existe
18
Qualité d’un algorithme de comparaison
de séquences
Sélectivité: Capacité à ne détecter que la
réalité biologique et rien de plus
Problème des Faux-Positifs
Sensitivité: Capacité à détecter tout ce qui
est intéressant sur le plan biologique
Problème des Faux-Négatifs
19
BLAST: Basic local alignment search tool
Similarité locale entre une séquence requête
et une banque de données. Devenu
populaire grâce à une implémentation très
efficace.
BLASTP: séquence de protéine dans BD de
protéines
BLASTN: séquence de nucléotides dans BD
d’ADN
BLASTX: séquence de nucléotides (6 ordres de
lecture) dans BD de protéines
TBLASTN: séquence de protéine dans BD
traduite
20
BLAST: Basic local alignment search tool
TBLASTX: séquence traduite dans BD
traduite
BLASTZ: Étudié pour aligner de longues
séquences d’ADN, utilisé pour
l’alignement de l’homme et de la souris
PHI-BLAST: Recherche d’une expression
régulière (consensus)
PSI-BLAST: Construit un consensus, ou
matrice de score, à partir d’un alignement
multiple des ``hits’’ de plus haut score
obtenus par une recherche BLAST initiale
21
Méthode utilisée par BLAST
Former la liste de tous les facteurs de taille w de la
séquence requête P
P
Maximum l-w+1 mots
Pour chaque facteur f, former la liste de tous les mots de
taille w dont le score avec f dépasse un seuil T
Exemple: Pour f =PQG, {PQG, PRG, PKG, PDG, PMG…}
22
23
Identifier les occurrences exactes des mots de la
liste dans la BD
Pour chaque paire de séquences trouvées, étendre
l’alignement dans les deux directions, jusqu’à ce que
le score de l’alignement chute de X par rapport à sa
valeur d’origine. Segment accepté si score>S
24
Le HSP de score maximal sur l’ensemble
de la séquence est appelé maximal scoring
segment pair (MSP)
Les alignements locaux HSP sont chaînés
pour former des alignements plus longs,
incluant des espaces et des trous.
Si le MSP ou les HSP combinés ont un score
qui dépasse un certain seuil S, il sont
affichés
25
Paramètres
La séquence format FASTA
La banque (compressée)
W (taille du mot).
Protéines: w de 3 à 5, et T = 17
Donne à peu près 50 mots pour chaque
facteur
Nucléotides: w = 12
S (seuil de sélection d’un score)
Matrices de substitution (BLOSUM 62) ou
score pour les nucléotides (+5/-4)
26
Évaluation statistique
Expect-value = nb de fois où un HSP est
attendu par chance sur l’ensemble de la
banque. Plus cette valeur est faible, plus le HSP
est significatif
P-value: P(N): Probabilité du score observé.
Plus cette valeur est faible, plus le HSP est
significatif.
27
Comparaison d’une séquence à celles
d'une BD données:
Objectif : Trouver des séquences similaires avec une
signification biologique
Lorsque l'alignement est fait sur au moins 70% de la
séquence:
Des séquence sont homologues au delà de 70% de
similarité, mais cela reste à confirmer par d'autres
hypothèses: présence de motifs communs.....
Si la E-value est très faible (<10-20), nous avons une
similarité entre les séquences.
28
29
On choisit son BLAST
La page d’entrée NCBI BLAST
[Link]
30
31
On entre la séquence à chercher
32
Choisir la banque de données dans laquelle on veut
faire la recherche
33
On a soumis et on attend les résultats
34
Les résultats
35
Les résultats: vue graphique
36
37
38
39
Travaux Dirigés : Logiciel Blast
Exercice 1 :
A partir du NCBI : Télécharger la séquence de la
protéine de votre choix en format FASTA
Copier la sequence sous forme FASTA dans le BLAST
Aligner la séquence
Déterminer les séquences les plus similaires et leurs
scores
40
Exercice 2 :
Choisir la séquence d’une protéine d’origine
de 2 organismes différents : Parasite -
bactérie – Plante – champignon-…….
À partir du NCBI sortir les 2 séquences
FASTA
Aligner ces deux séquences avec BLAST
Déterminer le taux d’identité entre ces deux
séquences
41
Information collectés
NCBI Informations recuiellis :
Organismes : ……?
Information sur l’expression du gène……?
Information sur les gènes ……
Information sur la protéine ...
Information sur la fonction….
ID gene : GenBank
42
BLAST
Reporter toutes les informations receuillis sur ce
gene et son alignement dans un document.
Similarité par blast
Gene ID ……
% similarite
43