0% ont trouvé ce document utile (0 vote)
479 vues48 pages

Cours Alignement Blast

Ce document présente l'algorithme BLAST utilisé pour l'alignement de séquences. Il décrit les principes de base de l'alignement local de séquences ainsi que les paramètres et méthodes utilisés par BLAST.

Transféré par

line
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
479 vues48 pages

Cours Alignement Blast

Ce document présente l'algorithme BLAST utilisé pour l'alignement de séquences. Il décrit les principes de base de l'alignement local de séquences ainsi que les paramètres et méthodes utilisés par BLAST.

Transféré par

line
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours Bioinformatique

S1

Alignement de séquences
L’algorithme BLAST

Pr Amal Maurady
2020-2021
2
Objectif de alignement de séquence
 C’est un outil d’identification de géne ou
séquence qui permet :
 Comparer 2 séquences : pour connaitre les
régions similaires et les régions différentes
 Identifier les mutations qui sont du à
radiations ou évolution de espèce, effet
externe,
 OGM : organisme génétiquement modifiable
 Déterminer l’homologie dans de protéines
 Déterminer espèce
3
Séquences d’ADN

 FMR1, SMR1 et SMR2 c est trois gènes impliqués dans


la transcription c est a dire la reproduction sexuelle des
champignons

4
Sequence codante d’un gène (aussi appelée la région codante
ou CDS, pour Coding DNA Sequence), est la partie de l’ADN ou de
l’ARN d'un gène, composée des exons, traduite en protéine. Elle ne
représente donc qu'une partie du gène duquel elle provient, de
même que de l'ARNm dans laquelle elle est inscrite.

5
Problématiques Bioinformatiques

 Est-ce que cette séquence contient un gène?


 Est-ce que ce gène fait partie d’une famille
connue?
 Quelle est la fonction de cette protéine?
 Est-ce que cette protéine existe dans d’autres
organismes?
 Est-ce que d’autres protéines ont les mêmes
domaines ou motifs structuraux?

6
Pourquoi rechercher des séquences
dans les banques?
 Identifier des protéines homologues:
 Orthologue: organisme différents :
 Paralogue: organisme identiques :
 Déterminer si des séquences ont une
fonction similaire ou proche.
 Déterminer des familles des protéines ayant
un domaine conservé.

7
 Des genes homologues : c’est des genes ayant un
ancetres commun.
 Homéologie : ce sont des regions chromosomiques
ou genes qui ont été homologues qui ont divergé

8
 Localiser des régions codantes et non
codantes
 Aligner des séquences génomiques ADN et
des séquences exprimées (cDNA, EST)
 Déterminer la similarité entre les séquences

9
Exemple de séquence :

10
Un alignement permet :

 De superposer deux séquences et de trouver soit :


[Link] les caractères sont les mêmes: une Identité
2. Si les caractères ne sont pas les mêmes: une
Substitution
[Link] l 'une des position est un espace: Insertion/
délétion

11
Homologue & Similaire

 Le pourcentage de Similarité (%) = Présence


d'un ensemble de position identiques et
conservatives dans deux séquences

 Deux séquences sont Homologues = fait


référence à une parenté évolutive entre
séquences

12
 Acides aminées identique : M-M
 Acides aminées conservés :
 CODONS DU MEME ACIDE AMINEES
 DES AA qui sont proches dans la forme, la
charge,……
 Hydrophobes : A –V - M
 Chargées négatif : Asp (D) ; Glu (E),
 Chargées positif :K-R-H
 Aromatique : W, F, Y

13
14
Matrices d’alignements

 Matrice BLOSUM (BLOcks SUbstitutions


Matrices)
 La matrice PAM souffre du choix restringent
des familles de protéines
pour calculer les probabilités p(A--->G)

15
Matrice BLOSUM 62
Score positif pour les identités,
et négatif pour les mismatchs

16
17
18
Alignement de séquences
Alignement global:
Seq1

Seq2

Alignement local:
Seq1

Seq2

Recherche de motif:

Seq1

Seq2

19
Alignement local
Similarité locale entre S1 et S2: Valeur max d’un alignement
entre deux facteurs qcq de S1 et S2

Exemple: Score 2 pour match et -1 pour mismatch ou espace


CAGCACTTGG ATTCTCGG
TAGTTTAGGTGGCAT
Score final= somme de 18 score

CAGCAC TT – GG AT TCTCGG
ll l l l
TAGT TT A GG -T GGCAT

Problème: Retrouver les deux facteurs des deux séquences de


similarité locale maximale

 Fonction de score pour les substitutions de nucléotides ou


d’AA
 Fonction de score pour les trous (gaps) 20
Méthodes utilisées pour l’alignement local

 Méthode exacte: Smith-Waterman


Algorithme exact en O(n2) utilisant la programmation dynamique
Trop coûteux pour parcourir une banque de données

 Heuristiques: Méthodes approximatives. Pas sûr d’obtenir le


meilleur résultat

FASTA et BLAST: Heuristiques les plus utilisées. Basées sur une idée
de filtrage
 Sélectionner des parties de la base de donnée par une
méthode de recherche exacte
 Pour chaque partie (intervalle) vérifier si une similarité locale
existe

21
Qualité d’un algorithme de comparaison
de séquences
 Sélectivité: Capacité à ne détecter que la
réalité biologique et rien de plus
Problème des Faux-Positifs

 Sensitivité: Capacité à détecter tout ce qui


est intéressant sur le plan biologique
Problème des Faux-Négatifs

22
BLAST: Basic local alignment search tool
Similarité locale entre une séquence requête et une
banque de données. Devenu populaire grâce à une
implémentation très efficace.
 BLASTP: séquence de protéine dans BD de protéines
 BLASTN: séquence de nucléotides dans BD d’ADN
 BLASTX: séquence de nucléotides (6 ordres de lecture) dans BD de
protéines
 TBLASTN: séquence de protéine dans BD traduite
 TBLASTX: séquence traduite dans BD traduite
 BLASTZ: Étudié pour aligner de longues séquences d’ADN, utilisé
pour l’alignement de l’homme et de la souris
 PHI-BLAST: Recherche d’une expression régulière (consensus)
 PSI-BLAST: Construit un consensus, ou matrice de score, à partir
d’un alignement multiple des ``hits’’ de plus haut score obtenus par
une recherche BLAST initiale

23
Méthode utilisée par BLAST
 Former la liste de tous les facteurs de taille w de la
séquence requête P
P
Maximum l-w+1 mots

 Pour chaque facteur f, former la liste de tous les mots de


taille w dont le score avec f dépasse un seuil T

Exemple: Pour f =PQG, {PQG, PRG, PKG, PDG, PMG…}

24
25
 Identifier les occurrences exactes des mots de la
liste dans la BD

 Pour chaque paire de séquences trouvées, étendre


l’alignement dans les deux directions, jusqu’à ce que
le score de l’alignement chute de X par rapport à sa
valeur d’origine. Segment accepté si score>S

26
 SLAALLNKC
 TLAASVLDC

27
 Le HSP (High scoring segment) de score
maximal sur l’ensemble de la séquence est
appelé maximal scoring segment pair
(MSP)
 Les alignements locaux HSP sont chaînés
pour former des alignements plus longs,
incluant des espaces et des trous.
Si le MSP ou les HSP combinés ont un score
qui dépasse un certain seuil S, il sont
affichés

28
Paramètres
 La séquence format FASTA
 La banque (compressée)
 W (taille du mot).
 Protéines: w de 3 à 5, et T = 17
Donne à peu près 50 mots pour chaque
facteur
 Nucléotides: w = 12
 S (seuil de sélection d’un score)
 Matrices de substitution (BLOSUM 62) ou
score pour les nucléotides (+5/-4)

29
Évaluation statistique

 Expect-value = nb de fois où un HSP est


attendu par chance sur l’ensemble de la
banque. Plus cette valeur est faible, plus le HSP
est significatif
 P-value: P(N): Probabilité du score observé.
Plus cette valeur est faible, plus le HSP est
significatif.

30
Comparaison d’une séquence à celles
d'une BD données:
 Objectif : Trouver des séquences similaires avec une
signification biologique

 Lorsque l'alignement est fait sur au moins 70% de la


séquence:
 Des séquence sont homologues au delà de 70% de
similarité, mais cela reste à confirmer par d'autres
hypothèses: présence de motifs communs.....
 Si la E-value est très faible (<10-20), nous avons une

similarité entre les séquences.

31
32
On choisit son BLAST

La page d’entrée NCBI BLAST


[Link]

33
Où trouver les outils de bioinformatique ?

 Outils indépendants, autonomes, en accès libre via internet (soit à


utiliser en ligne, soit à télécharger sous forme d’installeurs).
 on les recherche par l’intermédiaire d’un moteur de recherche

 Portails de bioinformatiques, fonctionnant en ligne, et comportant


plusieurs outils en accès libre ou payant.
 Exemples :
- EBI (European Bioinformatics Institute)
[Link]

- NCBI (National Center for Biotechnology Information)


[Link]

Initiation à la bioinformatique – 20 mars 2013


Le portail NCBI
Où trouver les outils de bioinformatique ?
Le logiciel BLAST accessible depuis le portail
37
On entre la séquence à chercher

38
Choisir la banque de données dans laquelle on veut
faire la recherche

39
On a soumis et on attend les résultats

40
Les résultats

41
Les résultats: vue graphique 42
43
44
45
Travaux Dirigés : Logiciel Blast

Les travaux dirrigés de ce cours sont joint en fichier pdf

46
Problématiques Bioinformatiques

 Est-ce que cette séquence contient un gène?


 Est-ce que ce gène fait partie d’une famille
connue?
 Quelle est la fonction de cette protéine?
 Est-ce que cette protéine existe dans d’autres
organismes?
 Est-ce que d’autres protéines ont les mêmes
domaines ou motifs structuraux?

47
48

Vous aimerez peut-être aussi