0% ont trouvé ce document utile (0 vote)
163 vues4 pages

Alignement et k-uplets en bioinformatique

Transféré par

samir ouabdelkader
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
163 vues4 pages

Alignement et k-uplets en bioinformatique

Transféré par

samir ouabdelkader
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre IV : Alignement (Partie 2)

Calcul de pénalité pour les gaps :


 Fonction linéaire
n : nombre de trous (indels)
 : constante pénalisante

 Fonction affine
n : nombre de trous ou taille de gap
α : coût de l’ouverture (le début d’un gap)
β : coût de l’allongement ou de l’extension d’un gap
α et β sont deux constantes définies empiriquement

 Exemple :  = -6, α = -10, β = -2 et Matrice BLOSUM62 :

Avantages et inconvénients de la programmation dynamique :


 Elle garantit à 100% d’obtenir un ou plusieurs alignements optimaux.
 Par contre, elle est lente en termes de temps d’exécution ; d’où la nécessité d’utiliser des
méthodes heuristiques (ou approximatives).
 En pratique : Séquence requête vs. Banque de données

Exemple : La banque UniProtKB possède plus de 71 millions de séquences protéiques


avec plus de 23 milliards d’acides aminés !!!

Méthodes heuristiques :
FASTA : (FASTP, FASTN)

 Présenté en 1985.
 Accessible sur : http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml
 Se baser sur la matrice de points, sans pour autant la calculer !!!
 Deux séquences S1 : n résidus ; S2 : m résidus → (n + m -1) diagonales dans la matrice de
points.
 Utiliser des petits segments ayant une taille de k résidus : k-uplets
 k = 1 - 4 pour les acides aminés
 k = 7 - 11 pour les acides nucléiques
 Etapes à suivre :
1. Décomposer les deux séquences : S1 (séquence requête) et S2 (appartient à la banque de
données) en k-uplets chevauchants.

1
2. Créer un tableau de scores pour toutes les diagonales :
Le score d’une diagonale ≈ Nombre d’identités qui se trouvent sur cette diagonale.
3. Pour chaque k-uptet commun entre S1 et S2, incrémenter le score de la diagonale (i-j) où i
et j sont les positions du k-uptlet commun dans S1 et S2, respectivement.
4. Choisir une taille de bande d autour de la diagonale principale qui permettra de choisir
uniquement quelques diagonales dans le tableau de scores  bande d’homologie
maximale ou une deuxième approche qui consiste à choisir les 10 meilleures diagonales
avec les scores les plus élevés.
5. L’alignement final sera construit à partir de la bande choisie précédemment en recollant
les k-uplets trouvés dans cette bande avec la possibilité d’utiliser l’algorithme de
Needleman & Wunsch.

Exemple :

k =2 ; Acides nucléiques (par souci de simplification, on choisit k = 2)

S1 : ATGCAAGCAATC ; S2 : CATCAATTGCA (S2 fait partie d’une banque de données)

L’indice ( i - j ) indique la diagonale sur laquelle se trouve un k-uptlets communs entre S1 et S2. On ne
garde que les régions identiques de longueur ≥ k.

S1 S2
Positions Positions
2-uplet 2-uplet
(i) (j)
AT 1 , 10 CA 1 , 4 , 10
TG 2 AT 2,6
GC 3,7 TC 3
CA 4,8 AA 5
AA 5,9 TT 7
AG 6 TG 8
TC 11 GC 9

Tableau de score :
d-10 d-9 d-8 d-7 d-6 d-5 d-4 d-3 d-2 d-1 d0 d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11
1 0 0 0 4 3 1 0 3 4 3 1 1 4 5 1 0 2 3 0 0 1

d=5

S1 : -ATGCAA--GCAATC
S2 : CAT-CAATTGCA---

En pratique, c’est beaucoup plus compliqué que


cela, surtout quand les séquences font plusieurs
centaines de résidus.

2
BLAST: Basic Local Alignment Search Tool
 Présenté en 1990.
 https://blast.ncbi.nlm.nih.gov/Blast.cgi
 Utilisation de k-uplets plus longs contrairement au FASTA. Au niveau de l’interface de BLAST,
k correspond au paramètre w (pour Word size).
 Etapes à suivre:
1. Retrouver tous les k-uplets (mots) de S1
2. Pour tout k-uplet appartient à S1, récupérer tous les k-uplets ayant un score de similarité
≥ Seuil H  Construire la liste L.
3. Faire la recherche des mots appartenant à la liste L dans la banque de données.
4. Stratégie de BLAST : Prolonger l’alignement de part et d’autre autour des k-uplets initiaux
tant que le score monte ou reste stable.

Exemple :

k = 4 ; H (seuil) = 17 ; Matrice de substitution : BLOSUM62


S1 : … IFKRFW …
La liste L pour le quadruplet : FKRF

Score = 22 Score = 19 Score = 18 Score = 17


FKRF YKRF FQRF WKRF
FKRY FERF FKRW
FRRF FKQF FNRF
FKKF FSRF
FKNF
FKEF
FKHF

La liste L va être utilisée pour examiner toutes les séquences de la banque de données. Chaque fois
qu’un quadruplet appartenant à L est trouvé, on essaie d’étendre l’alignement autour des
quadruplets initiaux tant que le score augmente ou reste stable.
S1 : … IFKRFW …
S2 : … LFKQFY …
Le score de similarité initial entre les deux quadruplets ‘FKRF’ et ‘FKQF’ est de 18. L’idée de BLAST
consiste à reconsidérer les deux segments initiaux en leur ajoutant le résidu qui se trouve à leur
droite : ‘FKRFW’ et ‘FKQFY’ → le score devient égal à 20. Si on ajoute cette fois-ci le résidu qui se
trouve à gauche, le score de similarité monte à 22 entre ‘IFKRFW’ et ‘LFKQFY’, etc.

 Versions de BLAST :

3
Fiabilité et qualité des méthodes heuristiques :
 Questions auxquelles il faut répondre :
 Trouver toutes les séquences homologues ?
 Signification statistique / biologique de l’homologie trouvée ?
 Impact des paramètres de la méthode choisie : BLAST
 H ↗ : Risque de rater des alignements intéressants
 H ↘ : Risque de récupérer des intrus
 Outil d’évaluation est nécessaire et indispensable:
Pour BLAST :
Mesure E-value = Espérance mathématique calculée à partir d’un modèle statistique
Définition d’après https://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html:

“The Expect value (E) is a parameter that describes the number of hits one can
"expect" to see by chance when searching a database of a particular size. It decreases
exponentially as the Score (S) of the match increases. Essentially, the E value
describes the random background noise. For example, an E value of 1 assigned to a
hit can be interpreted as meaning that in a database of the current size one might
expect to see 1 match with a similar score simply by chance.

The lower the E-value, or the closer it is to zero, the more "significant" the match is.
However, keep in mind that virtually identical short alignments have relatively high E
values. This is because the calculation of the E value takes into account the length of
the query sequence. These high E values make sense because shorter sequences have
a higher probability of occurring in the database purely by chance.” Hit = Alignment

n : Longueur de la séquence requête


m : Longueur de la banque de données (nombre total de résidus)
S : Score normalisé
n.m : espace de recherche

N.B. Aucun support électronique n’est prévu pour les autres parties abordées en cours : Alignement
multiple & Arbres phylogénétiques.

Références bibliographiques :

Vous aimerez peut-être aussi