Alignement et k-uplets en bioinformatique

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

163 vues4 pages

Alignement et k-uplets en bioinformatique

Transféré par

samir ouabdelkader

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre IV : Alignement (Partie 2)

Calcul de pénalité pour les gaps :

 Fonction linéaire
n : nombre de trous (indels)
 : constante pénalisante

 Fonction affine
n : nombre de trous ou taille de gap
α : coût de l’ouverture (le début d’un gap)
β : coût de l’allongement ou de l’extension d’un gap
α et β sont deux constantes définies empiriquement

 Exemple :  = -6, α = -10, β = -2 et Matrice BLOSUM62 :

Avantages et inconvénients de la programmation dynamique :

 Elle garantit à 100% d’obtenir un ou plusieurs alignements optimaux.
 Par contre, elle est lente en termes de temps d’exécution ; d’où la nécessité d’utiliser des
méthodes heuristiques (ou approximatives).
 En pratique : Séquence requête vs. Banque de données

Exemple : La banque UniProtKB possède plus de 71 millions de séquences protéiques

avec plus de 23 milliards d’acides aminés !!!

Méthodes heuristiques :
FASTA : (FASTP, FASTN)

 Présenté en 1985.
 Accessible sur : http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml
 Se baser sur la matrice de points, sans pour autant la calculer !!!
 Deux séquences S1 : n résidus ; S2 : m résidus → (n + m -1) diagonales dans la matrice de
points.
 Utiliser des petits segments ayant une taille de k résidus : k-uplets
 k = 1 - 4 pour les acides aminés
 k = 7 - 11 pour les acides nucléiques
 Etapes à suivre :
1. Décomposer les deux séquences : S1 (séquence requête) et S2 (appartient à la banque de
données) en k-uplets chevauchants.

1
2. Créer un tableau de scores pour toutes les diagonales :
Le score d’une diagonale ≈ Nombre d’identités qui se trouvent sur cette diagonale.
3. Pour chaque k-uptet commun entre S1 et S2, incrémenter le score de la diagonale (i-j) où i
et j sont les positions du k-uptlet commun dans S1 et S2, respectivement.
4. Choisir une taille de bande d autour de la diagonale principale qui permettra de choisir
uniquement quelques diagonales dans le tableau de scores  bande d’homologie
maximale ou une deuxième approche qui consiste à choisir les 10 meilleures diagonales
avec les scores les plus élevés.
5. L’alignement final sera construit à partir de la bande choisie précédemment en recollant
les k-uplets trouvés dans cette bande avec la possibilité d’utiliser l’algorithme de
Needleman & Wunsch.

Exemple :

k =2 ; Acides nucléiques (par souci de simplification, on choisit k = 2)

S1 : ATGCAAGCAATC ; S2 : CATCAATTGCA (S2 fait partie d’une banque de données)

L’indice ( i - j ) indique la diagonale sur laquelle se trouve un k-uptlets communs entre S1 et S2. On ne
garde que les régions identiques de longueur ≥ k.

S1 S2
Positions Positions
2-uplet 2-uplet
(i) (j)
AT 1 , 10 CA 1 , 4 , 10
TG 2 AT 2,6
GC 3,7 TC 3
CA 4,8 AA 5
AA 5,9 TT 7
AG 6 TG 8
TC 11 GC 9

Tableau de score :
d-10 d-9 d-8 d-7 d-6 d-5 d-4 d-3 d-2 d-1 d0 d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11
1 0 0 0 4 3 1 0 3 4 3 1 1 4 5 1 0 2 3 0 0 1

d=5

S1 : -ATGCAA--GCAATC
S2 : CAT-CAATTGCA---

En pratique, c’est beaucoup plus compliqué que

cela, surtout quand les séquences font plusieurs
centaines de résidus.

2
BLAST: Basic Local Alignment Search Tool
 Présenté en 1990.
 https://blast.ncbi.nlm.nih.gov/Blast.cgi
 Utilisation de k-uplets plus longs contrairement au FASTA. Au niveau de l’interface de BLAST,
k correspond au paramètre w (pour Word size).
 Etapes à suivre:
1. Retrouver tous les k-uplets (mots) de S1
2. Pour tout k-uplet appartient à S1, récupérer tous les k-uplets ayant un score de similarité
≥ Seuil H  Construire la liste L.
3. Faire la recherche des mots appartenant à la liste L dans la banque de données.
4. Stratégie de BLAST : Prolonger l’alignement de part et d’autre autour des k-uplets initiaux
tant que le score monte ou reste stable.

Exemple :

k = 4 ; H (seuil) = 17 ; Matrice de substitution : BLOSUM62

S1 : … IFKRFW …
La liste L pour le quadruplet : FKRF

Score = 22 Score = 19 Score = 18 Score = 17

FKRF YKRF FQRF WKRF
FKRY FERF FKRW
FRRF FKQF FNRF
FKKF FSRF
FKNF
FKEF
FKHF

La liste L va être utilisée pour examiner toutes les séquences de la banque de données. Chaque fois
qu’un quadruplet appartenant à L est trouvé, on essaie d’étendre l’alignement autour des
quadruplets initiaux tant que le score augmente ou reste stable.
S1 : … IFKRFW …
S2 : … LFKQFY …
Le score de similarité initial entre les deux quadruplets ‘FKRF’ et ‘FKQF’ est de 18. L’idée de BLAST
consiste à reconsidérer les deux segments initiaux en leur ajoutant le résidu qui se trouve à leur
droite : ‘FKRFW’ et ‘FKQFY’ → le score devient égal à 20. Si on ajoute cette fois-ci le résidu qui se
trouve à gauche, le score de similarité monte à 22 entre ‘IFKRFW’ et ‘LFKQFY’, etc.

 Versions de BLAST :

3
Fiabilité et qualité des méthodes heuristiques :
 Questions auxquelles il faut répondre :
 Trouver toutes les séquences homologues ?
 Signification statistique / biologique de l’homologie trouvée ?
 Impact des paramètres de la méthode choisie : BLAST
 H ↗ : Risque de rater des alignements intéressants
 H ↘ : Risque de récupérer des intrus
 Outil d’évaluation est nécessaire et indispensable:
Pour BLAST :
Mesure E-value = Espérance mathématique calculée à partir d’un modèle statistique
Définition d’après https://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html:

“The Expect value (E) is a parameter that describes the number of hits one can
"expect" to see by chance when searching a database of a particular size. It decreases
exponentially as the Score (S) of the match increases. Essentially, the E value
describes the random background noise. For example, an E value of 1 assigned to a
hit can be interpreted as meaning that in a database of the current size one might
expect to see 1 match with a similar score simply by chance.

The lower the E-value, or the closer it is to zero, the more "significant" the match is.
However, keep in mind that virtually identical short alignments have relatively high E
values. This is because the calculation of the E value takes into account the length of
the query sequence. These high E values make sense because shorter sequences have
a higher probability of occurring in the database purely by chance.” Hit = Alignment

n : Longueur de la séquence requête

m : Longueur de la banque de données (nombre total de résidus)
S : Score normalisé
n.m : espace de recherche

N.B. Aucun support électronique n’est prévu pour les autres parties abordées en cours : Alignement
multiple & Arbres phylogénétiques.

Références bibliographiques :

Vous aimerez peut-être aussi

Exam de Bio Info Paris Saclay
100% (1)
Exam de Bio Info Paris Saclay
2 pages
cours-Bioinformatique-MOKRANI - Partie-2
Pas encore d'évaluation
cours-Bioinformatique-MOKRANI - Partie-2
17 pages
Cours de bioinformatique en licence
Pas encore d'évaluation
Cours de bioinformatique en licence
18 pages
Blast
Pas encore d'évaluation
Blast
9 pages
Cours Alignement Blast
Pas encore d'évaluation
Cours Alignement Blast
48 pages
Bioinformatique - TP2: Alignement de S Equences Avec Python
Pas encore d'évaluation
Bioinformatique - TP2: Alignement de S Equences Avec Python
2 pages
Bioinformatique : Exercices et Concepts Clés
Pas encore d'évaluation
Bioinformatique : Exercices et Concepts Clés
10 pages
Exercices 18
Pas encore d'évaluation
Exercices 18
88 pages
Corrige Type de Lexamen Bioinformatique 2023 Biotech
100% (1)
Corrige Type de Lexamen Bioinformatique 2023 Biotech
2 pages
BIOINFORMATIQUE Cours4 Blast
Pas encore d'évaluation
BIOINFORMATIQUE Cours4 Blast
31 pages
Cours Analyse Génétique Des Séquences - Juil2020
Pas encore d'évaluation
Cours Analyse Génétique Des Séquences - Juil2020
35 pages
Comparaison Des Sequences
Pas encore d'évaluation
Comparaison Des Sequences
81 pages
Alignement Multiple de Séquences et Analyse Phylogénétique
Pas encore d'évaluation
Alignement Multiple de Séquences et Analyse Phylogénétique
57 pages
Ib2021-22 2 Alignement TP
Pas encore d'évaluation
Ib2021-22 2 Alignement TP
10 pages
TP Bioinformatique : Exploration de RefSeq
Pas encore d'évaluation
TP Bioinformatique : Exploration de RefSeq
1 page
Analyse de Séquence avec R : Guide Pratique
100% (1)
Analyse de Séquence avec R : Guide Pratique
8 pages
Bioinfo et Modélisation pour Débutants
Pas encore d'évaluation
Bioinfo et Modélisation pour Débutants
58 pages
Bioinfo: Analyse de Séquences et R
Pas encore d'évaluation
Bioinfo: Analyse de Séquences et R
11 pages
Sequencage Illumina Devidal Roul
Pas encore d'évaluation
Sequencage Illumina Devidal Roul
4 pages
TD Bioinformatique
100% (1)
TD Bioinformatique
2 pages
Cours1 Introduction A La Bioinfo2021-SV3-SVT34x4
Pas encore d'évaluation
Cours1 Introduction A La Bioinfo2021-SV3-SVT34x4
12 pages
Logiciels d'analyse en bioinformatique
Pas encore d'évaluation
Logiciels d'analyse en bioinformatique
17 pages
Cours À Analyser
Pas encore d'évaluation
Cours À Analyser
7 pages
Bioinformatique Structurale sous Linux
Pas encore d'évaluation
Bioinformatique Structurale sous Linux
36 pages
Sujet S4 Bioinformatique L2MIB
Pas encore d'évaluation
Sujet S4 Bioinformatique L2MIB
1 page
Polycopié de Bioinformatique Déposé
Pas encore d'évaluation
Polycopié de Bioinformatique Déposé
109 pages
Cours 1 Bioinfo Toxico
Pas encore d'évaluation
Cours 1 Bioinfo Toxico
27 pages
Chapitre II Les Banques de Données
Pas encore d'évaluation
Chapitre II Les Banques de Données
12 pages
Cours2 Base de Données Et Séquences Version Complète4X4w
Pas encore d'évaluation
Cours2 Base de Données Et Séquences Version Complète4X4w
19 pages
Chapitre 3 METHODES D'ALIGNEMENT MULTIPLE Progressive
100% (1)
Chapitre 3 METHODES D'ALIGNEMENT MULTIPLE Progressive
22 pages
Etape 1 Controle Qualité
Pas encore d'évaluation
Etape 1 Controle Qualité
39 pages
Dosage du Permanganate en 1ère S
Pas encore d'évaluation
Dosage du Permanganate en 1ère S
5 pages
TD - TP 4 Bioinformatique .
Pas encore d'évaluation
TD - TP 4 Bioinformatique .
20 pages
Bases de données biologiques en bioinformatique
0% (1)
Bases de données biologiques en bioinformatique
3 pages
Examen de Bioinfo pour M1
50% (2)
Examen de Bioinfo pour M1
2 pages
Pymol Protocole
Pas encore d'évaluation
Pymol Protocole
7 pages
TD Design Amorces PCR Diagnostic PCR de Staphylococcus Aureus BLOG
Pas encore d'évaluation
TD Design Amorces PCR Diagnostic PCR de Staphylococcus Aureus BLOG
2 pages
TD Et TP Acp
Pas encore d'évaluation
TD Et TP Acp
6 pages
Le Bleu Des Bonbons Schtroumpfs Un Danger
Pas encore d'évaluation
Le Bleu Des Bonbons Schtroumpfs Un Danger
28 pages
1-Bioinfo de Base Introduction L3 Microbio 05 05 2022
Pas encore d'évaluation
1-Bioinfo de Base Introduction L3 Microbio 05 05 2022
21 pages
Introduction À La Métagénomique
Pas encore d'évaluation
Introduction À La Métagénomique
7 pages
Cours ADN Recombinant JMCetudiant
Pas encore d'évaluation
Cours ADN Recombinant JMCetudiant
78 pages
Comparaisons multiples de moyennes
100% (1)
Comparaisons multiples de moyennes
6 pages
Bio-Informatique - TP 1
Pas encore d'évaluation
Bio-Informatique - TP 1
3 pages
Compte-Rendu TP BM in Silico
Pas encore d'évaluation
Compte-Rendu TP BM in Silico
4 pages
Cours 3 Bases Et Banques de Données 2021
Pas encore d'évaluation
Cours 3 Bases Et Banques de Données 2021
14 pages
A Envoyer Bioinformatique Master 2024-25
Pas encore d'évaluation
A Envoyer Bioinformatique Master 2024-25
60 pages
Cours - Bioinformatique S1 1
Pas encore d'évaluation
Cours - Bioinformatique S1 1
26 pages
Chapitre2 Classification (Suite)
Pas encore d'évaluation
Chapitre2 Classification (Suite)
9 pages
Bioinformatique Cours Et Applications Ed. 2 by Gilbert Deléage, Manolo Gouy
Pas encore d'évaluation
Bioinformatique Cours Et Applications Ed. 2 by Gilbert Deléage, Manolo Gouy
216 pages
TP N4 Modélisation de La Structure 3D Des Protéines
Pas encore d'évaluation
TP N4 Modélisation de La Structure 3D Des Protéines
29 pages
Cladistique et Phylogénie Moléculaire
Pas encore d'évaluation
Cladistique et Phylogénie Moléculaire
29 pages
CM4 - Sequencage1 - HD
Pas encore d'évaluation
CM4 - Sequencage1 - HD
17 pages
Bioinformatique et Biomolécules
Pas encore d'évaluation
Bioinformatique et Biomolécules
23 pages
TP - 01
Pas encore d'évaluation
TP - 01
2 pages
Introduction à la Bioinformatique
Pas encore d'évaluation
Introduction à la Bioinformatique
22 pages
Corrigé Type du Contrôle de Génétique SNV
Pas encore d'évaluation
Corrigé Type du Contrôle de Génétique SNV
8 pages
Cours 4 Alignement BLAST
Pas encore d'évaluation
Cours 4 Alignement BLAST
43 pages
Sequence Alignment
Pas encore d'évaluation
Sequence Alignment
34 pages
CB Clustalw
Pas encore d'évaluation
CB Clustalw
24 pages
Web Cours Précipitation
Pas encore d'évaluation
Web Cours Précipitation
9 pages
Équilibres de solubilité en chimie
Pas encore d'évaluation
Équilibres de solubilité en chimie
7 pages
Emlpoi Du Temps 5 Eme Année - S1 - V1
Pas encore d'évaluation
Emlpoi Du Temps 5 Eme Année - S1 - V1
3 pages
Diversité des génomes procaryotes
Pas encore d'évaluation
Diversité des génomes procaryotes
23 pages
Les Techniques de Nettoyage Des Machines
100% (1)
Les Techniques de Nettoyage Des Machines
3 pages
TD 2
Pas encore d'évaluation
TD 2
3 pages
TD 1
Pas encore d'évaluation
TD 1
2 pages
TD 3
100% (4)
TD 3
3 pages
Cours 2017 LBIRC2109A
Pas encore d'évaluation
Cours 2017 LBIRC2109A
3 pages
Recrutement Chef Service Régulation
Pas encore d'évaluation
Recrutement Chef Service Régulation
1 page
Système de Reconnaissance de Plaques d'Immatriculation
Pas encore d'évaluation
Système de Reconnaissance de Plaques d'Immatriculation
24 pages
Mise en place d'un réseau local
100% (3)
Mise en place d'un réseau local
14 pages
MAT1013 Exos5
Pas encore d'évaluation
MAT1013 Exos5
4 pages
TD 02 Architecture Des Automates Programmables Industriels Partie1
Pas encore d'évaluation
TD 02 Architecture Des Automates Programmables Industriels Partie1
2 pages
Extraction de Règles d'Association Texte
Pas encore d'évaluation
Extraction de Règles d'Association Texte
59 pages
Haute École de La Province de Hainaut Condorcet - HYPERPLANNING
Pas encore d'évaluation
Haute École de La Province de Hainaut Condorcet - HYPERPLANNING
1 page
Chap4 Developpement Avance Application Android-2
Pas encore d'évaluation
Chap4 Developpement Avance Application Android-2
39 pages
Exercice S
Pas encore d'évaluation
Exercice S
3 pages
Devis matériel informatique Maroc
Pas encore d'évaluation
Devis matériel informatique Maroc
1 page
Introduction à la logique combinatoire
Pas encore d'évaluation
Introduction à la logique combinatoire
73 pages
TP Esp32
Pas encore d'évaluation
TP Esp32
7 pages
Gestion Utilisateurs Linux Debian
Pas encore d'évaluation
Gestion Utilisateurs Linux Debian
13 pages
Dessin 1
Pas encore d'évaluation
Dessin 1
3 pages
Manuel D'utilisation ServoMaster 12911004
Pas encore d'évaluation
Manuel D'utilisation ServoMaster 12911004
22 pages
Memo - JVM Monitoring
Pas encore d'évaluation
Memo - JVM Monitoring
5 pages
Fiche Module ASSEU 3A 24 25
Pas encore d'évaluation
Fiche Module ASSEU 3A 24 25
4 pages
05 - Windows 10 - Optimisation Et Maintenance
Pas encore d'évaluation
05 - Windows 10 - Optimisation Et Maintenance
30 pages
Introduction à JSP pour Développeurs
Pas encore d'évaluation
Introduction à JSP pour Développeurs
15 pages
Cours Arithmétique
Pas encore d'évaluation
Cours Arithmétique
5 pages
Ajout Fichier GSD Profibus
Pas encore d'évaluation
Ajout Fichier GSD Profibus
9 pages
Le Stage
Pas encore d'évaluation
Le Stage
7 pages
Reinheim (Gersheim) - Wikipédia
Pas encore d'évaluation
Reinheim (Gersheim) - Wikipédia
4 pages
K Pop Rapport
Pas encore d'évaluation
K Pop Rapport
28 pages
Chaînes et Tableaux en C
Pas encore d'évaluation
Chaînes et Tableaux en C
31 pages
Créez de la musique avec FL Studio
Pas encore d'évaluation
Créez de la musique avec FL Studio
209 pages
Manuel Utilisateur I2200
Pas encore d'évaluation
Manuel Utilisateur I2200
12 pages
Introduction et Notions de Base en Java
Pas encore d'évaluation
Introduction et Notions de Base en Java
47 pages
Soutenances de Stage ESTA 2024
Pas encore d'évaluation
Soutenances de Stage ESTA 2024
4 pages
Manuel Procedure Service Informatique
Pas encore d'évaluation
Manuel Procedure Service Informatique
3 pages