1
2
La bioinformatique : Traitement des informations
biologiques par des méthodes informatiques et/ou
mathématiques.
3
4
5
6
7
8
Séquence d’opérations de l’ADN aux protéines
transcription : l’ADN est copié en ARNm
traduction : l’ARNm est traduit en protéines par les
ribosomes
protéines sont les ouvrières du monde cellulaire
Le code de l’ADN est responsable de la vie
cellulaire
réplication
9
10
11
12
13
14
15
16
17
18
19
20
La bioinformatique utilise 3 sources de données :
Les séquences de nucléotides (ADN - ARNm)
Les séquences d’aminoacides
Des informations sur les protéines (notamment leur
structures)
21
22
23
24
25
Pour chaque gène un brin d’ADN est transcrit.
Un codon est formé de 3 bases nucléiques.
4 N(U,C,A,G) donc 43 = 64 codons différents
pour définir 20 acides aminés.
26
Les acides aminés sont des composants organiques et constituants
fondamentaux des protéines.
Plus de 500 acides aminés ont été inventoriés dont seulement 22 AA
apparaissent dans le code génétiques. .
Source: apport alimentaire, catabolisme des protéines.
En plus de 2 AA découverts récemment: Sélénocystéine (U) et
Pyrrolidine (2002).
27
Ils sont au nombre de 8 AA: V, L, I, F, W, , M,
On ajoute 2 AA, H et R essentiels en cas de
grossesse, nourrisson
Ce sont tous les autres acides aminés synthétisés par la cellule pour
le besoin de l’organisme.
28
29
30
31
32
33
34
Mélange + vinaigre et autre
Substance racinaire contenant
35
Molécule de 1ère importance:
(6%)
(15%)
(55%-65%)
Les protéines détiennent la seconde place dans la composition corporelle
. Universelle
36
37
Protéine de Mouvement
38
Lactose composée de glucose et galactose et pour être absorbée par le
corps il faudrait que les 2 composés soient séparés grâce à l’enzyme
lactase.
39
40
Le pancréas libère l’insuline, en cas d’absorption du glucose, pour être
stocké dans le foie et le muscle et éventuellement sous forme de tissus
graisseux. Les diabétiques type1, ne secrètent plus d’insuline.
41
42
43
44
45
Structure 2D: montre les liaisons de covalences
(covalent bonds) entre les atomes. Essentiellement
un graph.
Structure 3D: montre les positions relatives des
atomes.
46
47
48
Approximation intuitive et naïve: un atome
est une sphère.
Il occupe une position dans l’espace
spécifiée par 3 coordonnées cartésiennes
(x,y,z) de son centre à un moment donné.
49
Une molécule est un ensemble d’atomes
connectés dans un graphe.
Les coordonnées (x,y,z) de chaque atome
désigne la géométrie de la molécule.
50
4 atomes définissent un angle
de torsion (dièdre ou dihedral).
2 atomes définissent
une longueur de liaison
3 atomes définissent un angle de liaison
La géométrie d’une molécule peut être
spécifiée par ses: longueurs de liaison, angles
de liaison, et angles de torsion.
51
On peut approximer l’énergie potentielle totale
d’un système moléculaire comme la somme des
contributions individuelles. Les termes sont
additifs.
La somme sur chaque atomes est aussi une somme
des contributions individuelles.
Les forces quantiques sont ignorées. Ainsi, les atomes
sont des balles et les forces sont des ressorts.
On considère 2 types de force:
Forces de liaison: agissent entre des ensemble
d’atomes étroitement liés dans un graphe de liaisons.
Forces non de liaison: agissent entre tous les paires
d’atomes.
52
Une liaison covalente d’une paire d’atomes est
reliée par un ressort de diverses longueurs
(naturellement). L’étirer ou le comprimer nécessite
de l’énergie.
53
Chaque angle de liaison a aussi une valeur
naturelle, l’augmenter ou le diminuer
nécessite aussi de l’énergie.
54
Certaines valeurs de chaque angle de torsion
sont préférées à d’autres.
55
Même charges se
repoussent.
Charges opposées
s’attirent.
Forces électrostatiques
agissent entre tous les
paires d’atomes y compris
ceux de différentes
molécules.
Chaque atome acquis une
charge partielle « peut
être une fraction de
charge élémentaire » qui
dépends de quel atome
qui lui est connecté.
56
Les forces de van der Waals
agissent tous les paires
d’atomes et ne dépendent
pas de la charge.
Quand 2 atomes sont trop
proches l’un de l’autre ils se
repoussent fortement.
Quand 2 atomes sont un peu
plus loin, ils s’attirent l’un
vers l’autre faiblement.
Energie est minimale, au moment où les
atomes « vient juste de se toucher »
57
58
Interaction favorable entre un
atome électronégatif (ex. « N »
ou « O ») et une liaison
hydrogène à un autre atome
électronégatif.
résulte de multiples
interactions électrostatiques et
de van der Waals.
Très sensible à la géométrie
des atomes (distance et
alignement).
Relativement forte aux forces
typiques électrostatique et de
van der Waals.
Critique à la structure de
protéine et aussi à d’autres
structures biomoléculaires.
59
Les molécules H2O forment des liaisons
hydrogène tendues entre eux et entre les atomes
d’un protéine.
La structure d’une protéine dépends du fait
qu’elle est entourée d’H2O.
60
La liaison hydrogène ou pont hydrogène est une force
intermoléculaire ou intramoléculaire impliquant un atome
d'hydrogène et un atome électronégatif comme l'oxygène,
l'azote et le fluor. C’est une liaison faible comparée à une
liaison ionique ou une liaison covalente.
61
Molécules hydrophiliques sont polaires et forment
donc des liaisons hydrogène avec H2O.
Polaire = contient des atomes chargés. Molécules
contenant oxygène ou nitrogène sont toujours polaires.
Molécules hydrophobiques sont apolaires et ne
forment pas de liaisons hydrogène avec H2O (peur de
l’eau). Exemple: molécules d’eau et d’huile ne se
mélangent pas.
62
L’angle de torsion rotant
autour de la liaison N-CA
et appelé
L’angle de torsion
rotant autour de la
liaison CA-C et appelé
Ensemble, ils sont les
angles
La liaison N-C ou «
liaison peptidique » est
rigide.
63
La figure montre la distribution dans le plan
est appelée diagramme de Ramachandran.
Certains types d’acide aminé possèdent des
diagrammes Ramachandran distincts. Exemple: ALA
est typique et Pro est inhabituel.
La plupart des acides
aminés sont considérées
comme ALA.
Alpha hélices et feuillets Béta possèdent des
diagrammes Ramachandran caractéristiques.
64
65
66
67
68
69
70
Il existe des méthodes expérimentales pour déterminer la structure
secondaire comme la magnétique nucléaire, le dichroïsme ou
résonance ou certaines méthodes de spectroscopie infrarouge.
71
72
The local folding of the polypeptide in
some regions gives rise to the secondary
structure of the protein.
73
74
In the β-pleated sheet, the “pleats” are
formed by hydrogen bonding between
atoms on the backbone of the polypeptide
chain.
75
Feuillets Parallèles Feuillets AntiParallèles
Feuillets Plissés
76
2- R hydrophiliques
groupes se trouvent
à l’extérieur de la
protéine
3- En présence O2
une interaction
disulfure entre 2
1. R hydrophobiques cystéine chaînes est
groupes of non- crée. La seule
plaire AA résident à liaison covalente qui
l’intérieur de la se forme durant
protéine repliement de la
protéine.
La connaissance de la structure tertiaire, voire quaternaire, d'une protéine peut
fournir des éléments importants pour comprendre comment cette protéine
remplit sa fonction biologique. La cristallographie aux rayons X et la
spectroscopie RMR sont des méthodes expérimentales pour étudier la structure
3D à l’échelle atomique. Elles sont coûteuses en temps et en coût.
77
78
79
80
81
82
83
84
85
86
87
Le format de la table de connections est formée de:
Une liste d’atomes (identifiant chaque atome)
Une liste de liaisons (chaque atome auquel il est connecté et le nombre
de liaisons)
Coordonnées spatiales 2D ou 3D de chaque atome (dés fois calculées et
des fois mesurées)
le compte du nombre d’atomes te de liaisons dans la molécule
Attributs associés aux atomes et liaisons
Attributs associés à la structure entière (charge du réseau) File Mol est le
format (txt) d’un
fichier qui
contient les
informations sur
la structure
moléculaire ou
chimique d’une
molécule (ou
composant). Il
est le plus
souvent utilisé.
SDF (structure
data file) est une
série de MolFile.
88
89
90
91
92
Comme une table de connections, il contient les mêmes informations
sur les atomes et les liaisons, à la différence qu’il prend 50% à 70%
moins de place.
C’est une structure de représentation compacte.
93
La notation Smiles est aussi un graphe, qui contient une série
de caractères (no space). Atome H est généralement omis.
Il existe 5 règles d’encodage Smiles correspondant aux
atomes, liaisons, branches, ring fermeture, et discontinuité).
R1. Atome: identifié par son symbole atomique (appartenant
au tableau périodique) entre crochet sauf pour le sous
ensemble organique d’éléments B (bore), C, N (azote), O, P, S
(soufre), F, (fluore), Cl (chlore), Br (brome), I (iode). Entre
crochets on spécifie un atome chargé. Les lettres majuscules
pour les atomes aromatisé (avec structures cycliques) et les
lettres minuscules pour les atomes non aromatisés
R2. Liaisons:
94
R3. Branches: un groupe est spécifié entre parenthèses.
R4. Structure cyclique: elle est représentée en brisant un
liant dans chaque liaison.
2 descriptions valides de la même structure
95
R5. Discontinuité: Les composants discontinus sont décrits
comme des structures individuelles séparées par un ‘.’.
96
97
98
99
100
101
En général, l’alignement vise la prédiction.
Il permet d’identifier les sites fonctionnels (site
catalytique, site d’interaction..).
Prédire la fonction ou les fonctions d’une
protéine (existence d’homologie avec une
fonction connue).
Prédiction ?? d’une structure d’un protéine.
Alignement multiple au sein d’une famille de
protéine permet d’établir une phylogénie.
102
Un algorithme d’alignement cherche des motifs
similaires en maximisant le nombre de
coïncidences entre des N ou AA.
Ainsi pour aligner les caractères communs des
« » doivent être ajoutés à .
Un trou appelé « » correspond à une
ou .
Le problème revient donc à :
103
INDEl = « Hypothèse d’un événement évolutif moins probable qu’une
simple substitution». Donc son apparition doit être pénalisé plus qu’un
substitution.
104
.
Comment: Maximiser les identités sur la totalité des séquences.
Pourquoi : Alignement des protéines homologues en vue d’identifier
les acides aminés conservés par l’évolution.
.
Comment: Maximiser les identités sur la totalité des séquences.
Pourquoi : Le plus long chevauchement entre 2 séquences est
recherché pour la reconstitution à partir des données de séquençage.
105
.
Algorithme de distance
Needleman-Wunsch (1970)
Myers & Miller
Smith-Waterman (1981)
FASTA (1988)
BLAST (1990, version 2 en 1997)
Ces algorithmes utilisent la programmation dynamique
106
A partir d’un alignement multiple, on peut générer une séquence
virtuelle qui contient pour chaque position l’AA le plus représenté.
La indique le de la
position et la indique la à
cette position.
107
108
109
110
111
Pour chaque gène un brin d’ADN est transcrit.
4 N(U,C,A,G) donc 43 = 64 codons différents
pour définir 20 acides aminés.
112
113
114
Pour chaque gène un brin d’ADN est transcrit.
Un codon est formé de 3 bases nucléiques.
4 N(U,C,A,G) donc 43 = 64 codons différents
pour définir 20 acides aminés.
115
116