BF04 Chapitre 2
BF04 Chapitre 2
2Chapitre 2
Les recherches ayant permis d’identifier ces facteurs sont essentiellement des travaux
effectués sur différentes familles de protéines homologues comprenant des protéines de
stabilité thermique différente issues d’organismes et de micro-organismes divers. La grande
similarité entre les homologues d’une même famille laisse place cependant à quelques faibles
dissemblances. Ces faibles dissemblances sont alors associées à des paramètres responsables
de la différence de stabilité thermique présente entre ces homologues. Cependant, les résultats
de ces différents travaux mettant en exergue l’influence de l’un ou l’autre facteur sur la
thermostabilité des protéines sont parfois en contradiction.
Nous avons étudié l’abondance et les proportions de ces divers facteurs au sein de huit
familles de protéines monomériques homologues : Acylphosphatase, Adénylate kinase,
α-Amylase, « Cold Shock Protein », Cytochrome P450, Glycoside hydrolase (Endoglucanase
12A), Lysozyme et Myoglobine (tableau 2.1).
La démarche que nous avons suivie peut être résumée en quelques points : définition des
familles de protéines monomériques homologues, développement d’une méthode automatique
d’évaluation des divers facteurs, évaluation de la proportion de chaque facteur au sein de
chaque protéine d’une même famille, détermination de la régression linéaire entre les
proportions de ces facteurs et leurs températures de fusion Tm afin d’en extraire un coefficient
de corrélation et une p-valeur. Ce coefficient nous permet d’appréhender l’influence favorable
ou défavorable d’un facteur donné vis-à-vis de la thermostabilité et la p-valeur d’en estimer la
significativité.
35
2.1 Définition de huit familles de protéines homologues
Un des grands défis de cette thèse de doctorat a été de constituer une base de données la
plus exhaustive possible regroupant des protéines dont la structure tridimensionnelle et la
stabilité thermique ont été déterminées expérimentalement (section 3.1.1). C’est à partir de la
base de données de protéines sauvages monomériques BD5 que nous avons obtenu ces huit
familles de protéines homologues. Deux protéines sont dites homologues lorsque les gènes
qui codent pour celles-ci ont une origine commune. Afin de s’assurer de leur homologie, nous
avons d’une part évalué leur identité de séquence avec l’outil bioinformatique ClustalW [253].
Il est en général considéré qu’au dessus de 40% d’identité de séquence, deux protéines sont
homologues [254]. D’autre part, nous avons réalisé une superposition de structure avec l’outil
bioinformatique DaliLite [255]. Le Z-score fournit par DaliLite est une mesure de la qualité de
l’alignement. Si le Z-score est au dessus de 20, les deux protéines sont homologues, entre 8 et
20 elles le sont probablement, entre 2 et 8 la décision est difficile, en dessous de 2 les deux
protéines ne sont pas homologues [255].
Parmi ces différentes familles certaines protéines peuvent aisément être identifiées
comme homologues par un alignement de séquence alors que d’autres non. En particulier, les
membres de la famille des cytochromes P450 ou des myoglobines ont des pourcentages
d’identités de séquence relativement faibles (tableau 2.1). Un alignement de structure avec
l’outil bioinformatique DaliLite permet cependant de mettre en évidence leur homologie.
Comme le montrent les résultats des alignements de séquence et de structure obtenus sur la
famille des lysozymes, l’homologue issu du phage λ est fort éloigné des trois autres (tableau
2.1). Les Z-scores obtenus entre cet homologue et les autres restent dans une gamme de
valeurs où l’homologie est incertaine.
36
Chapitre 2 – Thermostabilité de protéines homologues
Tableau 2.1 – Caractéristiques des protéines homologues de chaque famille. a Code PDB de
la structure de la protéine fournit par la « Protein Data Bank » [256]. b,c,d Les identités de séquence et
alignements de structure ont été réalisés au sein de chaque famille par rapport à son premier membre.
b
Alignement réalisé avec le logiciel ClustalW [253]. c Alignement de structure réalisé par DaliLite
exprimé en pourcentage de résidus alignés, l’écart quadratique moyen des coordonnées atomiques des
carbones α entre les deux structures tertiaires superposées est donné entre parenthèses [255]. d Z-score
fournit par DaliLite [255]. e Nombre de résidus de la protéine.
37
2.2 Facteurs de séquence et de structure
2.2.1 Les ponts hydrogène
Un pont hydrogène n’est pas une liaison covalente. C’est une liaison physique de type
dipôle-dipôle entre un atome électronégatif portant un doublet d’électrons libre (O, N, …) et
un atome d’hydrogène possédant une liaison covalente avec un autre atome relativement
électronégatif. Le premier atome électronégatif joue le rôle de donneur d’électrons (accepteur
d’hydrogène) et le second joue le rôle de donneur d’hydrogène. L’hydrogène quant à lui joue
le rôle d’accepteur d’électrons. En effet, une liaison covalente entre un atome relativement
électronégatif et un atome d’hydrogène possède un dipôle. Ce dipôle exprime le fait que les
deux électrons mis en commun pour réaliser cette liaison covalente sont attirés par l’atome
plus électronégatif (fig. 2.1). Ce déséquilibre en présence d’un autre atome électronégatif avec
un doublet libre donne lieu à une liaison hydrogène plus communément appelée pont
hydrogène ou pont H.
Figure 2.1 – Représentation simplifiée d’un pont hydrogène entre deux molécules d’eau.
Bien que cette interaction soit de faible valeur énergétique, au sein d’une protéine, les
ponts H sont omniprésents. En effet ils possèdent un grand rôle dans la formation et le
maintien des motifs structuraux secondaires des protéines (hélice α, feuillet β,…). Il a été
suggéré à plusieurs reprises que les liaisons hydrogènes jouent un rôle important dans le
maintien de l’activité biologique à haute température. Ainsi, certains homologues issus
d’organismes thermophiles disposent d’un plus grand nombre de ponts H que d’autres issus
d’organismes mésophiles voir psychrophiles [40,44,50,91,94,95,103,115,124-126,136-139].
• les ponts H (LL) formés entre atomes des deux chaînes latérales d’une paire de
résidus.
• les ponts H (PP) formés entre atomes de la chaîne principale d’une paire de résidus.
Ces ponts H se retrouvent en grande partie dans la stabilisation des motifs de la
structure secondaire des protéines.
• les ponts H (LP) formés entre un atome de la chaîne latérale d’un résidu et un atome
de la chaîne principale d’un résidu.
38
Chapitre 2 – Thermostabilité de protéines homologues
Ces interactions ont été à plusieurs reprises mises en avant comme facteur promouvant la
thermostabilité des protéines au sein de familles de protéines homologues. Les ponts salins
sont capables de former des réseaux électrostatiques pour lesquels une tendance similaire a été
observée [44,84,87,88,91,94-96,99,100,102,103,111-130,165].
39
π
2.2.6 Les interactions cation-π
Il s’agit de l’interaction entre un acide aminé portant une charge positive (K, R et
éventuellement H) et les orbitales π du groupement phényle d’un résidu aromatique (F, W,
Y). La délocalisation des électrons du cycle imidazole de l’histidine peut également jouer ce
rôle. Les résidus N et Q peuvent quant à eux réaliser des interactions amino-π entre leur
groupement portant une charge partielle positive et un résidu aromatique. Le double rôle de
l’histidine en tant qu’acide aminé chargé ou aromatique en fonction de son environnement
proche et de son partenaire est pris en compte dans l’étude de ces interactions. Ces
interactions tertiaires contribuent à la stabilité de la structure d’une protéine et jouent un rôle
dans la reconnaissance des anticorps et des couples récepteur-ligand [257-261].
40
Chapitre 2 – Thermostabilité de protéines homologues
a) Les ponts hydrogènes : définis et comptabilisés à l’aide du logiciel HBPLUS [262], nous
différencions trois types de ponts H, les ponts H formés entre deux atomes situés sur les
chaînes latérales d’une paire de résidus (LL), situés sur leur chaîne principale (PP), dont
l’un est situé sur la chaîne latérale et l’autre sur la chaîne principale (LP)
c) Les ponts salins : comptabilisés à l’aide du logiciel HBPLUS [262], nous considérons la
formation d’un pont salin entre un atome d’oxygène du groupement carboxyle des
chaînes latérales des résidus D ou E et un atome d’azote de l’extrémité des chaînes
latérales des résidus K ou R lorsqu’ils sont séparés par une distance spatiale inférieure
ou égale à 4,0 Å [264].
e) Les interactions effectives entre deux résidus hydrophobes : déterminées par un critère de
distance spatiale de maximum 8 Å entre les centres géométriques (Cµ) d’une paire de
résidus parmi A, I, L, M et V. Ce critère définit un contact plutôt qu’une interaction
proprement dite entre deux résidus hydrophobes ce qui décrit correctement l’effet
hydrophobe.
g) Les interactions cation-π : déterminées par un critère d’angle et de distance entre une
paire de résidus parmi (H), K, N, Q, R et F, (H), W, Y. Le critère de distance requiert
que moins de 4,5 Å séparent un des atomes du cycle aromatique de l’un des atomes
portant la charge positive [200,258]. Le critère d’angle impose que ce dernier soit au dessus
du plan défini par le cycle aromatique. Ces deux critères définissent un cylindre au
dessus du cycle aromatique de 4,5 Å dans lequel doit se trouver un des atomes portant la
charge positive (fig. 2.3).
41
Figure 2.3 – Critères géométriques définissant les interactions cations-π. N est le vecteur
normal au plan aromatique, m est le centre du cycle, c et π représentent la charge positive (partielle) et
l’atome du cycle aromatique le plus proche de c respectivement, ils sont séparés par la distance d. r vaut
deux fois le rayon du cycle aromatique. C est le vecteur reliant le centre du cycle aromatique et c, P est
le vecteur de longueur r d’origine m passant par π. Nous considérons qu’il y a une interaction de type
cation-π entre le cycle et la charge si d est inférieur ou égal à 4,5Å et si l’angle entre N et C est plus
petit ou égal à celui formé entre N et N+P. Figure issue de la référence [200].
i) La composition en acides aminés : déterminée par simple comptage des résidus de nature
identique au sein de la protéine (à partir de la description structurale de la Protein Data
Bank [256]) et normalisé par le nombre de résidus de la protéine (exprimé en pourcent,
eq. 2.1). Ce facteur global a été complété par deux autres évaluant la composition au
cœur et en surface de chaque protéine. Un résidu s est considéré comme étant au cœur
(en surface) si sa surface exposée au solvant est inférieure à 50% (égale ou supérieure à
50%) de celle exposée dans le tri-peptide G-s-G [265].
Ns N s − int N s − ext
% AAGlobal = ; % AAInt = ; % AAExt = (2.1)
N N int N ext
Les résultats sont d’abord décrits pour chacune des familles de protéines sous forme de
tableaux reprenant la proportion de chacun des facteurs au sein de chaque protéine.
L’influence de ceux-ci est évaluée par famille à l’aide du coefficient de corrélation de la
42
Chapitre 2 – Thermostabilité de protéines homologues
43
2.4 Résultats
Les premiers résultats que nous allons présenter récapitulent les variations de la
proportion d’acides aminés en fonction de la thermostabilité sur l’ensemble des huit familles
(tableau 2.2). Cette variation est en effet susceptible d’avoir un impact sur certains des
facteurs de structure et certaines interactions que nous avons considérés. Ensuite, les résultats
sont présentés pour chacune des familles de protéines sous forme de tableaux reprenant la
proportion de chacun des facteurs au sein de chaque protéine. L’influence de ceux-ci est
évaluée par famille à l’aide du coefficient de corrélation de la régression linéaire de chaque
facteur avec la température de fusion des protéines. La significativité de cette corrélation est
attestée par une p-valeur qui estime la probabilité d’observer une telle corrélation dans une
distribution aléatoire. Une corrélation est de manière générale considérée comme significative
si sa p-valeur est en dessous de 0,05.
Ces résultats sont ensuite regroupés en un tableau résumant l’essentiel de ces observations
et donnant lieu à une discussion plus générale.
44
Chapitre 2 – Thermostabilité de protéines homologues
De manière générale nous retrouvons dans ce tableau les tendances déjà observées à
savoir un remplacement des acides aminés polaires non-chargés par des acides aminés
chargés plus la température de fusion de la protéine est élevée [72-75,85,91,94,95,98-103]. En effet,
parmi les vingt acides aminés, les variations en abondance de l’acide glutamique et de
l’asparagine apparaissent au sein de trois familles comme influençant significativement la
stabilité thermique des protéines parmi ces huit familles. Ce premier résidu est plus abondant
parmi les homologues thermostables alors que l’inverse est observé pour le second. Par
ailleurs, la variation en composition des protéines en certains résidus est sporadiquement
corrélée avec la variation de stabilité thermique dans certaines familles. Certaines de ces
variations sont plus aisées à interpréter comme l’augmentation relative de la présence de H, K
et R ainsi que la diminution relative de Q et S chez les homologues plus thermostables.
D’autres plus compliquées comme l’augmentation relative de L et M ainsi que la diminution
relative de F et W. Il est à noter également qu’une augmentation du pourcentage de cystéine
chez les homologues thermostables pourrait faire songer à l’accroissement du nombre de
ponts disulfures bien que ce ne soit pas le cas ici dans la famille présentant cette tendance
puisque tous les homologues n’ont qu’un seul pont disulfure [40]. Une diminution du
pourcentage de glycine peut être liée à la plus grande flexibilité qu’elle apporte dans une
chaîne polypeptidique et qui stabilise son état déplié.
2.4.2 Acylphosphatase
La réaction chimique catalysée par ces enzymes en présence d’eau enlève le radical
phosphate d’un acyle pour en former un carboxyle [266,267]. Ce type de réaction entre en jeu
notamment dans la voie métabolique de la glycolyse et du pyruvate (eq. 2.2).
(2.2)
Le seul facteur ayant une corrélation significative au sein de cette famille est
l’augmentation du nombre de contacts entre acides aminés hydrophobes plus la température
de fusion de la protéine considérée est élevée (tableau 2.3). Il semblerait donc qu’afin de se
préserver d’une dénaturation thermique, ces protéines augmentent le nombre d’interactions
effectives entre leurs résidus hydrophobes. L’augmentation du nombre de résidus
hydrophobes et/ou l’augmentation de la compacité de leur espace de contact sont deux voies
possibles pour y parvenir. Parmi les acides aminés hydrophobes, seule l’alanine montre une
augmentation conséquente (tableau 2.2).
45
Ponts P-sal/ Ponts-
Tm (C°)a PDBb LLe LPf PPg Cat-πi Hydrophj Aromk %Hélicel %Feuilletm
salinsc Chd Htoth
53,8 2acy 3,1 0,7 10,2 12,2 60,2 82,7 2,0 4,3 6,1 24,5 41,8
100,8 2bjd 5,6 0,4 5,6 11,1 80,0 96,7 1,1 7,7 5,6 24,4 43,3
111,5 1w2i 10,0 0,6 7,8 24,4 61,1 93,3 1,1 8,3 2,2 24,4 42,2
Coeff. Corrélationn : 0,87 -0,69 -0,78 0,58 0,38 0,92 -0,98 1,00 -0,74 -0,98 0,56
P-valeuro : 0,32 0,51 0,43 0,60 0,75 0,26 0,11 0,01 0,47 0,11 0,62
2 ADP
Adénylate kinase
→ ATP + AMP (2.3)
Tableau 2.4 – Valeurs des facteurs de la famille des Adénylate kinases. Légende cf. tableau
2.3.
Parmi les différents facteurs définis aucun ne semble apporter une réponse significative à
l’augmentation de la température de fusion des protéines de cette famille. En ce qui concerne
la composition en acides aminés, l’arginine et la méthionine augmentent significativement en
fonction de la thermostabilité (tableau 2.2). L’augmentation de méthionine est difficile à
expliquer, c’est un acide aminé très rare et une variation minime de leur nombre peut conduire
à cette tendance. Cependant le remplacement d’un résidu hydrophobe par une méthionine peut
conduire à une augmentation du nombre de ponts H. L’augmentation du nombre d’arginines
46
Chapitre 2 – Thermostabilité de protéines homologues
peut être liée à la tendance peu significative de l’augmentation du nombre de ponts salins et à
celle déjà observée de l’augmentation du nombre d’acides aminés chargés au sein de protéines
thermorésistantes.
2.4.4 α-Amylase
Cette enzyme largement utilisée dans l’industrie agro-alimentaire catalyse la dégradation
de l’amidon en sucres plus simples (amylopectine → glucose). Plus précisément elle
hydrolyse les liaisons α-(1-4)-glycosidiques de l’amidon [140,161,177].
(2.4)
Tableau 2.5 – Valeurs des facteurs de la famille des α-Amylases. Légende cf. tableau 2.3.
Ces petites protéines compactes en β-barrel sont fortement exprimées suite à une chute de
la température et permettent de réguler la synthèse de diverses protéines afin de maintenir les
fonctions essentielles à la survie d’un micro-organisme à une température plus
faible [141,271-273].
Les variations du nombre de ponts salins et de leur mise en réseau électrostatique sont les
deux seuls facteurs considérés susceptibles d’expliquer les différences de thermostabilité entre
les homologues de cette famille. Bien que la significativité de ce résultat soit faible,
qualitativement un plus grand nombre de ponts salins semble augmenter la thermorésistance
47
de ces protéines. D’autre part, il semblerait que la plus grande thermostabilité de la protéine
provenant de Bacillus caldolyticus (1c9o) soit liée à une augmentation des acides aminés
chargés en surface [141]. Bien que nous n’observions pas de variation significative en ce qui
concerne la composition en acides aminés chargés en surface, la tendance observée
concernant le nombre de ponts salins impliquant des résidus chargés corrobore ces
observations.
Tableau 2.6 – Valeurs des facteurs de la famille des « Cold Shock Protein ». Légende cf.
tableau 2.3.
Tableau 2.7 – Valeurs des facteurs de la famille des Cytochrome P450. Légende cf. tableau
2.3.
Aucun facteur considéré dans ce travail ne montre une variation significative capable
d’expliquer la variation de thermostabilité au sein de cette famille de protéines. Cependant,
Yano et al. (2003) ont mis en évidence le rôle important du nombre de ponts salins inclus
dans des réseaux électrostatiques au sein des cytochrome P450 [165]. Nos résultats n’étant pas
significatifs nous ne pouvons que constater qualitativement qu’effectivement la proportion de
ponts salins est un facteur moins déterminant que la proportion inclus dans des réseaux
électrostatiques. Une augmentation significative de la proportion d’acide glutamique corrèle
avec ces observations (tableau 2.2).
48
Chapitre 2 – Thermostabilité de protéines homologues
(2.6)
Tableau 2.8 – Valeurs des facteurs de la famille des Glycoside hydrolases. Légende cf.
tableau 2.3.
Deux facteurs parmi ceux considérés varient significativement avec les différences de
stabilité thermique de cette famille de protéines homologues : le nombre de ponts salins et le
nombre de ponts H de type PP (entre deux atomes de la chaîne principale). L’anti-corrélation
entre ces ponts H et la température de fusion des protéines peut être liée à une tendance à
réaliser un plus grand nombre d’interactions tertiaires plutôt que locales pour éviter une
dénaturation globale de la structure protéique. Bien que tous les ponts H puissent être
considérés comme des interactions tertiaires ou locales en fonction des cas, il est possible de
faire une analogie entre les ponts H de type PP et les motifs structuraux de la structure
secondaire d’une protéine d’une part et les ponts H de type LL et les interactions tertiaires de
la structure tertiaire d’une protéine d’autre part. Par ailleurs nous observons à nouveau une
augmentation significative du nombre de ponts salins avec la thermostabilité croissante de ces
protéines. En ce qui concerne la variation de la composition en acides aminés en fonction de
la thermostabilitié croissante : E et R augmentent significativement au détriment de N et Q, la
proportion de cystéines augmente mais le nombre de ponts disulfures reste identique (un
seul) et la proportion de glycine diminue. Cette diminution reflète la stabilisation de l’état
natif d’une protéine par la diminution de son entropie conformationnelle [149,163]. En effet, la
chaîne latérale de la glycine étant un simple atome d’hydrogène, son insertion confère une
grande flexibilité dans une chaîne polypeptidique qui contribue au terme entropique
stabilisant l’état dénaturé d’une protéine. Les travaux de Sandgren et al. (2003) sur la
différence de stabilité thermique entre les protéines de cette famille issues des organismes
Trichoderma reesei (1h8v) et Humicola grisea (1olr) montrent le rôle important de trois
cystéines supplémentaires dans la protéine 1olr vis-à-vis de la thermostabilité [141,276]. Bien
que spatialement proches ces trois cystéines ne forment pas de ponts disulfures et leur
influence est semble-t-il due à plusieurs interactions formées entre les cystéines et leurs acides
aminés voisins.
49
2.4.8 Lysozyme
Ces protéines sont des hydrolases capables de lyser les parois bactériennes. Les phages
utilisent ces enzymes pour s’insérer dans leur hôte. En outre, ces enzymes préservent certains
organismes d’infections bactériennes.
Tableau 2.9 – Valeurs des facteurs de la famille des Lysozymes. Légende cf. tableau 2.3.
2.4.9 Myoglobine
La myoglobine est une protéine jouant le rôle de transporteur d’oxygène. Elle a la
particularité d’être constituée d’une seule chaîne polypeptidique qui contient un noyau
porphyrique (hème) renfermant un atome de fer (Fe2+) [183,277].
Tableau 2.10 – Valeurs des facteurs de la famille des Myoglobines. Légende cf. tableau 2.3.
Parmi les divers facteurs considérés aucun ne présente une corrélation significative avec la
variation de thermostabilité des protéines de cette famille. Par contre les variations des
pourcentages en acides aminés parmi ces protéines donnent de meilleures corrélations avec
leurs changements de stabilité thermique (tableau 2.2). L’acide glutamique et l’histidine sont
plus abondants plus la stabilité thermique augmente à l’inverse de la phénylalanine, la leucine
et l’asparagine. Au sein de cette famille l’augmentation du pourcentage en acides aminés
50
Chapitre 2 – Thermostabilité de protéines homologues
51
2.5 Discussion
Ces travaux mettent le doigt sur la complexité de l’agencement de plusieurs facteurs pour
qu’une protéine atteigne une stabilité thermique donnée. En effet, au sein de chaque famille
de protéines homologues, plusieurs stratégies peuvent conduire à une plus grande
thermostabilité. Il n’y a pas qu’un arrangement unique de ces facteurs qui y parvient. En
reprenant les coefficients de corrélation calculés au sein de chaque famille pour chacun des
facteurs nous observons que par famille il y a bien l’un ou l’autre facteur ayant une influence
significative sur la stabilité thermique mais il est impossible d’en inférer une loi générale
(tableau 2.11).
Le nombre de ponts disulfures ne varie pas parmi les homologues des différentes familles
étudiées ici. Son influence sur la stabilité thermique des protéines n’est donc pas représentée
au sein de ces huit familles.
Afin de valider l’impact de ces facteurs de manière plus générale, nous avons développé
une méthode bioinformatique capable de comptabiliser chacun de ces facteurs au sein d’une
protéine donnée. Cette méthode a été développée au cours de nos premières recherches dans
ce domaine et appliquée sur une base de données de 87 protéines (BD1, section 3.1.1). Le but
de cette recherche était d’observer la variabilité d’un facteur avec la stabilité thermique sans
se restreindre à des protéines homologues entre elles.
Mener une étude sur une famille de protéines homologues permet de faire l’hypothèse que
les variations des divers facteurs entre deux homologues sont uniquement dues à leur
différence de stabilité thermique. De cette façon il est possible d’identifier un ou plusieurs
facteurs influençant cette grandeur thermodynamique au sein d’une famille mais non d’en
généraliser son impact sur n’importe quelle protéine donnée. L’idée de cette recherche menée
sur 87 protéines, sans la restriction d’homologie entre elles, était d’en extraire des facteurs
plus robustes qui présentent un impact sur la stabilité thermique de protéines monomériques
de façon générale. Le désavantage de cette méthode est que les variations de ces différents
facteurs ne peuvent plus être associées uniquement à la variation de résistance thermique.
Les résultats obtenus lors de ces travaux sont trop peu significatifs même après avoir
essayé plusieurs normalisations pour tenter d’harmoniser au mieux les variations de ces
facteurs parmi des protéines présentant de fortes dissemblances. Cependant certaines
52
Chapitre 2 – Thermostabilité de protéines homologues
observations qualitatives encourageantes nous ont poussés à persévérer vers une autre voie
plus prometteuse : l’étude de l’influence de la température sur la contribution de diverses
interactions à l’énergie libre de repliement des protéines (chapitre 4).
53