These-M Durot
These-M Durot
MAXIME DUROT
Thèse de Doctorat
Spécialité : Bioinformatique, biologie structurale et génomique
RESUME
3
Maxime DUROT Thèse de doctorat 2009
ABSTRACT
Microbial metabolism has traditionally been investigated at two different scales: the
finest involves characterizing individually each reaction occurring in the cell; the
largest focuses on global cell physiology. Both scales have recently benefited from
technological advances: analyzing sequenced genomes identifies a large fraction of
reaction-catalyzing enzymes; cell physiology can be determined at high-throughput
for several environmental conditions and genetic perturbations. Combining both
scales remains, however, especially complex as the global physiological behavior of a
cell results from the coordinated action of a large network of reactions. Mathematical
modeling approaches have yet shown recently that genome-scale metabolic models
could help in linking both scales.
In this thesis, we explore the use of such models to expand the knowledge of reactions
with a specific type of high-level data: gene essentiality data, assessed using growth
phenotypes of deletion mutants. We will use as model organism the bacterium
Acinetobacter baylyi ADP1, for which a genome-wide collection of gene deletion
mutants has recently been created.
Following a presentation of the key steps and developments that have been required to
reconstruct a global metabolic model of A. baylyi, we will show that confronting
observed and predicted phenotypes highlight inconsistencies between the two scales.
We will then show that a formal interpretation of these inconsistencies can guide
model corrections and improvements to the knowledge of metabolism. We will
illustrate this claim by presenting model corrections triggered by A. baylyi mutant
phenotypes. Finally, we will introduce a method that automates the correction of
inconsistencies caused by wrong associations between genes and reactions.
5
Maxime DUROT Thèse de doctorat 2009
REMERCIEMENTS
Je tiens à remercier en premier lieu Vincent Schachter, pour m'avoir tout d'abord
convaincu d'entreprendre cette thèse puis guidé scientifiquement ces quatre années. Il
aura été le garant de la présence de développements méthodologiques et théoriques
dans mes travaux, sachant me faire prendre du recul à bon escient lorsqu’il m’arrivait
de me perdre dans les détails de la biochimie d’Acinetobacter baylyi.
Professionnellement, je lui suis largement redevable de m'avoir introduit dans la vie
scientifique internationale à travers les collaborations, projets européens, séminaires
et conférences auxquels il m'a associé.
Un très grand merci à tous les membres de l’équipe Nemo, présents et passés, avec
qui j’ai travaillé au quotidien et pu échanger des idées sur mes travaux : F. Le Fèvre,
B. Pinaud, S. Smidtas, C. Combe, M. Heinig, V. Sabarly, P-Y. Bourguignon, G.
Vieira et R. Baran. Merci en particulier à François Le Fèvre avec qui j’ai partagé la
lourde tâche de parcourir le métabolisme entier d’A. baylyi et pour ses
encouragements de collègue de bureau.
7
Maxime DUROT Thèse de doctorat 2009
Je remercie les membres du jury pour m’avoir fait l’honneur de leur présence à ma
soutenance et m’avoir aidé, par leur remarques et conseils, à améliorer mon
manuscrit.
Enfin, un grand merci pour leur soutien sans faille à mes parents, ma sœur, ma
belle-famille et l’ensemble de mes proches que je ne saurai lister ici. Et, plus que tout,
merci à ma femme, Marie-Perrine, pour son amour qui aura toujours su me remotiver
dans les moments difficiles et pour avoir mené de front avec succès préparation de
mariage et soutien de conjoint en rédaction de thèse !
8
Maxime DUROT Thèse de doctorat 2009
RESUME ........................................................................................................................................................3
ABSTRACT ...................................................................................................................................................5
REMERCIEMENTS ....................................................................................................................................7
TABLE DES MATIERES ...........................................................................................................................9
AVANT-PROPOS .......................................................................................................................................13
INTRODUCTION.......................................................................................................................................17
1 LE METABOLISME : LA CHIMIE DU VIVANT .......................................................................17
1.1 QUELQUES FAITS REMARQUABLES ................................................................................................17
1.2 LES ACTEURS DU METABOLISME ....................................................................................................22
1.2.1 Métabolites .............................................................................................................................22
1.2.2 Réactions ................................................................................................................................23
1.2.3 Enzymes ..................................................................................................................................24
1.2.4 Cinétique des réactions métaboliques ..................................................................................25
1.2.5 Contrôle des réactions métaboliques ...................................................................................28
1.2.6 Aspects thermodynamiques ...................................................................................................29
1.3 STRUCTURE ET ORGANISATION DU METABOLISME .......................................................................31
1.3.1 Le réseau métabolique...........................................................................................................31
1.3.2 Organisation globale du métabolisme..................................................................................34
1.4 METHODES D’EXPLORATION DU METABOLISME ...........................................................................37
1.4.1 Élucidation expérimentale des voies métaboliques .............................................................37
1.4.2 Méthodes bioinformatiques de reconstruction des réseaux métaboliques.........................39
1.4.3 Vers une étude globale du métabolisme ...............................................................................41
2 PHENOTYPES DE CROISSANCE ET ESSENTIALITE DE GENES .....................................44
2.1 PHENOTYPES DE CROISSANCE ........................................................................................................44
2.2 EXPLORATION GENETIQUE DES PHENOTYPES DE CROISSANCE .....................................................46
2.2.1 Techniques expérimentales ...................................................................................................47
2.2.2 Exploitation des données d’essentialité................................................................................53
3 MODELISATION DU METABOLISME .......................................................................................56
3.1 APPROCHES DE MODELISATION DU METABOLISME .......................................................................57
3.2 LES MODELES A BASE DE CONTRAINTES : RECONSTRUCTION ET APPLICATIONS .........................63
3.2.1 Article de revue ......................................................................................................................64
3.2.2 Compléments méthodologiques ............................................................................................65
3.3 MODELISATION DU METABOLISME ET PHENOTYPES DE CROISSANCE: ETAT DE L’ART ...............71
3.3.1 Modèles à base de graphe.....................................................................................................71
9
Maxime DUROT Thèse de doctorat 2009
10
Maxime DUROT Thèse de doctorat 2009
11
Maxime DUROT Thèse de doctorat 2009
AVANT-PROPOS
Les organismes vivants sont tous de formidables chimistes aux capacités souvent
insoupçonnées. Chaque cellule est le siège d’un nombre considérable de réactions qui
lui permettent de créer les molécules nécessaires à sa vie à partir des molécules de son
environnement. Cet ensemble de réactions biochimiques, que l’on appelle le
métabolisme des cellules, a attiré depuis longtemps la curiosité de l’homme. Non
seulement, d’un point de vue fondamental, il est essentiel d’aborder la chimie des
cellules pour en comprendre leur fonctionnement et leurs interactions avec le milieu
extérieur, mais également, d’un point de vue pratique, l’utilisation de leurs
métabolismes occupe une place significative dans les activités humaines. De la
fermentation alcoolique à la synthèse de biocarburants en passant par l’épuration des
eaux usées, les compétences biochimiques des organismes offrent des solutions
technologiques à de nombreux besoins.
13
Maxime DUROT Thèse de doctorat 2009
14
Maxime DUROT Thèse de doctorat 2009
15
Maxime DUROT Thèse de doctorat 2009
Enfin, dans une dernière partie, nous reprendrons les principales conclusions de
nos travaux et les mettrons en perspective des évolutions de la discipline. La
thématique de la thèse étant en plein essor, nous réeffectuerons un tour d’horizon des
travaux similaires publiés à la fin de la thèse. Plus largement, nous discuterons
également de la place d’approches de modélisation dans la reconstruction du
métabolisme de nouveaux organismes, à l’heure où le débit des nouvelles
technologies permet de séquencer un génome bactérien en quelques jours.
16
Maxime DUROT Thèse de doctorat 2009
INTRODUCTION
17
Maxime DUROT Thèse de doctorat 2009
Néanmoins, dans leur très grande majorité, les cellules des organismes vivants
consacrent une grande partie de leurs activités à exploiter et à transformer les
molécules de leur entourage (leur environnement) pour en retirer de l’énergie et créer
les molécules qui serviront à leur propre construction. Ce sont ces réactions qui font
des organismes vivants de véritables chimistes.
1
Voir par exemple les nombreuses définitions proposées dans l’article Wikipedia sur
les organismes vivants : http://en.wikipedia.org/wiki/Life#Definitions .
18
Maxime DUROT Thèse de doctorat 2009
Figure 1. Couches d’oxides de fer ayant précipité sous l’action de l’oxygène produit
par la photosynthèse. Photographie d’un échantillon issu de la péninsule supérieure du
Michigan (source http://en.wikipedia.org/wiki/Banded_iron_formation )
19
Maxime DUROT Thèse de doctorat 2009
2
On les nomme lithotrophes, par opposition aux organotrophes.
3
Le métabolisme primaire regroupe les activités métaboliques participant au
développement et à la croissance de l’organisme, telles que la génération d’énergie et
la synthèse des constituants de la cellule. Ces activités sont relativement ubiquitaires
entre les organismes.
4
Le métabolisme secondaire regroupe les activités de synthèse de molécules ne
contribuant pas directement à la croissance de la cellule. Ces molécules ont par
exemple des rôles dans la communication ou les interactions écologiques.
5
Une molécule est chirale si elle n’est pas superposable à son image dans un miroir.
Les deux molécules images l’une de l’autre sont alors appelées énantiomères. Deux
énantiomères ont des formules développées identiques mais ont des structures
tridimensionnelles distinctes. Cette différence peut leur conférer des propriétés
physiques, chimiques ou biologiques distinctes.
20
Maxime DUROT Thèse de doctorat 2009
21
Maxime DUROT Thèse de doctorat 2009
microorganismes à s’adapter pour utiliser des substances variées en fait des candidats
prometteurs pour dégrader des polluants complexes, tels que les polychlorobiphényles
(PCB) ou les mélanges de benzène, toluène et xylène (BTX) (Stephanopoulos et al.
1998, pp.266-273).
1.2.1 Métabolites
6
On retrouve en réalité d’autres éléments dans la composition des cellules, souvent en
moindre quantité. Ce sont principalement des ions jouant le rôle d’électrolytes afin de
maintenir une pression osmotique et un pH constants et de favoriser l’import de
métabolites (potassium, sodium, calcium, manganèse, chlore). De nombreux métaux
de transition (fer, zinc, manganèse, molybdène, cuivre, cobalt, nickel) sont également
présents à l’état de trace ; ils sont néanmoins essentiels à l’activité de certaines
enzymes.
Cependant, dans la très grande majorité des cas, ces éléments n’entrent pas dans la
composition des métabolites.
22
Maxime DUROT Thèse de doctorat 2009
de l’atome de carbone font qu’il établit facilement jusqu’à quatre liaisons covalentes
relativement solides ; cette caractéristique lui permet de générer une combinatoire
extrêmement grande de molécules organiques en assemblant plusieurs atomes de
carbone entre eux.
1.2.2 Réactions
23
Maxime DUROT Thèse de doctorat 2009
nous le verrons plus loin, une partie des activités métaboliques de la cellule consiste
justement à régénérer les cofacteurs en les retransformant dans leur état initial.
1.2.3 Enzymes
Aux cotés des métabolites, les enzymes constituent le deuxième acteur clé du
métabolisme. Ces dernières jouent en effet le rôle de catalyseurs sans lesquels la
plupart des réactions métaboliques ne pourraient se dérouler à des vitesses
compatibles avec la vie de la cellule. Le principe de la catalyse enzymatique repose
sur une interaction entre l’enzyme et les substrats qui favorise la stabilisation de l’état
de transition de la réaction (Koshland 1958). Cette stabilisation abaisse l’énergie à
fournir pour atteindre l’état de transition (énergie d’activation) et, de ce fait, un
nombre plus élevé de substrats d’énergie moindre pourront interagir, accélérant ainsi
la réaction (voir Figure 4).
Il est cependant important de noter que, dans la grande majorité des cas, les
enzymes catalysent des réactions spécifiques alors que les métabolites peuvent
7
http://en.wikipedia.org/wiki/Enzyme_catalysis
24
Maxime DUROT Thèse de doctorat 2009
8
Voir http://www.chem.qmul.ac.uk/iubmb/
25
Maxime DUROT Thèse de doctorat 2009
cS
v = v max
Km + cS
9
La vitesse de la réaction dépend de l’écriture de son équation bilan. La vitesse de
production d’un produit (par la réaction) est en effet égale à la vitesse de la réaction
multipliée par le coefficient stœchiométrique du produit dans l’équation bilan.
26
Maxime DUROT Thèse de doctorat 2009
vmax
vitesse de
réaction v
1/2.vmax
Km concentration de substrat cS
Figure 5. Relation entre vitesse de réaction et concentration de substrat pour une
cinétique de type Michaelis-Menten.
Aux concentrations élevées de substrat (cS >> Km), la vitesse de la réaction tend
vers vmax. L’enzyme est saturée et la vitesse de la réaction dépend linéairement de sa
quantité. Aux concentrations faibles de substrat (cS << Km), la vitesse de la réaction
tend vers (vmax/Km).cS auquel cas elle dépend linéairement de la concentration en
substrat et en enzyme. La concentration Km délimite en quelque sorte les deux régimes
de fonctionnement.
27
Maxime DUROT Thèse de doctorat 2009
k1 k2
E + S" ES $ E + P
k#1
28
Maxime DUROT Thèse de doctorat 2009
Ces mécanismes de régulation agissent souvent de manière fine sur les flux des
réactions en réponse à des signaux variés. Ceux-ci sont indispensables à l’organisme
car ils lui permettent de réellement contrôler son « usine biochimique », pour
notamment assurer la stabilité de sa composition chimique, économiser la production
d’enzymes inutiles (en programmant par exemple leurs productions uniquement au
moments opportuns (Zaslaver et al. 2004)) et répondre aux changements ou stimulus
de leurs environnements (voire même les anticiper (Tagkopoulos et al. 2008; Mitchell
et al. 2009) !).
29
Maxime DUROT Thèse de doctorat 2009
grâce à leurs échanges avec leur environnement ; ils sont fondamentalement ouverts10
et tout arrêt de ces échanges conduit à leur disparition. Dans le cas des cellules
vivantes, le maintien de cet état hors d’équilibre leur permet de croître et d’assurer la
permanence de l’organisation de leur structure. Le métabolisme assure donc l’échange
continuel de matière et d’énergie avec l’environnement : il exploite en général11
l’énergie de métabolites d’énergie élevée et d’entropie faible importés de
l’environnement en les transformant en métabolites d’énergie plus faible mais
d’entropie plus élevée (von Stockar & Liu 1999; Stephanopoulos et al. 1998). De
manière à assurer un flux de transformation permanent, qui est donc
thermodynamiquement fondamental pour la vie de l’organisme, les réactions du
métabolisme sont également elles-mêmes hors d’équilibre.
!
10
Un système ouvert peut échanger de l’énergie et de la matière avec le milieu
extérieur, au contraire des systèmes isolés. Selon le second principe de la
thermodynamique, un système isolé évolue toujours de manière à augmenter son
entropie et tend invariablement à rejoindre son état d’équilibre.
11
Dans le cas de la photosynthèse, l’énergie ne provient pas des métabolites mais de
la lumière.
30
Maxime DUROT Thèse de doctorat 2009
avec s1, s2 les activités12 des substrats, p1, p2 celles des produits et les !i leurs
coefficients stœchiométriques.
D’un point de vue plus global, le métabolisme d’un organisme se compose d’un
nombre élevé de réactions (typiquement plus d’un millier de réactions distinctes pour
une bactérie « de taille moyenne » comme Escherichia coli (Keseler et al. 2009)) qui
12
Dans le cas des réactions en solution aqueuse, les activités s’identifient quasiment
aux concentrations, moyennant quelques corrections liées notamment à la force
ionique. On effectue également cette approximation dans le cas des réactions
biochimiques intracellulaires, bien que le « solvant » constitué par le milieu
cytoplasmique soit loin d’être aussi idéal qu’une solution aqueuse. Des corrections
sont cependant souvent requises pour corriger les déviations trop importantes
(Maskow & von Stockar 2005; Vojinovi" & von Stockar 2009).
31
Maxime DUROT Thèse de doctorat 2009
convertissent un nombre tout aussi élevé de métabolites. Cependant, du fait que les
métabolites sont partagés par les réactions (produits par certaines et consommés par
d’autres), métabolites et réactions se structurent sous la forme d’un réseau,
couramment appelé réseau métabolique (voir Figure 6). Au sein de ce réseau, on peut
distinguer les enchaînements de réactions qui transforment étape par étape les
métabolites, formant en quelques sortes des chemins de conversion dans le
métabolisme. Comme mentionné ci-dessus à propos de la thermodynamique,
l’enchaînement des réactions a d’ailleurs une réalité bien physique, du fait que pour
maintenir les flux de conversion, les produits de chaque réaction doivent en
permanence être réutilisés pour maintenir le déséquilibre thermodynamique.
Cependant, une représentation complète du réseau métabolique telle que celle
présentée sur la Figure 6 illustre uniquement de manière statique le métabolisme. Elle
représente en effet l’ensemble des réactions chimiques pouvant avoir lieu, mais pas la
réalité des conversions chimiques ayant lieu à un instant t dans la cellule. Toutes les
conversions métaboliques possibles ne se réalisent pas toutes ensemble, mais plutôt
en fonction des besoins de la cellule. Le contrôle des réactions métaboliques présenté
ci-dessus joue à cet effet un rôle primordial pour orienter les conversions
métaboliques selon certains chemins bien précis.
13
Le terme consacré en anglais, et parfois par abus en français, est « hub ».
32
Maxime DUROT Thèse de doctorat 2009
Figure 6. Illustration d’un réseau métabolique global. Les nœuds (points) correspondent
à des métabolites et les liens (lignes) à des réactions (ou successions de réactions)
convertissant les métabolites. Les grandes catégories fonctionnelles du métabolisme sont
indiquées dans les encadrés. Dans le cercle : aperçu détaillé d’une partie du réseau
métabolique. Source des cartes : KEGG (http://www.genome.jp/kegg/atlas/) et Roche Applied Science
(http://www.expasy.ch/tools/pathways/).
33
Maxime DUROT Thèse de doctorat 2009
Sans chercher à rentrer dans le détail des voies composant le métabolisme, celui-ci
peut être décrit de manière simple en distinguant une partie catabolique et une partie
anabolique.
14
le catabolisme peut également recycler des métabolites internes à la cellule.
34
Maxime DUROT Thèse de doctorat 2009
Figure 7. Schéma du cycle de l’acide citrique (citrate), pour E. coli. L’acetyl-coA est
condensé avec l’oxaloacetate pour former le citrate. Celui-ci est progressivement oxydé et
perd deux carbones sous forme de CO2. Au cours d’un cycle, 1 ATP est produit, ainsi que 3
NADH et 1 QH2 (ubiquinol), potentielles sources d’ATP si oxydées par l’oxygène dans la
chaîne respiratoire. Adapté de Wikipedia (http://en.wikipedia.org/wiki/Citric_acid_cycle)
35
Maxime DUROT Thèse de doctorat 2009
Fraction de la
Macromolécule
masse sèche totale
Protéine 55,0%
ARN 20,5%
ARNr 16,7%
ARNt 3,0%
ARNm 0,8%
ADN 3,1%
Lipide 9,1%
Lipopolysaccharide 3,4%
Peptidoglycane 2,5%
Glycogène 2,5%
Fraction soluble 3,9%
Tableau 2. Composition moyenne en macromolécules de cellules d’Escherichia coli.
Données issues de Neidhardt et Umbarger (1996).
36
Maxime DUROT Thèse de doctorat 2009
constituants ubiquitaires et vitaux des cellules. L’autre partie des voies anaboliques
est, au contraire, répartie très inégalement entre les organismes et brosse un éventail
beaucoup plus grand de molécules biologiques. En particulier, on trouve une très
grande variété de molécules issues du métabolisme secondaire chez les organismes
supérieurs et notamment celui des plantes qui ont développé un vaste arsenal de
défense « moléculaire ». Cependant, cette thèse étant focalisée sur le métabolisme des
microorganismes, nous ne ferons que l’évoquer occasionnellement.
37
Maxime DUROT Thèse de doctorat 2009
15
On désigne par métagénome tout matériel génétique d’une communauté
microbienne extrait directement d’un échantillon. Il contient ainsi indistinctement les
matériels génétiques des divers organismes présents dans cet environnement,
permettant leur étude en s’affranchissant de l’isolement des organismes et de leur
mise en culture, souvent difficiles voire impossibles.
16
Le métabolome, dans la lignée des termes en -ome (p.ex. génome, transcriptome,
protéome), désigne l’ensemble des métabolites présents dans une cellule.
38
Maxime DUROT Thèse de doctorat 2009
activités métaboliques dont les gènes et enzymes sont inconnus17 (Lespinet &
Labedan 2006b; Lespinet & Labedan 2006a; Pouliot & Karp 2007). De nombreux
projets se sont développés récemment pour tenter de relier gènes et activités
enzymatiques sur ces deux bases. Les résultats attendus sont prometteurs, dans la
mesure où la disponibilité du matériel génétique pour de nombreux organismes, qu’ils
soient cultivables ou non, voire non identifiés à l’instar des métagénomes, ouvre la
voie à l’étude de l’activité d’enzymes auparavant difficilement accessibles. Les
méthodes expérimentales mises en œuvre incluent notamment le criblage d’activité de
banques d’enzymes (Kitagawa et al. 2005) sur des ensembles de substrats
(Saghatelian et al. 2004; Saito et al. 2006) et la recherche d’associations entre gènes et
phénotypes métaboliques (Aghaie et al. 2008).
17
Activités orphelines
39
Maxime DUROT Thèse de doctorat 2009
D’autres méthodes bioinformatiques ont été élaborées pour détecter les activités
métaboliques manquant dans le réseau métabolique reconstruit. Une partie d’entre-
elles se base sur la connaissance des voies métaboliques complètes pour détecter les
« trous » dans les voies constitués par les réactions manquantes. De nombreuses
méthodes ont également été développées pour combler ces trous et rechercher des
18
On appelle contexte génomique d’un gène toute information apportée par son
voisinage chromosomique. Il peut s’agir par exemple d’un type de fonction
biologique lorsque plusieurs gènes voisins possèdent des rôles contribuant à une
fonction biologique particulière. L’utilisation du contexte génomique peut être
renforcée par la recherche de synténies, c.-à-d. de groupes de gènes voisins co-
conservés chez différents organismes. La conservation groupée des gènes peut être un
indice du fait que les gènes contribuent ensemble à une fonction biologique.
40
Maxime DUROT Thèse de doctorat 2009
Nous n’avons énuméré ici que les principales idées des méthodes
bioinformatiques de reconstruction des réseaux métaboliques. Nous en effectuerons
un état de l’art beaucoup plus détaillé plus loin dans le manuscrit, dans la revue
consacrée aux modèles globaux du métabolisme (voir section 3.2.1).
41
Maxime DUROT Thèse de doctorat 2009
42
Maxime DUROT Thèse de doctorat 2009
le contexte du métabolisme global (Kanehisa et al. 2006; Paley & Karp 2006;
Shannon et al. 2003).
Notre thèse s’inscrit directement dans ce schéma. Son objectif est de développer
des outils et méthodes permettant au mieux d’interpréter un certain type
d’observations métaboliques macroscopiques – les phénotypes de croissance (voir
section 2) – à la lumière du réseau métabolique, en utilisant pour cela la modélisation
mathématique.
43
Maxime DUROT Thèse de doctorat 2009
44
Maxime DUROT Thèse de doctorat 2009
Une autre classe d’expériences consiste à cribler à grande échelle la croissance des
microorganismes sur des milieux distincts. En utilisant des milieux minimaux19 dans
lesquels les métabolites sources de carbone, azote, phosphore et soufre sont testés de
manière systématique, ces expériences permettent de déterminer rapidement quels
métabolites sont exploités par l’organisme. Ces résultats sont utilisés de manière
courante par les microbiologistes pour classer les microorganismes et définir les
espèces20 ; ils fournissent également des indications quant à leurs environnements
naturels. De plus, le fait d’associer les métabolites aux types de contributions
métaboliques (apport en carbone, azote, phosphore ou soufre ; accepteur d’électron)
guide la recherche des voies métaboliques sous-jacentes.
19
Un milieu minimal est un milieu de culture de composition contrôlée, couvrant de
manière minimale les besoins en nutriments de la cellule. Généralement, un milieu
minimal possède un seul type de métabolite contribuant à chaque apport de carbone,
azote, phosphore et soufre.
20
Voir http://www.bacterio.cict.fr/
45
Maxime DUROT Thèse de doctorat 2009
milieux minimaux distincts. Ces milieux sont tous des variations autour d’une même
base, permettant de cribler de manière systématique les sources de carbone, azote,
soufre ou phosphore (Bochner 2009). Après inoculation, la croissance et l’activité
métabolique21 sont automatiquement suivies au cours du temps dans chacun des puits
(voir Figure 9). À l’heure actuelle, Biolog propose 20 plaques de phénotypage
différentes, représentant un ensemble de 1920 milieux. Parmi eux, 190 testent des
sources de carbone, 380 des sources d’azote et 95 des sources de soufre et de
phosphore. Les milieux restants évaluent la sensibilité des cellules à diverses
molécules chimiques, dont une majorité d’antibiotiques, ainsi qu’à des changements
de pH et de force ionique.
21
Dans la méthodologie Biolog, un rapporteur coloré de la respiration cellulaire (le
tetrazolium) est incorporé aux puits. Son niveau est suivi en parallèle à la quantité de
cellule obtenue par mesure de la densité optique (Bochner 2009).
46
Maxime DUROT Thèse de doctorat 2009
pertes de phénotypes provoquées par la suppression d’un gène. Pour ce faire, elles
comparent les phénotypes de l’organisme sauvage avec ceux de l’organisme dont le
gène ciblé a été inactivé ou éliminé par génie génétique, organisme mutant. Ces
expériences permettent ainsi de mettre expérimentalement en évidence des liens de
causalité entre la présence d’un gène et l’occurrence d’un phénotype particulier.
Dans cette section, nous donnerons un bref aperçu des principales techniques
expérimentales permettant de tester à grande échelle les effets de l’inactivation de
gènes, puis nous présenterons les principales applications de ces méthodes, en
particulier pour l’exploration du métabolisme.
Deux aspects de ces techniques expérimentales peuvent être distingués (bien qu’ils
ne soient pas complètement indépendants) : d’une part la méthode utilisée pour
inactiver ou éliminer les gènes et d’autre part la stratégie employée pour détecter à
grande échelle les gènes essentiels.
22
Par opposition aux gènes non-essentiels. La terminologie principalement utilisée en
anglais est « essential genes » et « dispensable genes ».
23
Les transposons sont des séquences ADN pouvant se déplacer, et a fortiori,
s’intégrer de manière autonome dans le génome. Le mécanisme de transposition
47
Maxime DUROT Thèse de doctorat 2009
48
Maxime DUROT Thèse de doctorat 2009
Enfin, un dernier grand type de technique utilisé consiste à inactiver, non pas le
gène directement, mais ses transcrits à l’aide d’ARN interférents. Largement utilisée
dans le cas des cellules eucaryotes et notamment d’organismes supérieurs
(Dykxhoorn et al. 2003), cette technique est employée également avec succès chez les
bactéries (Engdahl et al. 1997; Ji et al. 2001; Forsyth et al. 2002). Elle permet
d’inactiver spécifiquement l’action du gène ciblé avec des risques moindres
d’interactions avec celles d’autres gènes. L’inactivation n’est souvent cependant que
49
Maxime DUROT Thèse de doctorat 2009
partielle, une petite partie des transcrits pouvant ne pas être détruite et maintenant une
expression faible mais bien présente.
De manière générale, la recherche d’essentialité des gènes se base sur l’étude des
phénotypes de croissance des mutants obtenus par les techniques d’inactivation
précédentes. Les méthodes d’étude des phénotypes de croissance (voir la section
précédente) s’appliquent donc également au cas des mutants. Des stratégies
particulières ont néanmoins été développées pour augmenter l’efficacité de la
recherche des gènes ayant un impact significatif sur la croissance.
Il est tout d’abord utile de distinguer deux manières d’évaluer l’aptitude à croître
des mutants, dont les différences ont des conséquences significatives sur
l’interprétation de leurs résultats (Gerdes et al. 2006). D’une part, la croissance des
mutants peut être évaluée de manière clonale, séparément pour chacun d’entre eux. Le
phénotype observé correspond alors directement à l’aptitude brute à croître du mutant.
Celle-ci peut également être quantifiée (voir partie précédente) afin de comparer non
seulement l’aptitude mais aussi l’efficacité à croître. D’autre part, le second type de
test consiste à évaluer l’aptitude à croître des mutants au sein de populations de
cellules mélangeant mutants et souches sauvages. Dans cette configuration, la
croissance s’effectue en compétition avec les autres souches ; on observe les effets
des mutations sur la valeur sélective des individus. L’essentialité des gènes est donc
définie ici par rapport à leur contribution à l’efficacité de survie de l’organisme (gènes
essentiels au succès reproducteur), et non plus seulement par rapport à leur seule
capacité à croître (gènes essentiels à la survie). Le choix de la méthode dépend alors
de l’exploitation faite des résultats. La première identifie de manière nette les gènes
indispensables au phénotype observé, permettant d’investiguer leurs liens, tandis que
la seconde, plus large, permet d’identifier des gènes de contributions moindres mais
potentiellement importantes du point de vue évolutif.
50
Maxime DUROT Thèse de doctorat 2009
& Sabatini 2004), mais des protocoles ont également été développés sur la base de
transposons (Kang et al. 2004; Reznikoff & Winterberg 2008; Kobayashi et al. 2003).
L’avantage principal de cette stratégie réside dans sa couverture complète du génome,
tous les gènes sont systématiquement testés (aux impossibilités expérimentales près).
De plus, les mutants créés sont généralement conservés et peuvent être aisément
phénotypés ultérieurement pour de nouvelles conditions expérimentales, bénéficiant
par exemple alors du débit apporté par des méthodes du type Biolog. E revanche, la
création systématique d’un mutant pour chaque gène est une opération lourde, de
débit faible.
24
Dans le cas des transposons, la non spécificité de l’insertion garantit dans une
certaine mesure la couverture aléatoire des inactivations. Dans le cas des ARN
interférents, des banques aléatoires d’ARN antisens sont généralement créées par
fractionnement aléatoire de la séquence génomique (Ji et al. 2001).
25
PCR : « Polymerase Chain Reaction ». Méthode d’amplification d’une région
précise de l’ADN à partir d’oligonucléotides délimitant les extrémités de la région et
servant d’amorces à l’ADN polymérase. La région amplifiée est appelée produit de
PCR.
51
Maxime DUROT Thèse de doctorat 2009
Figure 11. Méthode de « genetic footprinting ». Les lieux d’insertion des transposons sont
déterminés par la longueur des produits de PCR entre les amorces choisies à des endroits
connus du génome et les amorces placées dans les transposons. Les zones vides du gel
d’électrophorèse correspondent aux régions génomiques n’ayant pas retenu d’insertion après
sélection des mutants, révélant une possible essentialité des gènes présents à ces loci.
Demi-flèches, amorces de PCR ; losanges, lieux d’insertion des transposons. Figure extraite de
Scholle & Gerdes (2008).
52
Maxime DUROT Thèse de doctorat 2009
Test de
Méthode
Organisme croissance des Référence
d’inactivation
mutants
A. baylyi ADP1 Délétion ciblée Clones (de Berardinis et al.
2008)
M. genitalium, M. Transposon, Population (Hutchison et al. 1999)
pneumonia aléatoire
M.genitalium Transposon, Clones (Glass et al. 2006)
aléatoire
M. pulmonis Transposon, Clones (French et al. 2008)
aléatoire
S. aureus ARN interférent, Clones (Ji et al. 2001)
WCUH29 aléatoire
S. aureus ARN interférent, Clones (Forsyth et al. 2002)
RN4220 aléatoire
H. influenzae Rd Transposon, Population (Akerley et al. 2002)
aléatoire
S. pneumoniae Disruption ciblée Clones (Thanassi et al. 2002)
Rx-1
S. pneumoniae Délétion ciblée Clones (Song et al. 2005)
D39
M. tuberculosis Transposon, Population (Sassetti et al. 2003)
H37Rv aléatoire
B. subtilis 168 Disruption ciblée Clones (Kobayashi et al. 2003)
E. coli K-12 Transposon, Population (Gerdes et al. 2003)
MG1655 aléatoire
E. coli K-12 Transposon, ciblée Clones (Kang et al. 2004)
MG1655
E. coli K-12 Délétion ciblée Clones (Baba et al. 2006)
MG1655
P. aeruginosa Transposon, Clones (Jacobs et al. 2003)
PAO1 aléatoire
P. aeruginosa Transposon, Clones (Liberati et al. 2006)
PA14 aléatoire
S. typhimurium Disruption aléatoire Clones (Knuth et al. 2004)
H. pylori G27 Transposon, Population (Salama et al. 2004)
aléatoire
F. novicida Transposon, Clones (Gallagher et al. 2007)
aléatoire
Tableau 3. Études expérimentales à grande échelle de l’essentialité des gènes pour
des organismes bactériens. Données issues et complétées à partir de Gerdes et al (2006).
53
Maxime DUROT Thèse de doctorat 2009
54
Maxime DUROT Thèse de doctorat 2009
génétique inverse, voir Figure 12). À ces deux types d’approches correspondaient
traditionnellement des types d’expériences distinctes, par exemple le « genetic
footprinting » en génétique classique ou le phénotypage à haut débit en génétique
inverse. La réalisation de banques de mutants d’inactivation à grande échelle permet
désormais de lier les deux approches, où les phénotypes de chacun des mutants
peuvent être systématiquement testés (Carpenter & Sabatini 2004). Ces approches
sont utilisées à des fins exploratoires (Aghaie et al. 2008) mais également de
confirmation ou d’invalidation de fonctions de gènes, lorsque celles-ci sont attribuées
sur la base d’indices faibles (de Berardinis et al. 2008; Joyce et al. 2006; Baba et al.
2006). Les processus métaboliques se prêtent bien à l’utilisation de ces approches
(Gerdes et al. 2006), qui ont d’ailleurs largement contribué à l’identification des gènes
impliqués dans les voies métaboliques connues. En effet, des tests phénotypiques
caractérisant assez précisément une fonction métabolique peuvent être élaborés en
combinant complémentation par des substrats et inactivation de voies métaboliques.
Une formalisation de cette démarche a d’ailleurs été récemment développée et mise
en pratique dans un robot réalisant automatiquement à la fois les raisonnements et les
expériences correspondant à ce type d’approche (King et al. 2009; King et al. 2004).
55
Maxime DUROT Thèse de doctorat 2009
3 Modélisation du métabolisme
Dans cette section, nous donnerons tout d’abord une rapide vue d’ensemble des
méthodes de modélisation du métabolisme – avec un point de vue orienté vers la prise
en compte de l’ensemble du métabolisme de la cellule – avant de présenter plus en
détail la méthode de modélisation retenue dans cette thèse. En dernier lieu, nous
56
Maxime DUROT Thèse de doctorat 2009
26
Désignées communément sous le terme de biologie des systèmes (Kitano 2002;
Stelling 2004).
57
Maxime DUROT Thèse de doctorat 2009
58
Maxime DUROT Thèse de doctorat 2009
traitement stochastique de ces phénomènes, rendant leur résolution plus complexe (Di
Ventura et al. 2006; Gillespie 2007). Les modèles cinétiques ont été employés avec
succès pour analyser le comportement dynamique de petits systèmes métaboliques et
prédire leurs réponses à des perturbations (Klipp et al. 2002; Zaslaver et al. 2004).
Leurs applications les plus significatives jusqu’à présent portent toutefois plutôt sur
les processus de signalisation ou de régulation transcriptionnelle (Di Ventura et al.
2006; Barkai & Leibler 1997; Bonneau et al. 2007).
27
Même si des initiatives cherchent à établir des cinétiques « génériques » pour les
enzymes (Liebermeister & Klipp 2006).
28
Malgré l’existence de bases de données centralisant les informations sur ces
paramètres (Barthelmes et al. 2007; Wittig et al. 2006).
59
Maxime DUROT Thèse de doctorat 2009
seule d’entre elle29, « l’étape limitante » (Fell 1992). D’un point de vue plus global et
plus proche des phénotypes de croissance, ce type d’analyse a également été utilisé
pour étudier les dépendances entre l’efficacité à se reproduire d’organismes et les flux
dans certaines de leurs voies métaboliques clés (Dykhuizen et al. 1987). Néanmoins,
ces analyses nécessitent toujours de déterminer un nombre relativement élevé de
paramètres numériques (quantifiant les dépendances), bien que plus réduit que ceux
des modèles cinétiques. Pour cette raison, l’analyse du contrôle métabolique est
majoritairement appliquée dans deux cas de figures distincts : (1) la démonstration
théorique d’un type de comportement métabolique et (2) l’étude précise du
comportement d’un ensemble de quelques voies métaboliques en exploitant des
données expérimentales.
29
La répartition du contrôle n’est cependant pas homogène et, quand bien même il
n’existe pas une unique étape limitante, le but de l’analyse du contrôle métabolique
est de déterminer lesquelles contribuent le plus significativement au contrôle.
60
Maxime DUROT Thèse de doctorat 2009
elle se traduit mathématiquement par des relations linéaires entre flux exprimant la
conservation de la matière. Le principal atout de cette méthode est donc de pouvoir
gérer le manque d’information et de pouvoir ainsi être appliquée pour des systèmes de
tailles plus conséquentes que pour les modèles cinétiques. Dans la pratique, son
utilisation pour des réseaux métaboliques globaux permet d’obtenir des prédictions
intéressantes sur la valeur de leurs flux, notamment grâce au fait que la contrainte de
régime stationnaire puisse être appliquée à cette échelle30 et contribue à affiner
significativement la caractérisation des flux. Nous reviendrons plus en détail sur ce
cadre de modélisation dans la partie suivante.
30
La seule information requise est la stœchiométrie des réactions, qui est en général
connue dans le métabolisme.
31
La nomenclature usuelle appelle les objets nœuds et les liens arêtes.
32
Graphe biparti.
61
Maxime DUROT Thèse de doctorat 2009
La simplicité des graphes métaboliques permet leur utilisation dès lors que les
réactions du réseau métabolique sont connues. C’est pourquoi ils ont connu un intérêt
prononcé au moment où les réseaux métaboliques globaux de plusieurs organismes
ont été reconstruits, à la suite du séquençage et de l’annotation de leurs génomes. Une
première catégorie d’études s’est principalement attachée à analyser la structure de
ces graphes, dans le but de mettre en évidence des propriétés structurelles communes
entre organismes (Jeong et al. 2000) ou de décomposer les réseaux en modules
fonctionnels similaires à la notion de voie métabolique (Ravasz et al. 2002). Une
seconde catégorie d’études a quant à elle été consacrée à élaborer des algorithmes
permettant d’explorer les capacités de conversion des réseaux métaboliques en
fonction de leurs environnements. Ces études – basées sur des méthodes dites
d’expansion de réseau – permettent typiquement de générer l’ensemble des
métabolites pouvant être potentiellement synthétisés par un réseau de réactions à
partir d’un ensemble initial de métabolites (Handorf et al. 2005; Romero & Karp
2001; Raymond & Segrè 2006). La simplicité extrême des graphes métaboliques
limite cependant leurs capacités prédictives. Les aspects quantitatifs, et notamment la
62
Maxime DUROT Thèse de doctorat 2009
stœchiométrie des réactions, sont en effet ignorés malgré leur importance dans la
compréhension du fonctionnement métabolique (de Figueiredo et al. 2009). Ils sont
donc majoritairement utilisés lorsque la reconstruction des réseaux métaboliques ne
peut être effectuée que de manière grossière – notamment pour les études
comparatives de nombreux réseaux – ou lorsque la taille des réseaux nécessite une
modélisation « allégée ».
Des initiatives ont cependant cherché à améliorer les capacités prédictives des
graphes métaboliques en les étendant au sein de cadres de modélisation
informatique33 plus élaborés (Fisher & Henzinger 2007). Parmi ces derniers, les
réseaux de Petri se sont révélés être particulièrement bien adaptés à l’étude du
métabolisme, permettant notamment d’aborder de façon qualitative la dynamique de
certaines voies métaboliques (Simão et al. 2005; Hofestädt 2003; Reddy et al. 1996;
Koch et al. 2005). Ces cadres de modélisation passent toutefois encore difficilement à
l’échelle du métabolisme cellulaire tout entier, pour lequel prédomine l’utilisation des
graphes ou des modèles à base de contraintes.
33
Un modèle informatique se distingue d’un modèle mathématique de par son
exécution directe par un ordinateur (Fisher & Henzinger 2007). Les modèles
mathématiques sont généralement exprimés par des équations dont la résolution n’est
pas nécessairement simple à réaliser. L’informatique peut aider à leur résolution en
utilisant des programmes dédiés (notamment la simulation numérique). A l’inverse,
les modèles informatiques sont exprimés sous la forme d’un langage ou d’un
algorithme pouvant être directement exécuté par l’ordinateur. Ils se basent sur la
description d’états et spécifient sous quelles conditions ces états évoluent. Ils sont
donc par construction de nature qualitative.
63
Maxime DUROT Thèse de doctorat 2009
derniers aspects. Nous donnerons dans un deuxième temps des précisions au lecteur
sur le cadre mathématique de la modélisation.
64
REVIEW ARTICLE
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 165
cell. For instance, which media is it able to grow on? What are speaking, a model of a natural system is one of many
the relative quantities of chemical nutrients it requires for possible mathematical representation of that system,
growth? How efficient is the cell at converting chemicals from explicitly describing some of its features and supporting
the environment into its own components? Such metabolic predictions on some other features, the latter being typically
capabilities result from the coordinated action of the enzymes time- or environment dependent. In this particular case,
expressed in the respective species, the knowledge of which knowledge of the metabolic network alone is not quite
belongs to the finer, molecular scale. Each of the correspond- sufficient to predict the metabolic capabilities of a cell. Also
ing biochemical conversions can be identified either directly needed are a structured (mathematical) representation of
by performing enzymatic assays, or indirectly, from the that network, together with a set of rules and possibly
genome sequence, through a homology relationship with quantitative parameters enabling simulations or predictions
proteins whose function has been previously elucidated. To- on the joint operation of all network reactions in a given
gether, the reactions that have been demonstrated to poten- environment, and in particular predictions on the values of
tially occur in the cell form the metabolic network of the metabolite fluxes and/or concentrations (Papin et al., 2003).
organism. Metabolic networks can thus be viewed as lists The above, in short, constitutes a metabolic model.
of those molecular mechanisms (reactions) and associated Constraint-based genome-scale models of metabolism
molecular components (enzymes, substrates, and products) (Palsson, 2006) are a category of models precisely aimed at
that are most directly related to the metabolic capabilities assessing the physiological states achievable by a given meta-
mentioned above. bolic network, and at uncovering their biochemical imple-
For a given bacterial species, confronting knowledge from mentation in terms of metabolic fluxes. They offer an
these two scales, molecular vs. cellular, can reveal inconsis- idealized view of the cell as a set of ‘pipes,’ with metabolites
tencies. For instance, it may happen that no sequence of flowing through each pipe, and biochemical conversions
identified reactions is capable of producing one of the taking place at junctions between pipes. Some metabolites
essential cell components from the set of compounds avail- can also be exchanged with the environment, flowing in or out
able in a defined growth medium, even though the species is of the system through dedicated pipes that can be opened or
known to grow on that medium. Furthermore, when the two shut, and may have upper bounds on their throughput. The
scales are consistent, their relationship can be investigated cell is required to achieve balanced production and consump-
further in order to enumerate the possible implementations tion of all the intermediate substrates and products involved
of the physiology that the metabolic network can achieve. in its metabolism: what flows in a junction must flow out.
Biochemists have traditionally performed such investigations Constraint-based models can help investigate in a sys-
by modularizing the set of reactions intometabolic pathways, tematic manner most of the research questions listed at the
typically grouping together reactions that allow the conver- start of this introduction, because they provide a way to
sion of one or more ‘input’ metabolites into ‘output’ meta- explore the consequences on the operation of the entire
bolites. Pathways boundaries are somewhat arbitrary, even metabolic network of the piecemeal information available
though inputs and outputs tend to be metabolites involved in on each of its parts. They are especially well suited to ‘what
several reactions. Pathway-based analyses are thus focused on if ’ experiments involving genetic or environmental pertur-
the possible fates of a restricted number of compounds, and bations, such as: how would the cell behave in an environ-
are amenable to manual expertise thanks to the simplification ment with a different chemistry than the ones that have been
brought by the modularized view (Huanget al., 1999; Teusink experimented on? How would one or more deletions affect
et al., 2005; Risso et al., 2008). its metabolic capabilities? Which deletions would maximize
Yet, metabolic pathways typically involve a large number the production of both metabolite x and biomass?
of ‘side metabolites’ such as cofactors and byproducts of Before a model for a given species can be used to gain new
chemical reactions, and metabolism is as much about insights into its metabolic capabilities or evolutionary
converting nutrient into cell components as it is about history, it must first be built from the scattered genomic,
regenerating cofactors and recycling (or secreting) ulti- biochemical, and physiological information available on
mately unused byproducts. The latter transformations typi- that species up to a point where known physiology can be
cally involve several pathways, and are dependent on the predicted from biochemistry without major mistakes. This
stoichiometry and rates of the reactions. Manual approaches process is sometimes known as ‘model reconstruction’; its
are insufficient to assess their feasibility by a given network endpoint is a functional genome-scale model, i.e. a struc-
for at least two reasons: metabolic networks are too large, tured representation of the current state of knowledge
and the question requires a quantitative analysis. on the metabolism of the respective species (Reed et al.,
Bridging that gap between knowledge of the metabolic 2006a). The model provides a framework to interpret new
network structure and observed metabolic phenotypes is experimental data gathered at the cellular or molecular scale.
precisely where metabolic models come into play. Generally That data may be incompatible with the current model, in
which case either or both should be questioned, leading to most intracellular metabolites are high in bacterial cells
possible revisions or improvements. If, on the other hand, (Stephanopoulos et al., 1998). At the time scale considered
data and model are compatible, the new evidence may still here, their concentrations have therefore generally reached
narrow down the set of possible metabolic behaviors of the steady levels, and remain constant as long as environmental
cell, thus enriching the model (Covertet al., 2004). conditions do not change. As a consequence, the law of
This review article covers both the reconstruction of conservation of matter constrains the production and con-
genome-scale metabolic models and their applications sumption rates of these metabolites to be balanced. These
to basic and applied research in microbiology. Following a assumptions are usually summarized under the expression
primer on constraint-based models, we will review the state steady-state hypothesis and the corresponding constraint on
of the art in model reconstruction. Next, we will survey the reaction rates as a mass balance (or stoichiometric) con-
main applications of metabolic models, from phenotype straint (Stephanopoulos et al., 1998). Obviously, this rea-
predictions to data interpretation or metabolic engineering. soning applies only to metabolites that are neither taken in
Practical aspects of direct relevance to the working micro- from an external pool (e.g. nutrients) nor excreted from the
biologist will be covered by a sketch of the main dedicated cell or accumulated in large quantities (e.g. cell components
database and software resources. We will conclude the such as nucleic acids, amino acids, or some lipids). For each
review with a discussion on future directions in the field. metabolite that can be ‘balanced,’ the mass balance con-
straint can be expressed mathematically by a linear equation
P
relating reaction rates of the form sjnj = 0, where sj is the
Foundations of genome-scale metabolic
stoichiometric coefficient of the metabolite in reaction j, and
modeling nj the rate of reaction j.
The metabolic state of a cell and its variation over time can In addition to mass balance constraints, reactions that are
be described by metabolite concentrations and reaction known to be thermodynamically irreversible in vivo are
rates, which can be viewed as the ‘endpoints’ of metabolic constrained to have a non-negative reaction rate. Similarly,
operation. These quantities are related by the law of con- upper bounds on the reaction rates can be known from
servation of matter, which states that the net production rate measurements or theory and included in the model as
of a metabolite equals the sum of the rates of the reactions additional constraints on the reaction fluxes (Reed &
consuming or producing it, weighted by the associated Palsson, 2003).
relative stoichiometric coefficients. Conversely, enzyme Mass balance, irreversibility and upper-bound constraints
kinetics express reaction rates as complex functions of result from the application of simple laws of physics to
metabolite concentrations and enzymatic activities, which individual reactions or metabolites from the network. These
vary over time as a result of transcriptional and metabolic constraints propagate from reaction to reaction throughout
regulation (Smallbone et al., 2007). Deriving meaningful the metabolic network; the constraint-based modeling
predictions from these two types of equations for large framework is designed to automatically compute the result-
metabolic systems is a very challenging proposition, not ing balance. To that end, it makes use of a succinct
only because of the mathematics, but also because many of mathematical representation of all reaction stoichiometries:
the parameters are not known, difficult to measure, and the stoichiometric matrix (see Fig. 1). In this matrix, columns
possibly context dependent. In practice, these pitfalls restrict represent reactions and rows metabolites. The stoichio-
the use of kinetic modeling to metabolic systems much metric coefficient of a metabolite within a reaction is
smaller than ‘whole-cell’ metabolic networks, which typi- included at the intersection of the corresponding row and
cally include hundreds of reactions for a bacterium. column (see Fig. 1). Reaction rates are represented in
Constraint-based models bypass these difficulties by constraint-based models by single numbers, the reaction
focusing on the average reaction rates achievable by cells fluxes, which are normalized by the weight of the cells
grown in steady or slowly varying environmental condi- harboring the reactions to account for the size of the colony
tions. Rates are typically averaged over minutes, fitting with (a reaction flux is typically expressed with the Unit
the typical time scale of uptake or secretion rates measure- mmol h!1 g!1 dry wt). Because the goal is to describe the
ments. Such averages are not affected by transient states joint operation of many metabolic reactions, it is convenient
because the characteristic relaxation time of metabolic to define a flux distribution as a collection of reaction fluxes
systems – i.e. the time it takes for chemical reactions within covering the entire system. Under the steady-state approx-
the cell to reach a steady state – is much shorter than a imation, the concentrations of balanced metabolites being
minute. Moreover, because environmental changes and constant, a flux distribution carries sufficient information to
variations of enzyme concentrations occur on longer time completely describe a state of the system. Using the stoichio-
scales, one need not take into account regulatory changes to metric matrix, a simple matrix equation – summarizing all
assess average reaction rates over minutes. Turnover rates of mass balance equations shown above – can then be used to
"
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation "
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 167
Fig. 1. Genome-scale modeling of metabolism. A metabolic network (top left) is transformed into a model by defining the boundaries of the system, a
biomass assembly reaction, and exchange fluxes with the environment (top right). Using the corresponding stoichiometric matrix (bottom right), the
achievable flux distributions compatible with enforced constraints can be found (a particular one is depicted in the bottom left figure).
enforce the mass balance constraints on all reactions fluxes: feasible) by the cell, whereas a distribution that violates at
S.n = 0, where S is the stoichiometric matrix and n the flux least one of these constraints is not. The simplicity of the
distribution represented as a vector. system of linear equations that represent constraints is one
A precise definition of the boundary of the system to be of the main strengths of the framework, because it permits
modeled is also needed to formulate an explicit mathematical fast assessments of the feasibility of a flux distribution using
representation. The system typically includes the whole cell a computer and standard algorithms.
and its vicinity, in order to encompass all the exchanges of The simplicity of constraint-based models comes at the
matter between the cell and its environment. Transport expense of a number of limitations in their predictive
reactions that allow for exchange of specific metabolites with capabilities. Such models focus solely on reaction fluxes,
the extracellular space through the membrane are also in- and completely ignore the influence of metabolites and
cluded in the model. Environmental conditions are then enzymes. In reality, however, enzyme kinetics, and tran-
modeled by acting on the balance of the external metabolites: scriptional or metabolic regulation may significantly influ-
metabolites that are available from the environment can be ence reaction fluxes. Regulation can for instance limit the
taken up by transporters while the others can only be excreted. use of a pathway by downregulating some of its enzymes
A flux distribution that is compatible with all the con- when particular environmental conditions are met. These
straints in a given environment is considered achievable (or mechanisms, if they could somehow be taken into account,
would eliminate flux distributions otherwise allowed by con- Initial reconstruction of metabolic models
straint-based models. In other words, models may allow ‘false-
positive’ metabolic states, which respect the enforced meta- The most reliable evidence from which the presence of a
bolic constraints but are inconsistent with other biological metabolic reaction in a species can be inferred is experimental
processes. Several attempts have been made to extend the proof of the respective biochemical activity. Such biochemical
constraint-based modeling framework, in order to account for results have been accumulated for several decades, mostly from
regulatory interactions (Covert et al., 2001), signaling pro- dedicated experiments targeting well-defined activities. As a
cesses (Lee et al., 2008b), the first and second laws of consequence, the corresponding reactions have often been
thermodynamics (Beard et al., 2002, 2004), or metabolite precisely and reliably characterized. Exploiting these results to
concentrations (Kümmel et al., 2006b; Henry et al., 2007). reconstruct the whole metabolism of an organism is a labor-
Nevertheless, these extensions require the inclusion of addi- intensive task, however, as it requires processing a high volume
tional experimental data and may result in more complex of literature. Most existing metabolic models have been recon-
mathematical formulation hindering their practical use. structed in this manner and for extensively studied organisms.
Some predictions of constraint-based models may be For instance, the most complete bacterial model available to
wrong in cases where modeling assumptions do not hold. date – namely iAF1260, the latest model of Escherichia coli
For instance, some metabolites do accumulate in the cell, and metabolism – includes references to more than 320 articles
the mass balance assumption clearly does not hold for these. (Feist et al., 2007). Two types of databases centralize biochem-
In general, the concentration of specific metabolites may be ical knowledge: enzyme-centric ones, which collect functional
high enough relatively to the fluxes they are involved in for the information acquired on enzymes, for example BRENDA
mass balance approximation to become clearly false. (Barthelmes et al., 2007) or SwissProt (Boutet et al., 2007);
In practice, many of the analytical methods that have and pathway databases, aimed at describing the biochemistry
been developed for constraint-based models focus on defin- of metabolic processes, for example EcoCyc for E. coli
ing and characterizing sets of feasible flux distributions. metabolism (Karp et al., 2007) or UM-BDD for microbial
Others focus on a single distribution. The diversity of flux biodegradation pathways (Elliset al., 2006) (see Table 1).
distributions compatible with constraints in a given envir- These biochemical clues are typically incomplete rela-
onment can be viewed as reflecting the diversity of the tively to the set of all possible activities, especially for less
metabolic states the cell may find itself in. Nevertheless, the studied organisms. In addition, while technologies aiming at
space of feasible flux distributions features biologically high-throughput characterization of biochemical activities
informative properties whose determination requires ade- are improving, they are not yet mature enough to provide
quate techniques; these will be introduced in the next reasonably good coverage. Genes corresponding to enzymes
sections of this review. that have been experimentally characterized have never-
theless been identified. Their homologues in the genome of
such species can be identified using comparative genomics
methods, thereby indicating the presence of the associated
Building the models biochemical activities.
The level of detail necessary to build a constraint-based model The traditional path to inferring metabolic reactions from
of a bacterium’s metabolism is relatively low; the only the genome of an organism is gene-centric, at least in its first
information required is the precise reaction stoichiometries steps. Nearly all available genome sequences are now system-
and directions, in order to account for mass balance and atically processed through automated annotation pipelines,
irreversibility constraints. To reflect the global biochemical which identify coding sequences and infer functional annota-
capabilities of the organism, the model also needs to encom- tions. Covering all relevant methods would be beyond the
pass the complete set of metabolic activities that can occur scope of this article, but thorough reviews can be found else-
within it – or a reasonable approximation thereof. This where (Médigue & Moszer, 2007). Basically, coding sequences
comprehensiveness requirement and the high number of are first identified using highly efficient gene-finding algo-
metabolic reactions make the actual construction of such rithms [such as GENEMARK (Besemer et al., 2001), GLIMMER
models a challenging task in itself. In this section, we will (Delcher et al., 1999), or AMIGENE (Bocs et al., 2003)], which
review the main methods and resources helping in this task. discard the ORFs that are not likely to be coding for a protein.
We will first show how information from genome annotation Functional annotations are then sought for each gene using
can be used to infer biochemical reactions at large scale, a task complementary approaches: sequence homology with pro-
commonly called metabolic network reconstruction. We will teins of known function [stored for instance in UniprotKB
then review the techniques commonly used to assess the (UniProt, 2008)], conservation of genomic structure with
consistency of reconstructed models, and show how missing annotated species (e.g. synteny), and prediction of functional
biochemical activities can be identified to complete the model. domains (Apweiler et al., 2000; Claudel-Renard et al., 2003).
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 169
Combining the above methods and information sources enzyme, together with the corresponding stoichiometries.
increases the reliability of the annotation transfers from Functional annotations of enzymes therefore need to be
proteins of known function to new genes. Current annotation translated into appropriate chemical equations. The Enzyme
pipelines succeed at assigning a function to 50–80% of the Commission (EC) numbers classification offers an unam-
genes (Serreset al., 2004). A number of databases provide such biguous way to identify enzyme-catalyzed reactions. When
automatically generated annotations for most sequenced provided by the enzyme annotations, these numbers directly
bacterial genomes (see Table 1). specify which reactions they catalyze. Several enzyme and
In order to build a metabolic model, it is necessary to metabolic databases provide the correspondence between
identify the specific chemical conversions catalyzed by each EC numbers and reactions (see Tables 1 and 2). These
Biomass composition
Enzyme localization
Type of information
Enzyme specificity
Metabolite formula
GPR association1
Biomass composition
Enzyme localization
Type of information
Metabolite formula
Reaction equation
Enzyme specificity
Reaction direction
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 171
Alternative approaches to metabolic network reconstruc- recently (DeJongh et al., 2007); it includes a check that the
tion bypass the classical annotation step altogether, taking inferred pathways can be properly connected to form a
instead advantage of the curated links between enzyme- ‘working’ model. By leveraging a specific form of ‘guilt-by-
encoding gene sequences and reactions [or EC numbers, as association,’ approaches of this type may be able to retrieve
in the Genome-Based Modeling (GEM) system (Arakawa reactions catalyzed by enzymes that cannot be correctly
et al., 2006)] provided by some metabolic databases. Orthol- identified using current methods. In addition, the presence
ogy relationships are sought between reference sequences of spontaneous reactions in the organism may be identified
from these databases and the coding sequences from the new by the occurrence of neighboring reactions in reference
genome. While these methods [e.g. AUTOGRAPH (Notebaart metabolic pathways.
et al., 2006), or IDENTICS (Sun & Zeng, 2004), see Table 3] In addition to their equations, the reversibility and
simplify the reconstruction process, they usually do not localization of reactions need to be determined for meta-
benefit from advanced annotation techniques, such as those bolic models. Few metabolic or enzyme databases report on
derived from structural genomics or domains recognition, the reversibility of reactions in in vivo conditions (see Table
and are more difficult to combine with expert annotation. 2). When not found in the literature, reversibility is there-
They are also conditioned on the availability of curated fore often determined using simple thermodynamic con-
gene-reaction associations for a set of reference organisms. siderations based on the reaction Gibbs energy, if it is
The reconstruction of the metabolism of a new organism known, or on basic rules depending on the energy equiva-
can also benefit from the knowledge of complete pathways lents (e.g. NADH or ATP) involved in the reactions (Ma &
in related organisms. Metabolic databases often group Zeng, 2003; Kümmel et al., 2006a). Even though very few
reactions into pathways or modules that indicate known compartments divide bacterial cells (with periplasm and
co-occurrence relationships between reactions that hold cytoplasm as the only main compartments in gram-negative
across several organisms. Three main resources provide this bacteria), the presence of such physical separation between
type of information: MetaCyc (Caspi et al., 2006), KEGG metabolites need to be included in their metabolic models.
Modules (Kanehisa et al., 2007), and SEED (Overbeek et al., Enzymes present in one compartment cannot interact with
2005) (see Tables 1 and 2). Metabolic model reconstruction metabolites present in another one. To properly model the
procedures tied to such databases can exploit the known co- effect of compartments, the localization of enzymes and the
occurrences of reactions across reference organisms whose transport of metabolites need to be determined. Informa-
metabolism has been extensively studied (Arakawa et al., tion on the localization of enzymes and reactions is seldom
2006). An instance of a reconstruction procedure taking included in metabolic databases. Curated versions of BioCyc
advantage of this notion of metabolic context is again databases, especially MetaCyc, are a welcome exception,
PATHOLOGIC, which infers the presence of pathways rather however (Caspi et al., 2006). When not found in the
than that of single reactions when possible. A reconstruction literature, localization can be inferred using ab initio predic-
procedure based on the SEED database was also proposed tions from enzyme sequences (Schneider & Fechner, 2004),
or determined experimentally, for example using fluores- of the metabolites, which are typically found in databases of
cence microscopy (Meyer & Dworkin, 2007). Transport of chemical compounds (see Table 1). For cases where the
metabolites can be inferred using comparative genomics formula is not available for all metabolites, a method was
tools that identify transport enzymes [e.g. TransportDB recently introduced to detect such balance errors in meta-
(Ren et al., 2004)]. Yet, such methods hardly determine the bolic models by solely comparing chemical equations – for
specificity of transporters; knowledge of transported meta- instance, reactions A ! B and A ! B1C would be identi-
bolites is therefore often completed using direct information fied by this method as ‘stoichiometrically inconsistent,’
on the microorganism’s physiology and the metabolites it because balancing both equations would require that at
was shown to utilize in growth experiments. least one of the metabolites has a null or negative mass
Overall, reconstructing a constraint-based model for an (Gevorgyan et al., 2008).
organism’s metabolism involves collecting various types of The assumptions on which constraint-based models are
information. A summary of the respective contributions of founded do not enforce thermodynamic consistency on the
each data source to the model construction is shown in Table 2. fluxes. Flux distributions obeying conservation of mass can
still include internal cycles that violate thermodynamic laws,
allowing for instance the artificial generation of high-energy
Checking the consistency of reconstructed
cofactors. To prevent models from predicting such unrealis-
models
tic metabolic modes, extensions of the modeling framework
Once a draft metabolic model is obtained, its consistency were proposed that directly enforce these laws (Beard et al.,
can be checked using a set of simple tests (see Fig. 2): is the 2002). Their nonlinear nature entails costly computations,
model chemically and physically coherent? Are there re- however, which hinder the use of such modeling extensions
maining ‘dead-ends’ in metabolic pathways or reactions in practice. In order to provide thermodynamically consis-
bound to be inactive? Is the model able to produce essential tent models without including such extensions, methods
metabolites from a known growth medium? have been developed to detect inconsistent cyclic modes in
Constraint-based metabolic models fundamentally rely draft metabolic models, and propose changes in reaction
on reaction stoichiometries to properly account for the mass reversibility that would avoid those modes from being
balance in metabolism at steady state. It is therefore crucial predicted (Yang et al., 2005; Kümmel et al., 2006a).
that all chemical equations are correctly balanced to avoid Before one can reap the benefits of having a model, the
unrealistic creation or destruction of matter. To control the model should be functional, i.e. it should be checked that
correctness of the reaction stoichiometries, the atom balance non-null fluxes can actually be predicted. This relates to the
of each reaction can be checked using the chemical formulae completeness of the model, because for instance a missing
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 173
reaction in a linear pathway would prevent any non-null flux reactions. Similarly, Reed et al. (2006b) proposed a method
from being predicted in it at steady state, thereby inactivat- which drives the expansion of the metabolic model to
ing all other reactions in the pathway. Metabolites that are account for the utilization of additional external com-
never consumed or never produced, so-called ‘dead-ends,’ pounds. For metabolites experimentally shown to be used
typically reveal that reactions are missing. In order to help by the organism but not predicted as such by the model (see
investigate and correct these so-called ‘metabolic gaps,’ Applications of metabolic models on growth phenotype
methods have been developed that assess whether reactions predictions for methods to perform these predictions), their
can be active in the model (Reed & Palsson, 2004), identify method automatically proposes minimal sets of reactions
dead-end metabolites (Kumar et al., 2007) or directly track from a repository of reactions that, if added, would allow the
the producibility of metabolites from source metabolites model to exploit the external metabolites.
(Segrè et al., 2003; Ebenhöh et al., 2004). In case the model is The set of reactions referenced in metabolic databases is far
later used to predict growth phenotypes (see Applications of from being comprehensive: the right candidates for complet-
metabolic models), the producibility of biomass precursors ing the model may not yet be known. Computational and
and the completeness of their biosynthetic pathways should be experimental approaches have been proposed to extend this
especially checked beforehand. Dedicated procedures have ‘universe of possible reactions.’ On the computational side,
been designed to systematically perform these checks for several methods originating from the field of chemo-infor-
newly reconstructed models (Segre ` et al., 2003; Imielinski matics have been designed to infer chemical transformations
et al., 2005; Senger & Papoutsakis, 2008). Solving such (Gasteiger, 2005). Some of them have been more specifically
inconsistencies often involves filling metabolic gaps or com- adapted to biochemical transformations, using rules on enzy-
pleting the network with additional metabolic pathways. matic conversions to infer new conversions for biologically
The methods presented in this section check the consistency relevant metabolites (Klopman et al., 1994; Arita, 2000;
of the reconstructed model with respect to a set of basic rules Hatzimanikatiset al., 2005; Ellis et al., 2008).
(see Table 3). We will review in the section on model applica- Numerous experimental methods are also being devel-
tions how model predictions can also be confronted with oped to explore the range of possible biochemical reactions.
experimental data, providing consistency checks of the model MS and nuclear magnetic resonance (NMR) techniques are
with respect to diverse additional experimental evidence. able to identify and quantify large sets of metabolites at high
Interpreting and solving identified inconsistencies of either throughput (Dunn et al., 2005; Dettmer et al., 2007).
type are key to improving the quality of the metabolic model. Computational methods have been proposed to infer reac-
tions from MS data, by analyzing mass differences between
related metabolites (Breitling et al., 2006) or correlations
Targeted searches for missing metabolic
between metabolite concentrations across distinct conditions
activities
(Steuer, 2006). They do not provide direct evidence for bio-
Consistency checks (either internal to the model or relative to chemical transformations, however: their predictions should be
experimental datasets) may showthat the reconstructed model treated as clues to be confirmed by additional information.
is incomplete and lacks some metabolic reactions. Resolving Although mostly used to determine metabolic fluxes, atom-
these metabolic gaps entails expanding the model by identify- labeling experiments could also become powerful tools to
ing and including missing biochemical activities. This process elucidate novel metabolic pathways (Sauer, 2006). They can
basically consists of two steps: (1) identifying plausible candi- advantageously complement computationalab initio pathway
date reactions that could complete the model and (2) finding inference methods by selecting candidate pathways that are
genes that could catalyze the hypothesized activities. compatible with observed isotopic patterns. Finally, untargeted
Reactions contained in metabolic databases are the pri- enzyme activity screenings have recently been performed to
mary source of information for completing the metabolic identify the substrates of enzymes of unknown function and
model (see Table 1). The search for candidate reactions discover novel activities (Saghatelianet al., 2004; Saito et al.,
within these databases can be facilitated using knowledge of 2006). The availability of large-scale libraries of ORF clones
existing pathways (as in MetaCyc, SEED, or UM-BBD, see (Kitagawa et al., 2005) should increase the likelihood of such
Table 1) or computational methods (Arita, 2003; Boyer & methods expanding the store of known reactions.
Viari, 2003; Kumar et al., 2007) (see Table 3). In the latter The search for candidate genes for orphan metabolic
category, the GapFill method was specifically developed to activities is in some ways the reverse of the classical genome
identify dead-ends in models, and correct them by adding annotation problem (i.e. searching the function of identified
reaction from a global repository of reactions, changing the genes). Yet, many of the tools developed to determine gene
reversibility status of reactions, or adding transporters functions can be adapted for this purpose. Sequence homol-
(Kumar et al., 2007). The addition of reactions to the model ogy to already characterized genes is central to most
is guided by an optimization step minimizing the number of methods for candidate gene detection, but combining it
with additional types of evidence can significantly improve et al., 2004; Wiback et al., 2004). By sampling a significant
performance. For instance, several approaches exploit func- number of metabolic states, these approaches offer an over-
tional links, such as gene neighborhood, gene co-expression, view of the range of flux distributions that can occur in the
protein interaction, or phylogenetic co-occurrence, to relate metabolic network at steady state. The ‘uniform’ nature of
candidate genes with genes involved in the same metabolic the sampling is based only on the mathematical description
pathways or close in the metabolic network (Osterman & of the set of possible flux distributions, avoiding any prior
Overbeek, 2003; Green & Karp, 2004; Chen & Vitkup, 2006; assumption on which metabolic states are most likely to be
Kharchenko et al., 2006; Fuhrer et al., 2007). Databases such selected in vivo. For instance, these sampling methods have
as STRING (von Mering et al., 2007) or Prolinks (Bowers been used to evaluate the relative occurrence of reactions
et al., 2004) compile large sets of functional links across a within the set of possible flux distributions and across
wide range of organisms. On the experimental side, enzyme several environmental conditions (Almaas et al., 2004). This
activity screenings are used to validate the generated candi- analysis showed that a few reactions are active in many
dates. Furthermore, when the orphan activity is associated sampled flux distributions and carry high fluxes – forming a
to a specific phenotype, screens of systematic knockout so-called high-flux metabolic backbone – while many others
mutant phenotypes can help in identifying candidates are active in few sampled flux distributions and carry low
(Aghaie et al., 2008). fluxes. Similar methods were also used to evaluate the
The two types of methods – finding candidate reactions correlation of flux values between pairs of reactions across
or candidate genes – benefit from being used in combina- sampled metabolic states (Reed & Palsson, 2004; Becker
tion, as identifying genes for putative reactions can help in et al., 2007) and thereby determine metabolic dependencies
selecting the proper reactions to include. between reactions. From a more theoretical angle, sampling
was also used to evaluate the size of the set of possible flux
Applications of metabolic models distributions (Wiback et al., 2004; Braunstein et al., 2008).
When computed for distinct (genetic perturbation! environ-
A wealth of computational methods has been developed to
mental condition) pairs, the relative sizes of the corresponding
help analyze biological properties revealed by reconstructed
flux distribution sets were interpreted as indicators of the
metabolic models. Not only would a comprehensive and
respective diversity of metabolic states in the tested conditions
technical description exceed the scope of this review, but
(Wiback et al., 2004).
these methods have been extensively covered elsewhere,
The diversity of achievable metabolic fluxes can also be
either on the technical side (Price et al., 2004) or for
evaluated locally for each reaction. Flux variability analysis
applications on a specific organism, i.e. E. coli (Feist &
was designed for this purpose: an optimization procedure
Palsson, 2008). We will provide here the reader with a review
computes the minimal and maximal allowed flux of each
on the main applications for which constraint-based models
reaction independently (Mahadevan & Schilling, 2003). This
have been most successful and are mostly promising for
procedure identifies reactions that do not carry any flux, or
bacterial species. We will distinguish four main types of
conversely those that carry non-null flux in all possible
applications: (1) analysis of network properties of metabo-
metabolic states. Flux variability analysis has been broadly
lism, (2) prediction and analysis of bacterial growth pheno-
used to predict the activity of reactions for specific sets of
types, (3) model-based interpretation of experimental data,
metabolic constraints (Mahadevan & Schilling, 2003; Reed
and (4) metabolic engineering.
& Palsson, 2004; Teusink et al., 2006; Feist et al., 2007; Henry
et al., 2007; Shlomi et al., 2007a).
Analysis of network properties
Flux sampling or flux variability approaches only provide
The principle of constraint-based modeling consists in study- partial description of the set of possible flux distributions.
ing the set of reaction fluxes – namely flux distributions – that To get a comprehensive picture of the possibilities, methods
are achievable at steady state given the constraints imposed on which compute elementary modes (Schuster et al., 2000)
the system. Reaction fluxes can vary inside a continuous set of and extreme pathways (Schilling et al., 2000) have been
possible values. This set can encompass significant variability developed. These notions differ only slightly in their math-
at the level of individual pathway or reaction fluxes. A wide ematical formulation (Klamt & Stelling, 2003; Papin et al.,
range of methods have been designed to explore that varia- 2004): the main idea is to determine the set of elementary
bility and analyze specific properties of metabolites and and independent metabolic routes that can occur in the
reactions which emerge from the flux constraints. metabolic model. These elementary routes are flux distribu-
One approach consists in sampling the set of achievable tions that (1) respect all assumed constraints, including
flux distributions (Almaas et al., 2004; Reed & Palsson, 2004; steady state and irreversibility, and (2) are elementary in
Wiback et al., 2004). Methods that provide a uniform the sense that they are composed of a minimal set of active
sampling of the possible states have been proposed (Almaas reactions. This second condition ensures that the flux
"
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation "
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 175
Wild-type Quantitative
growth Knockout mutant growth
Organism Reference Genes Reactions! Metabolitesw phenotypes growth phenotypes measures
Acinetobacter baylyi Durot et al. (2008) 774 875 701 173/190 (91%) 1138/1208 (94%) –
Bacillus subtilis Oh et al. (2007) 844 1020 988 200/271 (74%) 720/766 (94%) –
Clostridium acetobutylicum Lee et al. (2008a) 432 502 479 10/11 (91%) – X
Clostridium acetobutylicum Senger & Papoutsakis (2008) 474 552 422 – – –
Escherichia coliz Feist et al. (2007) 1260 2077 1039 129/170 (74%) 1152/1260 (92%) X
Geobacter sulfurreducens Mahadevan et al. (2006) 588 523 541 – – X
Haemophilus influenza Schilling & Palsson (2000) 412 461 367 – – –
Helicobacter pylori‰ Thiele et al. (2005) 341 476 485 – 54/72 (75%) –
Lactobacillus plantarum Teusink et al. (2006) 721 643 531 – – X
Lactococcus lactis Oliveira et al. (2005) 358 621 422 – – X
Mannheimia succiniciproducens Hong et al. (2004) 335 373 332 – – –
Mycobacterium tuberculosis Beste et al. (2007) 726 849 739 – 547/705 (78%) X
Mycobacterium tuberculosis Jamshidi & Palsson (2007) 661 939 828 – 132/237 (56%) X
Neisseria meningitidis Baart et al. (2007) 555 496 471 – – X
Pseudomonas aeruginosa Oberhardt et al. (2008) 1056 883 760 78/95 (82%) 893/1056 (85%) –
Pseudomonas putida Nogales et al. (2008) 746 950 710 84/90 (93%) 665/746 (89%)z X
Rhizobium etli Resendis-Antonio et al. (2007) 363 387 371 – – –
Staphylococcus aureus Becker & Palsson (2005) 619 641 571 – – –
Staphylococcus aureus Heinemann et al. (2005) 551 774 712 – 8/14 (57%) –
Streptomyces coelicolor Borodina et al. (2005) 700 700 500 54/58 (93%) 11/12 (92%) X
First two columns of experimental assessment show the number of correct predictions among all experimentally determined qualitative growth
phenotypes. Last column specifies whether the model has been assessed against quantitative growth rate measurements.
!Number of distinct reactions including transport processes.
w
Number of biochemically distinct metabolites.
z
This model is an update of two earlier models for E. coli (Edwards & Palsson, 2000; Reed et al., 2003).
‰
This model is an update of an earlier model for H. pylori (Schilling et al., 2002).
z
Using gene essentiality data for Pseudomonas aeruginosa.
of higher order cell structures. These two parameters are evolution experiment on E. coli cells grown in glycerol
usually determined by fitting growth yield predictions minimal medium, Ibarra and colleagues actually observed
derived using FBA to measured growth yields provided by that, while the initial growth yield was suboptimal, it
growth monitoring experiments (Reed et al., 2006a). progressively evolved to reach the optimal value predicted
Measurements of growth yields for distinct growth rates are by the model. Other biological constraints, such as regula-
sufficient to fit both growth-associated and non-growth- tion or capacity constraints, may also prevent the organism
associated maintenance parameters (Varma & Palsson, from using optimal flux distributions (Oliveira et al., 2005;
1994a). The values of these parameters were determined Feist et al., 2007). Comparing predictions of growth pheno-
using experimental growth measurements for a significant types with experimental measures may also help in refining
proportion of reconstructed models (see Table 4). the model. A model component that is often refined using
Once fitted, and assuming these parameters remain con- quantitative growth predictions is the stoichiometry of
stant across environments, the model can be used to predict proton translocation that occurs in reactions of electron
growth rates on different media (Edwards et al., 2001). transport systems, such as the respiratory chain. These stoi-
Predicted growth yields revealed to be consistent with chiometries are often hard to determine a priori, yet they
observed ones on a significant number of media for E. coli impact directly the P/O ratio and the efficiency of energy
(Edwards et al., 2001). Inconsistencies between predicted generation (Reed et al., 2006a). With the help of a metabolic
and observed growth yields can have multiple interpreta- model and growth yield measurements on several distinct
tions. First, the assumption of optimal substrate utilization media, Feist et al. (2006) studied the unknown proton translo-
can be questionable for growth predictions on environments cation stoichiometry of such a reaction in Methano-
that are not commonly encountered by the organism (Ibarra sarcina barkeri by determining for each media the model
et al., 2002; Schuster et al., 2008). Using an adaptive maintenance parameters that provided the best growth yield
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 177
predictions for different hypothesized values of the stoichiome- phenotypes, two types of inconsistencies may arise: false
try. Assuming that maintenance should not significantly change viable predictions – growth was predicted yet not observed
across media, they selected the stoichiometry that triggered the experimentally – and false lethal predictions – growth was
smallest variation among the determined maintenance para- not predicted yet observed experimentally. On the one hand,
meters across the environments.Other studies investigated the these inconsistencies may be caused by limitations of the
stoichiometry of proton translocation in the respiratory chain model or cases where the modeling assumptions do not
by directly exploiting measured ratios of electron acceptor (e.g. hold. Regulation may for instance trigger a lethal phenotype
oxygen, or Fe(III) in Geobacter sulfurreducens) consumption by blocking an alternate pathway, which would not be
rate vs. carbon source consumption rate and growth rate predicted as blocked in the merely metabolic model. On
(Heinemann et al., 2005; Mahadevanet al., 2006). the other hand, examining the inconsistencies may identify
Models can readily predict the effect of gene deletion on errors in the model and lead to its refinement. All model
growth phenotypes. To that end, a layer of Gene Protein components may comprise errors, including the GPR asso-
Reaction associations – usually called GPR (Reed et al., ciations, the metabolic network itself, and the stated bio-
2003) – is added to the model to predict the effect of gene mass requirements. False lethal predictions are often clues
deletion on reaction activity. Each reaction is associated to that some biomass component is actually not essential, or
its enzyme-encoding genes by a Boolean rule: genes encod- that the model lacks an alternative gene or pathway that
ing for subunits of an enzymatic complex are linked with an would allow it to survive in the given experimental condi-
AND rule, while genes encoding for alternative enzymes are tions. Conversely, false viable predictions can help detect
linked with an OR rule. Using GPR rules, gene deletions are missing essential biomass components, genes falsely anno-
translated into ‘blocked’ reactions, which are then inacti- tated as encoding isozymes or reactions that were wrongly
vated in the model by constraining their fluxes to zero. FBA assigned or are inactive in the experimental conditions
can be applied to predict growth phenotypes of gene knock- (Duarte et al., 2004; Joyce et al., 2006). Growth phenotype
out mutants. Nevertheless, the hypothesis of optimal growth predictions have been evaluated for a significant proportion
is largely debatable for such genetically engineered mutants, of reconstructed models, whenever experimental data were
as their metabolism was not exposed to evolutionary available (see Table 4). Interpretation of inconsistent cases
pressure. Basing on the assumption that metabolism in a by expert examination led to several annotation and model
knockout mutant operates as closely as possible to metabo- refinements, some of which were supported by the results of
lism in the wild-type strain, two specific methods were targeted experiments (Covert et al., 2004; Duarte et al., 2004;
introduced. They predict knockout mutant growth pheno- Joyce et al., 2006; Reed et al., 2006b). Automated methods
types by minimizing either the overall flux change [MoMA were recently introduced to systematically look for inter-
(Segrè et al., 2002)] or the number of regulatory changes pretations of inconsistencies and possible modifications in
[ROOM (Shlomi et al., 2005)] between the wild-type strain the model. Corrections of the GPR associations can be
and the mutant strain (see Table 5). Both methods were systematically proposed that match the gene essentiality
shown to provide slightly better predictions than FBA. observation with predicted reaction essentiality (M. Durot
The throughput of experiments evaluating qualitative et al., unpublished data). With regard to the metabolic
growth phenotypes – i.e. described simply as viable or lethal network itself, metabolic gap filling approaches have been
– has increased dramatically in the last few years. Phenotype adapted to propose network corrections that resolve wrongly
Microarrays from Biolog Inc. typically report growth phe- predicted growth phenotypes (Reed et al., 2006b). Finally,
notypes for several hundreds of media in a single experi- valuable insights into the determination of essential biomass
ment (Bochner et al., 2001). In parallel to this, collections of precursors can be provided by methods that analyze correla-
knockout mutants are being built for a growing number of tions between lethality and metabolite production (Imielinski
bacteria (Akerley et al., 2002; Jacobs et al., 2003; Kobayashi et al., 2005; Kim et al., 2007). All these methods act indepen-
et al., 2003; Baba et al., 2006; Liberati et al., 2006; Suzuki dently on distinct components of the model. A unifying
et al., 2006; de Berardinis et al., 2008). The systematic method integrating all types of corrections, which is yet to
assessment of growth phenotypes of knockout mutants come, could lead to an integrated platform for the systematic
provides a significant resource for exploring the metabolic interpretation of upcoming growth phenotyping results.
capabilities of organisms and investigating their gene func- Models can actually predict growth phenotypes for any
tions (Carpenter & Sabatini, 2004), but their direct inter- environmental condition and any combination of gene dele-
pretation is made difficult by the complexity and size of tions, which is beyond reach of experiments. Given the
metabolic networks (Gerdes et al., 2006). These results can combinatorial complexity of mixing several gene deletions,
be readily compared with model predictions, however, dedicated methods have been designed to analyze the effects of
providing a way to interpret them and assess the model multiple deletions and applied to identify epistatic interac-
correctness. Given the qualitative nature of these growth tions between genes (Klamt & Gilles, 2004; Deutscheret al.,
Table 5. Main analytical methods for genome-scale models sorted by type of application
Analysis of network properties
Flux sampling: random sampling of flux distribution among the set of possible Almaas et al. (2004), Reed & Palsson (2004), Wiback et al. (2004)
metabolic states
Flux variability analysis: examination of flux variability for each reaction Mahadevan & Schilling (2003)
Metabolic pathway analysis, elementary modes/extreme pathways: comprehensive Schilling et al. (2000), Schuster et al. (2000), Klamt & Stelling
description of all independent metabolic modes achievable in the metabolic network (2003)
Flux coupling: identification of reaction pairs whose fluxes are coupled Burgard et al. (2004)
Metabolite coupling/evaluation of conserved metabolite pools Nikolaev et al. (2005), Becker et al. (2006), Imielinski et al. (2006)
Prediction and interpretation of bacterial growth phenotypes
Producibility analysis of biomass precursors Imielinski et al. (2005)
FBA: quantitative prediction of growth yield by maximization of growth rate given Varma & Palsson (1994a, b)
bounded nutrient input rates
MOMA: prediction of gene deletion mutant flux distribution by minimizing overall Segrè et al. (2002)
flux changes with wild type
ROOM: prediction of gene deletion mutant growth by minimizing regulatory Shlomi et al. (2005)
changes with wild type
Identification of multiple gene deletion essentialities Klamt & Gilles (2004), Deutscher et al. (2006), Imielinski & Belta
(2008)
Model-based interpretation of experimental data
Metabolic flux measurements
Metabolic Flux Analysis using labeled metabolites: prediction of attainable reaction Wiechert (2001), Sauer (2006)
fluxes given observed metabolite isotopic patterns
Global prediction of reaction activities using metabolic flux measurements on Herrgård et al. (2006a, b)
subsets of reactions
Identification of metabolic objectives best describing observed fluxes Burgard & Maranas (2003), Schuetz et al. (2007)
Metabolite concentrations
Comparison of model coverage with experimentally detected metabolites Oh et al. (2007)
NET analysis and TMFA: application of thermodynamic constraints to reaction Kümmel et al. (2006a, b), Henry et al. (2007)
directions using metabolite concentrations
Gene expression
Identification of metabolic pathways correlated with gene expression levels Schwartz et al. (2007)
Refinement of flux distribution predictions by blocking reactions corresponding Akesson et al. (2004)
to unexpressed genes
Evaluation of consistency of gene expression levels with metabolic objectives Becker & Palsson (2008)
rFBA and SR-FBA: prediction of gene expression states using Boolean regulatory Covert et al. (2001), Barrett et al. (2005), Barrett & Palsson
rules (2006), Shlomi et al. (2007a, b)
Metabolic engineering
Systematic identification of gene deletions enhancing metabolite production yield Burgard et al. (2003), Patil et al. (2004), Alper et al. (2005a, b)
OptStrain: systematic identification of reaction additions enabling the production Pharkya et al. (2004)
of novel metabolites
Prediction of adjustments of enzyme expression levels enhancing metabolite Pharkya & Maranas (2006), Lee et al. (2007)
production yield
2006, 2008; Imielinski & Belta, 2008). Prediction of growth Model-based interpretation of experimental
phenotypes have also been used to automatically assign data
condition-dependent roles to genes (Shlomiet al., 2007b),
investigate the causes of gene dispensability (Pappet al., 2004; The recent development of experimental techniques has
Kuepfer et al., 2005), or study bacterial evolution (Pál et al., enabled measurements at genome-scale of several types of
2005a, 2006). These two latter studies on bacterial evolution quantities, generating so-called ‘omics’ datasets. These data-
used an E. coli model to analyze the effect of changing growth sets provide partial yet comprehensive snapshots of cellular
environments on the acquisitionof new metabolic capabilities mechanisms (Ishii et al., 2007a), but their interpretation is
by horizontal gene transfer (Pál et al., 2005a) and to simulate made difficult by the volume of data. Computational
the reductive evolution of metabolism in specific environ- methods are thus needed if meaningful biological results
mental conditions (Pál et al., 2006). are to be extracted (Joyce & Palsson, 2006). A variety of
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 179
methods have been developed to exploit experimental data 1994; Wiechert et al., 1999; Antoniewicz et al., 2007a). Such
related to metabolic states, for example measurements of models have been built for a few organisms, often using
metabolic fluxes, metabolite concentrations, enzyme levels, existing constraint-based models as a basis (Antoniewicz
or gene expression, in the light of genome-scale models. Two et al., 2007b; Suthers et al., 2007). While atom mappings for
cases generally arise: either experimental observations are reactions are currently mostly inferred using chemoinfor-
directly comparable to model predictions, or these observa- matics methods (Raymond et al., 2002; Arita, 2003; Hattori
tions lead to the imposition of additional constraints that et al., 2003), this information will likely be made accessible in
refine the set of predicted metabolic states. Observations dedicated databases in the coming years.
falling in the second category allow for instance the selection By qualitatively examining isotope patterns in nutrients
of those metabolic routes that are compatible with the and products, information can already be extracted about
experimental observations, or help predict quantitative values the possible routes of conversion (van Winden et al., 2001;
for the fluxes. When directly comparable to model predic- Sauer, 2006; Kuchel & Philp, 2008). Patterns in products
tions, experimental data may be used to assess model correct- actually depend on their biosynthetic pathways. Observed
ness and assumptions, identify inconsistencies, and target patterns that are inconsistent with the predicted possible
improvements, as illustrated above with growth phenotypes patterns are clues that other pathways may occur in vivo.
(Reed et al., 2006b). We will review such integration methods This approach was for instance recently used to evaluate the
in the following sections for three types of experimental data: model of G. sulfurreducens: an inconsistent isotope pattern
measurement of (1) reaction fluxes, (2) metabolite concentra- for isoleucine led to the discovery of an isoleucine biosynth-
tions, and (3) gene expression levels. esis pathway previously uncharacterized in this bacteria
Refining the model with experimental data increases its (Risso et al., 2008).
correctness with respect to the observations but may Quantitative interpretation of isotope patterns together
decrease its predictive power. Predictions performed with a with measurement of extracellular metabolite fluxes can help
refined model should actually be interpreted with care to determine the value of intracellular reaction fluxes using
avoid circular reasoning: data that have been directly used to Metabolic Flux Analysis (Zupke & Stephanopoulos, 1994;
improve the model can no more be considered as predic- Stephanopoulos et al., 1998; Wiechert et al., 1999; Sauer,
tions, they are part of the evidences on which the model is 2006; Antoniewicz et al., 2007a). Known flux values can then
based to perform predictions. For instance, a model whose be directly exploited in models to characterize which meta-
maintenance parameters have been determined using bolic pathways are operating and quantify their fluxes. As an
growth rate measurement can no more predict the growth application, Herrgård et al. (2006a) introduced the optimal
rate for the environmental condition. This problem can metabolic network identification method, which combines
become serious when models are extensively fitted with flux measurements for a fraction of the reactions with the
experimental data, as they then become more descriptive assumption of optimal growth from FBA to globally infer
than predictive. Nevertheless, some refinement processes which reactions are active. This method has been for instance
applied to genome-scale models involve finding additional used to identify bottleneck reactions that limit the growth in
biological evidence that supports the refinement, thereby engineered strains, and discard putative reactions from newly
breaking the circular reasoning. For instance, corrections of reconstructed models (Herrgård et al., 2006a).
inconsistent growth phenotype predictions by additions of Observed fluxes were also used to determine relevant
alternate enzymes often involve finding additional proofs objective functions to choose when predicting metabolic
that the introduced enzymes possess the right activity. states with FBA (Burgard & Maranas, 2003). By evaluating
the match of predicted fluxes with observed ones, these
studies could identify those metabolic objectives that pro-
Metabolic flux measurements
vided the best fit. Distinct objectives, including maximiza-
One of the most direct experimental accesses to metabolic tion of ATP or biomass yields, were identified for instance in
fluxes is provided by atom-labeling experiments (Wiechert, E. coli depending on the environmental conditions (Schuetz
2001; Sauer, 2006). By analyzing the fate of labeled metabo- et al., 2007). Observed metabolic fluxes, however, often
lites, valuable information can be deduced about the reactions show that metabolism does not necessarily operate accord-
that are actually taking place. The most common technique ing to optimality principles (Fischer et al., 2004), especially
for this consists in analyzing the stable isotope patterns when regulatory constraints are overlooked.
(mostly using 13C) found in products of metabolism given
known isotope patterns in nutrient metabolites (Wiechert,
Metabolite concentrations
2001; Sauer, 2006). These data can be properly interpreted
only using a metabolic model that includes information about High-throughput measurement of intracellular metabolite
atom mappings for each reaction (Zupke & Stephanopoulos, concentrations is becoming common practice thanks to
recent developments in MS and NMR technologies (Dunn the level of expression of enzymes, deriving information on
et al., 2005; Dettmer et al., 2007). Metabolite profiling experi- reaction fluxes from gene expression levels is hindered by the
ments commonly detect thousands of peaks, among which numerous biological processes intervening between them.
hundreds can usually be exploited to identify metabolites and Changes in rates of translation or mRNA and enzyme
determine their concentrations, using for instance known degradation may significantly modify the quantity of enzymes
spectra of reference metabolites (Dunnet al., 2005). These available from a given amount of transcript. In addition,
datasets, while not fully comprehensive, provide significant changes in substrate/product concentrations or metabolic
information on metabolites present in the cell. regulations can influence the reaction fluxes irrespective to
Merely comparing the set of detected metabolites to the the enzyme quantities. As a consequence, no simple correla-
set of metabolites present in the model already help in tions are necessarily observed between gene expression levels
assessing the comprehensiveness of the model. For example, and reaction fluxes (Gygiet al., 1999; ter Kuile & Westerhoff,
in the reconstruction process of Bacillus subtilis metabolic 2001; Yang et al., 2002; Akesson et al., 2004).
model, Oh et al. (2007) evaluated the overlap between Some approaches have nonetheless been developed to
model metabolites and intracellular metabolites identified exploit information from gene expression data using models.
in a metabolomics dataset; among 350 intracellular metabo- In the vein of pathway- or module-based methods interpret-
lites identified, only 160 were present in the model. No ing changes of gene expressions at the level of pathways or
previously known biochemical activities could be associated biological processes (Hanisch et al., 2002; Draghici et al.,
with the remaining metabolites, illustrating the fact that a 2003; Yang et al., 2004), methods relying on a graph repre-
large part of B. subtilis metabolism remains unknown. These sentation of metabolism (Patil & Nielsen, 2005) or on a
unaccounted metabolites can guide further investigations decomposition of metabolic models into elementary modes
on missing activities, leading to expansion of the model’s (Schwartz et al., 2007) were introduced to correlate expres-
metabolite scope consequently. sion levels with possible metabolic states. These approaches
By extending the constraint-based modeling framework to are merely descriptive: the model provides a suitable meta-
encompass thermodynamic constraints on Gibbs energies of bolic context to interpret the experimental data. Gene expres-
reactions, knowledge of absolute metabolite concentrations sion data have also been used to refine the characterization of
can be translated into constraints on flux directions (K̈ummel metabolic fluxes in models. For instance, by blocking reac-
et al., 2006b; Henry et al., 2007). A first application is tions corresponding to unexpressed genes, metabolic fluxes
to check the consistency of metabolomic datasets with respect could be characterized more precisely in a yeast model
to metabolic fluxes predicted by the model. Methods (Akesson et al., 2004). In the same spirit, a method was
and software have been developed to pinpoint inconsistent recently introduced to evaluate the consistency of gene
concentration measures (Zamboniet al., 2008). Conversely, expression datasets with metabolic objectives, and identify
metabolomic-derived constraints refine the characterization subsets of active reactions that best correlate with expressed
of metabolic fluxes within the model; their integration has genes and metabolic objectives (Becker & Palsson, 2008).
allowed the prediction of ranges of concentrations for un- Even though these methods only rely on a limited depen-
measured metabolites, reaction directions, and ranges of dency between gene expression level and reaction flux –
Gibbs energies of reactions, identifying thereby potentially reactions catalyzed by unexpressed genes should have low
regulated reactions (Kümmel et al., 2006b). fluxes – they succeed in somewhat improving the character-
Thermodynamic constraints merely enforce link between ization of metabolic states, or in assessing the consistency of
the concentrations of metabolites and the directions of the model with the experimental data.
reactions. Taking reaction kinetics into consideration could As an attempt to account for transcriptional regulation,
reinforce that link and make it more quantitative. Extending regulatory interactions were introduced in models by trans-
models to handle kinetics is still an open issue (Famili et al., lating them into Boolean rules (Covert et al., 2001). In such
2005; Yugi et al., 2005; Ishii et al., 2007b; Smallbone et al., joint regulatory-metabolic model, Boolean variables quali-
2007; Covert et al., 2008; Jamshidi & Palsson, 2008), all the tatively describe the transcription state of genes, including
more challenging because of the potential influence of genes coding for enzymes and transcription factors, while
regulation, the scarcity of kinetic parameter values and the Boolean rules determine their regulatory dependencies.
lack of scalable analytical methods. Metabolic reactions are then allowed to have a nonzero flux
only if the transcriptional state of their enzymes is true.
Several methods have been developed to study these joint
Gene expression data
models. Regulatory FBA (rFBA) simulates time courses of
Thanks to technological advances, gene expression levels are gene expression states: at each time step, the new transcrip-
among the most widely accessible type of ‘large-scale’ experi- tional state is computed from the metabolic state predicted
mental data. While such datasets provide a global overview of at the previous time step, and is used to constrain FBA
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 181
prediction of the current metabolic state (Covert et al., acquired on them. Metabolic Flux Analysis provides for
2001). A specific representation scheme was later developed instance quantitative values for intracellular fluxes, which
to encode the sequence of expression states predicted by may be used to determine the actual pathway utilization and
rFBA in a unified manner, in order to compare regulatory pinpoint bottleneck reactions (Stephanopoulos et al., 1998).
responses across various environments (Barrett et al., 2005). Such information is of high significance for the metabolic
Another type of method has been recently developed to engineers, as it may help them in designing further meta-
determine joint steady states of gene expression and meta- bolic modifications.
bolic fluxes. Examining these steady states contributed to Metabolic models also provide the ability to formulate
the identification of redundantly expressed enzymes and the hypotheses and evaluate in silico the potential of genetic
quantification of the effect of transcriptional regulation in modifications. A common cause of low production yields
determining flux activity in E. coli (Shlomi et al., 2007a). lies in the presence of pathways that divert fluxes to the
Finally, two studies compared experimental expression production of undesirable byproducts or compete for the
levels with predicted expression states to assess the correct- utilization of precursors and cofactors. While such pathways
ness of joint regulatory-metabolic models of E. coli and yeast may be identified manually, their direct removal through
(Covert et al., 2004; Herrgård et al., 2006b). A significant gene deletion may cause side effects, for example alter the
proportion of inconsistent expression states could be cor- regeneration of cofactors, the redox balance, or the energy
rected in these models by searching for missing interactions balance (Kim et al., 2008). Genome-scale models can predict
(Covert et al., 2004; Herrgård et al., 2006b). In the same the effect of gene deletions on metabolic phenotypes. Several
vein, a method was recently designed to automate the methods were designed with the aim of selecting those gene
identification of experiments that are likely to bring most deletions that would provide the greatest benefit for a given
information on potentially missing regulatory interactions metabolite production goal. Alper et al. (2005a) developed a
(Barrett & Palsson, 2006). procedure that sequentially screen the effect of single and
multiple gene deletions in order to select those enabling the
best product yields while maintaining sufficient growth
Using genome-scale models for metabolic
rates. They successfully applied their method to enhance
engineering
the yield of a lycopene producing E. coli strain (Alper et al.,
The use of microbial organisms for industrial purposes has 2005b). Screening in silico the high number of combinations
grown considerably in the past few years, with potential of multiple gene deletions may turn out to be costly and
applications ranging from the production of valuable meta- practically impossible. Optimization methods based on
bolites to the degradation of pollutants and the generation genetic (Patil et al., 2005) or linear programming (Burgard
of renewable energy (Janssen et al., 2005; Ro et al., 2006; et al., 2003) algorithms were introduced to circumvent this
Peng et al., 2008; Rittmann, 2008). The field of metabolic issue. The second optimization method, called OptKnock,
engineering aims at designing and improving industrial specifically searches gene deletions coupling the production
microorganisms through the rational design of genetic of a targeted metabolite with growth rate; the rationale being
manipulations leading to enhanced performance (Bailey, that improving the growth rate by adaptive evolution would
1991; Stephanopoulos et al., 1998). With the advent of jointly improve the metabolite production rate and that this
genome-scale experimental technologies, the set of meta- coupling would make the engineered strain more evolu-
bolic engineering methods is progressively expanding to tionary stable (Burgard et al., 2003). Gene deletions pro-
include systems-wide analyses, enabling for instance to posed by this method were tested experimentally to enhance
study the operation of regulatory and metabolic networks lactic acid production in an E. coli strain (Fong et al., 2005).
at large scale (Park et al., 2008). In this respect, genome-scale Adaptive evolution experiments performed on the engi-
metabolic models provide to engineers an effective toolbox neered strains actually showed that lactic acid production
to investigate the metabolic behavior of their strain of was coupled to growth and achieved increased secretion
interest and target improvements (Kim et al., 2008). rates of the product. In addition to gene deletions, metabolic
As a first class of applications, all analytical methods models can explore the effect of adding new pathways,
presented in the previous sections can be directly applied to and help select the most appropriate ones. In this aim,
engineering purposes. Such methods may help for instance the OptStrain method was designed to systematically sug-
to evaluate the maximum theoretical efficiencies of path- gest additions of reactions to produce novel metabolites
ways or determine appropriate host strains by predicting (Pharkya et al., 2004). OptStrain relies on a comprehensive
their metabolic capabilities from their reconstructed database of biochemical reactions and may propose alter-
models. More importantly, metabolic models can help in native solutions. A last set of methods consists in designing
characterizing the actual metabolism operation of engi- suitable up- or downregulations of metabolic enzymes.
neered strains, especially when experimental data have been Intervening on gene expression levels is indeed a powerful
tool to tune metabolism operation, but the specific effects of software other than the ones they were constructed with.
such interventions are often hardly predictable (Kim et al., Differences in reaction and metabolite names also hamper
2008). In a study involving a L-threonine producing strain of direct comparisons between different models. Fortunately,
E. coli, Lee et al. (2007) made use of its metabolic model to some attempts to address these issues are under way. The
predict gene expression changes enhancing the strain yield. general-purpose SBML format (Systems Biology Markup
Specifically, they predicted flux values of key reactions Language) (Hucka et al., 2003) is often used to exchange
leading to optimal L-threonine production and compared constraint-based models, thus playing the role of a ‘default’
them with measured fluxes. They then used the relative standard for models. While SBML can be imported by many
difference between them to guide the tuning of the expres- modeling tools, it is not fully adapted to the specifics of
sion of the corresponding genes. A more systematic models; this may result in information or functionality loss
approach was introduced with the OptReg method, which during exchange. In addition to providing a standard format,
identifies at genome-scale the relative changes of flux values SBML supports the association of model components with
with respect to the wild-type flux distribution that provide external references, such as reaction and metabolite identifiers
the best production yield (Pharkya & Maranas, 2006). in universal metabolic databases, using MIRIAM annotations
Results of OptReg can be used to identify candidate enzymes (Le Novère et al., 2005). If widely used, this feature should
for up- or downregulation. facilitate model reuse and comparison.
Yet, two main issues limit the predictive capabilities of In order to facilitate model reuse and comparison,
metabolic models. First, while regulation may play a central dedicated model repositories have been developed. Perhaps
role in controlling the efficiency of product synthesis, it is the most widely adopted initiative of this type is the
completely overlooked in metabolic models. Studying regu- Biomodels.net repository (Le Novère et al., 2006) which
latory interactions – using for instance models of regulatory stores biochemical models of any type in SBML format.
networks – may actually provide useful insights, for example Because of its focus on more detailed dynamic models and
to remove feedback inhibitions or fine-tune transcriptional the related generic format choice, the repository is not fully
regulatory circuits commanding the product biosynthesis compatible with constraint-based models and qualitative
(Kim et al., 2008). Not accounting for enzyme quantities but predictions, as illustrated by the current low number of such
only reaction fluxes imposes a second limitation to genome- models included. Agreements with several journals make it
scale models. Implementing changes in flux values – sug- mandatory for authors to deposit models mentioned in
gested for instance by metabolic model optimization methods their manuscripts in Biomodels.net, where they are checked
– by altering the quantity of enzymes is a difficult task, as for syntactic correctness. On some models, a more elaborate
enzyme kinetics and metabolite concentrations may signifi- test on the compatibility between model predictions and
cantly influence the flux change. In order to determine the results presented in the associated paper is also performed.
effect of enzyme quantity changes on metabolic fluxes, more Currently, the only freely accessible (to academic users)
detailed approaches are required, for example metabolic repository dedicated to constraint-based models is the BiGG
control analysis (Fell, 1992). database (http://bigg.ucsd.edu). Its unified dictionary of me-
tabolite and reaction names enables direct comparisons
between its metabolic models.
Resources, databases, and tools Relatively few software tools have been specifically devel-
At the time of this review, genome-scale models have been oped to handle genome-scale constraint-based models,
reconstructed for at least 17 bacteria (see Table 4). For all of compared with the number of tools developed for kinetic
them, extensive manual curation was required in order to modeling. As the modeling framework relies primarily on
integrate information from the literature on their biochem- linear algebra and linear programming, general purpose
istry and physiology with functional information from mathematical software platforms, for example MATLAB
genome annotation. These models are therefore of high (http://www.mathworks.com/) and MATHEMATICA (http://
quality on average, and mostly complete with respect to the www.wolfram.com/), or optimization modeling packages,
current knowledge of their metabolism. An increasing sub- for example GAMS (http://www.gams.com/), are well suited.
set is being assessed and corrected against large-scale experi- Specialized optimization packages can be added for greater
mental data (see Table 4), and an impressive array of efficiency. In addition, modules dedicated to constraint-based
analytical studies has been applied to the most popular ones, modeling have been developed for MATLAB: FLUXANALYZER
for example E. coli (Feist & Palsson, 2008). (Klamt et al., 2007), the COBRA TOOLBOX (Becker et al.,
Models used to be made available independently by their 2007), or METATOOL (von Kamp & Schuster, 2006) for
authors, under a variety of naming conventions and for- elementary mode analysis are good representatives. Libraries
mats. This is a significant obstacle to their reusability, as for importing SBML models within these programs are also
significant effort is required to adapt them to modeling provided by the SBML developer community (Bornstein
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 183
et al., 2008). Among the software tools that are stand-alone, ‘multi-omics’ datasets (Ishii et al., 2007a) promises a wealth
one should mention the SYSTEMS BIOLOGY RESEARCH TOOLBOX of information that will be exploitable only by computer-
(Wright & Wagner, 2008), SCRUMPY (Poolman, 2006), META- assisted interpretation, with the help of models. At the same
FLUXNET (Lee et al., 2003), or FLUXEXPLORER (Luo et al., 2006), time, the field of metabolic modeling is now approaching
each with their own specific strengths. Interestingly, very few the level of maturity necessary for several data integration
programs focus or even support the model reconstruction methods to be used together as components in integrated
process by providing the analytical capabilities for consis- model reconstruction and refinement strategies.
tency checks: the commercial SYMPHENY platform (http:// Significant benefits could result from the availability of a
www.genomatica.com/) associates a metabolic database wider spectrum of bacterial metabolic models. They would
with several analytical methods, while YANASQUARE (Schwarz provide an integrated view of metabolic pathways across the
et al., 2007) facilitates the reconstruction of models from tree of life, thereby enabling so-called transverse approaches
KEGG and performs selected structural analyses (e.g. ele- to annotation, and a variety of comparative metabolic
mentary modes). Very recently, web-based tools have been analysis. To that end, the notion of pathway – defined
released to enable on-line analyses on specific metabolic unambiguously as the conversion between specified sets of
models (Beste et al., 2007; Durot et al., 2008). Given the input compounds (reactants) and output compounds (pro-
need for faster and better reconstruction, we expect more ducts) – can bring a useful decomposition of metabolism
progress in that direction. into basic biochemical functional units, in the spirit pio-
neered by SEED (Overbeek et al., 2005), KEGG Modules
(Kanehisa et al., 2007), or MetaCyc (Caspi et al., 2006). The
Concluding remarks and future directions field of bacterial evolution is poised to benefit as well: for
Constraint-based genome-scale metabolic models can be instance, the availability of models for several bacteria along
viewed as ‘systems-level’ analytical layers which enable com- the phylogenetic tree would allow more comprehensive
putation and reasoning on the consequences of the accumu- studies on the constraints implied by bacteria’s metabolic
lated knowledge on the biochemistry encoded in a given capabilities and their evolution. While this type of study has
genome, and confrontation of that knowledge with the known been pioneered with a few selected models (Pál et al., 2005a,
physiology of the corresponding species or with additional 2006), working with a larger set of models will undoubtedly
experimental evidence. These models thus bridge the gap bring different insights (see (Kreimer et al., 2008) for an
between genotype and phenotype and enable a wide spectrum example with networks). Modeling can also help in studying
of analyses and in silico experiments, providing a solid bacterial communities, as chemical interactions occurring
foundation for systems analyses and metabolic engineering. between bacteria often need to be understood within the
The systematic and automated reconstruction of genome- context of their metabolisms. Indeed, models have already
scale models from genomes and additional high-throughput been reconstructed and analyzed for small communities
data may seem like a natural extension of genome annotation (Stolyar et al., 2007); progress on that front may prove very
(Reed et al., 2006a), but remains beyond the reach of current useful in studying metabolic interactions in more complex
methods. While genome-scale models can be reconstructed communities, assisting in the functional interpretation of
using only sequence and qualitative functional information, metagenome sequences. Last but not least, metabolic en-
gaining the additional predictive and analytical power of gineering applications would clearly benefit from the avail-
models still requires significant effort and expertise. Genome ability of a large set of bacterial models, as these would
annotations must first be translated into a network, which constitute a repository of characterized metabolic pathways,
must then be turned into a model with the help facilitating the combinatorial design of new catalytic sys-
of additional information, and systematically checked with tems, providing solid bases to test hypothetical genetic
respect to biochemical consistency rules and experimental constructions, and helping with the selection of relevant
observations. Only after a model is complete enough to strains for specific engineering objectives.
enable meaningful predictions at the phenotypic level can it
be used to predict phenotypes or other properties beyond
those that can be immediately verified.
Obstacles to automating this process include technical
Acknowledgements
difficulties in translating annotations into proper biochem- We would like to thank the two anonymous reviewers for
ical activities, and also the fact that methods for model their numerous suggestions, which helped improve the
refinement have been designed and applied separately for manuscript. We are grateful for the support of the European
each type of experimental data. There is increasing pressure Networks of Excellence BIOSAPIENS (contract no. LSHG-
for this situation to evolve, however, as the boost in the CT-2003-503265) and ENFIN (contract no. LSHG-CT-
throughput of experimental techniques and the advent of 2005-518254).
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 185
Bowers PM, Pellegrini M, Thompson MJ, Fierro J, Yeates TO & Deutscher D, Meilijson I, Kupiec M & Ruppin E (2006) Multiple
Eisenberg D (2004) Prolinks: a database of protein functional knockout analysis of genetic robustness in the yeast metabolic
linkages derived from coevolution. Genome Biol 5: R35. network. Nat Genet 38: 993–998.
Boyer F & Viari A (2003) Ab initio reconstruction of metabolic Deutscher D, Meilijson I, Schuster S & Ruppin E (2008) Can
pathways. Bioinformatics 19(suppl 2): ii26–ii34. single knockouts accurately single out gene functions? BMC
Braunstein A, Mulet R & Pagnani A (2008) Estimating the size of Syst Biol 2: 50.
the solution space of metabolic networks. BMC Bioinformatics Draghici S, Khatri P, Martins RP, Ostermeier GC & Krawetz SA
9: 240. (2003) Global functional profiling of gene expression.
Breitling R, Ritchie S, Goodenowe D, Stewart ML & Barrett MP Genomics 81: 98–104.
(2006) Ab initio prediction of metabolic networks using Duarte NC, Herrgard MJ & Palsson BO (2004) Reconstruction
Fourier transform mass spectrometry data. Metabolomics 2: and validation of Saccharomyces cerevisiae iND750, a fully
155–164. compartmentalized genome-scale metabolic model. Genome
Burgard AP & Maranas CD (2003) Optimization-based Res 14: 1298–1309.
framework for inferring and testing hypothesized metabolic Dunn WB, Bailey NJC & Johnson HE (2005) Measuring the
objective functions. Biotechnol Bioeng 82: 670–677. metabolome: current analytical technologies. Analyst 130:
Burgard AP, Pharkya P & Maranas CD (2003) Optknock: a bilevel 606–625.
programming framework for identifying gene knockout Durot M, Le Fevre F, de Berardinis V et al. (2008) Iterative
strategies for microbial strain optimization. Biotechnol Bioeng reconstruction of a global metabolic model of Acinetobacter
baylyi ADP1 using high-throughput growth phenotype and
84: 647–657.
Burgard AP, Nikolaev EV, Schilling CH & Maranas CD (2004) gene essentiality data. BMC Syst Biol 2: 85.
Ebenhöh O, Handorf T & Heinrich R (2004) Structural analysis
Flux coupling analysis of genome-scale metabolic network
of expanding metabolic networks. Genome Infor 15: 35–45.
reconstructions. Genome Res 14: 301–312.
Edwards JS & Palsson BO (2000) The Escherichia coli MG1655 in
Carpenter AE & Sabatini DM (2004) Systematic genome-wide
silico metabolic genotype: its definition, characteristics, and
screens of gene function. Nat Rev Genet 5: 11–22.
capabilities. P Natl Acad Sci USA 97: 5528–5533.
Caspi R, Foerster H, Fulcher CA et al. (2006) MetaCyc: a
Edwards JS, Ibarra RU & Palsson BO (2001) In silico predictions
multiorganism database of metabolic pathways and enzymes.
of Escherichia coli metabolic capabilities are consistent with
Nucleic Acids Res 34: D511–D516.
experimental data. Nat Biotechnol 19: 125–130.
Chen L & Vitkup D (2006) Predicting genes for orphan metabolic
Edwards JS, Ramakrishna R & Palsson BO (2002) Characterizing
activities using phylogenetic profiles. Genome Biol 7: R17.
the metabolic phenotype: a phenotype phase plane analysis.
Claudel-Renard C, Chevalet C, Faraut T & Kahn D (2003)
Biotechnol Bioeng 77: 27–36.
Enzyme-specific profiles for genome annotation: PRIAM.
Ellis LBM, Roe D & Wackett LP (2006) The University of
Nucleic Acids Res 31: 6633–6639.
Minnesota Biocatalysis/Biodegradation Database: the first
Covert MW, Schilling CH & Palsson B (2001) Regulation of gene
decade. Nucleic Acids Res 34: D517–D521.
expression in flux balance models of metabolism. J Theor Biol Ellis LBM, Gao J, Fenner K & Wackett LP (2008) The University
213: 73–88. of Minnesota pathway prediction system: predicting metabolic
Covert MW, Knight EM, Reed JL, Herrgard MJ & Palsson BO logic. Nucleic Acids Res 36: W427–W432.
(2004) Integrating high-throughput and computational data Famili I, Mahadevan R & Palsson BO (2005) k-Cone analysis:
elucidates bacterial networks. Nature 429: 92–96. determining all candidate values for kinetic parameters on a
Covert MW, Xiao N, Chen TJ & Karr JR (2008) Integrating network scale. Biophys J 88: 1616–1625.
metabolic, transcriptional regulatory and signal transduction Feist AM & Palsson BØ (2008) The growing scope of applications
models in Escherichia coli. Bioinformatics 24: 2044–2050. of genome-scale metabolic reconstructions using Escherichia
de Berardinis V, Vallenet D, Castelli V et al. (2008) A complete coli. Nat Biotechnol 26: 659–667.
collection of single-gene deletion mutants of Acinetobacter Feist AM, Scholten JCM, Palsson BØ, Brockman FJ & Ideker T
baylyi ADP1. Mol Syst Biol 4: 174. (2006) Modeling methanogenesis with a genome-scale
DeJongh M, Formsma K, Boillot P, Gould J, Rycenga M & Best A metabolic reconstruction of Methanosarcina barkeri. Mol Syst
(2007) Toward the automated generation of genome-scale Biol 2: 2006.0004.
metabolic networks in the SEED. BMC Bioinformatics 8: 139. Feist AM, Henry CS, Reed JL et al. (2007) A genome-scale
Delcher AL, Harmon D, Kasif S, White O & Salzberg SL (1999) metabolic reconstruction for Escherichia coli K-12 MG1655
Improved microbial gene identification with GLIMMER. that accounts for 1260 ORFs and thermodynamic
Nucleic Acids Res 27: 4636–4641. information. Mol Syst Biol 3: 121.
Dettmer K, Aronov PA & Hammock BD (2007) Mass Fell DA (1992) Metabolic control analysis: a survey of its
spectrometry-based metabolomics. Mass Spectrom Rev 26: theoretical and experimental development. Biochem J 286:
51–78. 313–330.
Fischer E, Zamboni N & Sauer U (2004) High-throughput Hucka M, Finney A, Sauro HM et al. (2003) The systems biology
metabolic flux analysis based on gas chromatography-mass markup language (SBML): a medium for representation
spectrometry derived 13C constraints. Anal Biochem 325: and exchange of biochemical network models. Bioinformatics
308–316. 19: 524–531.
Fong SS, Burgard AP, Herring CD, Knight EM, Blattner FR, Ibarra RU, Edwards JS & Palsson BO (2002) Escherichia coli K-12
Maranas CD & Palsson BO (2005) In silico design and adaptive undergoes adaptive evolution to achieve in silico predicted
evolution of Escherichia coli for production of lactic acid. optimal growth. Nature 420: 186–189.
Biotechnol Bioeng 91: 643–648. Imielinski M & Belta C (2008) Exploiting the pathway structure
Fuhrer T, Chen L, Sauer U & Vitkup D (2007) Computational of metabolism to reveal high-order epistasis. BMC Syst Biol
prediction and experimental verification of the gene encoding 2: 40.
the NAD1/NADP1-dependent succinate semialdehyde Imielinski M, Belta C, Halasz A & Rubin H (2005) Investigating
dehydrogenase in Escherichia coli. J Bacteriol 189: 8073–8078. metabolite essentiality through genome-scale analysis of
Gasteiger J (2005) Chemoinformatics: a new field with a long Escherichia coli production capabilities. Bioinformatics 21:
tradition. Anal Bioanal Chem 384: 57–64. 2008–2016.
Gerdes S, Edwards R, Kubal M, Fonstein M, Stevens R & Imielinski M, Belta C, Rubin H & Halász A (2006) Systematic
Osterman A (2006) Essential genes on metabolic maps. Curr analysis of conservation relations in Escherichia coli genome-
Opin Biotech 17: 448–456. scale metabolic network reveals novel growth media. Biophys J
Gevorgyan A, Poolman MG & Fell DA (2008) Detection of
90: 2659–2672.
stoichiometric inconsistencies in biomolecular models. Ishii N, Nakahigashi K, Baba T et al. (2007a) Multiple high-
Bioinformatics 24: 2245–2251.
throughput analyses monitor the response of E. coli to
Green ML & Karp PD (2004) A Bayesian method for identifying
perturbations. Science 316: 593–597.
missing enzymes in predicted metabolic pathway databases.
Ishii N, Nakayama Y & Tomita M (2007b) Distinguishing
BMC Bioinformatics 5: 76.
enzymes using metabolome data for the hybrid dynamic/static
Gygi SP, Rochon Y, Franza BR & Aebersold R (1999) Correlation
method. Theor Biol Med Model 4: 19.
between protein and mRNA abundance in yeast. Mol Cell Biol
Jacobs MA, Alwood A, Thaipisuttikul I et al. (2003)
19: 1720–1730.
Comprehensive transposon mutant library of Pseudomonas
Hanisch D, Zien A, Zimmer R & Lengauer T (2002) Co-clustering
aeruginosa. P Natl Acad Sci USA 100: 14339–14344.
of biological networks and gene expression data.
Jamshidi N & Palsson B (2007) Investigating the metabolic
Bioinformatics 18(suppl 1): S145–S154.
capabilities of Mycobacterium tuberculosis H37Rv using the in
Hattori M, Okuno Y, Goto S & Kanehisa M (2003) Heuristics for
silico strain iNJ661 and proposing alternative drug targets.
chemical compound matching. Genome Infor 14: 144–153.
Hatzimanikatis V, Li C, Ionita JA, Henry CS, Jankowski MD & BMC Syst Biol 1: 26.
Broadbelt LJ (2005) Exploring the diversity of complex Jamshidi N & Palsson BØ (2008) Formulating genome-scale
metabolic networks. Bioinformatics 21: 1603–1609. kinetic models in the post-genome era. Mol Syst Biol 4: 171.
Heinemann M, Kümmel A, Ruinatscha R & Panke S (2005) In Janssen DB, Dinkla IJT, Poelarends GJ & Terpstra P (2005)
silico genome-scale reconstruction and validation of the Bacterial degradation of xenobiotic compounds: evolution and
Staphylococcus aureus metabolic network. Biotechnol Bioeng distribution of novel enzyme activities. Environ Microbiol 7:
92: 850–864. 1868–1882.
Henry CS, Broadbelt LJ & Hatzimanikatis V (2007) Joyce AR & Palsson BØ (2006) The model organism as a system:
Thermodynamics-based metabolic flux analysis. Biophys J 92: integrating ‘omics’ data sets. Nat Rev Mol Cell Bio 7: 198–210.
1792–1805. Joyce AR, Reed JL, White A et al. (2006) Experimental and
Herrgård MJ, Fong SS & Palsson BØ (2006a) Identification of computational assessment of conditionally essential genes in
genome-scale metabolic network models using experimentally Escherichia coli. J Bacteriol 188: 8259–8271.
measured flux profiles. PLoS Comput Biol 2: e72. Kanehisa M, Araki M, Goto S et al. (2007) KEGG for linking
Herrgård MJ, Lee B-S, Portnoy V & Palsson BØ (2006b) genomes to life and the environment. Nucleic Acids Res 36:
Integrated analysis of regulatory and metabolic networks D480–D484.
reveals novel regulatory mechanisms in Saccharomyces Karp PD, Paley S & Romero P (2002) The pathway tools software.
cerevisiae. Genome Res 16: 627–635. Bioinformatics 18(suppl 1): S225–S232.
Hong SH, Kim JS, Lee SY et al. (2004) The genome sequence of Karp PD, Keseler IM, Shearer A et al. (2007) Multidimensional
the capnophilic rumen bacterium Mannheimia annotation of the Escherichia coli K-12 genome. Nucleic Acids
succiniciproducens. Nat Biotechnol 22: 1275–1281. Res 35: 7577–7590.
Huang M, Oppermann-Sanio FB & Steinbüchel A (1999) Kharchenko P, Chen L, Freund Y, Vitkup D & Church GM (2006)
Biochemical and molecular characterization of the Bacillus Identifying metabolic enzymes with multiple types of
subtilis acetoin catabolic pathway. J Bacteriol 181: 3837–3841. association evidence. BMC Bioinformatics 7: 177.
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 187
Kim HU, Kim TY & Lee SY (2008) Metabolic flux analysis and metabolic flux analysis of Escherichia coli. Genome Infor 14:
metabolic engineering of microorganisms. Mol Biosyst 4: 23–33.
113–120. Le Novère N, Finney A, Hucka M et al. (2005) Minimum
Kim P-J, Lee D-Y, Kim TY, Lee KH, Jeong H, Lee SY & Park S information requested in the annotation of biochemical
(2007) Metabolite essentiality elucidates robustness of models (MIRIAM). Nat Biotechnol 23: 1509–1515.
Escherichia coli metabolism. P Natl Acad Sci USA 104: Le Novère N, Bornstein B, Broicher A et al. (2006) BioModels
13638–13642. database: a free, centralized database of curated, published,
Kitagawa M, Ara T, Arifuzzaman M, Ioka-Nakamichi T, Inamoto quantitative kinetic models of biochemical and cellular
E, Toyonaga H & Mori H (2005) Complete set of ORF clones systems. Nucleic Acids Res 34: D689–D691.
of Escherichia coli ASKA library (a complete set of E. coli K-12 Liberati NT, Urbach JM, Miyata S et al. (2006) An ordered,
ORF archive): unique resources for biological research. DNA nonredundant library of Pseudomonas aeruginosa strain PA14
Res 12: 291–299. transposon insertion mutants. P Natl Acad Sci USA 103:
Klamt S & Gilles ED (2004) Minimal cut sets in biochemical 2833–2838.
reaction networks. Bioinformatics 20: 226–234. Luo R, Liao S, Zeng S, Li Y & Luo Q (2006) FluxExplorer: a
Klamt S & Stelling J (2003) Two approaches for metabolic general platform for modeling and analyses of metabolic net-
pathway analysis? Trends Biotechnol 21: 64–69. works based on stoichiometry. Chin Sci Bull 51: 689–696.
Klamt S, Saez-Rodriguez J & Gilles ED (2007) Structural and Ma H & Zeng A-P (2003) Reconstruction of metabolic networks
functional analysis of cellular networks with CellNetAnalyzer. from genome data and analysis of their global structure for
BMC Syst Biol 1: 2. various organisms. Bioinformatics 19: 270–277.
Klopman G, Dimayuga M & Talafous J (1994) META. 1. A Mahadevan R & Schilling CH (2003) The effects of alternate
optimal solutions in constraint-based genome-scale metabolic
program for the evaluation of metabolic transformation of
models. Metab Eng 5: 264–276.
chemicals. J Chem Inf Comput Sci 34: 1320–1325.
Mahadevan R, Bond DR, Butler JE et al. (2006) Characterization
Kobayashi K, Ehrlich SD, Albertini A et al. (2003) Essential
of metabolism in the Fe(III)-reducing organism Geobacter
Bacillus subtilis genes. P Natl Acad Sci USA 100: 4678–4683.
sulfurreducens by constraint-based modeling. Appl Environ
Kreimer A, Borenstein E, Gophna U & Ruppin E (2008) The
Microb 72: 1558–1568.
evolution of modularity in bacterial metabolic networks. P
Médigue C & Moszer I (2007) Annotation, comparison and
Natl Acad Sci USA 105: 6976–6981.
databases for hundreds of bacterial genomes. Res Microbiol
Kuchel PW & Philp DJ (2008) Isotopomer subspaces as indicators
158: 724–736.
of metabolic-pathway structure. J Theor Biol 252: 391–401.
Meyer P & Dworkin J (2007) Applications of fluorescence
Kuepfer L, Sauer U & Blank LM (2005) Metabolic functions of
microscopy to single bacterial cells. Res Microbiol 158:
duplicate genes in Saccharomyces cerevisiae. Genome Res 15:
187–194.
1421–1430.
Nikolaev EV, Burgard AP & Maranas CD (2005) Elucidation and
Kumar VS, Dasika MS & Maranas CD (2007) Optimization based
structural analysis of conserved pools for genome-scale
automated curation of metabolic reconstructions. BMC
metabolic reconstructions. Biophys J 88: 37–49.
Bioinformatics 8: 212. Nogales J, Palsson BO & Thiele I (2008) A genome-scale
Kümmel A, Panke S & Heinemann M (2006a) Systematic metabolic reconstruction of Pseudomonas putida KT2440:
assignment of thermodynamic constraints in metabolic iJN746 as a cell factory. BMC Syst Biol 2: 79.
network models. BMC Bioinformatics 7: 512. Notebaart RA, van Enckevort FHJ, Francke C, Siezen RJ &
Kümmel A, Panke S & Heinemann M (2006b) Putative regulatory Teusink B (2006) Accelerating the reconstruction of genome-
sites unraveled by network-embedded thermodynamic scale metabolic networks. BMC Bioinformatics 7: 296.
analysis of metabolome data. Mol Syst Biol 2: 2006.0034. Notebaart RA, Teusink B, Siezen RJ & Papp B (2008) Co-
Lee J, Yun H, Feist A, Palsson B & Lee S (2008a) Genome-scale regulation of metabolic genes is better explained by flux
reconstruction and in silico analysis of the Clostridium coupling than by network distance. PLoS Comput Biol 4: e26.
acetobutylicum ATCC 824 metabolic network. Appl Microbiol Oberhardt MA, Puchałka J, Fryer KE, dos Santos VAPM & Papin
Biot 80: 849–862. JA (2008) Genome-scale metabolic network analysis of the
Lee JM, Gianchandani EP, Eddy JA & Papin JA (2008b) Dynamic opportunistic pathogen Pseudomonas aeruginosa PAO1. J
analysis of integrated signaling, metabolic, and regulatory Bacteriol 190: 2790–2803.
networks. PLoS Comput Biol 4: e1000086. Oh Y-K, Palsson BO, Park SM, Schilling CH & Mahadevan R
Lee KH, Park JH, Kim TY, Kim HU & Lee SY (2007) Systems (2007) Genome-scale reconstruction of metabolic network in
metabolic engineering of Escherichia coli for L-threonine Bacillus subtilis based on high-throughput phenotyping and
production. Mol Syst Biol 3: 149. gene essentiality data. J Biol Chem 282: 28791–28799.
Lee SY, Lee D-Y, Hong SH, Kim TY, Yun H, Oh Y-G & Park S Oliveira AP, Nielsen J & Förster J (2005) Modeling Lactococcus
(2003) MetaFluxNet, a program package for metabolic lactis using a genome-scale flux model. BMC Microbiology
pathway construction and analysis, and its use in large-scale 5: 39.
Osterman A & Overbeek R (2003) Missing genes in metabolic Poolman MG (2006) ScrumPy: metabolic modelling with
pathways: a comparative genomics approach. Curr Opin Chem Python. Syst Biol (Stevenage) 153: 375–378.
Biol 7: 238–251. Price ND, Reed JL & Palsson BO (2004) Genome-scale models of
Overbeek R, Begley T, Butler RM et al. (2005) The subsystems microbial cells: evaluating the consequences of constraints.
approach to genome annotation and its use in the project to Nat Rev Microbiol 2: 886–897.
annotate 1000 genomes. Nucleic Acids Res 33: 5691–5702. Raymond JW, Gardiner EJ & Willett P (2002) Heuristics for
Pál C, Papp B & Lercher MJ (2005a) Adaptive evolution of similarity searching of chemical graphs using a maximum
bacterial metabolic networks by horizontal gene transfer. Nat common edge subgraph algorithm. J Chem Inf Comput Sci 42:
Genet 37: 1372–1375. 305–316.
Pál C, Papp B & Lercher MJ (2005b) Horizontal gene transfer Reed JL & Palsson BO (2003) Thirteen years of building
depends on gene content of the host. Bioinformatics 21 constraint-based in silico models of Escherichia coli. J Bacteriol
(suppl 2): 222–ii223. 185: 2692–2699.
Pál C, Papp B, Lercher MJ, Csermely P, Oliver SG & Hurst LD Reed JL & Palsson BO (2004) Genome-scale in silico models of E.
(2006) Chance and necessity in the evolution of minimal coli have multiple equivalent phenotypic states: assessment of
metabolic networks. Nature 440: 667–670. correlated reaction subsets that comprise network states.
Palsson BO (2006) Systems Biology. Properties of Reconstructed Genome Res 14: 1797–1805.
Networks. Cambridge University Press, New York, NY, USA. Reed JL, Vo TD, Schilling CH & Palsson BO (2003) An expanded
Papin JA, Price ND, Edwards JS & Palsson BO (2002) The genome-scale model of Escherichia coli K-12 (iJR904 GSM/
genome-scale metabolic extreme pathway structure in
GPR). Genome Biol 4: R54.
Haemophilus influenzae shows significant network Reed JL, Famili I, Thiele I & Palsson BO (2006a) Towards
redundancy. J Theor Biol 215: 67–82.
multidimensional genome annotation. Nat Rev Genet 7:
Papin JA, Price ND, Wiback SJ, Fell DA & Palsson BO (2003)
130–141.
Metabolic pathways in the post-genome era. Trends Biochem
Reed JL, Patel TR, Chen KH et al. (2006b) Systems approach to
Sci 28: 250–258.
refining genome annotation. P Natl Acad Sci USA 103:
Papin JA, Stelling J, Price ND, Klamt S, Schuster S & Palsson BO
17480–17484.
(2004) Comparison of network-based pathway analysis
Ren Q, Kang KH & Paulsen IT (2004) TransportDB: a relational
methods. Trends Biotechnol 22: 400–405.
database of cellular membrane transport systems. Nucleic Acids
Papp B, Pál C & Hurst LD (2004) Metabolic network analysis of
Res 32: D284–D288.
the causes and evolution of enzyme dispensability in yeast.
Resendis-Antonio O, Reed JL, Encarnación S, Collado-Vides J &
Nature 429: 661–664.
Palsson BØ (2007) Metabolic reconstruction and modeling of
Park JH, Lee SY, Kim TY & Kim HU (2008) Application of
nitrogen fixation in Rhizobium etli. PLoS Comput Biol 3: e192.
systems biology for bioprocess development. Trends Biotechnol
Risso C, Van Dien SJ, Orloff A, Lovley DR & Coppi MV (2008)
26: 404–412.
Patil KR & Nielsen J (2005) Uncovering transcriptional regulation Elucidation of an alternate isoleucine biosynthesis pathway in
of metabolism by using metabolic network topology. P Natl Geobacter sulfurreducens. J Bacteriol 190: 2266–2274.
Acad Sci USA 102: 2685–2689. Rittmann BE (2008) Opportunities for renewable bioenergy
Patil KR, Akesson M & Nielsen J (2004) Use of genome-scale using microorganisms. Biotechnol Bioeng 100: 203–212.
microbial models for metabolic engineering. Curr Opin Ro D-K, Paradise EM, Ouellet M et al. (2006) Production of the
Biotech 15: 64–69. antimalarial drug precursor artemisinic acid in engineered
Patil KR, Rocha I, Förster J & Nielsen J (2005) Evolutionary yeast. Nature 440: 940–943.
programming as a platform for in silico metabolic engineering. Saghatelian A, Trauger SA, Want EJ, Hawkins EG, Siuzdak G &
BMC Bioinformatics 6: 308. Cravatt BF (2004) Assignment of endogenous substrates to
Peng R-H, Xiong A-S, Xue Yet al. (2008) Microbial enzymes by global metabolite profiling. Biochemistry 43:
biodegradation of polyaromatic hydrocarbons. FEMS 14332–14339.
Microbiol Rev 32: 927–955. Saito N, Robert M, Kitamura S et al. (2006) Metabolomics
Pfeiffer T, Sánchez-Valdenebro I, Nuño JC, Montero F & Schuster approach for enzyme discovery. J Proteome Res 5: 1979–1987.
S (1999) METATOOL: for studying metabolic networks. Sauer U (2006) Metabolic networks in motion: 13C-based flux
Bioinformatics 15: 251–257. analysis. Mol Syst Biol 2: 62.
Pharkya P & Maranas CD (2006) An optimization framework for Schilling CH & Palsson BO (2000) Assessment of the metabolic
identifying reaction activation/inhibition or elimination capabilities of Haemophilus influenzae Rd through a genome-
candidates for overproduction in microbial systems. Metab scale pathway analysis. J Theor Biol 203: 249–283.
Eng 8: 1–13. Schilling CH, Edwards JS, Letscher D & Palsson BO (2000)
Pharkya P, Burgard AP & Maranas CD (2004) OptStrain: a Combining pathway analysis with flux balance analysis for the
computational framework for redesign of microbial comprehensive study of metabolic systems. Biotechnol Bioeng
production systems. Genome Res 14: 2367–2376. 71: 286–306.
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Genome-scale models of bacterial metabolism 189
Schilling CH, Covert MW, Famili I, Church GM, Edwards JS & Stolyar S, Van Dien SJ, Hillesland KL, Pinel N, Lie TJ, Leigh JA &
Palsson BO (2002) Genome-scale metabolic model of Stahl DA (2007) Metabolic modeling of a mutualistic
Helicobacter pylori 26695. J Bacteriol 184: 4582–4593. microbial community. Mol Syst Biol 3: 92.
Schneider G & Fechner U (2004) Advances in the prediction of Stouthamer AH & Bettenhaussen C (1973) Utilization of energy
protein targeting signals. Proteomics 4: 1571–1580. for growth and maintenance in continuous and batch cultures
Schuetz R, Kuepfer L & Sauer U (2007) Systematic evaluation of of microorganisms. A reevaluation of the method for the
objective functions for predicting intracellular fluxes in determination of ATP production by measuring molar growth
Escherichia coli. Mol Syst Biol 3: 119. yields. Biochim Biophys Acta 301: 53–70.
Schuster S, Fell DA & Dandekar T (2000) A general definition of Sun J & Zeng A-P (2004) IdentiCS – identification of coding
metabolic pathways useful for systematic organization and sequence and in silico reconstruction of the metabolic network
analysis of complex metabolic networks. Nat Biotechnol 18: directly from unannotated low-coverage bacterial genome
326–332. sequence. BMC Bioinformatics 5: 112.
Schuster S, Pfeiffer T & Fell DA (2008) Is maximization of molar Suthers PF, Burgard AP, Dasika MS, Nowroozi F, Van Dien SJ,
yield in metabolic networks favoured by evolution? J Theor Keasling JD & Maranas CD (2007) Metabolic flux elucidation
Biol 252: 497–504. for large-scale models using 13C labeled isotopes. Metab Eng 9:
Schwartz J-M, Gaugain C, Nacher JC, de Daruvar A & Kanehisa 387–405.
M (2007) Observing metabolic functions at the genome scale. Suzuki N, Okai N, Nonaka H, Tsuge Y, Inui M & Yukawa H
Genome Biol 8: R123. (2006) High-throughput transposon mutagenesis of
Schwarz R, Liang C, Kaleta C et al. (2007) Integrated network Corynebacterium glutamicum and construction of a single-
reconstruction, visualization and analysis using YANAsquare.
gene disruptant mutant library. Appl Environ Microb 72:
BMC Bioinformatics 8: 313.
3750–3755.
Segrè D, Vitkup D & Church GM (2002) Analysis of optimality in
ter Kuile BH & Westerhoff HV (2001) Transcriptome meets
natural and perturbed metabolic networks. P Natl Acad Sci
metabolome: hierarchical and metabolic regulation of the
USA 99: 15112–15117.
glycolytic pathway. FEBS Lett 500: 169–171.
Segrè D, Zucker J, Katz J et al. (2003) From annotated genomes to
Terzer M & Stelling J (2008) Large scale computation of
metabolic flux models and kinetic parameter fitting. OMICS 7:
elementary flux modes with bit pattern trees. Bioinformatics
301–316.
24: 2229–2235.
Senger RS & Papoutsakis ET (2008) Genome-scale model for
Teusink B, van Enckevort FHJ, Francke C, Wiersma A, Wegkamp
Clostridium acetobutylicum: part I. Metabolic network
A, Smid EJ & Siezen RJ (2005) In silico reconstruction of the
resolution and analysis. Biotechnol Bioeng 101: 1036–1052.
metabolic pathways of Lactobacillus plantarum: comparing
Serres MH, Goswami S & Riley M (2004) GenProtEC: an updated
predictions of nutrient requirements with those from growth
and improved analysis of functions of Escherichia coli K-12
experiments. Appl Environ Microb 71: 7253–7262.
proteins. Nucleic Acids Res 32: D300–D302.
Teusink B, Wiersma A, Molenaar D, Francke C, de Vos WM,
Shlomi T, Berkman O & Ruppin E (2005) Regulatory on/off
minimization of metabolic flux changes after genetic Siezen RJ & Smid EJ (2006) Analysis of growth of Lactobacillus
perturbations. P Natl Acad Sci USA 102: 7695–7700. plantarum WCFS1 on a complex medium using a genome-
Shlomi T, Eisenberg Y, Sharan R & Ruppin E (2007a) A genome- scale metabolic model. J Biol Chem 281: 40041–40048.
scale computational study of the interplay between Thiele I, Vo TD, Price ND & Palsson BØ (2005) Expanded
transcriptional regulation and metabolism. Mol Syst Biol 3: metabolic reconstruction of Helicobacter pylori (iIT341 GSM/
101. GPR): an in silico genome-scale characterization of single- and
Shlomi T, Herrgard M, Portnoy V, Naim E, Palsson BØ, Sharan R double-deletion mutants. J Bacteriol 187: 5818–5830.
& Ruppin E (2007b) Systematic condition-dependent UniProt C (2008) The universal protein resource (UniProt).
annotation of metabolic genes. Genome Res 17: 1626–1633. Nucleic Acids Res 36: D190–D195.
Smallbone K, Simeonidis E, Broomhead DS & Kell DB (2007) Van Dien SJ & Lidstrom ME (2002) Stoichiometric model for
Something from nothing – bridging the gap between evaluating the metabolic capabilities of the facultative
constraint-based and kinetic modelling. FEBS J 274: methylotroph Methylobacterium extorquens AM1, with
5576–5585. application to reconstruction of C(3) and C(4) metabolism.
Stelling J, Klamt S, Bettenbrock K, Schuster S & Gilles ED (2002) Biotechnol Bioeng 78: 296–312.
Metabolic network structure determines key aspects of van Winden WA, Heijnen JJ, Verheijen PJ & Grievink J (2001)
functionality and regulation. Nature 420: 190–193. A priori analysis of metabolic flux identifiability from
Stephanopoulos GN, Aristidou AA & Nielsen J (1998) Metabolic (13)C-labeling data. Biotechnol Bioeng 74: 505–516.
Engineering. Principles and Methodologies. Academic Press, Varma A & Palsson BO (1994a) Stoichiometric flux balance
Elsevier Science, San Diego, CA, USA. models quantitatively predict growth and metabolic by-
Steuer R (2006) Review: on the analysis and interpretation of product secretion in wild-type Escherichia coli W3110. Appl
correlations in metabolomic data. Brief Bioinform 7: 151–158. Environ Microb 60: 3724–3731.
Varma A & Palsson BO (1994b) Metabolic flux balancing: basic analysis of the regulatory mechanisms in Synechocystis. Appl
concepts, scientific and practical use. Bio/Technology 12: Microbiol Biot 58: 813–822.
994–998. Yang F, Qian H & Beard DA (2005) Ab initio prediction of
von Kamp A & Schuster S (2006) Metatool 5.0: fast and flexible thermodynamically feasible reaction directions from
elementary modes analysis. Bioinformatics 22: 1930–1931. biochemical network stoichiometry. Metab Eng 7: 251–259.
von Mering C, Jensen LJ, Kuhn M et al. (2007) STRING 7 – recent Yang HH, Hu Y, Buetow KH & Lee MP (2004) A computational
developments in the integration and prediction of protein approach to measuring coherence of gene expression in
interactions. Nucleic Acids Res 35: D358–D362. pathways. Genomics 84: 211–217.
Wiback SJ, Famili I, Greenberg HJ & Palsson BO (2004) Monte Yeung M, Thiele I & Palsson B (2007) Estimation of the number
Carlo sampling can be used to determine the size and shape of of extreme pathways for metabolic networks. BMC
the steady-state flux space. J Theor Biol 228: 437–447. Bioinformatics 8: 363.
Wiechert W (2001) 13C metabolic flux analysis. Metab Eng 3: Yugi K, Nakayama Y, Kinoshita A & Tomita M (2005) Hybrid
195–206. dynamic/static method for large-scale simulation of
Wiechert W, Möllney M, Isermann N, Wurzel M & de Graaf AA metabolism. Theor Biol Med Model 2: 42.
(1999) Bidirectional reaction steps in metabolic networks: III. Zamboni N, Kümmel A & Heinemann M (2008) anNET: a tool
Explicit solution and analysis of isotopomer labeling systems. for network-embedded thermodynamic analysis of
Biotechnol Bioeng 66: 69–85. quantitative metabolome data. BMC Bioinformatics 9: 199.
Wright J & Wagner A (2008) The systems biology research tool: Zupke C & Stephanopoulos G (1994) Modeling of isotope
evolvable open-source software. BMC Syst Biol 2: 55. distribution and intracellular fluxes in metabolic
Yang C, Hua Q & Shimizu K (2002) Integration of the networks using atom mapping matrices. Biotechnol Prog 10:
information from gene expression and metabolic fluxes for the 489–498.
!
c 2008 CEA–Genoscope FEMS Microbiol Rev 33 (2009) 164–190
Journal compilation !
c 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
Maxime DUROT Thèse de doctorat 2009
L’article de revue ci-dessus est destiné à un lectorat peu familier des notions
mathématiques. Nous compléterons donc notre présentation des modèles à base de
contraintes dans les paragraphes qui suivent en explicitant le cadre mathématique
sous-jacent aux hypothèses de modélisation présentées dans la revue.
Figure 15. Représentation sous forme vectorielle d’une distribution de flux. À gauche,
illustration d’un réseau métabolique théorique composé de 10 métabolites et 10 réactions. La
zone jaune délimite le système (intérieur de la cellule par exemple). Les réactions R1, R2, R3
et R4 modélisent le transport des métabolites A, B, C et P entre l’extérieur et l’intérieur du
système. Les valeurs des flux sont indiquées à proximité des réactions (en unités arbitraires)
et illustrées par l’épaisseur de leurs flèches. À droite, représentation de la même distribution
de flux sous forme vectorielle, telle qu’utilisée par les modèles à base de contraintes.
D’un point de vue physique, les flux de réactions manipulés représentent des
valeurs moyennées sur des intervalles de temps s’étendant entre la seconde à la
minute. L’échelle de temps choisie a une importance fondamentale pour ces modèles.
Elle se situe en effet entre, d’une part, les temps de relaxation des cinétiques
65
Maxime DUROT Thèse de doctorat 2009
enzymatiques (beaucoup plus rapides34) et, d’autre part, ceux des changements
environnementaux considérés et des réponses régulatrices à ces changements
(beaucoup plus lentes) (voir Figure 16). Cette échelle de temps permet donc d’étudier
la répartition des flux métaboliques en réponse à différentes conditions
environnementales ou de régulation tout en ignorant les dynamiques complexes
d’ajustements rapides des cinétiques enzymatiques. Ces dernières peuvent être
supposées être dans un état quasi-stationnaire, flux et concentrations métaboliques
sont supposés constants (Stephanopoulos et al. 1998, pp.25-27, 82-83, 313-315). De
plus, cette échelle de temps correspond relativement bien aux observations
expérimentales typiquement réalisées : par exemple la mesure de taux de croissance
ou de vitesse de consommation / production de métabolites externes.
34
Notamment dans les conditions physiologiques, où les concentrations métaboliques
sont faibles en regard des vitesses de réactions à cette échelle de temps
(Stephanopoulos et al. 1998; Fell 1992).
66
Maxime DUROT Thèse de doctorat 2009
Ces contraintes statuent que, pour chacun des métabolites dont les concentrations
sont supposées stationnaires, les taux nets de formation sont nuls. En d’autres termes,
les flux des réactions consommant ces métabolites compensent ceux des réactions les
produisant. Cette contrainte n’est pas valide pour tous les métabolites. Certains
subissent de manière significative la dilution due à la croissance des cellules, tandis
que d’autres possèdent des concentrations non-stationnaires ou sont transformés par
des processus non modélisés. L’ajout de réactions artificielles dans le modèle –
réaction de biomasse dans le premier cas, réactions d’échange dans le deuxième (voir
Figure 1 de l’article de revue) – permet de modéliser ces effets et d’appliquer
correctement les contraintes de conservation de la masse à tous les métabolites.
67
Maxime DUROT Thèse de doctorat 2009
# v R1 &
% (
% v R2 (
# 1 0 0 0 "1 "1 "1 0 0 0 0 0 0 0 & % v R 3 (
% (% v (
% 0 1 0 0 1 0 0 "1 0 "1 0 0 0 0 ( % R 4 (
% 0 0 1 0 0 0 0 "1 0 0 0 0 0 0 ( % v R 5 (
% (% v (
% 0 0 0 0 0 1 0 0 "1 1 0 0 0 0 ( % R 6 (
% 0 0 0 0 0 0 1 0 "1 0 0 0 0 0 ( % v R 7 (
S.v = % (.% v (
% 0 0 0 "1 0 0 0 1 1 0 0 0 0 0 ( % R 8 (
%"1 0 0 0 0 0 0 0 0 0 "1 0 0 0 ( % v R 9 (
% 0 "1 0 0 0 0 0 0 0 0 0 "1 0 0 ( % v (
% ( % R10 (
% 0 0 "1 0 0 0 0 0 0 0 0 0 "1 0 ( %v E A ( ext ) (
% (% (
$ 0 0 0 1 0 0 0 0 0 0 0 0 0 "1' %v E B ( ext ) (
%v EC ( ext ) (
%v (
$ E P ( ext ) '
# v R1 " v R 5 " v R 6 " v R 7 & # cA &
% ( % (
%v R 2 + v R 5 " v R 8 " v R10 ( % cB (
% v R3 " v R8 ( % cC (
% ( % (
% v R 6 " v R 9 + v R10 ( % cD (
% v R7 " v R9 ( d % cE (
=% (= % (=0
% "v R 4 + v R 9 + v R10 ( dt % c P (
% "v R1 " v E A ( ext ) ( %c A (ext ) (
% "v " v ( % (
% R2 E B ( ext ) ( c
% B (ext ) (
% "v R 3 " v EC ( ext ) ( %cC (ext ) (
% v " v ( %c (
$ R4 E P ( ext ) ' $ P (ext ) '
Figure 17. Matrice stœchiométrique et conservation de la masse. L’exemple reprend le
réseau présenté Figure 15 augmenté de réactions d’échanges pour les métabolites
extracellulaires (notés EX(ext) pour un métabolite X). Les concentrations métaboliques sont
!notées cX.
Toute information sur la valeur des flux est également utilisée pour contraindre le
modèle. À ce sujet, nous avions montré dans l’article de revue qu’un large panel de
types de connaissances pouvait se traduire directement par des contraintes sur les
valeurs de flux. Il s’agit notamment de la réversibilité des réactions (flux uniquement
positifs pour les réactions irréversibles), de leur inactivation (flux nul), d’hypothèse
sur la valeur maximale de leurs flux (flux inférieurs à cette valeur), de valeurs
mesurées (flux directement égal à cette valeur), et de la connaissance de
l’environnement extérieur (flux des réactions d’échanges autorisés uniquement dans
68
Maxime DUROT Thèse de doctorat 2009
69
Maxime DUROT Thèse de doctorat 2009
35
Voir par exemple un inventaire sur le Wiki des serveurs d’optimisation NEOS :
http://wiki.mcs.anl.gov/NEOS/
70
Maxime DUROT Thèse de doctorat 2009
de biomasse. Elle permet donc d’évaluer les capacités du réseau métabolique en terme
de production de biomasse.
Bien que ne caractérisant pas l’ensemble des distributions de flux possibles, les
méthodes d’optimisation permettent néanmoins d’interroger le modèle métabolique
au coup par coup quant à ses capacités à remplir un objectif donné. Dans le cas
présenté ci-dessus, il s’agit de l’aptitude à croître (c.-à-d. à former de la biomasse),
mais, utilisée astucieusement, l’optimisation permet d’explorer de nombreuses autres
caractéristiques du réseau métabolique (Price et al. 2004). Nous mentionnerons par
exemple l’étude de contraintes de couplages métaboliques entre réactions (Burgard et
al. 2004), le calcul de plages de flux possibles pour chaque réaction (Mahadevan &
Schilling 2003) ou, à l’inverse, la recherche d’un objectif métabolique représentant au
mieux des distributions de flux observées (Burgard & Maranas 2003; Schuetz et al.
2007).
36
Principalement pour les réseaux d’interactions protéines-protéines d’ailleurs.
71
Maxime DUROT Thèse de doctorat 2009
Quelques initiatives ont exploité les méthodes d’expansion de réseau pour prédire
l’effet du changement d’environnement ou de la délétion de gènes sur la viabilité des
cellules (Handorf et al. 2005; Wunderlich & Mirny 2006). Pour ce faire, ces travaux
examinèrent si les métabolites nécessaires à la survie de la cellule pouvaient être tous
synthétisés par le graphe métabolique perturbé par les délétions, à partir des
métabolites de l’environnement. Ces initiatives, bien qu’obtenant des performances de
prédictions relativement proches de celles des modèles à base de contraintes, restèrent
relativement isolées. Il est probable que l’aspect quantitatif des modèles à base de
contraintes et leur égale facilité de mise en œuvre ont favorisé leur utilisation.
Les modèles à base de contraintes furent très rapidement utilisés pour prédire des
phénotypes de croissance, dès lors que des réseaux d’échelles cellulaires furent
reconstruits. Ce type d’application contribua d’ailleurs fortement à populariser ce
cadre de modélisation37 (Edwards & Palsson 2000; Edwards et al. 2001). Nous avons
déjà longuement évoqué les travaux relatifs à la prédiction de phénotypes de
croissance dans l’article de revue, aussi nous contenterons-nous ici de rappeler ceux
ayant été effectués avant 2006 et en rapport avec notre thèse. Ils se répartissent en
deux types de contributions : celles d’ordre méthodologique et celles confrontant les
prédictions aux phénotypes expérimentaux.
37
Signe de l’intérêt grandissant pour ce type de modélisation, plusieurs groupes
avaient publié, notamment en 2005, des reconstructions globales de modèles
métaboliques (voir Table 4 de l’article de revue).
72
Maxime DUROT Thèse de doctorat 2009
73
Maxime DUROT Thèse de doctorat 2009
A B
Figure 18. Acinetobacter baylyi. A Vue au microscope d’une population d’Acinetobacter
baylyi. B Classification taxonomique d’A. baylyi . En bleu sont indiqués les identifiants
taxonomiques du NCBI (extrait de http://srs.ebi.ac.uk).
74
Maxime DUROT Thèse de doctorat 2009
Une autre caractéristique remarquable d’A. baylyi, partagée cette fois-ci avec
d’autres membres de l’ordre des Pseudomonales, est sa grande polyvalence
nutritionnelle. Étant une bactérie du sol, celle-ci est capable d’utiliser comme seules
sources de carbone et d’énergie un large panel de composés présents dans ce type
d’environnement, notamment des molécules aromatiques et des acides organiques à
longues chaînes (Young et al. 2005; Barbe et al. 2004) (voir plus loin Tableau 4). Ces
types de molécules sont en effet couramment produits par le métabolisme des plantes.
Les voies métaboliques de dégradation de ces composés chez A. baylyi ont été et font
d’ailleurs toujours l’objet de recherches relativement nombreuses, que ce soit sur les
conversions biochimiques elles-mêmes (Williams & Ray 2008) ou leurs régulations
(Gerischer et al. 2008). À l’inverse, et notamment par comparaison à Escherichia coli
dont l’environnement naturel se situe dans l’intestin d’animaux à sang chaud
(Neidhardt 1996), peu de sucres sont métabolisés par les bactéries du genre
Acinetobacter.
39
A. baylyi ADP1 est en effet 10 à 100 fois plus compétente que des cellules
Escherichia coli rendues compétentes par traitement au chloride de calcium (Metzgar
et al. 2004, p.5781).
75
Maxime DUROT Thèse de doctorat 2009
La souche A. baylyi ADP1 est non pathogène40 ; une caractéristique qui n’est pas
commune à toutes les espèces du genre Acinetobacter. En effet, certaines d’entre elles
– notamment Acinetobacter baumanii – sont impliquées dans des cas d’infections
nosocomiales41 et opportunistes, parfois de manière épidémique (Abbott 2005;
Bergogne-Bérézin & Towner 1996). Ces souches ont en outre développé des
résistances à de multiples antibiotiques, rendant le traitement des infections
particulièrement problématique (Fournier et al. 2006). La non-pathogénicité
d’A. baylyi la rend manipulable en laboratoire sans contrainte particulière et sa
proximité phylogénétique aux espèces pathogènes peut en faire un modèle d’étude
pour ces dernières sur certains aspects, comme cela a été le cas pour l’analyse de leurs
génomes (Fournier et al. 2006; Vallenet et al. 2008).
40
Une étude récente de Chen et al (2008) attribue des cas d’infections nosocomiales à
des souches de l’espèce A. baylyi, à partir d’analyses de leurs ARNr 16S. Le
séquençage ultérieur de ces souches a cependant montré des dissimilarités notables
avec A. baylyi ADP1 (B. Chen et V. de Berardinis, communication personnelle).
41
Infections dont la source se situe en milieu hospitalier.
76
Maxime DUROT Thèse de doctorat 2009
Le génome d’A. baylyi compte 3,6 millions de paires de bases et affiche une
composition en bases G et C de 40,4%. Ces caractéristiques le distinguent
notablement de ceux des bactéries pourtant proches Pseudomonas putida KT2440 et
Pseudomonas aeruginosa PAO1 (tailles d’environ 6,3 Mpb et composition en GC de
62-67%). Début 2009, son annotation comptait 3309 séquences codantes, incluant
3206 gènes validés et 103 annotés comme probablement non fonctionnels
(comprenant des pseudo-gènes, des gènes à séquences très courtes ou codant à faible
probabilité). La Figure 19 présente certaines des caractéristiques du génome sur une
vue circulaire.
Figure 19. Vue circulaire du génome d’A. baylyi. Légende des cercles, de l’intérieur vers
l’extérieur : (1) biais GC (G+C)/(G-C), (2) îlots cataboliques (rouge), région phagique
(marron), éléments transposables (triangles jaunes), ARNt (bleu), ARNr (vert), et (3) gènes
prédits dans les sens antihoraire (intérieur) et horaire (extérieur) colorés leur appartenance à
des catégories de fonctions : saumon, biosynthèse des acides aminés ; bleu clair, biosynthèse des
cofacteurs ; vert clair, enveloppe cellulaire ; rouge, processus cellulaires; jaune, métabolisme de l’ADN ; vert,
métabolisme énergétique ; violet, métabolisme des acides gras et phospholipides ; rose, synthèse des protéines ;
orange, synthèse des nucléotides ; bleu, fonctions de régulation ; gris, transcription ; turquoise, protéines de
transport et d’interaction ; noir, protéines hypothétiques. Extrait de Barbe et al (2004).
77
Maxime DUROT Thèse de doctorat 2009
Tableau 4. Composés pouvant être catabolisés par A. baylyi et gènes associés aux
processus de dégradation. ACIAD désigne les identifiants uniques des gènes d’A. baylyi.
Extrait de Barbe et al (2004)
78
Maxime DUROT Thèse de doctorat 2009
séquence ainsi que les annotations attenantes constituent une ressource de valeur pour
les projets de recherche sur cet organisme et ceux proches. En attestent les 67 travaux
référençant à ce jour l’annotation du génome42. L’interface MAGE met l’annotation de
ce génome à la disposition de tout utilisateur et la maintient à jour par rapport aux
gènes nouvellement annotés (Vallenet et al. 2006).
42
Nombre d’articles citant l’article de Barbe et al (2004) au 27 février 2009 d’après
ISI Web of Knowledge (Thomson Reuters, Inc.).
43
La méthode de création de la cassette d’intégration est basée sur la technique de
« spliced PCR » (Murphy et al. 2000) adaptée à A. baylyi par Metzgar et al (2004).
79
Maxime DUROT Thèse de doctorat 2009
Figure 20. Technique de remplacement d’un gène d’A. baylyi par recombinaison
homologue. Tout d’abord, une cassette de remplacement est créée en encadrant un gène de
R
résistance à la kanamycine (Kan ) muni d’un promoteur fort (Pt5) par des séquences
homologues aux extrémités du gène à remplacer (R1 et R2). L’assemblage de la cassette est
réalisé par une succession de PCR. A. baylyi est ensuite transformée avec cette cassette et
mise en culture sur un milieu minimal (avec du succinate comme seule source de carbone)
contenant de la kanamycine, permettant de sélectionner les clones ayant intégrés la cassette
dans leur génome. Diverses PCR sont finalement réalisées sur les clones sélectionnés pour
vérifier la bonne intégration de la cassette en remplacement du gène ciblé (vérification des
longueurs des fragments entre les amorces P7 et P8, P1 et P6, et p3 et p2). Figure extraite de
de Berardinis et al (2008)
44
CGH : « Comprehensive Genomic Hybridization array ». Puce d’hybridation
génomique comparative permettant de comparer, pour deux sources d’ADN
distinctes, le nombre de copies des fragments d’ADN correspondant aux
oligonucléotides (sondes) placés sur la puce. Dans le cas d’A. baylyi, des sondes
couvrant l’ensemble du génome furent placées sur les puces et les quantités d’ADN
furent comparées entre une souche sauvage et le clone mutant testé.
80
Maxime DUROT Thèse de doctorat 2009
de résistance et la conservation d’une copie du gène cible (de Berardinis et al. 2008).
Toutefois, malgré l’échec apparent de la manipulation génétique, ces gènes ciblés
peuvent être considérés comme contribuant de manière significative à la survie de la
bactérie, voire comme étant essentiels. En effet, la fréquence d’occurrence de telles
duplications est rare (Reams & Neidle 2004) ; il est donc peu probable que des clones
présentant ces duplications aient été retenus lors de l’expérience sans que ces
duplications, et donc la conservation du gène ciblé, ne leur confère un avantage
sélectif significatif. L’interprétation d’essentialité de ces gènes a de plus été
corroborée par le fait qu’une grande majorité de leurs gènes homologues chez
Escherichia coli et Pseudomonas aeruginosa sont également essentiels (de Berardinis
et al. 2008).
L’examen des catégories fonctionnelles liées aux gènes essentiels montre que
ceux-ci composent une partie significative des voies métaboliques de biosynthèse
(voir Figure 21). Ce résultat est en accord avec la composition du milieu choisi pour
sélectionner les mutants. En effet, ce milieu minimal ne disposant que du succinate
comme source de carbone, le bon fonctionnement des voies de biosynthèses est
essentiel pour permettre aux mutants de disposer des métabolites nécessaires à leur
survie.
81
Maxime DUROT Thèse de doctorat 2009
Plusieurs facteurs de différences ont été mis en évidence par la comparaison des
essentialités avec les gènes homologues chez Pseudomonas aeruginosa et Escherichia
coli (de Berardinis et al. 2008). Dans le cas de P. aeruginosa, le principal facteur de
différence est le milieu de sélection des mutants ; celui-ci est un milieu riche (LB)
contenant de nombreux métabolites rendant non nécessaires des voies de biosynthèse
(Liberati et al. 2006). De plus, la comparaison a révélé des gènes faussement
identifiés comme essentiels chez P. aeruginosa du fait de l’utilisation d’une technique
de transposon, moins fiable que la délétion ciblée (voir partie 2.2). Ces deux facteurs
ne sont pas présents dans la comparaison aux essentialités d’E. coli ; la technique
utilisée est similaire à celle d’A. baylyi et les mutants ont été phénotypés sur un milieu
minimal (glucose) (Baba et al. 2006). Les différences d’essentialité entre A. baylyi et
E. coli sont le reflet de différences dans leur métabolisme énergétique (la capacité
anaérobie d’E. coli rend non-essentielles certaines sous-unités de l’ATP synthase), de
la présence d’isoenzymes ou de voies métaboliques alternatives dans une seule des
deux bactéries, ou de réelles différences dans certaines voies métaboliques (de
Berardinis et al. 2008). En complément de ces analyses, la confrontation des voies
métaboliques connues pour A. baylyi aux essentialités de gènes permit de relever
certaines incohérences, notamment dans les voies de synthèse de la méthionine et de
l’ubiquinone (de Berardinis et al. 2008). Ces constats conduisirent à reconsidérer le
fonctionnement de ces deux voies et appellent d’autres expériences pour en élucider
précisément la structure.
82
Maxime DUROT Thèse de doctorat 2009
83
Maxime DUROT Thèse de doctorat 2009
Nous avons donc décidé d’explorer plus en détail les méthodes d’interprétations
des phénotypes de croissance à l’aide des modèles métaboliques, sur la base du
métabolisme d’A. baylyi. Dans cette optique, notre thèse s’attacha à atteindre trois
objectifs successifs. Tout d’abord, évaluer la performance des méthodes de l’état de
l’art pour reconstruire un modèle métabolique global fiable à partir de l’annotation et
de la connaissance initiale, et proposer des solutions aux faiblesses constatées.
Ensuite, confronter les phénotypes prédits par le modèle aux phénotypes observés et
proposer une méthodologie d’interprétation permettant d’exploiter au mieux leurs
incohérences dans le but de corriger le modèle reconstruit. Enfin, élaborer une
méthode originale de correction automatique des modèles à partir de données
phénotypiques expérimentales. Les résultats de nos recherches sur ces trois objectifs
sont présentés dans les trois grandes parties suivantes.
84
Maxime DUROT Thèse de doctorat 2009
Dans cette première partie consacrée à nos résultats, nous exposerons le processus
de reconstruction que nous avons mis en place pour obtenir un modèle global du
métabolisme d’A. baylyi qui représente le plus fidèlement possible notre connaissance
de son métabolisme. À cette occasion, nous présenterons les méthodes et vérifications
que nous avons notamment élaborées afin d’adapter la représentation des réactions
aux spécificités de la modélisation. Dans un deuxième temps, nous décrirons les
caractéristiques marquantes du modèle obtenu.
6 Processus de reconstruction
Fin 2005, alors même que les méthodes de modélisation du métabolisme
gagnaient en popularité, seules quelques équipes avaient entrepris de reconstruire des
modèles globaux pour un nombre limité d’organismes. Il s’avérait en effet – et à juste
titre – qu’une telle entreprise était une tâche laborieuse dont les difficultés n’étaient
pas encore toutes clairement identifiées. Des initiatives commençaient à être mises en
place pour répertorier et résoudre ces difficultés (Segrè et al. 2003), mais le processus
de reconstruction ne semble se rapprocher qu’aujourd’hui de la maturité, comme
peuvent en témoigner les apparitions récentes d’outils (DeJongh et al. 2007; Schwarz
et al. 2007) et d’articles de revue (Durot et al. 2009; Feist et al. 2009; Reed, Famili et
al. 2006). Pour cette raison, nous présenterons notre processus de reconstruction du
modèle d’A. baylyi en soulignant au lecteur les points-clés liés aux exigences de la
modélisation que nous aurons identifiés.
85
Maxime DUROT Thèse de doctorat 2009
86
Maxime DUROT Thèse de doctorat 2009
87
Maxime DUROT Thèse de doctorat 2009
Nous avons rapidement arrêté notre choix sur BioCyc. Bien que répertoriant un
vaste ensemble de réactions dans ses bases de données, KEGG ne disposait pas de
méthodes aussi élaborées que celles de BioCyc pour les associer automatiquement
aux annotations des génomes. En effet, KEGG se repose pour cela exclusivement sur
les identifiants EC attribués dans les annotations et est donc sensible à la qualité de
ces attributions. Dans la pratique, une proportion significative des gènes de fonction
enzymatique n’est pas annotée avec un identifiant EC complet, rendant leur
interprétation par KEGG impossible. Par exemple pour A. baylyi, pour 794 gènes
codant pour des enzymes, seuls 576 sont annotés avec un identifiant EC complet et
103 avec un identifiant incomplet, laissant 115 gènes sans identifiant EC45. De plus, à
ces absences d’annotation EC, causées principalement par la non-exhaustivité de la
45
Décompte réalisé à partir de l’annotation d’A. baylyi disponible dans MaGe au 28
avril 2009 (http://www.genoscope.cns.fr/agc/mage/). Le même décompte réalisé pour
E. coli K12 donne des proportions similaires.
88
Maxime DUROT Thèse de doctorat 2009
classification (toutes les activités enzymatiques n’y sont pas représentées) et les
difficultés des annotateurs à déterminer sans ambiguïté les bons identifiants,
s’ajoutent des problèmes de compatibilité entre identifiants provoqués par les
modifications périodiques de la classification.
Nous avons exécuté Pathway Tools (version 8.0) sur l’annotation d’A. baylyi et
obtenu en résultat la base de donnée AcinetoCyc. Cette dernière contient l’ensemble
des réactions métaboliques identifiées par Pathway Tools pour A. baylyi. Chacune
d’entre elles y est décrite par son équation chimique et est reliée aux gènes et enzymes
la catalysant. AcinetoCyc contient ainsi l’information nécessaire à la construction
d’un modèle métabolique.
89
Maxime DUROT Thèse de doctorat 2009
- Métabolisme central,
- Métabolisme des acides aminés
- Métabolisme des lipides et des constituants de la membrane
- Métabolisme des nucléotides
- Biosynthèse des cofacteurs
- Voies de dégradations
- Processus de transport
Pour chaque catégorie fonctionnelle, nous avons examiné les voies métaboliques
concernées prédites dans AcinetoCyc. Nous avons alors retenu dans le modèle
uniquement les réactions pour lesquelles suffisamment d’informations justifiaient leur
présence : bonne adéquation de l’annotation du gène à la réaction, importance de la
réaction dans la catégorie fonctionnelle, participation de la réaction à une voie
métabolique connue de l’organisme. Ce processus de sélection des réactions fut
réalisé en utilisant systématiquement les connaissances initiales du métabolisme
d’A. baylyi contenues dans la littérature. Nous avons ainsi pu d’une part valider la
présence de réactions sans gène associé et d’autre part compléter la reconstruction en
ajoutant les réactions connues qui n’avaient pas été inférées par Pathway Tools (voir
Figure 22). Ce dernier cas comprend (1) les voies métaboliques spécifiques à A.
baylyi décrites dans la littérature, (2) les processus de transport de métabolites mis en
évidence grâce aux connaissances sur la physiologie de la bactérie et aux prédictions
de la ressource TransportDB (Ren et al. 2004), et (3) les activités enzymatiques
présentes dans l’annotation mais n’ayant pu être interprétées par Pathway Tools. De
plus, comme nous le verrons dans la partie suivante, le bon fonctionnement du modèle
90
Maxime DUROT Thèse de doctorat 2009
nécessite d’avoir des voies métaboliques complètes, sans réaction manquante. Nous
avons de ce fait réalisé ces ajouts de réactions dans le souci d’obtenir des voies
métaboliques complètes et fonctionnelles.
91
Maxime DUROT Thèse de doctorat 2009
fiabilité des informations soutenant sa présence. Celui-ci est principalement basé sur
le score de confiance attribué aux annotations de ses gènes et prend en compte les
informations supplémentaires issues de la littérature :
D’un point de vue pratique, nous avons effectué ce travail au sein d’un tableur
regroupant les informations sur les réactions. En effet, aucun logiciel spécialisé
n’offrait la souplesse nécessaire à la construction d’un modèle de cette taille par ce
processus46. Les bases de données métabolique BioCyc, et a fortiori AcinetoCyc,
offre la possibilité d’être modifiée manuellement, mais elles se révèlent difficilement
utilisables pour manipuler simultanément de grands ensembles de réactions. Nous
avons donc exporté les réactions d’AcinetoCyc afin de les traiter dans le tableur. Nous
avons toutefois retranscrit dans AcinetoCyc une partie des modifications effectuées
lors de la construction du modèle – nous y avons notamment ajouté les voies
métaboliques supplémentaires – pour pouvoir utiliser AcinetoCyc à des fins de
visualisation47.
46
Les logiciels classiques de construction des modèles métaboliques (p.ex.
CellDesigner (Funahashi et al. 2003)) ne sont en effet adaptés qu’à des réseaux de
taille modeste.
47
AcinetoCyc est accessible à l’adresse http://www.genoscope.cns.fr/acinetocyc/
92
Maxime DUROT Thèse de doctorat 2009
93
Maxime DUROT Thèse de doctorat 2009
Cette vérification nous a conduit dans quelques cas à inférer et ajouter au modèle
des réactions indispensables au fonctionnement des voies métaboliques. Ces réactions
ont été choisies en examinant les voies métaboliques présentes dans A. baylyi et
déterminant les réactions les plus probables pour combler les conversions
métaboliques absentes. Dans la majorité des cas, nous nous sommes appuyés pour
cela sur les voies métaboliques connues chez les autres organismes et
automatiquement inférées par Pathway Tools (voir Figure 24). Pour refléter le peu
d’indices confirmant la présence de ces réactions, nous leur avons attribué un score de
fiabilité faible. Dans un rare cas, nous n’avons pu déterminer de réaction consommant
un métabolite : il s’agit du s-adenosyl-4-methylthio-2-oxobutanoate produit lors de la
biosynthèse de la biotine. Pour permettre le fonctionnement de la voie, nous avons
ajouté une réaction d’échange supplémentaire consommant artificiellement ce
métabolite.
94
Maxime DUROT Thèse de doctorat 2009
Nous nous sommes basés sur les formules chimiques des métabolites pour vérifier
l’équilibre des équations bilans, élément par élément. Toutefois, les métabolites
pouvant se trouver sous différents états de protonation, nous n’avons pas vérifié
l’équilibre des équations au proton près, en dehors des réactions impliquant le
transport de protons à travers la membrane cytoplasmique (voir partie suivante). Pour
chaque réaction à l’équation non équilibrée, nous avons alors cherché à résoudre
l’incohérence à l’aide d’autres ressources sur leur biochimie, dont principalement
BRENDA (Barthelmes et al. 2007). Les réactions créées dans AcinetoCyc contenaient
une proportion non négligeable d’erreurs dans leurs équations. Les dernières versions
de BioCyc ont cependant corrigé la grande majorité d’entre elles48.
Il est important de noter également que le fait d’équilibrer globalement toutes les
réactions du modèle implique de connaître spécifiquement tous les métabolites. Les
réactions définies à l’aide de métabolites génériques (par exemple un acide
dicarboxylique, représentant des acides carboxyliques de diverses chaînes carbonées)
ne peuvent ainsi être reliées aux autres réactions du modèle, alors même qu’elles sont
correctement équilibrées. Nous verrons plus loin au paragraphe 6.2.5 les méthodes
que nous avons mises en œuvre pour y répondre.
48
Voir l’historique des améliorations à l’adresse
http://metacyc.org/release-notes.shtml .
95
Maxime DUROT Thèse de doctorat 2009
96
Maxime DUROT Thèse de doctorat 2009
Nous avons tout d’abord déterminé les taux de croissance prédits pour chacun de
ces modèles sur un ensemble de 10 000 conditions environnementales composées
d’un ensemble minimal fixe de molécules (dioxyde de carbone, eau, proton, fer II,
97
Maxime DUROT Thèse de doctorat 2009
Figure 26. Histogramme des différences relatives entre les taux de croissance prédits
par les deux modèles sur les 10000 environnements simulés.
Dans 99% des environnements, la différence relative est contenue entre -30% et
30%. Pour une majorité d’entre eux (75%), le modèle simplifié prédit un taux de
croissance supérieur à celui du modèle complet. Ce résultat est dû au fait que, en
moyenne, les voies métaboliques requises pour la croissance produisent plus de
protons qu’elles n’en consomment. Le modèle complet tient compte de ces protons,
ce qui pénalise légèrement l’équilibre du gradient. Dans ce modèle, plus d’énergie est
consacrée au maintien du gradient de concentration.
98
Maxime DUROT Thèse de doctorat 2009
NH4t
GUAt nh4 XANt
h , h2o
H2Ot
h2o[e]
Figure 27. Consommation nette de proton intracellulaire par deamination de la
guanine. Le bilan net de cette voie est en effet gua[e] + h2o[e] + h ! nh4[e] + xan[e]. gua,
guanine; xan, xanthine ; nh4, ammonium ; h, proton ; h2o, eau ; GUAD, guanine deaminase.
Dans un deuxième temps, nous avons évalué l’effet du type de modélisation sur la
prédiction de phénotypes de croissance de mutants. Pour chacun des 10 000
environnements, nous avons prédit le taux de croissance d’un mutant de délétion
simple de gène choisi au hasard, et calculé la diminution relative au taux de
99
Maxime DUROT Thèse de doctorat 2009
Figure 28. Histogramme des différences entre les diminutions relatives de taux de
croissance par délétion de gène prédites par les deux modèles sur les 10000
environnements simulés.
Dans la très grande majorité des cas (94%), la diminution de croissance est
identique. Ce résultat inclut cependant un grand nombre de cas (la moitié) pour
lesquels la délétion est sans effet. Dans 2% des cas, la souche sauvage ne pouvait
croître, empêchant le calcul de la diminution de croissance. Seuls 4% des cas
présentaient une différence de prédiction de diminution de croissance entre les types
de modélisation, de valeur relativement limitée (la majorité est contenue entre -20% et
+20%).
100
Maxime DUROT Thèse de doctorat 2009
Les processus de transport doivent également être modélisés avec attention pour
autoriser les échanges de métabolites entre compartiments. Lorsque l’annotation
n’indiquait pas d’enzyme impliquée dans le transport d’un métabolite, nous nous
sommes basés sur des informations physiologiques de l’organisme (métabolites
connus pour être transportés) pour inférer ces réactions et compléter le modèle.
101
Maxime DUROT Thèse de doctorat 2009
Comme nous l’avons vu plus haut, l’équilibre des équations bilan appliqué à
l’ensemble du réseau métabolique exige que chaque métabolite soit connu
précisément. Cependant, les substrats précis de certaines enzymes ne sont pas toujours
spécifiés dans l’annotation, soit parce qu’ils sont inconnus, soit parce que l’enzyme
possède un large spectre de substrats. De même, pour représenter cette large
spécificité, les réactions inférées par Pathway Tools utilisent des métabolites
génériques, non compatibles avec la modélisation.
Pour chaque enzyme de ce type, nous avons cherché à déterminer les substrats
spécifiques les plus probables. Nous nous sommes pour cela appuyés sur deux
grandes sources d’information.
Nous avons tout d’abord exploré la littérature associée à ces enzymes et les bases
de données enzymatiques (principalement BRENDA (Barthelmes et al. 2007)) pour
rechercher des informations sur la caractérisation expérimentale de ces enzymes. Une
large proportion de ces enzymes appartient aux voies cataboliques ; les études les
ayant identifiées ont de ce fait souvent cherché à délimiter expérimentalement le
spectre de substrats utilisables. Cette information n’est néanmoins en général pas
reprise exhaustivement dans l’annotation et subsiste uniquement dans la littérature et
les bases de données dédiées (BRENDA).
Nous avons également utilisé le contexte métabolique – constitué par les voies
métaboliques déjà reconstruites – pour identifier les substrats potentiels jouant déjà un
rôle dans le réseau métabolique et les plus à même de conférer à l’enzyme un rôle
significatif dans le métabolisme. Les bases de données répertoriant les métabolites par
catégories chimiques peuvent aider à énumérer tous les substrats potentiels
(Degtyarenko et al. 2008; Fahy et al. 2009).
102
Maxime DUROT Thèse de doctorat 2009
Figure 29. Voie d’élongation des acides gras représentée dans AcinetoCyc. L’élongation
de la chaîne des acides gras est représentée à l’aide de métabolites génériques (an acyl-
ACP, acyln+2-ACP) correspondant à des chaînes carbonées de longueurs arbitraires.
où les métabolites Cxx-… sont les métabolites génériques et la notation [+2] indique
un allongement de 2 carbones de la chaîne carbonée.
103
Maxime DUROT Thèse de doctorat 2009
Dans un deuxième temps, nous avons remplacé les noms systématiques générés
pour les métabolites spécifiques par leurs identifiants dans AcinetoCyc et le modèle,
lorsque ceux-ci existent. Cette étape est indispensable pour assurer la compatibilité
des réactions créées avec le reste du modèle, et permettre leur « branchement »
correct sur les autres voies métaboliques du réseau.
104
Maxime DUROT Thèse de doctorat 2009
Les contraintes de réversibilité jouent un rôle essentiel dans les modèles globaux
du métabolisme car elles empêchent certaines réactions de fonctionner dans un sens
thermodynamiquement impossible in vivo. Leur prise en compte dans les modèles
élimine de ce fait un grand nombre de distributions de flux impossibles du point de
vue de la thermodynamique – par exemple la régénération « gratuite » d’ADP en ATP
par des réactions à l’irréversibilité ignorée.
105
Maxime DUROT Thèse de doctorat 2009
La construction des GPR à grande échelle est rendue difficile par la nécessité de
déterminer les complexes enzymatiques. Même si la participation du produit d’un
gène à un complexe plus grand est parfois mentionnée textuellement dans les
annotations (« enzyme subunit »), l’information n’est en général pas suffisamment
explicite et organisée pour inférer automatiquement tous les complexes enzymatiques.
Il est donc nécessaire de s’appuyer sur la connaissance des complexes identifiés dans
la bactérie (via la littérature correspondante) ou les bactéries proches (par homologie).
106
Maxime DUROT Thèse de doctorat 2009
proches49 pour chacun des gènes codant pour les protéines du complexe. Si un
homologue pour chacun des gènes est retrouvé dans A. baylyi, le complexe est alors
reconstitué avec ces homologues en conservant la même structure (voir Figure 30).
Nous avons implémenté ce programme en utilisant la librairie CYCLONE développée
par d’autres membres de notre groupe (Le Fèvre et al. 2007) pour interroger EcoCyc
et créer les complexes dans AcinetoCyc.
L’inférence des complexes étant basée uniquement sur des critères d’homologie et
ne tenant pas compte des annotations fonctionnelles, nous avons (1) vérifié que les
complexes homologues catalysaient bien les mêmes réactions dans EcoCyc et
AcinetoCyc et (2) corroboré l’existence du complexe avec l’annotation des gènes
impliqués. Seuls les complexes vérifiés ont finalement été intégrés dans la dernière
version d’AcinetoCyc. Dans un deuxième temps, nous avons poursuivi ce travail de
curation manuelle en cherchant à identifier les complexes enzymatiques non prédits
(car n’existant pas chez E. coli). Nous avons pour cela exploré les annotations
49
Nous avons utilisé comme critères d’homologie un seuil minimal de similarité de
45%, une longueur d’alignement d’au moins 80% de la séquence la plus courte et une
contrainte de meilleur alignement réciproque (« Bidirectional Best Hit »).
107
Maxime DUROT Thèse de doctorat 2009
textuelles (en recherchant les annotations possédant les mots clés « subunit »,
« complex », ou « component ») et la littérature relative aux voies métaboliques
étudiées chez A. baylyi. Une grande proportion des complexes non inférés était
constituée de transporteurs absents chez E. coli (majoritairement des transporteurs
ABC), illustrant la différence de ressources nutritionnelles utilisées par A. baylyi et E.
coli. Pour faciliter spécifiquement la reconstruction de ces complexes, nous avons
utilisé la ressource TransportDB qui décrit explicitement les sous-unités de chaque
transporteur et prédit leur présence dans le génome (Ren et al. 2004).
108
Maxime DUROT Thèse de doctorat 2009
Dans le cas d’A. baylyi, nous avons défini pour la souche sauvage une réaction de
biomasse « quantitative » que nous avons ensuite réduite pour prédire les phénotypes
de croissance des mutants (avec quelques améliorations opérées par la suite grâce aux
comparaisons avec les phénotypes expérimentaux, voir partie suivante). Étant donné
l’absence de données spécifiques à A. baylyi, nous nous sommes basés sur des études
de la composition de la biomasse de plusieurs souches du genre Acinetobacter en
supposant les résultats extrapolables à A. baylyi.
50
Non modifié génétiquement.
51
On néglige dans ce cas les cycles potentiels de dégradation/synthèse des
précurseurs de biomasse devant leur consommation par la croissance.
109
Maxime DUROT Thèse de doctorat 2009
Composition globale
où les pA, pB, etc. sont les proportions massiques de chacune des macromolécules. Il
est important de noter que le flux de cette réaction s’exprime alors avec l’unité
(g DW).h-1.(g DW)-1 = h-1, représentant ainsi directement le taux de croissance de
l’organisme.
Nous sommes appuyés sur diverses études présentées dans la littérature pour
déterminer la composition globale en macromolécules d’A. baylyi (voir Tableau 5).
Abbott et al (1974) et du Preez et al (1984) ont mesurés la composition de la
110
Maxime DUROT Thèse de doctorat 2009
Proportion
Macromolécule Référence
massique
Peptidoglycane 2,8% (Thorne et al. 1973)
Polysaccharides libres 4,1% (Abbott et al. 1974; du Preez et al. 1984;
Thorne et al. 1973)
Lipopolysaccharides 0,3% (Scott et al. 1976; Thorne et al. 1973)
Phospholipides 4,1% (Makula et al. 1975)
Wax esters 0,6% (Makula et al. 1975)
Triglycérides 0,2% (Makula et al. 1975)
Acides gras libres 0,2% (Makula et al. 1975)
ADN 3,2% (Abbott et al. 1974; du Preez et al. 1984)
ARN 20% (Abbott et al. 1974; du Preez et al. 1984)
Protéines 63,3% (Abbott et al. 1974; du Preez et al. 1984)
Cofacteurs 3,2% (Neidhardt & Umbarger 1996)
Tableau 5. Composition massique de la biomasse en macromolécules retenue pour le
modèle d’A. baylyi.
111
Maxime DUROT Thèse de doctorat 2009
Nous verrons plus loin que les prédictions de taux de croissance sont d’ailleurs
peu sensibles à ces paramètres (voir 7.2).
Protéines
Acides nucléiques
112
Maxime DUROT Thèse de doctorat 2009
7) et d’un décompte moyen des bases contenues dans les ARNr, ARNt et ARNm (voir
Tableau 8). ADN et ARN sont assemblés à partir de nucléotides triphosphates (dNTP
et NTP) et des coûts énergétiques supplémentaires (d’assemblage et correction
d’erreur) de respectivement 1,37 et 0,4 ATP hydrolysés par nucléotide sont ajoutés
aux réactions assemblant ces macromolécules (Oliveira et al. 2005).
Lipides
Wax Wax
Chaîne Phospho- Triglycéri- Acides
esters - esters -
carbonée lipides des gras libres
a. gras alcool
14:0 0% 2% 0% 0% 6%
16:0 10% 72% 24% 5% 28%
16:1 20% 5% 32% 48% 57%
18:0 10% 6% 0% 0% 0%
18:1 60% 15% 44% 47% 9%
Tableau 9. Compositions molaires moyennes en types de chaînes carbonées des
différents lipides pris en compte dans la biomasse du modèle d’A. baylyi.
113
Maxime DUROT Thèse de doctorat 2009
Paroi cellulaire
Figure 31. Agencement des chaînes de peptidoglycane dans la paroi cellulaire. NAG,
N-acétyl-glucosamine ; NAM, acide N-acétyl-muramique.
Figure extraite de http://student.ccbcmd.edu/~gkaiser/
114
Maxime DUROT Thèse de doctorat 2009
Nombre de
Type d’acide molécules par Type de chaîne
gras lipide A Composition carbonée
Beta-hydroxy 4 56% 12:betaOH
44% 14:betaOH
Classique 2 62% 12:0
18% 16:0
10% 18:0
10% 18:1
Tableau 11. Composition lipidique du lipide A retenue dans le modèle d’A. baylyi.
Les travaux de Thorne et al (1973) et Bryan et al (1986) nous ont permis de définir
la composition des polysaccharides attachés au LPS. Pour chaque LPS, nous avons
associé au lipide A deux molécules de KDO ainsi que 5 molécules d’hexoses,
composés à parts égales de glucose, rhamnose et mannose.
Nous avons également adopté une composition équirépartie de ces trois hexoses
pour les polysaccharides libres (Bryan et al. 1986).
Cofacteurs
Les cofacteurs métaboliques sont inclus dans la réaction de biomasse dans le but
de tenir compte de leur essentialité pour la croissance des cellules. En effet, à l’état
stationnaire, la régénération des cofacteurs permet au modèle d’utiliser ces derniers
sans recourir à leur synthèse. Celle-ci est néanmoins vitale pour répondre à leur
dilution par la croissance.
Nous avons déterminé la liste des cofacteurs essentiels par analogie au modèle
d’E. coli (Reed et al. 2003) (voir Tableau 12).
coenzyme A
fad
fmn
folate (THF)
heme
nad
nadp
pyridoxal-5p
s-adenosylmethionine
siroheme
thiamin
ubiquinone-8
undecaprenyl-pp
Tableau 12. Cofacteurs essentiels pris en compte dans le modèle.
115
Maxime DUROT Thèse de doctorat 2009
Une grande partie des caractéristiques du modèle iAbaylyiv1 étant présentée dans
l’article Durot et al (2008) inclus dans la partie suivante, nous avons choisi d’exposer
dans ce chapitre uniquement quelques compléments utiles. Ainsi, nous donnerons tout
d’abord au lecteur un aperçu plus détaillé des voies métaboliques modélisées, puis
116
Maxime DUROT Thèse de doctorat 2009
117
Maxime DUROT Thèse de doctorat 2009
Pyruvate metabolism 5 7
Radicals detoxification 3 6
Respiration 10 35
Cofactors biosynthesis 107 103
Biomass assembly 1 0
Biotin biosynthesis 5 5
Coenzyme A biosynthesis 9 8
FMN / FAD biosynthesis 9 7
Folate metabolism 16 16
Glutathione biosynthesis 2 2
Heme / siroheme biosynthesis 14 12
NAD / NADP biosynthesis 11 10
Other 4 8
Polyisoprenoids biosynthesis 14 13
Pyridoxal 5P biosynthesis 7 7
Thiamin biosynthesis 6 9
Ubiquinone biosynthesis 9 7
Degradation pathways 181 163
3,4-dihydroxyphenylpropionate
degradation 2 2
3-hydroxy-isobutyrate degradation 2 5
Acetoacetate metabolism 4 6
Aldoxime / nitrile degradation 3 4
Alkane degradation 4 5
Allantoate degradation 2 2
Anthranilate degradation 1 3
Benzyl compounds degradation 7 9
Beta-ketoadipate degradation 2 9
Butanediol and acetoin degradation 3 6
Butyric acid metabolism 2 12
Caffeate degradation 4 3
Catechol degradation 3 3
Chlorogenate / quinate degradation 4 5
Coumarate degradation 5 5
Dicarboxylates degradation 24 7
Ethanol metabolism 2 7
Fatty acids degradation 58 43
Ferulate / vanillate degradation 6 6
Fructose utilisation 1 1
Galactarate / glucarate degradation 4 4
Glyceraldehyde degradation 3 5
Glycolaldehyde degradation 1 2
Lactate utilisation 3 2
Methylglyoxal degradation 2 2
Nitrogen assimilation 3 4
Other 6 8
Protocatechuate degradation 4 8
Ribose utilisation 1 1
Salicyl compounds degradation 5 8
Sarcosine degradation 1 4
Shikimate degradation 2 2
Sulfonate degradation 4 11
UDP-glucose utilisation 3 5
Lipid, cell wall
biosynthesis 141 76
Biomass assembly 4 0
Fatty acids biosynthesis 64 20
KDO-lipid A biosynthesis 16 13
118
Maxime DUROT Thèse de doctorat 2009
Lipoate biosynthesis 1 2
Peptidoglycan biosynthesis 14 14
Phospholipids biosynthesis 9 9
Polysaccharides biosynthesis 11 11
TAG metabolism 10 5
Wax ester metabolism 12 4
Nucleotide metabolism 88 64
Biomass assembly 2 0
Other 1 3
Purine biosynthesis - de novo 27 24
Purine biosynthesis - salvage
pathways 22 12
Pyrimidine biosynthesis - de novo 22 28
Pyrimidine biosynthesis - salvage
pathways 14 8
Transport 133 127
Exchange fluxes 109 0
52
Unbalance fluxes 2 0
v1
Tableau 14. Répartition du nombre de gènes et de réactions dans le modèle iAbaylyi selon
les catégories fonctionnelles et les voies métaboliques. Chaque réaction est assignée à une
unique voie métabolique. Certains gènes sont associés à plusieurs réactions ; ils peuvent de ce fait
être comptés dans plusieurs catégories ou voies.
52
Les réactions de la catégorie « Unbalance fluxes » sont des réactions d’échanges de
métabolites intracellulaires ayant été introduites pour relaxer la contrainte de
conservation de la masse. Elles concernent en l’occurrence le proton (voir 6.2.3) et le
cofacteur s-adenosyl-4-methylthio-2-oxobutanoate (voir 6.2.1), tous deux localisés
dans le cytoplasme.
119
Maxime DUROT Thèse de doctorat 2009
Nous avons tout d’abord comparé les prédictions de taux de croissance du modèle
iAbaylyiv1 à des mesures expérimentales. L’équipe Thesaurus du Genoscope a pour
cela réalisé une culture suivie d’A. baylyi en milieu minimal liquide contenant du
120
Maxime DUROT Thèse de doctorat 2009
glutamate comme seule source de carbone53. À chaque point de temps (toutes les
heures) fut effectué un prélèvement à partir duquel la densité optique à 600 nm (DO)
et la concentration en glutamate54 furent déterminées (voir Figure 32).
53
Milieu minimal contenant de l’ammoniac (NH3) comme source d’azote.
54
La concentration de glutamate fut déterminée par test enzymatique en le faisant
réagir avec le NAD à l’aide de la glutamate dehydrogenase. La quantité de NADH
produite fut déterminée par mesure d’absorption à 340 nm.
55
Exigé par les conditions de l’expérience.
56
Dues à la normalisation par la masse mesurée de cellules, faible au début de
l’expérience.
121
Maxime DUROT Thèse de doctorat 2009
Nous avons ensuite pour chaque point de temps contraint le modèle iAbaylyiv1 à
importer le glutamate avec le flux mesuré puis calculé le taux de croissance optimal
en maximisant le flux de la réaction de biomasse (méthode de « Flux Balance
Analysis » (FBA)). La Figure 33 présente ces prédictions en regard des taux de
croissance mesurés.
122
Maxime DUROT Thèse de doctorat 2009
Figure 33. Flux de consommation de glutamate mesuré (en haut) et comparaison des
taux de croissance mesuré et prédit (en bas). Le flux de glutamate et le taux de
croissance mesuré furent déterminés à partir des mesures de concentration et de DO (la
relation entre DO et masse sèche fut déterminée en parallèle, dans des conditions
v1
expérimentales similaires). Les taux de croissance furent prédits à l’aide du modèle iAbaylyi
par « Flux Balance Analysis » (Varma & Palsson 1994) en contraignant le flux de glutamate
entrant aux valeurs mesurées. Les marges d’erreurs des taux de croissances prédits ont été
obtenues à partir des marges d’erreurs des flux de glutamate mesurés.
123
Maxime DUROT Thèse de doctorat 2009
Il est important de noter que les prédictions ci-dessus ont été réalisées en
conservant les paramètres énergétiques (et la composition de la réaction de biomasse)
déterminés initialement. Ces paramètres – le flux de maintenance associé à la
croissance (« growth associated maintenance », GAM) et le flux de maintenance
indépendant de la croissance (« non growth associated maintenance », NGAM) – sont
typiquement déterminés à partir d’expériences de culture suivie, pour lesquelles
plusieurs mesures de taux de croissance pour différents flux de consommation de
nutriments distincts sont réalisées (voir 3.2.1). Ne disposant pas de suffisant de
données expérimentales pour déterminer plus précisément ces paramètres, nous avons
adopté ceux déterminés pour le modèle d’E. coli (Reed et al. 2003),
124
Maxime DUROT Thèse de doctorat 2009
Figure 34. Effet de la variation du paramètre GAM sur les prédictions de taux de
croissance. Le paramètre NGAM est fixé à 10 mmol ATP/h/gDW.
125
Maxime DUROT Thèse de doctorat 2009
Figure 35. Effet de la variation du paramètre NGAM sur les prédictions de taux de
croissance. Le paramètre GAM est fixé à 40 mmol ATP/gDW.
126
Maxime DUROT Thèse de doctorat 2009
Le format le plus complet est un tableur Excel contenant toutes les informations
utilisées dans le modèle57. L’ensemble des réactions y est classé par catégories
fonctionnelles et voies métaboliques, et, pour chacune d’entre elles, équation bilan,
association gène-réaction (GPR), numéro EC, références bibliographiques et
commentaires sont donnés. De manière à favoriser l’intégration du modèle avec
d’autres ressources sur le métabolisme, le tableur fournit également les identifiants
des réactions et métabolites du modèle dans les bases de données KEGG, MetaCyc et
BiGG58. La simplicité de ce format permet de rendre compte aisément de
l’information contenue dans le modèle, il nécessite cependant un travail de
reformatage pour exploiter le modèle à l’aide des outils classiques de modélisation.
Pour cela, nous avons également mis à disposition le modèle au format SBML59
(Systems Biology Markup Language) (Hucka et al. 2004). Ce format XML est
exploité par un grand nombre d’outils de modélisation du métabolisme, incluant
notamment YANA (Schwarz et al. 2007), CellNetAnalyzer (Klamt et al. 2007) et la
COBRA Toolbox (Becker et al. 2007), qui sont spécifiquement dédiés aux modèles à
base de contraintes. Le format SBML original ne spécifiant pas comment représenter
les liens gène-réaction, nous avons adopté les conventions utilisées par la COBRA
Toolbox et la base de données BiGG pour les inclure dans le fichier SBML60. Nous
avons également soumis le modèle au format SBML à la base de données BioModels
(Le Novère et al. 2006) ; il y est stocké sous l’identifiant MODEL1949107276.
57
Téléchargeable à l’adresse :
http://www.biomedcentral.com/content/supplementary/1752-0509-2-85-s2.xls
58
Base de données de modèles métaboliques à grande échelle : http://bigg.ucsd.edu .
59
Téléchargeable à l’adresse :
http://www.biomedcentral.com/content/supplementary/1752-0509-2-85-s5.xml
60
Dans chaque objet reaction, le lien gène-réaction est ajouté dans une notes de la
forme :
<notes>
<html:p>GENE_ASSOCIATION: aciad2449 and aciad2450 and aciad2451</html:p>
</notes>
61
Disponible à l’adresse http://www.genoscope.cns.fr/nemostudio-platform/
127
Maxime DUROT Thèse de doctorat 2009
AcinetoCyc pour visualiser les prédictions directement sur les cartes de voies
métaboliques. Nous évoquerons plus en détail cet outil dans la partie suivante.
128
Maxime DUROT Thèse de doctorat 2009
Nous aborderons dans cette deuxième partie sur nos travaux les résultats de la
confrontation du modèle d’A. baylyi aux phénotypes de croissance de mutants. Nous
nous sommes pour cela reposés sur les ressources expérimentales de l’équipe
Thesaurus présentée en introduction et avons utilisé leurs résultats de phénotypes de
croissance de mutants d’A. baylyi pour 9 environnements minimaux distincts. De
nombreux facteurs influencent les prédictions de phénotypes de croissance de mutants
et peuvent être la cause d’incohérence avec les phénotypes observés. Pour faciliter
l’analyse de ces incohérences, nous introduirons dans cette partie un cadre
d’interprétation et montrerons que celui-ci permet de distinguer les sources d’erreurs
et de guider des corrections au modèle.
Nous avons organisé cette partie en trois chapitres. Le premier reprend un article
que nous avons publié dans BMC Systems Biology et expose l’ensemble des
corrections et interprétations réalisées sur le modèle d’A. baylyi à partir des
phénotypes expérimentaux. Il présente notamment les différentes versions du modèle
progressivement obtenues au cours des étapes de correction. Cet article complète
également la présentation du modèle initiée dans la partie précédente et présente une
interface Web de prédictions de phénotypes pour A. baylyi. Dans le deuxième
chapitre, nous effectuerons une synthèse des types d’interprétations réalisées à partir
des incohérences de phénotypes. Enfin, nous présenterons brièvement dans le
troisième chapitre une évolution récente de l’interface Web de prédiction de
phénotypes prenant en compte un plus grand nombre d’organismes.
129
Maxime DUROT Thèse de doctorat 2009
130
BMC Systems Biology BioMed Central
Address: Genoscope (Commissariat à l'Energie Atomique) and UMR 8030 CNRS-Genoscope-Université d'Evry, 2 rue Gaston Crémieux, CP5706,
91057 Evry, Cedex, France
Email: Maxime Durot - [email protected]; François Le Fèvre - [email protected]; Véronique de
Berardinis - [email protected]; Annett Kreimeyer - [email protected]; David Vallenet - [email protected];
Cyril Combe - [email protected]; Serge Smidtas - [email protected]; Marcel Salanoubat - [email protected];
Jean Weissenbach - [email protected]; Vincent Schachter* - [email protected]
* Corresponding author
Abstract
Background: Genome-scale metabolic models are powerful tools to study global properties of
metabolic networks. They provide a way to integrate various types of biological information in a
single framework, providing a structured representation of available knowledge on the metabolism
of the respective species.
Results: We reconstructed a constraint-based metabolic model of Acinetobacter baylyi ADP1, a soil
bacterium of interest for environmental and biotechnological applications with large-spectrum
biodegradation capabilities. Following initial reconstruction from genome annotation and the
literature, we iteratively refined the model by comparing its predictions with the results of large-
scale experiments: (1) high-throughput growth phenotypes of the wild-type strain on 190 distinct
environments, (2) genome-wide gene essentialities from a knockout mutant library, and (3) large-
scale growth phenotypes of all mutant strains on 8 minimal media. Out of 1412 predictions, 1262
were initially consistent with our experimental observations. Inconsistencies were systematically
examined, leading in 65 cases to model corrections. The predictions of the final version of the
model, which included three rounds of refinements, are consistent with the experimental results
for (1) 91% of the wild-type growth phenotypes, (2) 94% of the gene essentiality results, and (3)
94% of the mutant growth phenotypes. To facilitate the exploitation of the metabolic model, we
provide a web interface allowing online predictions and visualization of results on metabolic maps.
Conclusion: The iterative reconstruction procedure led to significant model improvements,
showing that genome-wide mutant phenotypes on several media can significantly facilitate the
transition from genome annotation to a high-quality model.
!"#$%&%'(%)*
!"#$%&'()*%+&',-&.,+&/0-#-0,'&"(+",1%12
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!"!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
Total environments
190 tested 190 767 Total genes tested 756 455 Total genes tested 452
164 total consistent 173 676 total consistent 712 422 total consistent 426
26 total inconsistent 17 91 total inconsistent 44 33 total inconsistent 26
86% global accuracy 91% 88% global accuracy 94% 93% global accuracy 94%
Conditionally
45 Carbon sources 45 251 Essential genes 251 36 essential genes 36
24 consistent 33 187 consistent 217 16 consistent 18
21 inconsistent 12 64 inconsistent 34 20 inconsistent 18
Model accuracy
8 in model 1 75% accuracy 86% 44% accuracy 50%
13 not in model 11
53% accuracy 73%
145 Non carbon sources 145 516 Dispensable genes 505 419 Dispensable genes 416
140 consistent 140 489 consistent 495 406 consistent 408
31 in model 31 27 inconsistent 10 13 inconsistent 8
109 not in model 109 95% accuracy 98% 97% accuracy 98%
5 inconsistent 5
97% accuracy 97%
Model GPR 2 genes added 1 gene added ; 12 removed ; 36 GPR modified 4 genes removed ; 9 GPR modified
NETWORK 14 reactions added 4 reactions added ; 3 removed ; 4 modified 1 reaction added ; 1 modified
corrections BIOMASS - 2 biomass precursors added ; 4 removed -
Figure
A. baylyi 1metabolic model refinement process
A. baylyi metabolic model refinement process. A. baylyi metabolic model was iteratively refined in three steps using data-
sets of experimental results. The initial reconstruction iAbaylyiv1 was assessed and improved using dataset 1; the resulting
model iAbaylyiv2 was then assessed and refined using dataset 2, yielding iAbaylyiv3 which was again evaluated and refined using
dataset 3, leading to the final model iAbaylyiv4. Since only mutants corresponding to dispensable genes in dataset 2 could be
phenotyped in dataset 3, gene essentialities revealed in dataset 3 are medium-specific, i.e. conditionally essential. Genes classi-
fied as conditionally essential in dataset 3 are conditionally essential on at least one environment. Genes classified as dispensa-
ble are dispensable on all tested environments. Model accuracy figures indicates for each dataset and its corresponding models
the counts of consistent and inconsistent predictions. Accuracy is computed as the fraction of consistent predictions among all
predictions. For dataset 1, Biolog results for metabolites that were not in the model were counted as consistent with predic-
tions if the metabolite was not a carbon source and inconsistent if the metabolite was a carbon source. Model corrections fig-
ures summarize the corrections performed on each model component.
this initial reconstruction still required extensive manual model. Out of 133 transporters, 23 were initially included
curation (see Methods). The draft metabolic network gen- in the model using this type of evidence only. The
erated by PathoLogic was first inspected to filter out and dependency between genes and reactions was modeled
correct wrongly predicted pathways and reactions, and using Boolean rules, known as GPR (Gene-Protein-Reac-
then completed by reviewing the expert genome annota- tion associations) [22]. These rules encode the presence of
tions and the metabolic information contained in the lit- isozymes or enzymatic complexes for the catalysis of reac-
erature. For instance, specific efforts were dedicated to tions, and predict the effect of genetic perturbations on
properly include pathways accounting for the particular the activity of reactions. GPR rules were first derived using
degradation capabilities of A. baylyi. Physiological infor- homology with E. coli enzyme complexes [23] and then
mation on A. baylyi was especially helpful to build the set completed by manual curation. In order to model the
of transport processes, as substrate specificities of trans- metabolic and energetic demands associated with growth,
porters are difficult to deduce from genome annotation we introduced a set of intermediary biomass reactions
only. For each metabolite shown to be consumed by A. that synthesize generic cell constituents (e.g. protein,
baylyi we added a corresponding transport reaction to the DNA, RNA, or lipid) from precursor metabolites, and a
=7>2!?!0@!"?
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
global growth reaction consuming them in proportion with genes of known function, or conservation of amino
defined by studies of biomass composition [24,25]. Ener- acid motifs (Figure 4). While the evidence for these genes
getic parameters required to predict quantitative growth does not fully prove the existence of associated enzymatic
rate using Flux Balance Analysis (FBA) were assumed to be activities, it suggests them with sufficient strength to jus-
similar to those of E. coli model (see Methods)[22]. No tify adding the corresponding reactions in the model. The
accurate measurement of A. baylyi growth yields could be level of evidence of each gene was tracked for later use in
used to validate these parameters, however. While such interpreting inconsistent behaviors. Out of 262 reactions
validation would be required to get more accurate predic- to which these genes contribute, 85 are solely catalyzed by
tions of growth yields, the current parameters already pro- medium-confidence genes, some of these being essential
vide good approximate values (see Additional file 1 for a to the model viability. In addition, 35% of all coding
sensitivity analysis on these parameters). For the purpose sequences are still of unknown function in A. baylyi, and
of qualitatively predicting growth ability using Metabolite may leave gaps in the actual metabolic network. Integra-
Producibility analysis (see Figure 2) [26], we designed a tion of additional experimental data was thus crucial in
reduced list of biomass precursors which are all essential order to validate the metabolic network and correct it
for growth in in vitro conditions. We used this list to pre- when necessary.
dict qualitative growth phenotypes and compare them
with those of phenotyping experiments on in vitro envi- Model validation and expansion using growth phenotype
ronments. In vivo environments may impose harsher con- results
ditions requiring additional metabolic responses; this list We used results of large-scale growth phenotyping experi-
therefore represents a minimal set of essential precursors ments to perform a first round of model assessment and
that may need to be expanded to properly predict growth refinement. Using Biolog assays, we experimentally tested
phenotypes on more realistic environments [27]. The the wild-type strain ability to use 190 distinct metabolites
Methods section provides more details on the reconstruc- as sole carbon and energy sources (see Methods). Using
tion process. the model, we predicted the growth phenotypes of the
wild-type strain on the corresponding in silico media and
This initial reconstruction process led to the model compared them to the experimental results.
iAbaylyiv1 gathering 859 reactions grouped in 7 metabolic
categories and 697 distinct metabolites, 109 of which Out of the 190 screened metabolites, 45 were found to be
could be transported from the environment. As depicted carbon and energy sources for A. baylyi. This relatively
in Figure 3, the model accounts for all main processes of small fraction of carbon sources can be explained by the
A. baylyi metabolism, including biosynthetic routes, fact that Biolog microplates are only partially adapted to
energy metabolism, and catabolic pathways. Genomic A. baylyi's biotope: they feature sugars, nucleosides or
islands of catabolic diversity endow A. baylyi with the abil- amino acids but relatively few chemicals originating from
ity to degrade a wide variety of soil compounds [19]. The plant compounds. iAbaylyiv1 model predicted 24 of them
metabolic model reflects this nutritional versatility, as and missed 21 (see Figure 1). Eight of the missed carbon
20% of its reactions are dedicated to the catabolism of source metabolites were already present in the model, but
external compounds. A list of specific compounds that with no associated transporter. Amongst them, seven
can be degraded by A. baylyi is provided in Table 1. would also be predicted as carbon and energy sources had
the corresponding transporters been included. In order to
iAbaylyiv1 involves 787 genes out of the 1518 confirmed resolve these inconsistencies, we added for each of them a
or putative enzymatic and transport genes of A. baylyi. A generic transport reaction accounting for A. baylyi's ability
large majority (94%, 681/726) of the enzymatic reactions to utilize these compounds (see Table 2). Growth on the
(excluding transporters) were associated with at least one remaining metabolite (2-ketobutyrate) was contradicted
gene, while the lower proportion (83%, 110/133) of by an additional individual growth experiment.
transport reactions linked to genes is explained by the
extensive use of physiological data to include them. The Thirteen carbon source metabolites were unknown to the
association of nearly all reactions with a gene confers a metabolic model. For two of them, sorbate and tricarbal-
high reliability to the model. The few reactions that were lylate, we were able to identify degradation pathways and
introduced with no associated gene are most often sup- add them to the model (see Table 2). Sorbate, an unsatu-
ported by indirect evidence and introduced in order to fill rated fatty acid, can be degraded by fatty acids oxidation
gaps (See Additional file 2). enzymes, which were already included in the model for
the degradation of other fatty acids. Sorbate transport and
Most A. baylyi genes were annotated by expert curation; a degradation reactions were therefore added to the model
third of the model genes relied on evidence conferring using the same set of genes. Recently, genes coding for tri-
them a medium confidence level, e.g. limited homology carballylate transport (tcuC), oxidation to cis-aconitate
=7>2!?!0@!"A
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
A!
G1! G2!G3! G4!G5!
GPR! BIOMASS!
OR! OR!
Essential biomass
precursors
R1!
R 2!
R3!
B! Gene deletion!
G1! G2!G3! G4!G5!
Reduction of producible
OR! OR! metabolites space!
Essential biomass
R1! precursor is no
R 2! more producible!
R3!
Inactivated reaction!
Figure 2 framework
Modeling
Modeling framework. (A) A metabolic model is represented as a combination of three model components: GPR Boolean
rules associate genes (G1 to G5) with reactions (R1 to R3), the network of reactions defines the set of feasible biochemical
transformations (illustrated by the arrows), and the set of essential biomass precursors defines the requirements for growth.
Growth phenotypes are predicted by assessing whether all biomass precursors can be produced by the metabolic network
from the set of metabolites from the medium [26] (see Methods) (B) Gene deletions potentially inactivate reactions, which in
turn may reduce the space of producible metabolites. In case where a biomass precursor is no more producible, gene deletion
is predicted lethal on the given medium.
(tcuA and tcuB), and for a regulatory protein required for and ACIAD1543 (tcuR, 44% identity). Following these
tcuABC expression (tcuR) were identified in Salmonella clues, we expanded the model by implementing the corre-
enterica [28,29]. Highly homologous genes could be sponding transporter and degradation reaction, and
found in synteny in A. baylyi: ACIAD1536 (tcuB, 59% annotated the corresponding genes. In four cases, dedi-
identity), ACIAD1537 (tcuA, 76% identity), ACIAD1541 cated growth experiments contradicted the Biolog result,
(tcuC, 64% identity), ACIAD1539 (tcuR, 46% identity), weakening the case for further study (see Table 2). Finally,
=7>2!'!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
Table 1: Some substrates involved in A. baylyi degradation L-ornithine, and D-serine (see Figure 1 and Table 2).
pathways Experiments from [15] contradicted the Biolog result on
Anthranillate Octane 4-hydroxybenzoate, while additional individual experi-
Benzoate Straight chain dicarboxylic acids ments confirmed the Biolog results of the other four.
Salicylate Straight chain fatty acids
Catechol Sarcosine Interestingly, A. baylyi annotation describes a complete
Chlorogenate Propanaldoxime phosphotransferase (PTS) transport system for fructose
Quinate Propanenitrile
(ACIAD1990 and ACIAD1993, fruA &fruB) coupled with
Shikimate Propanamide
Coumarate Malonate
a 1-phosphofructokinase (ACIAD1992, fruK) leading to
Ferulate Glucarate fructose-1,6-bisphosphate (see Figure 5). In accordance
Vanillate Galactarate with the annotation, the model predicts that fructose
Caffeate Ethanesulfonate should be a carbon and energy source, yet this is not
Protocatechuate observed experimentally. To confirm the ability of the PTS
system to transport fructose, we assessed experimentally
the growth phenotype of the fructose bisphosphate aldo-
no relevant pathway could be found for the remaining lase (ACIAD1925, fda) knockout mutant (see Figure 5).
seven unmodeled carbon sources. Further investigations The !ACIAD1925 mutant could not be obtained on suc-
are needed to identify the metabolic processes allowing A. cinate-supplemented minimal media, reflecting the fact
baylyi to exploit these metabolites. that Fda is required in the gluconeogenesis pathway to
provide fructose-1,6-bisphosphate, an essential interme-
Conversely, only five of the 145 non-carbon source diate for building pentose-phosphates and polysaccha-
metabolites were wrongly predicted to be carbon sources rides. The mutant could however be obtained by adding
by the model: 4-hydroxybenzoate, D-fructose, L-arginine, fructose in the medium, showing that fructose could be
200
reactions
180
genes
160
140
Number of genes / reactions
120
100
80
60
40
20
0
Amino acids Central Cofactors Degradation Lipid, cell wall Nucleotide Transport
metabolism metabolism biosynthesis pathways biosynthesis metabolism
Figure
Number3of reactions and genes in iAbaylyiv1 distributed by model metabolic categories
Number of reactions and genes in iAbaylyiv1 distributed by model metabolic categories. Reactions were associ-
ated with a unique metabolic category. Genes linked to several reactions may be associated with multiple categories.
=7>2!?!0@!"A
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
imported into the cell and converted to fructose-1,6- Systematic model improvement using gene essentiality
bisphosphate. The reason why A. baylyi is unable to use data
fructose as a sole carbon source remains yet to be investi- In steps 2 and 3 of the model refinement process, we
gated. Hypothetically, A. baylyi may be unable to use the assessed and improved the model by comparing its pre-
Embden-Meyerhof-Parnas (EMP) pathway in the glyco- dictions to experimentally determined gene essentialities,
lytic direction, as it has been observed for the dissimila- derived from the ADP1 mutant collection [8] (see Figure
tion of glucose [19,30]. 1). Growth phenotypes of all single gene deletion mutants
on the corresponding environments were predicted using
As is the case in E. coli, L-ornithine and L-arginine are metabolite producibility analysis (see Figure 2 and Meth-
degraded by A. baylyi using the arginine succinyltrans- ods). Predicted phenotypes were then compared to the
ferase (AST) pathway. This pathway allows E. coli to use genome-wide gene essentiality results in order to assess
them as nitrogen sources, but not as carbon sources. Puta- the accuracy of the model and to identify inconsistent pre-
tive explanations include unsuitable regulation and inad- dictions. Inconsistencies could be either false essential
equate transport [31]. Similar reasons may explain A. (genes falsely predicted essential by the model) or false
baylyi's inability to use L-ornithine and L-arginine as car- dispensable (genes falsely predicted dispensable by the
bon sources. model) predictions. Since these inconsistencies are as
many clues that the understanding of A. baylyi's metabo-
A. baylyi's genome annotation includes genes for D-serine lism represented in the model is erroneous or incomplete,
transport (ACIAD0118 and ACIAD2662, cycA) and D-ser- we examined them carefully in order to find interpreta-
ine deaminase activity (ACIAD1048 dsdA), which should tions and, when needed, refine the model.
allow it to use D-serine as a carbon and nitrogen source.
The interpretation of this inconsistency is also unclear; a We classified refinements into three categories according
similar unexplained inconsistency was pointed out in a to the model component that was modified: GPR, NET-
study involving a metabolic model of B. subtilis [4]. WORK or BIOMASS (see Figure 2). These three compo-
nents model different kinds of biological processes which
Improvements to the model resulted in iAbaylyiv2, raising contribute to determining the growth phenotype of
predictive accuracy on Biolog-measured phenotypes from mutant strains (see Methods). The GPR component, con-
86% to 91% of the growth phenotypes (see Figure 1). sisting of the GPR Boolean rules, computes the effect of
Detailed results of the comparison with Biolog results can the genetic perturbation on the activity of reactions in the
be found in Additional file 3. model. The NETWORK component, the actual network of
=7>2!:!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
Table 2: Biolog carbon sources inconsistently predicted by metabolic, the model thus already captured a large part of
iAbaylyiv1 and corresponding corrections the bacterium's essential processes. The thoroughly
Unpredicted Biolog carbon sources 21 curated but also purely metabolic E. coli model iAF1260
includes a similar proportion of E. coli essential genes on
Prediction corrected by addition of transporter 7 glucose-supplemented minimal medium (57%, 238/419)
3-ketobutyrate [12]. As shown in Figure 6, essential genes absent from the
butyrate model were mainly related to functional categories lying
D-aspartate outside of model scope, such as protein fate, DNA metab-
L-asparagine olism, transcription, or regulatory functions. On the other
L-glutamine
hand, essential genes involved in metabolic processes
propionate
pyruvate were largely covered by the model. iAbaylyiv2 already
Prediction corrected by addition of degradation pathway 2 showed good agreement with the observed gene essential-
sorbate ities as 88% of the predictions were identical to the exper-
tricarballylate imental results (respectively 95% of dispensable genes
Biolog result contradicted by additional experiment 5 and 75% of essential genes present in the model, see Fig-
2-ketobutyrate ure 1). As depicted in Figure 7, inconsistencies were
alpha-D-glucose
D-malate
homogeneously distributed across the metabolic catego-
D-xylose ries of the model, with an exception for Transport and
L-arabinose Degradation pathways, which gathered few inconsisten-
Uncorrected inconsistencies – no relevant pathway found 7 cies. Genes in these categories are typically dedicated to
2-hydroxybutyrate the use of external substrates and most of them are not
bromo-succinate required for growth on succinate medium only. Their met-
D-lactate methyl ester
abolic role could thus not be evaluated in this first exper-
methylpyruvate
tween 20
iment: most were accordingly both observed and
tween 40 predicted as dispensable. Gene essentiality experiments
tween 80 on a variety of media were needed to assess the functions
Unpredicted Biolog non carbon sources 5 of these genes in the appropriate environmental context.
Biolog result contradicted by additional experiment 1 It is worth noticing that inconsistency results support our
4-hydroxybenzoate * choice to include medium-confidence genes into the
Uncorrected inconsistencies 4
model. Genes associated with medium-confidence meta-
D-fructose
D-serine
bolic annotations did not trigger more inconsistencies
L-arginine then high-confidence level genes. 18% (47/268) of reac-
L-ornithine tions including at least one medium-confidence gene in
their GPR are associated with an inconsistent gene, a sim-
* result from [15]. Numbers provide the count of inconsistencies ilar proportion to that of reactions containing only high
pertaining to each category. confidence genes (14%, 75/527). We examined the 91
inconsistent predictions of this step and refined the model
reactions, models the metabolic conversion capabilities of for 47 of them (see Table 3 and below for details on the
the organism. Finally, the BIOMASS component, consist- corrections). The refinements were implemented in
ing of the list of metabolites required for growth, models iAbaylyiv3, increasing global accuracy from 88% to 94%.
the biomass precursor requirements of the organism. Improvement was most noticeable for essential genes, as
86% were correctly predicted by iAbaylyiv3. As discussed
Model refinements below, a high number of false isozymes, triggering false
We performed two iterations of refinement using gene dispensable predictions, were detected in this refinement
essentiality data (see Figure 1). In a first step, we used gene step.
essentialities established during the construction of the
ADP1 mutant library to derive an intermediary version of In a second step, the model was evaluated against growth
the model iAbaylyiv3. This experimental dataset is nearly phenotyping assays of mutants from the ADP1 collection
exhaustive as it covers 97% of all A. baylyi genes [8]. The on 8 minimal media supplemented with varying carbon
mutant collection, built on succinate-supplemented min- and nitrogen sources (see Table 4 and Methods). Since all
imal medium, revealed 499 essential genes for this A. baylyi mutants were first obtained on a succinate-sup-
medium. Half of these genes were present in the model plemented minimal medium, essentialities revealed by
(251/499), which is a significantly higher fraction than these assays were strictly conditional. Furthermore, as the
for all A. baylyi genes (24%, 789/3288). Although purely succinate-supplemented medium was already minimal,
=7>2!$!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
ACIAD1990 PEP
& ACIAD1993
(fruAB) pyruvate
ACIAD1992 (fruK)
fructose-1,6-bisphosphate fructose-1-phosphate
glyceraldehyde- dihydroxy-acetone-
3-phosphate phosphate
ACIAD0363
(tpiA)
EMP pathway
Figure
Map 5
of fructose utilization pathway in A. baylyi
Map of fructose utilization pathway in A. baylyi. Fructose utilization pathway produces fructose-1,6-biphosphate which
should be a precursor for the biosynthesis of pentose phosphates and polysaccharides and for the tricarboxylic acid cycle.
Model accordingly predicts growth with fructose as sole carbon source. Phenotyping experiments show no growth of A. baylyi
with fructose as sole carbon source. Supposedly, the Embden-Meyerhof-Parnas (EMP) pathway may not operate in the glyco-
lytic direction in A. baylyi, as already observed for glucose utilization [19,30]. See main text for details.
the set of conditionally essential genes was restricted to tate exhibit similar characteristics since 2,3-butanediol is
the genes directly related to the use of the tested carbon converted to acetate for its utilization [8]. The use of ace-
and nitrogen sources. These were chosen to involve differ- tate as a carbon source requires the activation of the glyox-
ent parts of A. baylyi secondary metabolism (see Table 4). ylate shunt, catalyzed by ACIAD1084 (isocitrate lyase)
Overall, 455 knockout mutants corresponding to genes in and ACIAD2335 (malate synthase G). These genes were
the model could be phenotyped (see Figure 1). therefore found to be essential on 2,3-butanediol and ace-
tate only. Accordingly, the metabolic model correctly pre-
Phenotyping experiments pointed out 2 to 10 condition- dicted the required use of this pathway and the
ally essential genes (from the set of model genes) on each subsequent essentiality of these genes on these media. As
medium (Table 4). While a majority of these genes were shown in Figure 1, iAbaylyiv3 accurately predicted the phe-
essential on a single medium, some were found condi- notypic profiles of 93% of all genes, leaving 33 genes with
tionally essential on several media. This revealed interde- inconsistent predictions on at least one medium. Nine of
pendencies between environments and might be related them led to model corrections, again mainly in the GPR
to processes specific to groups of environments. For component of the model (see Table 3). These corrections,
instance, growth phenotypes on 2,3-butanediol and ace- implemented in iAbaylyiv4, slightly improved the predic-
=7>2!<!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
Figure 6 of A. baylyi essential genes covered by iAbaylyiv2 model distributed by TIGR role categories
Proportion
Proportion of A. baylyi essential genes covered by iAbaylyiv2 model distributed by TIGR role categories. TIGR
role categories were obtained from TIGR automated annotation of A. baylyi [67]. Some genes were associated with multiple
functional classes. NA: no TIGR role has been assigned. For each role category, absolute numbers of genes in the model (left)
and not in the model (right) are provided.
tive accuracy for mutant phenotypes (94%) while keeping ACIAD0964 and ACIAD2907 (prs) were identified in the
the predictive accuracy for the previous datasets initial reconstruction as isozymes for the catalysis of the
unchanged. ribose-phosphate diphosphokinase activity, which is
required for the biosynthesis of 5-phosphoribosylpyro-
Combining both refinement steps, 56 out of 124 incon- phosphate (PRPP) (see Figure 8A). The association of
sistencies led to model corrections. In the following sec- both genes to the activity relied on homologies with pre-
tions, we will discuss these gene essentiality viously annotated genes in other organisms. The expected
inconsistencies in more details irrespective to the dataset and predicted dispensability of ACIAD2907 was yet con-
that triggered them (see also Table 3). Model corrections tradicted by its experimental essentiality. Looking further
will be presented according to the model component that into the annotation evidence, ACIAD0964 function was
was modified. supported by only limited homologies to previously
known genes (second best hit after ACIAD2907 with E.
GPR corrections coli gene prsA, with 25% identity). Conversely,
A majority of the model improvements (34/56) were ACIAD2907 function was supported by a stronger homol-
applied to the GPR component, with a clear bias towards ogy with E. coli gene prsA (68% identity) whose ribose-
false dispensable inconsistencies: 26 GPR corrections per- phosphate diphosphokinase has been experimentally
tained to experimentally essential genes against only 8 to confirmed [32]. The combination of the observed gene
experimentally dispensable genes (see Table 3). This large essentialities with the limited homology supporting the
set of false dispensable predictions includes two main annotation of ACIAD0964 led us to correct the model by
inconsistency types. In 22 cases, isofunctional genes with removing ACIAD0964 from ribose-phosphate diphos-
annotations of medium confidence were in fact unable to phokinase GPR. On the other hand, the functions of some
replace the activity of their deleted isozymes. For instance, isozymes with medium confidence level were corrobo-
=7>2!9#!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
Figure 7 of gene essentiality predictions for dataset 2 and iAbaylyiv2 distributed by model metabolic categories
Consistency
Consistency of gene essentiality predictions for dataset 2 and iAbaylyiv2 distributed by model metabolic cate-
gories. Proportions of genes having inconsistent predictions for essentiality on succinate-supplemented minimal medium in
iAbaylyiv2 are shown for each model metabolic category. Genes linked to several reactions may be associated with multiple cat-
egories. For each metabolic category, absolute numbers of inconsistent (left) and consistent (right) gene essentiality predictions
are provided.
rated by the gene essentialities. For instance, two isozymes that S. cerevisiae possesses the gene ILV3, with a confirmed
were indirectly confirmed to have a dihydroxy-acid dehy- activity [34], which is homologous to ACIAD3636 (51%
dratase activity, which is essential for the synthesis of identity). Overall, amongst the reactions which were
valine, leucine and isoleucine. Two duplicate genes were essential to iAbaylyiv2 viability and associated with an iso-
associated with this activity: ACIAD1266 (ilvD) and zyme of medium confidence-level, 8 showed agreement
ACIAD3636. While the annotation of ACIAD1266 is sup- between predictions and phenotypes while 11 triggered
ported by a strong homology with E. coli gene ilvD (74% inconsistencies. In other words, while some medium-level
identity) whose activity has been experimentally shown genes were discarded thanks to essentiality data, a compa-
[33], ACIAD3636's function was supported only by rable fraction of genes was indirectly confirmed. This
weaker homologies with the reference genes (37% iden- observation provides additional confirmation that essen-
tity with E. coli gene ilvD). Gene knock-outs revealed that tiality data represents a valuable resource, as it helps vali-
both genes were dispensable while the essentiality of date or discard gene functions supported by reasonably
other genes in the pathway strongly suggested that the good but non-conclusive evidence. It also provides an a
dihydroxy-acid dehydratase activity was required. This posteriori validation of the usefulness of including
result strongly suggests that both genes could back up medium-level annotations in the initial model, as failing
each other and therefore indirectly corroborates the func- to do so would have resulted in a significant loss of infor-
tional assignment to ACIAD3636. mation in the A. baylyi metabolic model.
Further examination revealed that the duplicate genes are For three false dispensable predictions, we uncovered
also found together in other organisms, including enzymatic complexes or functional dependencies
Bradyrhizobium japonicum and Bordetella bronchiseptica, and between genes that were absent from the initial recon-
=7>2!99!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9"!0?!"@
Table 3: Inconsistent gene essentiality predictions identified in refinement steps 2 and 3 and corresponding corrections and interpretations
CORRECTION 56 NO CORRECTION 68
BIOMASS 10 Validated explanation 6
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9?!0@!"?
ACIAD2088 (aspQ) E step 3 ACIAD1712 (pcaG) E step 3
ACIAD2983 (gcd) E step 3 ACIAD1744 (aspA) E step 3
presence of an alternate enzyme 6 No precise interpretation 30
Inconsistencies identified during the refinement steps using mutant library essentialities (step 2) and mutant growth phenotypes on 8 media (step 3). Inconsistencies leading to corrections (left
column) are listed according to the model component that was corrected: GPR, NETWORK, and BIOMASS. Inconsistencies with no correction (right column) are listed according to the level of
interpretation that could be drawn. Numbers provide the count of inconsistencies pertaining to each correction or interpretation category. For each inconsistency, E or D indicates the
experimental phenotype of the mutant: E: gene is essential (on at least one medium for step 3), D gene is dispensable (on all media for step 3).
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
Table 4: Mutant phenotyping experiments: growth media and experimental results for genes included in iAbaylyiv3
Carbon nitrogen E D
1 Italic text indicates the changed carbon or nitrogen source with respect to the medium used for mutant construction (succinate and ammonia).
E: number of conditionally essential genes
D: number of dispensable genes
struction: genes thought to be isozymes were in fact spontaneously [37]). See Additional file 3 for further
jointly required to catalyze the reactions. As an illustra- details on these corrections.
tion, ACIAD0661(hisG) and ACIAD1257 (hisZ) were ini-
tially assigned as isozymes of ATP NETWORK corrections
phosphoribosyltransferase reaction in the pathway of his- Twelve gene essentiality inconsistencies from datasets 2
tidine biosynthesis (see Figure 8A). The observed essenti- and 3 led us to improve the NETWORK component of the
ality of both genes suggested that they were both necessary model (see Table 3). Two types of inconsistencies fall
to the activity. Further examination of the literature con- within this category. On the one hand, false dispensable
firmed that, unlike in E. coli, ACIAD0661 forms a complex predictions may indicate that alternate pathways present
with ACIAD1257 [35]. In E. coli, hisG codes for an enzyme in the model are either inactive for the experimental con-
that is active on its own and is not part of a complex. ditions under observation or not present at all. Seven dis-
crepant predictions led us to reconsider alternate
Amongst the false essential predictions which led to mod- pathways in the model. For instance, ACIAD0822,
ifications of the GPR component, six cases involved asso- ACIAD0823, and ACIAD0824 (gatABC), annotated as
ciating additional enzymes to reactions. For instance, aspartyl/glutamyl-tRNA amidotransferase, catalyzed in
ACIAD2968 (ispA, farnesyl diphosphate synthase) was iAbaylyiv2 the synthesis of charged glutamine-tRNA and
observed to be dispensable, even though it is the only cat- charged asparagine-tRNA through the transamidation of
alyst of two reactions essential for the biosynthesis of iso- misacylated glutamate-tRNA(Gln) and aspartate-
prenoids, which are the precursors of vital cofactors (see tRNA(Asn) (see Figure 8C). Charged glutamine-tRNA can
Figure 8B). Previous work showed for E. coli that ispA was also be produced by the direct charging of glutamine on
dispensable and that ispB (octaprenyl diphosphate syn- its tRNA using the glutaminyl-tRNA synthetase enzyme
thase) and ispU (undecaprenyl diphosphate synthase) (ACIAD1920, glnS), however. The observed essentiality of
could perform these activities [36]. A. baylyi's homologues ACIAD1920 is inconsistent with the redundancy of these
to these genes – ACIAD2940 (ispB) and ACIAD1374 two pathways, suggesting that the transamidation of
(ispU) – were therefore added as isozymes of ACIAD2968 glutamate-tRNA(Gln) does not occur in vivo. Furthermore,
for both reactions (see Figure 8B). aspartate-tRNA(asn) transamidation is actually the only
way of producing asparagine, as A. baylyi is lacking both
The remaining types of GPR refinement involved associat- asparagine synthetase and asparaginyl-tRNA synthetase
ing genes with already existing essential reactions enzymes. This result strongly suggests that, in A. baylyi,
(ACIAD2606: associated with nicotinate-nucleotide ade- ACIAD0822-0824 genes are predominantly employed for
nylyltransferase activity, which is essential for NAD bio- asparagine-tRNA synthesis. To account for ACIAD1920
synthesis), adding new complex subunits (ACIAD0799: essentiality, we thus removed the glutamate-tRNA(Gln)
falsely considered as a sulfite reductase subunit and transamidation pathway from the metabolic network.
replaced by ACIAD2981 after further investigations) or
assigning spontaneous activity (ACIAD2819: encodes for On the other hand, false essential predictions may suggest
gluconolactonase activity which has been shown to occur that alternate pathways are missing from the model. Cor-
rections of this type involve searching for new metabolic
=7>2!9?!0@!"A
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
iAbaylyi v2 iAbaylyi v3
A ribose-5-phosphate ribose-5-phosphate
PRPP PRPP
phosphoribosyl-ATP phosphoribosyl-ATP
protein protein
histidine histidine
B dimethylallyl-PP dimethylallyl-PP
cofactors cofactors
undecaprenyl-PP octaprenyl-PP undecaprenyl-PP octaprenyl-PP
C
glutamate aspartate aspartate
fructose-6-phosphate fructose-6-phosphate
D
ACIAD0086 ACIAD0101 ACIAD0086 ACIAD0101
ACIAD0902 OR ACIAD0902 OR
ACIAD0104 ACIAD0104 ACIAD0104 ACIAD0104
=7>2!9'!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
Figurecorrection
Model 8 (see previous
examples
page)
Model correction examples. Examples of model corrections performed between iAbaylyiv2 (left) and iAbaylyiv3 (right) mod-
els. Metabolites are depicted by blue circles and triangles, triangles indicating essential biomass precursors. Reactions are rep-
resented by arrows colored in red if they are predicted essential and in green if they are predicted dispensable. Gene names
are indicated next to reaction arrows; they are written in red if they are experimentally essential and in green if they are dis-
pensable. Genes with inconsistent predictions are written in bold italic. Dashed boxes indicate components that have been
modified. Further evidence for model corrections are shown in main text and Additional file 3. (A) First steps of histidine bio-
synthesis. Unpredicted essentiality of ACIAD2907 encoding for ribose-phosphate diphosphokinase activity was corrected by
removing the alternate gene ACIAD0964 from the reaction GPR. Unpredicted essentialities of ACIAD0661 and ACIAD1257,
catalyzing the ATP phosphoribosyltransferase reaction, were corrected by assigning them as complex subunits instead of iso-
zymes in the reaction GPR. (B) Isoprenoids biosynthesis. Unpredicted dispensability of ACIAD2968, catalyzing farnesyl-diphos-
phate and geranyl-diphosphate synthases activities, was corrected by adding ACIAD1374 (undecaprenyl-diphosphate synthase)
and ACIAD2940 (octaprenyl-diphosphate synthase) as isozymes. Unpredicted essentiality of ACIAD1374 was resolved by add-
ing undecaprenyl-PP to the set of essential biomass precursors. (C) Synthesis of charged glutamine-tRNA(gln) and asparagine-
tRNA(asn). Unpredicted essentiality of ACIAD1920, encoding for glutaminyl-tRNA synthetase activity, was corrected by
removing from the model the alternate pathway using aspartyl/glutamyl-tRNA amidotransferase enzyme (ACIAD0822-0824).
(D) Biosynthesis of polysaccharides. Unpredicted dispensabilities of all genes involved in GDP-mannose, UDP-glucose, and
dTDP-rhamnose synthesis were corrected by removing these three metabolites from the list of essential biomass precursors.
activities, a task that is open-ended and exploratory in Conversely, false dispensable inconsistencies may
nature and is likely to require additional experimental uncover essential metabolites that were initially over-
work. Five inconsistencies led to the addition of new reac- looked. For instance, undecaprenyl diphosphate, a cofac-
tions to the model, mainly for the transport of metabo- tor required for the synthesis of peptidoglycan, was not
lites. part of the biomass precursors list in iAbaylyiv2.
ACIAD1374 (ispU, undecaprenyl pyrophosphate syn-
BIOMASS corrections thetase), involved in its synthesis, was observed essential,
Ten inconsistent gene essentiality predictions led to mod- although predicted dispensable (see Figure 8B). As this
ifications of the BIOMASS component (see Table 3). False cofactor is regenerated during the peptidoglycan building
essential inconsistencies can reveal biomass precursors process, its synthesis was actually not required at steady
that are not necessary to the viability of the cell on the state. We therefore added undecaprenyl diphosphate to
tested environments, yet commonly produced by the the list of essential metabolites in order to account for its
wild-type strain. For instance, a large fraction of the BIO- required synthesis and resolve the unpredicted essentiality
MASS modifications (8/10) were found in the biosynthe- of ACIAD1374. An alternate method was recently intro-
sis of polysaccharides. Based on studies of the duced to account for the non-constitutive requirement for
lipopolysaccharides composition of Acinetobacter species cofactors [27]. Small consumption terms are added for
[38,39], three nucleotide sugars were initially included in each cofactor in the equation of reactions involving them,
the list of essential biomass precursors. All genes specifi- thereby creating a replenishing flux of cofactor when reac-
cally involved in the synthesis of these sugars were found tions are active. This replenishing flux enforces the synthe-
to be dispensable for growth on these in vitro environ- sis of the cofactor when required. While this method
ments (see Figure 8D). Further investigations are needed allows discarding cofactors from the general biomass
to analyze the composition of polysaccharides in the cor- requirements, it involves remodeling the reaction equa-
responding mutants and interpret the robustness to these tions in an artificial manner.
deletions. Although dispensable in our experimental
growth conditions, complete polysaccharides are likely to Interpretation of remaining inconsistencies
be essential on more realistic environments. Cell surface The analysis of inconsistent predictions did not always
polysaccharides play an important role to help coloniza- lead to model refinement. Either the explanation of the
tion and prevent desiccation while secreted polysaccha- discrepancy did not lead to model refinement, or no
rides are assumed to provide A. baylyi with better uptake explanation interpreting the discrepancy could be vali-
capabilities of hydrophobic compounds in natural envi- dated.
ronments [19,40]. In order to account for these viable
phenotypes on our experimental conditions, all three sug- Six discrepancies were confidently interpreted yet did not
ars were removed from the list of biomass precursors. lead to model modifications (see Table 3). In one case, we
identified a wrong experimental result. Four inconsisten-
cies pertained to the pathway of biotin synthesis, whose
=7>2!9?!0@!"A
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
essentiality could not be accounted for by the model. The final model: iAbaylyiv4
Since the initial step of this pathway is unknown, it could The overall refinement process led to the final model
not be linked to the metabolic network, preventing the iAbaylyiv4 gathering 774 genes, 875 reactions and 701
model from simulating biotin synthesis. One inconsist- metabolites (see Figure 1). iAbaylyiv4 integrates all refine-
ency was caused by a requirement for a cofactor that could ments resulting from the three experimental datasets
not be modeled. Two different methionine synthase introduced in this work. Accordingly, its predictions are
enzymes catalyze the conversion of homocysteine to consistent with the experimental results in 91% of the
methionine: one B12-independent encoded by cases for dataset 1, 94% of the cases for dataset 2, and 94%
ACIAD3523 (metE) and one B12-dependent encoded by of the cases for dataset 3. Compared with iAbaylyiv1, it was
ACIAD1045 (metH). Since coenzyme-B12 is neither syn- expanded by 19 reactions and 2 genes, while 3 reactions
thesized by A. baylyi nor provided in the experimental and 16 genes were removed in the refinement process (see
media, the !ACIAD3523 mutant was unable to use the Figure 1, Model corrections).
MetH enzyme to synthesize methionine. The model could
not account for this B12 auxotrophy of the !ACIAD3523 An online software tool for the exploration of
mutant. In order to properly account for the dependency Acinetobacter baylyi metabolism
between MetH activity and the presence of a cofactor, the In order to facilitate the exploration of A. baylyi metabo-
replenishing flux method can be employed [27] or the lism using the genome scale model, we created NemoStu-
modeling framework could be extended by introducing dio [20] (Combe et al, in preparation), a web interface
rules that state which conditions are required for the combining a simulation layer for the model with Acineto-
enzymes to be active. The introduction of this additional Cyc, A. baylyi Pathway-Genome Database [21]. NemoStu-
layer of rules has already been proposed to account for dio gathers data on functional genomics annotations,
regulatory constraints [41] and may be helpful to explain metabolic reactions and pathways, and experimental
a number of inconsistent phenotypes. mutant phenotyping results within a single interface.
Additionally, it allows performing phenotype predictions
For 62 inconsistencies, we could not reach a validated using the constraint-based model.
explanation within the scope of this global analysis (see
Table 3). For 32 of them, we could formulate hypothetical AcinetoCyc gathers information on the metabolic net-
interpretations, all of which need experimental confirma- work of A. baylyi and is used to display interactive meta-
tion. A high proportion of these possible interpretations bolic maps. After its initial automated construction using
involve regulatory processes. For instance, A. baylyi pos- PathoLogic [21], AcinetoCyc has been undergoing con-
sesses like E. coli two distinct enzymes for glutamate syn- stant curation. It includes all metabolic reactions present
thesis: glutamate synthase, encoded by ACIAD3350 (gltB) in the model.
and ACIAD3349(gltD), and glutamate dehydrogenase,
encoded by ACIAD1110 (gdhA). In E. coli, these pathways NemoStudio integrates the latest version of A. baylyi met-
were shown to be regulated in response to nitrogen limi- abolic model, iAbaylyiv4. Growth phenotype predictions
tations [42]: glutamate synthase is used at low ammo- can be performed for any set of environmental conditions
nium concentrations while glutamate dehydrogenase is and genetic perturbations of this study. We implemented
used at high ammonium concentrations. E. coli strains both Flux Balance Analysis (FBA) and Metabolite Produc-
lacking glutamate synthase show severe growth deficiency ibility methods to predict growth phenotypes (see Meth-
at low ammonium concentrations [42]. Similarly, ods). When performed on sets of environmental
ACIAD3350 and ACIAD3349 were found essential in A. conditions and sets of gene deletions, prediction results
baylyi on the succinate-supplemented minimal medium. are displayed in a table format in parallel to the actual
These phenotypes contradicted model predictions, which experimental results. Predictions can thus be readily com-
considered the alternate pathway for glutamate synthesis. pared with the experimental observations. Furthermore,
Further investigation would be required to fully under- predicted and experimental phenotypes are both dis-
stand the regulatory processes at work in this pathway for played on AcinetoCyc metabolic maps, and conversely
A. baylyi and extension of the modeling framework should gene deletions can be directly set from these metabolic
be conducted to account for regulatory processes within maps (see Figure 9). When performed for a single environ-
the model. ment and a single genetic perturbation, FBA predicts an
optimal flux distribution towards biomass production;
The remaining 30 inconsistencies could not be given a these fluxes are both displayed in a table and on Acineto-
clear interpretation and also require further investiga- Cyc metabolic pathways.
tions.
The availability of this resource as a web interface makes
it easily usable by scientists interested in A. baylyi metabo-
=7>2!9:!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
lism. Compared with previous web-based software for assist or even drive future investigations on this bacte-
genome-scale metabolic modeling [27], the A. baylyi rium, helping for instance interpret other types of experi-
NemoStudio interface provides better interactivity, direct mental data beyond growth phenotypes, or engineer its
visualization of results on metabolic maps and integrated metabolism. An increasing number of metabolic engi-
comparison with experimental data. By interfacing as neering strategies are being designed with the help of
much as possible results deriving from systems level anal- genome-scale metabolic model predictions [43,44]: the
yses with experimental data of various forms, it allows the availability of the A. baylyi model should facilitate efforts
simultaneous exploitation of both information types. towards biotechnology goals. The A. baylyi model may
also serve as a basis for the reconstruction of metabolic
Conclusion models of the pathogen strains Acinetobacter baumanii.
In this work, we reconstructed a genome-scale model of These strains, which are involved in serious nosocomial
Acinetobacter baylyi metabolism from the annotation of its infections worldwide and have acquired multidrug-resist-
genome, metabolic knowledge reported in the literature, ance capabilities[13], share a significant number of meta-
and results of high-throughput experiments. The model bolic genes with A. baylyi [45]. This model is also the
provides a curated and structured representation of this fourth genome-scale bacterial metabolic model to be
species's metabolism for use both as a reference and as a accompanied by an exhaustive mutant library (with E. coli
foundation for further study. The reconstruction accounts [5,12], Bacillus subtilis [4,6], and Pseudomonas aeruginosa
for 875 reactions, 701 distinct metabolites, and 774 PAO1 [46,47]). The proximity between A. baylyi and P.
genes, and includes nearly all metabolic routes and bio- aeruginosa, and to a lesser extent E. coli, and the availability
chemical conversions identified for A. baylyi. A significant of model/mutant library pairs provides an invaluable
proportion of reactions belong to pathways of secondary setup for comparing the metabolism of different species
metabolism that are characteristic of A. baylyi's physiology [8].
and lifestyle. The model thus reflects the specific ability of
A. baylyi to utilize various chemicals originating from Several rounds of comparisons of model predictions to
plant metabolism, e.g. aromatic acids, hydroxylated aro- large-scale experimental results led to significant model
matic acids, or straight chain dicarboxylic acids. It may improvements. First, growth phenotypes of the wild-type
=7>2!9$!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
strain on 190 distinct environments resulted in the addi- here to be the main area of model improvement. The asso-
tion of 9 transporters and 2 pathways to the model. After ciation between genes and reactions can be complex as
improvement, the model accounted correctly for the regulatory constraints may interfere with the actual gene
growth phenotypes on 173 of the 190 environments. Sec- function assignments. Computational strategies are there-
ondly, we assessed the model against gene essentiality fore needed to help interpret the consequences of gene
results on 9 defined environments. In contrast with wild- essentiality data on gene activities.
type growth phenotypes, these data can bring indirect
information on the gene functions or on the existence of Deriving the full benefits from a metabolic model entail
alternate pathways. Investigation on the causes of incon- both accessing its components and using its predictive
sistencies led us to modify the model in 56 cases out of capabilities. We realized the former by providing access to
124 inconsistent predictions. All model components were a detailed metabolic pathways database, the latter
modified, the GPR component gathering most of the through a software tool that performs online predictions,
improvements. The model accuracy in predicting mutant both being coupled at the level of genes and reactions and
growth phenotypes increased from 88% to 94% on succi- accessible through a single, highly-interactive interface.
nate-supplemented minimal medium and from 93% to This interface allows end-users to carry systems level pre-
94% for the combined conditional gene essentiality dictions, and compare them with corresponding experi-
results on 8 media. High-throughput phenotype clearly mental observations, putting the consequences of
improved the quality of the model and expanded our modeling in the context of the detailed biological infor-
understanding of A. baylyi metabolism, providing a valua- mation that went into the model. This tool should there-
ble complement to the annotation and the literature. The fore provide researchers interested in A. baylyi metabolism
refinement process was particularly useful in validating or with a valuable resource for investigating its phenotypic
contradicting functional annotations that stood in the and physiological properties.
"grey zone", i.e. for which the annotation process pro-
vided only medium-level evidence. Methods
Initial reconstruction process
Conversely, the model allowed systematic evaluation of The initial reconstruction of the metabolic network was
the results of these high-throughput experiments by com- carried out using data provided by (i) the genome expert
paring them to its predictions. Inconsistencies directly tar- annotation [19], (ii) the BioCyc metabolic pathway data-
geted informative experimental results for which further base automatically generated from these annotations [21]
investigation are required. As shown in this work, not all and (iii) various literature resources on biochemistry,
inconsistencies led to model improvements. Some of including textbooks, reviews and journal publications
them could be interpreted in terms of biological processes (see Additional file 2). The genome annotation was
lying outside the scope of the modeling framework, prob- downloaded from the MaGe interface [50,51] and used as
ably regulation in most cases. In addition, a significant input of the Pathway Tools software [21] in order to gen-
number of discrepancies reported in this work remained erate a BioCyc automatic reconstruction of the metabolic
unexplained or led to hypotheses in need of confirmation network. The predicted pathways were classified into 7
through further study. metabolic categories (central metabolism, nucleotide
metabolism, amino acids metabolism, lipid & cell wall
The process described here was driven by expert curation: metabolism, degradation pathways, cofactor biosynthe-
each inconsistency was manually examined in order to sis, transport) and examined manually before being
search for an interpretation and a possible model correc- included in the model. In order to meet the requirements
tion, a labor-intensive proposition. The systematic use of of the modeling framework the mass balance and reversi-
such experimental data for model refinements would be bility of the reactions were checked.
greatly facilitated by the development of computational
methods assisting the curator with his task, however. A Reversibility of the reactions was determined from litera-
number of methods have been developed to search for ture evidence when available or based on simple thermo-
variants of model which match better with additional dynamic considerations [52]. Proton translocation
experimental data, mainly by seeking additions or remov- efficiencies of reactions of the respiratory chain were
als of reactions in the metabolic network [48,49]. These assumed to be similar to those of E. coli [53]. Resulting P/
methods have already proven efficient at suggesting met- O ratio can range between 0.5 to 2, depending on the
abolic pathways that account for previously unexplained types of cytochrome oxidase and NADH dehydrogenase
growth on specific environments [48]. While they can be that are used. Reactions using generic compounds (for
adapted to handle growth phenotypes of knockout example a nitrile or a polymer of undetermined length)
mutant strains, they do not involve the gene-reaction were instantiated with defined representative metabolites.
association component of the model, which is shown In this respect, polymeric pathways were expanded into
=7>2!9<!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
chains of specific reactions. Large polymeric molecules using linear programming tools. The main constraint is
such as the acyl carrier protein (ACP) or tRNAs were imposed by the steady-state assumption, represented by
included in the model when they were involved as sub- the matrix equation:
strate cofactors of biochemical reactions. Their specific
synthesis was not considered in the model. Dependency S·v = 0
between reactions and genes were coded by Gene-Protein-
Reaction (GPR) Boolean relationships (see below). Using where S is the stoichiometric matrix of the metabolic net-
the Cyclone interface to BioCyc [54], we implemented a work and ! the vector of reaction fluxes. The stoichiomet-
simple method based on gene homologies between ric matrix is a matrix of size (m × n) where m is the number
Escherichia coli and Acinetobacter baylyi to infer enzyme of metabolites and n the number of reactions. Each ele-
complexes and find AND Boolean associations between ment Si,j of the matrix represents the relative stoichiomet-
genes. Information from the literature was used to close ric coefficient of metabolite i in reaction j. Additional
gaps in the metabolic pathways, include pathways specific constraints on the fluxes, such as irreversibility and capac-
to A. baylyi that were unknown to the metabolic data- ity constraints, are imposed by inequalities in the form:
bases, and check the predicted pathways, for instance for
the specificity of the cofactors. Physiological information !lb, i " !i " !ub, i
derived from the literature [15,55-59] was used together
with genome annotation tools, e.g. TransportDB [60], to where !lb,i and !ub,i are respectively the lower and upper
add transport reactions in the model. A generic transport bounds of the flux of reaction i.
reaction was added to the model for each metabolite
shown to be utilized by A. baylyi. A fixed biomass compo- Environmental conditions are applied to the model by
sition was chosen according to data found in the literature constraining the exchange fluxes of extracellular metabo-
for strains growing on standard media (see Additional file lites. Exchange fluxes are sink reactions allowing to con-
4). This biomass composition was used to build the trol the input or output of metabolites in the model. They
reduced list of essential biomass precursors and derive a are constrained to 0 " !i " # for metabolites absent from
biomass reaction for Flux Balance Analyses (see below). the medium and -# " !i " # for metabolites present in the
To help properly account for all metabolic requirements medium, except for limiting nutrients for which a maxi-
associated with growth, we decomposed the biomass reac- mum uptake rate is chosen (-!uptake " !i " #). When simu-
tion into a set of intermediary biomass reactions synthe- lating the metabolic network of a knockout mutant, the
sizing generic cell constituents (e.g. protein, DNA, RNA, activity of each reaction is determined by evaluating its
or lipid) from precursor metabolites and a global growth GPR association according to the set of removed genes.
reaction consuming them according to the chosen bio- Fluxes of the inactivated reactions are constrained to be
mass composition. See Additional file 4 for details on equal to zero.
these reactions.
The BIOMASS component models the essential metabolic
Modeling framework requirements for growth. It consists of a list of metabolites
The metabolic model is composed of three components, that are considered to be essential biomass precursors.
namely GPR, NETWORK and BIOMASS. The GPR compo- Growth phenotype is therefore determined by checking
nent models the dependency between genes and reactions their producibility [26]. To do so, the steady-state con-
using Boolean functions usually called gene-protein-reac- straints for the essential biomass precursors are changed
tion (GPR) associations [22]). For each reaction, a to strict producibility constraints:
Boolean rule encodes how genes are related to the activity.
Genes that are required together are linked with an AND S internal ⋅ ! = 0
relation while isofunctional genes are linked with an OR
relation. The set of GPR associations yields the set of S biomassprecursors ⋅ ! ≥ $
! ≤ ! ≤ !
potentially active reactions given the set of available lb ,i i ub ,i
genes.
where Sinternal is the stoichiometric matrix without the bio-
The NETWORK component models the metabolic net- mass precursors, Sbiomass precursors the stoichiometric matrix
work using the constraint-based modeling framework [3]. restricted to the biomass precursors and $ a vector of small
This framework describes the distributions of reaction reals, taken as 10-3. Linear programming tools are used to
fluxes that are compatible with constraints that derive query for a flux distribution fulfilling this set of con-
from basic physical assumptions or specific biological straints. If a flux distribution could be found, the model
information. They are usually formulated as linear con- predicted growth, otherwise it predicted no growth.
straints, which allow to explore the fluxes solution space
=7>2!"#!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
In order to assess quantitative growth defects, Flux Bal- Growth phenotyping of the mutant strains
ance Analyses (FBA) were performed [3]. A biomass reac- Detailed experimental protocol for the growth phenotyp-
tion was introduced in the model to quantitatively ing of the mutant strains is described in [8]. Basically,
account for the respective contributions of constituent using 96-wells plates, the mutant strains were grown in
metabolites in the biomass composition (see Additional liquid MA minimal media (31 mM Na2HPO4, 25 mM
file 4). Using linear programming, the flux through this KH2PO4, 18 mM NH4Cl, 41 !M nitrilotriacetic acid, 2
reaction was maximized under all constraints, represent- mM MgSO4, 0.45 mM CaCl2, 3 !M FeCl3, 1 !M MnCl2,
ing the maximal growth rate achievable by the model. 1 !M ZnCl2, 0.3 !M (CrCl3, H3BO3, CoCl2, CuCl2,
Energetic parameters, including growth associated (GAM) NiCl2, Na2NoO4, Na2SeO3)) supplemented with 25
and non growth associated (NGAM) maintenance fluxes, mM of carbon sources. Succinate/urea medium was com-
were assumed to be similar to those of E. coli model [22]. posed of MA minimal medium without NH4Cl supple-
We chose to set NGAM to a constant ATP hydrolysis flux mented with 25 mM of succinate and 20 mM of urea.
of 10 mmol/h/gDW and GAM to a value of 40 mmol/ Absorbance at 600 nm of 24 h cultures was measured to
gDW of ATP in the growth reaction. In all simulations, monitor growth. Experiments were performed in dupli-
upper bounds of nutrient exchange fluxes were set to 10 cates. Measures with discrepant repeats or with weak pre-
mmol/h/gDW for carbon sources and 100 mmol/h/gDW cultures were discarded from the analyses. Repeats were
for other nutrients (see Additional file 2). filtered according to the following rule: a measure was
kept if either (1) both repeats were under the growth
Model simulations were performed within FluxAnalyzer threshold or (2) the relative difference between the
[61] and MATLAB® (The MathWorks Inc., Natick, MA) repeats was lower than 50% of the highest value. A thresh-
using the YALMIP optimization toolbox [62] and MOSEK old of a tenth of the mean absorbance was chosen to clas-
optimization solver (Mosek ApS, Copenhagen, Den- sify the mutants in growth or no growth categories. This
mark). threshold was chosen particularly low in order to consider
as essential only mutants with marked fitness defect.
Availability of metabolic model
The metabolic model is available both as Excel and SBML Authors' contributions
files (see Additional files 2 and 5) and will be submitted MD reconstructed the initial model, performed model
to the Biomodels.net repository [63]. Whenever possible, predictions, interpreted inconsistent phenotypes, applied
cross-references for the model reactions and species to model corrections, and wrote the manuscript. FLF recon-
AcinetoCyc [20], KEGG [64] and BiGG [65] databases are structed the initial model and developed the NemoStudio
provided. software tool. VDB participated in the experimental phe-
notyping and the interpretation of inconsistent pheno-
The model is accessible through the NemoStudio web types. AK and DV participated in the initial reconstruction
interface [20]. NemoStudio supports growth phenotype and the interpretation of inconsistent phenotypes. CC
predictions, and comparison to experimental results, as and SS developed the NemoStudio software tool. MS par-
well as browsing of model pathways through an interface ticipated in the experimental phenotyping and the inter-
with AcinetoCyc [20]. pretation of inconsistent phenotypes. JW participated in
the design and the coordination of the study. VS con-
Growth phenotyping of the wild-type strain ceived of the study, participated in its design and coordi-
Growth phenotyping experiments of A. baylyi were per- nation, and contributed to writing the manuscript. All
formed by Biolog, Inc. (Hayward, CA) following experi- authors read and approved the final manuscript.
mental procedures described in [66]. Basically, growth of
wild-type strains of A. baylyi was monitored in PM1 and Additional material
PM2 microplates containing a defined minimal medium
supplemented with 190 distinct carbon sources. The
Biolog quantitative growth measures were discretized to Additional file 1
Sensitivity on GAM and NGAM parameters of growth rate predic-
yield growth/no-growth qualitative phenotypes by choos- tions. This file contains two plots showing the effect of changing growth
ing thresholds based on the negative growth control associated (GAM) and non growth associated (NGAM) maintenance
measures and previously known growth phenotypes for A. parameters on quantitative growth rate predictions with iAbaylyiv4.
baylyi. Growth phenotypes that were inconsistent with Click here for file
model predictions were checked by examining results [http://www.biomedcentral.com/content/supplementary/1752-
0509-2-85-S1.pdf]
from previous work [15], or retesting them individually.
Detailed results of Biolog experiments are provided in
Additional file 3.
=7>2!"9!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!""!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
converts tricarballylate into cis-aconitate. J Bacteriol 2006, 49. Herrgård MJ, Fong SS, Palsson BØ: Identification of genome-scale
188:5479-5486. metabolic network models using experimentally measured
29. Lewis JA, Horswill AR, Schwem BE, Escalante-Semerena JC: The Tri- flux profiles. PLoS Comput Biol 2006, 2:e72.
carballylate utilization (tcuRABC) genes of Salmonella 50. MaGe (Magnifying Genomes) – Microbial Genome Annota-
enterica serovar Typhimurium LT2. J Bacteriol 2004, tion System [http://www.genoscope.cns.fr/agc/mage/]
186:1629-1637. 51. Vallenet D, Labarre L, Rouy Z, Barbe V, Bocs S, Cruveiller S, Lajus A,
30. Taylor WH, Juni E: Pathways for biosynthesis of a bacterial cap- Pascal G, Scarpelli C, Médigue C: MaGe: a microbial genome
sular polysaccharide. I. Carbohydrate metabolism and ter- annotation system supported by synteny results. Nucleic Acids
minal oxidation mechanisms of a capsuleproducing coccus. J Res 2006, 34:53-65.
Bacteriol 1961, 81:694-703. 52. Ma H, Zeng A-P: Reconstruction of metabolic networks from
31. Schneider BL, Kiupakis AK, Reitzer LJ: Arginine catabolism and genome data and analysis of their global structure for vari-
the arginine succinyltransferase pathway in Escherichia coli. ous organisms. Bioinformatics 2003, 19:270-277.
J Bacteriol 1998, 180:4278-4286. 53. Gennis RB, Stewart V: Respiration. In Escherichia coli and Salmonella:
32. Hove-Jensen B, Harlow KW, King CJ, Switzer RL: Phosphoribo- cellular and molecular biology Volume 1. Edited by: Neidhardt FC. Wash-
sylpyrophosphate synthetase of Escherichia coli. Properties ington, D.C.: ASM Press; 1996:217-261.
of the purified enzyme and primary structure of the prs 54. Le Fevre F, Smidtas S, Schachter V: Cyclone: Java-based querying
gene. J Biol Chem 1986, 261:6765-6771. and computing with Pathway Genome Databases. Bioinfor-
33. Lawther RP, Wek RC, Lopes JM, Pereira R, Taillon BE, Hatfield GW: matics 2007.
The complete nucleotide sequence of the ilvGMEDA operon 55. Williams PA, Ray CM: Catabolism of Aromatic Compounds by
of Escherichia coli K-12. Nucleic Acids Res 1987, 15:2137-2155. Acinetobacter. In Acinetobacter Molecular Biology 1st edition. Ger-
34. Velasco JA, Cansado J, Peña MC, Kawakami T, Laborda J, Notario V: ischer U: Caister Academic Press; 2008:99-117.
Cloning of the dihydroxyacid dehydratase-encoding gene 56. Eby DM, Beharry ZM, Coulter ED, Kurtz DM, Neidle EL: Character-
(ILV3) from Saccharomyces cerevisiae. Gene 1993, ization and evolution of anthranilate 1,2-dioxygenase from
137:179-185. Acinetobacter sp. strain ADP1. J Bacteriol 2001, 183:109-118.
35. Sissler M, Delorme C, Bond J, Ehrlich SD, Renault P, Francklyn C: An 57. Jones RM, Collier LS, Neidle EL, Williams PA: areABC genes
aminoacyl-tRNA synthetase paralog with a catalytic role in determine the catabolism of aryl esters in Acinetobacter sp.
histidine biosynthesis. Proc Natl Acad Sci USA 1999, 96:8985-8990. Strain ADP1. J Bacteriol 1999, 181:4568-4575.
36. Fujisaki S, Takahashi I, Hara H, Horiuchi K, Nishino T, Nishimura Y: 58. Jones RM, Pagmantidis V, Williams PA: sal genes determining the
Disruption of the structural gene for farnesyl diphosphate catabolism of salicylate esters are part of a supraoperonic
synthase in Escherichia coli. J Biochem (Tokyo) 2005, cluster of catabolic genes in Acinetobacter sp. strain ADP1.
137:395-400. J Bacteriol 2000, 182:2018-2025.
37. Parke SA, Birch GG, MacDougall DB, Stevens DA: Tastes, struc- 59. Ratajczak A, Geissdörfer W, Hillen W: Alkane hydroxylase from
ture and solution properties of D-glucono-1,5-lactone. Chem Acinetobacter sp. strain ADP1 is encoded by alkM and
Senses 1997, 22:53-65. belongs to a new family of bacterial integral-membrane
38. Bryan BA, Linhardt RJ, Daniels L: Variation in composition and hydrocarbon hydroxylases. Appl Environ Microbiol 1998,
yield of exopolysaccharides produced by Klebsiella sp. strain 64:1175-1179.
K32 and Acinetobacter calcoaceticus BD4. Appl Environ Micro- 60. Ren Q, Kang KH, Paulsen IT: TransportDB: a relational database
biol 1986, 51:1304-1308. of cellular membrane transport systems. Nucleic Acids Res
39. Thorne KJ, Thornley MJ, Glauert AM: Chemical analysis of the 2004, 32:D284-D288.
outer membrane and other layers of the cell envelope of Aci- 61. Klamt S, Stelling J, Ginkel M, Gilles ED: FluxAnalyzer: exploring
netobacter sp. J Bacteriol 1973, 116:410-417. structure, pathways, and flux distributions in metabolic net-
40. Kaplan N, Zosim Z, Rosenberg E: Reconstitution of emulsifying works on interactive flux maps. Bioinformatics 2003, 19:261-269.
activity of Acinetobacter calcoaceticus BD4 emulsan by 62. Löfberg J: YALMIP: A Toolbox for Modeling and Optimization
using pure polysaccharide and protein. Appl Environ Microbiol in MATLAB. Proceedings of the CACSD Conference; Taipei, Taiwan
1987, 53:440-446. 2004.
41. Covert MW, Palsson BO: Constraints-based models: regulation 63. BioModels Database [http://www.ebi.ac.uk/biomodels/]
of gene expression reduces the steady-state solution space. 64. KEGG: Kyoto Encyclopedia of Genes and Genomes [http://
J Theor Biol 2003, 221:309-325. www.genome.jp/kegg/]
42. Reitzer LJ: Ammonia assimilation and the biosynthesis of 65. BiGG Database [http://bigg.ucsd.edu/]
glutamine, glutamate, aspartate, asparagine, L-alanine, and 66. Bochner BR, Gadzinski P, Panomitros E: Phenotype microarrays
D-alanine. In Escherichia coli and Salmonella: cellular and molecular biol- for high-throughput phenotypic testing and assay of gene
ogy Volume 1. Edited by: Neidhart FC. Washington, D.C.: ASM Press; function. Genome Res 2001, 11:1246-1255.
1996:391-407. 67. Peterson JD, Umayam LA, Dickinson T, Hickey EK, White O: The
43. Burgard AP, Pharkya P, Maranas CD: Optknock: a bilevel pro- Comprehensive Microbial Resource. Nucleic Acids Res 2001,
gramming framework for identifying gene knockout strate- 29:123-125.
gies for microbial strain optimization. Biotechnol Bioeng 2003,
84:647-657.
44. Pharkya P, Burgard AP, Maranas CD: OptStrain: a computational
framework for redesign of microbial production systems.
Genome Res 2004, 14:2367-2376.
45. Vallenet D, Nordmann P, Barbe V, Poirel L, Mangenot S, Bataille E, Publish with Bio Med Central and every
Dossat C, Gas S, Kreimeyer A, Lenoble P, et al.: Comparative anal-
ysis of Acinetobacters: three genomes for three lifestyles. scientist can read your work free of charge
PLoS ONE 2008, 3:e1805. "BioMed Central will be the most significant development for
46. Jacobs MA, Alwood A, Thaipisuttikul I, Spencer D, Haugen E, Ernst S, disseminating the results of biomedical researc h in our lifetime."
Will O, Kaul R, Raymond C, Levy R, et al.: Comprehensive trans-
poson mutant library of Pseudomonas aeruginosa. Proc Natl Sir Paul Nurse, Cancer Research UK
Acad Sci USA 2003, 100:14339-14344. Your research papers will be:
47. Oberhardt MA, Puchalka J, Fryer KE, Santos VAPMD, Papin JA:
Genome-scale metabolic network analysis of the opportun- available free of charge to the entire biomedical community
istic pathogen Pseudomonas aeruginosa PAO1. J Bacteriol peer reviewed and published immediately upon acceptance
2008, 190:2790-2803.
48. Reed JL, Patel TR, Chen KH, Joyce AR, Applebee MK, Herring CD, cited in PubMed and archived on PubMed Central
Bui OT, Knight EM, Fong SS, Palsson BO: Systems approach to yours — you keep the copyright
refining genome annotation. Proc Natl Acad Sci USA 2006,
103:17480-17484. Submit your manuscript here: BioMedcentral
http://www.biomedcentral.com/info/publishing_adv.asp
=7>2!"?!0@!"?
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
Maxime DUROT Thèse de doctorat 2009
9 Synthèse
9.1 Le modèle confronte efficacement données
phénotypiques et connaissance du métabolisme
Comme soulevé dans l’introduction de cette thèse, l’interprétation à l’échelle
moléculaire des phénotypes de croissance d’un organisme nécessite de prendre en
compte une large variété de processus biologiques. L’utilisation d’un modèle
métabolique global permet d’orienter cette interprétation du point de vue du
métabolisme. En effet, le fonctionnement de l’ensemble des processus métaboliques y
est explicitement modélisé et leur lien à la croissance est pris en compte à l’aide d’une
réaction de biomasse ou d’une liste de métabolites précurseurs essentiels à la
croissance. La définition de ces dernières regroupe en quelque sorte l’action de tous
les autres processus biologiques non modélisés contribuant à la croissance et permet
effectivement de relier l’action du métabolisme aux phénotypes. En d’autres termes,
l’utilisation conjointe d’un modèle (mécaniste) du métabolisme et d’une réaction de
biomasse permet d’étudier isolément le rôle du métabolisme dans l’établissement des
phénotypes de croissance.
62
Dans l’hypothèse où la liste des précurseurs essentiels de biomasse ne change pas
avec l’environnement. Cette hypothèse, relativement correcte pour des
environnements proches (p. ex. les différents milieux minimaux utilisés ici), peut
devenir complètement fausse lorsque les environnements exigent des adaptations
physiologiques différentes de la cellule. Nous en discuterons plus en détail dans la
section sur les limites de l’approche (section 9.4).
131
Maxime DUROT Thèse de doctorat 2009
Le travail réalisé sur A. baylyi nous a montré que les données phénotypiques
complètent utilement celles utilisées pour reconstruire le modèle métabolique initial
(annotation du génome et connaissance initiale de quelques voies métaboliques). Ce
constat s’applique aussi bien aux phénotypes de croissance de la souche sauvage sur
les nombreux environnements Biolog – qui ont contribué à compléter la connaissance
des capacités de transport et de catabolisme – qu’aux phénotypes de mutants – qui ont
participé à évaluer le fonctionnement des voies métaboliques. Une partie significative
des annotations et des voies métaboliques ont en effet été élucidées par analogie avec
celles des organismes modèles, principalement E. coli. Il est donc probable qu’une
partie des activités biochimiques spécifiques à A. baylyi n’aient pas été détectées et
demeure inconnue. Les phénotypes de croissance apportent justement des données
63
190 phénotypes Biolog de la souche sauvage (étape 1 de l’article) + 767 phénotypes
de croissance de mutants sur succinate (étape 2) + 8 milieux $ 455 mutants = 3640
phénotypes de croissance de mutants sur les 8 milieux minimaux (étape 3).
132
Maxime DUROT Thèse de doctorat 2009
133
Maxime DUROT Thèse de doctorat 2009
134
Maxime DUROT Thèse de doctorat 2009
(2004), ce cadre se limite aux seules causes d’incohérences pouvant être prises en
compte dans le modèle mais explicite plus avant les corrections réalisables. De plus,
et surtout, il ouvre la voie à une automatisation de la proposition de corrections. En
effet, au sein de chaque composante, les types de corrections sont bien définis et
déterminés par le sens de l’incohérence. Il est de ce fait envisageable de développer
des méthodes proposant de manière systématique des corrections aux composantes du
modèle pour les incohérences identifiées. S’agissant de la composante BIOMASSE,
Imielinski et al (2005) ont par exemple élaboré des analyses déterminant les
métabolites les plus à même d’être essentiels pour expliquer les essentialités de gènes
observées. Pour notre part, nous introduirons dans la dernière partie de cette thèse une
méthode proposant les corrections d’associations GPR compatibles avec les
phénotypes observés. La recherche automatique de corrections dans la composante
RESEAU demeure quant à elle, encore plus que pour les autres composantes, un sujet
ouvert. Nous donnerons au lecteur des références à des travaux récents dans ce
domaine dans la conclusion du manuscrit.
Une première partie d’entre elles est constituée d’incohérences dont la cause est
déterminée mais qui ne peuvent être corrigées dans le modèle. Les cas causés par des
erreurs expérimentales mis à part64, ces incohérences impliquent généralement des
processus biologiques qui ne sont pas modélisés, au premier rang desquels se trouve
la régulation. Nous évoquerons ces cas de figures, qui sont associés aux limites du
modèle, dans la section suivante, certains d’entre eux pouvant être potentiellement
pris en compte en étendant le cadre de modélisation.
64
Le caractère haut débit et massivement parallèle des expériences de phénotypage
rend probable l’occurrence d’erreur de mesure, malgré le soin apporté à leur
réalisation.
135
Maxime DUROT Thèse de doctorat 2009
pour A. baylyi ; pour 32 d’entre elles, nous avons pu avancer des hypothèses
d’explication, laissant 30 incohérences sans aucune interprétation. Ces cas
d’incohérence appellent tous des investigations ultérieures afin de les élucider,
pouvant potentiellement mener à des résultats intéressants. Parmi les incohérences de
ce type que nous avons détectées se retrouvent notamment toutes celles relevées dans
l’analyse « manuelle » de la banque de mutant (de Berardinis et al. 2008). Pour ces
dernières, de Berardinis et al (2008) ont proposé des hypothèses d’interprétation
nécessitant des recherches supplémentaires pour les valider : principalement la
recherche de voies ou d’enzymes alternatives (cas des gènes panD, pdxB, ubiC
mentionnés dans cet article) et la démonstration de la non occurrence d’une voie
alternative (cas des gènes pyrC, pyrC2, metZ mentionnés dans cet article). Nous avons
répertorié dans le fichier Excel mentionné ci-dessus l’ensemble des hypothèses que
nous avons formulées pour les incohérences non corrigées. Une partie d’entre elles
font d’ailleurs l’objet de recherches dédiées au sein du laboratoire Thesaurus.
En résumé, cette liste des incohérences non corrigées représente l’ensemble des
discordances détectées par le modèle entre les phénotypes observés et le réseau
métabolique connu. Elle invite donc à des investigations ultérieures afin d’élucider le
comportement métabolique réel d’A. baylyi expliquant les phénotypes observés et de
compléter la connaissance de son métabolisme.
136
Maxime DUROT Thèse de doctorat 2009
9.4 Limites
9.4.1 Interprétation des phénotypes de croissance faible
Des difficultés apparaissent pour les cas limites, lorsqu’on observe la croissance
de la souche mutée, mais à un rythme significativement plus faible que celui de la
souche sauvage. Dans notre étude, nous avons appliqué un seuil de croissance
relativement bas pour effectuer la distinction qualitative entre mutant viable et non
viable (nous l’avons fixé à 1/10 de la croissance de la souche sauvage, voir Matériels
et méthodes de l’article). De ce fait, nous avons ainsi considéré comme létales
uniquement les délétions provoquant une chute très marquée de la capacité
reproductive, d’autant plus que la croissance des mutants fut évaluée de manière
clonale et non pas en compétition au sein d’une population hétérogène (voir chapitre
introductif, section 2.2.1). Nous avons estimé que cette définition du statut létal
correspondait au plus proche à la prédiction qualitative de létalité obtenue par le test
de productibilité des précurseurs de biomasse (« metabolite producibility », voir
Matériels et méthodes de l’article). Cependant, le choix de ce seuil place
indistinctement dans la catégorie viable tous les mutants présentant une croissance,
même très réduite.
137
Maxime DUROT Thèse de doctorat 2009
La prédiction de croissance par FBA étant strictement plus contraignante que celle
par productibilité des précurseurs65, tous les phénotypes létaux prédits par test de
productibilité le sont également par FBA (taux de croissance nul). La réciproque n’est
en revanche pas nécessairement vraie : même si la très grande majorité des
phénotypes prédits viables par productibilité des précurseurs le sont aussi par FBA,
certains cas présentent des taux de croissance très faibles voire nuls par FBA,
contredisant la prédiction initiale (voir Figure 36).
Figure 36. Taux de croissance relatifs à la souche sauvage prédits par Flux Balance
Analysis (FBA) pour les mutants prédits viables par analyse de la productibilité des
précurseurs de biomasse. Les prédictions ont été effectuées sur milieu minimum avec le
succinate comme source de carbone.
Parmi eux, nous retrouvons neuf gènes essentiels à l’activité de l’ATP synthase
(atpA, atpB, atpC, atpD, atpE, atpF, atpG, atpH, atpI). L’inactivation de l’ATP
synthase n’est en effet pas prédite comme étant létale par le test de productibilité des
65
La réaction de biomasse utilisée par la méthode FBA contient tous les précurseurs
de biomasse utilisés par le méthode de test de productibilité.
138
Maxime DUROT Thèse de doctorat 2009
précurseurs, ce qui est contredit par leur létalité observée expérimentalement. Pour
ces mutants, le modèle réussit à produire tous les précurseurs de biomasse en utilisant
l’énergie produite uniquement par phosphorylation au niveau du substrat. Cependant,
ce processus ne peut en réalité pas subvenir à tous les besoins énergétiques de la
cellule : la méthode FBA, qui tient compte de ces besoins de manière plus complète
grâce à la réaction de biomasse, prédit effectivement un taux de croissance nul pour
ces mutants.
139
Maxime DUROT Thèse de doctorat 2009
Comme évoqué précédemment, une partie des incohérences ayant une cause de
nature métabolique ne peuvent être corrigées facilement dans le modèle car ce dernier
ne prend pas en compte le processus biologique impliqué. Nous en énumérerons les
cas significatifs ci-dessous.
Une forte proportion des incohérences qui ne peuvent être corrigées dans les
modèles à base de contraintes sont liées à des effets de régulation. Dans un soucis de
simplification, ces modèles ignorent en effet complètement les processus contrôlant
l’activité des enzymes et supposent que ces dernières sont toutes présentes et actives
140
Maxime DUROT Thèse de doctorat 2009
141
Maxime DUROT Thèse de doctorat 2009
142
Maxime DUROT Thèse de doctorat 2009
Mes contributions dans ce projet auront été de mettre au point les méthodes de
prédiction, d’adapter les modèles extérieurs à nos outils de manière à reproduire
correctement les résultats publiés avec ces modèles, de modéliser les environnements
de croissance utilisés dans les expériences, et d’effectuer l’interprétation qualitative
des phénotypes de croissances quantitatifs.
143
Maxime DUROT Thèse de doctorat 2009
11 La méthode AutoGPR
11.1 Principe
L’objectif d’AutoGPR consiste à déterminer automatiquement des modifications
aux relations GPR permettant de lever les incohérences de prédictions de phénotypes
de croissance. Pour ce faire, la méthode se base fondamentalement sur l’organisation
des modèles métaboliques en composantes – GPR, RESEAU et BIOMASSE (voir
section 9.2) – afin d’isoler et de manipuler les relations GPR indépendamment des
autres composantes du modèle. AutoGPR suppose ainsi les composantes RESEAU et
BIOMASSE fixes et correctes et recherche les corrections applicables à la
144
Maxime DUROT Thèse de doctorat 2009
composante GPR résolvant les prédictions incohérentes de phénotypes sans altérer les
prédictions correctes. Cette hypothèse ne préjuge pas de l’existence de corrections
dans les composantes RESEAU et BIOMASSE : AutoGPR recherche les corrections
GPR compatibles avec une configuration donnée des composantes RESEAU et
BIOMASSE. Cette recherche peut être à nouveau effectuée pour toute modification
effectuée à ces dernières composantes. Nous discuterons d’ailleurs plus loin dans ce
chapitre (section 13.3.2) de la place de la méthode AutoGPR dans une stratégie plus
globale de correction des modèles.
66
En termes plus rigoureux : les phénotypes de croissance prédits pour des modèles
dont des ensembles de réactions ont été inactivés.
145
Maxime DUROT Thèse de doctorat 2009
Figure 39. La composante GPR relie l’essentialité des gènes à l’essentialité des
réactions. A Les relations booléennes des GPRs combinées aux prédictions d’essentialités
des réactions prédisent les essentialités de gènes. Dans l’exemple présenté ici, la prédiction
pour le gène G3 est incohérente avec l’observation expérimentale de son essentialité. Les
essentialités de gènes observées et les essentialités de réactions prédites constituent des
données extérieures à la composante GPR. B Principe d’AutoGPR : générer l’ensemble
des relations booléennes respectant les associations prédéfinies entre gènes et réactions et
rendant compatibles les essentialités observées de gènes avec les essentialités prédites de
réactions.
67
pour le cadre de modélisation retenu ici, ce qui n’est pas nécessairement toujours le
cas. S’agissant de la composante BIOMASSE, nous avons déjà discuté au chapitre
précédent de la pertinence d’utiliser une composition de biomasse dépendant de
l’environnement extérieur. D’autre part, des extensions des modèles à base de
contraintes pour tenir compte des interactions régulatrices introduisent des relations
gènes-réactions dépendant de l’environnement.
146
Maxime DUROT Thèse de doctorat 2009
possible entre les règles ET et OU, nous avons choisi une approche de type « reverse
engineering » visant à construire les GPR à partir des essentialités. La méthode
AutoGPR consiste à générer toutes les relations GPR conservant les associations
gènes-réactions prédéfinies et rendant compatibles les essentialités prédites de
réactions avec les essentialités observées de gènes. Ainsi, sur l’exemple de la Figure
39B, AutoGPR génèrera l’ensemble des relations booléennes reliant G1, G2 et G3 à
R1, et G3 et G4 à R2, qui prédisent les essentialités observées de gènes à partir des
essentialités prédites de réactions.
147
Maxime DUROT Thèse de doctorat 2009
ces spécifications pour toutes les délétions sur tous les environnements et en déduit
l’ensemble des relations GPR compatibles.
- l’ensemble des gènes pouvant être relié à chaque réaction est connu et
prédéterminé,
- les relations GPR sont identiques sur tous les environnements,
- les composantes RESEAU et BIOMASSE sont fixes et correctes.
!
148
Maxime DUROT Thèse de doctorat 2009
Les relations entre gènes et réactions sont décrites par l’ensemble de leurs GPR,
! que nous noterons GPR, mais également, de manière équivalente, par une fonction
d’impact Impact qui détermine les réactions inactivées pour toute délétion de gènes
du modèle :
Ng r
GPR = {GPRr | r " R} avec GPRr : {0,1} " {0,1} la relation booléenne liant une
réaction r à ses Ngr gènes,
Ng r
"r # R, "b # {0,1} GPRr (b) = 0 si r # Impact($ )
1 sinon
où " = {g # Support(r) tel que la valeur de g dans b est 0}
!
et inversement, Impact peut être définie à partir de GPR :
!
"# $ P(G) Impact(# ) = {r $ R | GPRr (br ) = 0}
Ng r
où br " {0,1} est défini par bri = 0 si le gène i de r est dans #
1 sinon
!
PhenoGene(", M ) = PhenoReac(Impact(" ), M )
!
149
Maxime DUROT Thèse de doctorat 2009
AutoGPR se base sur cette relation et sur la connaissance des valeurs des
fonctions PhenoGene et PhenoReac pour déduire des informations sur la fonction
Impact avant de déterminer les relations GPR admissibles.
La méthode procède pour cela en deux étapes, une étape de spécification suivie
d’une étape d’implémentation (voir Figure 40).
Figure 40. La méthode AutoGPR. AutoGPR déduit l’ensemble des relations GPR
compatibles avec les essentialités observées de gènes, les essentialités prédites de
réactions et les associations prédéfinies entre gènes et réactions (lignes pointillées). La
première étape d’AutoGPR consiste à générer les scénarios d’impacts admissibles compte
tenu de ces contraintes : chaque ensemble essentiel de gènes doit impacter un ensemble
essentiel de réactions ; chaque ensemble non-essentiel de gènes doit impacter un ensemble
non-essentiel (potentiellement l’ensemble vide). De plus, les scénarios d’impacts doivent
respecter les associations prédéfinies gènes-réactions. Dans une seconde étape, AutoGPR
génère pour chaque scénario d’impacts toutes les relations GPR admissibles. Pour cela, il
déduit du scénario d’impacts des spécifications sur les relations booléennes avant de
déterminer les implémentations répondant à ces spécifications.
150
Maxime DUROT Thèse de doctorat 2009
Figure 41. Composantes connexes formées par le graphe des associations prédéfinies
gènes-réactions et les groupes de gènes des essentialités observées.
151
Maxime DUROT Thèse de doctorat 2009
- Impact({G1}) = %
- Impact({G2}) = %
- Impact({G3}) = {R1, R2}
- Impact({G4}) = {R2}
152
Maxime DUROT Thèse de doctorat 2009
Figure 42. Cas d’incohérences sans correction GPR déductible par AutoGPR. À
gauche, les ensembles essentiels de gènes ne peuvent impacter aucun ensemble essentiel
de réaction. La correction de l’incohérence nécessite de corriger les composantes RESEAU
ou BIOMASSE pour rendre R1 essentielle ou d’associer G1 et G2 à une nouvelle réaction
essentielle. À droite, la délétion non-essentielle de G1 ne peut impacter que l’ensemble vide,
impliquant de retirer tous les gènes de la GPR de R1, ce qui n’est pas admis par AutoGPR.
La correction de l’incohérence implique de corriger les composantes RESEAU et BIOMASSE
pour rendre R1 non-essentielle ou d’associer un autre gène à R1.
En pratique AutoGPR peut être utilisé à deux niveaux. Tout d’abord, il permet de
déterminer simplement si une correction GPR est envisageable ou non. Si tel n’est pas
le cas, le type d’incohérence permet alors de guider la recherche de correction en
dehors du périmètre d’AutoGPR (voir Figure 42). Si, en revanche, une correction
purement GPR existe, AutoGPR permet ensuite d’énumérer toutes les corrections
possibles. Le nombre de relations GPR pouvant devenir extrêmement élevé, des
méthodes de sélections des corrections les plus probables peuvent s’avérer
nécessaires.
153
Maxime DUROT Thèse de doctorat 2009
11.2 Algorithmes
Cette section présente plus en détail les algorithmes utilisés par AutoGPR. Nous
l’avons divisé en deux parties. La première détaille les algorithmes développés pour
générer toutes les corrections GPR, selon le principe présenté ci-dessus. La seconde
introduit une simplification de la méthode permettant de tester plus rapidement la
simple existence de correction GPR.
154
Maxime DUROT Thèse de doctorat 2009
Tout d’abord, la recherche des scénarios d’impacts est limitée par les associations
prédéfinies gènes-réactions. Les ensembles de réactions pouvant être impactés par une
délétion de gènes sont donc contenus dans l’ensemble des réactions reliés à ces gènes
par les associations prédéfinies. Il est ainsi suffisant de prédire uniquement
l’essentialité des sous-ensembles de réactions contenus dans ces ensembles (voir
Figure 44). Cette propriété simplifie significativement le calcul des essentialités de
réactions, les gènes étant associés majoritairement à un nombre réduit de réactions
(voir partie résultat, section 12.1).
Ensuite, lorsque les phénotypes de croissance sont prédits par les méthodes FBA
ou de productibilité des métabolites, l’essentialité des ensembles de réactions possède
la caractéristique d’être monotone par l’inclusion. En effet, dans ces cas, tout
ensemble de réactions incluant un sous-ensemble essentiel sera prédit également
essentiel. Inversement, tout sous-ensemble d’un ensemble non-essentiel sera prédit
non-essentiel.
155
Maxime DUROT Thèse de doctorat 2009
Le principe de cet algorithme est simple ; il consiste à parcourir tous les sous-
ensembles de réactions par ordre croissant de taille et à prédire leur essentialité s’ils
156
Maxime DUROT Thèse de doctorat 2009
Pour des grands ensembles contenant des réactions synthétiques létales, cet
algorithme d’exploration systématique peut se révéler trop coûteux. Dans ces cas –
que nous avons en pratique très rarement rencontrés pour AutoGPR – des méthodes
plus complexes, développées pour déterminer les ensembles essentiels minimaux de
gènes, peuvent être employées (Klamt & Gilles 2004; Deutscher et al. 2006; Behre et
al. 2007; Imielinski & Belta 2008; Deutscher et al. 2008) (voir également une revue
rapide sur ces méthodes en conclusion, section 15).
68
La méthode a été implémentée sous la forme d’un programme Sicstus Prolog
http://www.sics.se/sicstus/ .
157
Maxime DUROT Thèse de doctorat 2009
158
Maxime DUROT Thèse de doctorat 2009
…
Figure 45. Format de fichier spécifiant les scénarios d’impacts. Les balises
COMPONENT délimitent les informations relatives à une composante connexe. Les balises
SUPPORT rappellent les associations prédéfinies gènes-réactions. Les balises SCENARIO
définissent chacune un scénario d’impact distinct. Dans un scénario d’impacts, chaque
impact est déclaré dans une balise SPECIFICATION.
Comme mentionné plus haut, les relations GPR sont des fonctions booléennes
utilisant uniquement les opérateurs ET et OU, la négation n’étant pas employée. Cette
159
Maxime DUROT Thèse de doctorat 2009
69
b1 " b2 si les éléments de b1 sont tous un à un inférieurs à ceux de b2.
70
À l’aide d’un programme dédié à la manipulation des fonctions booléennes : BDDC
v2, disponible à l’adresse http://www-verimag.imag.fr/~raymond/tools/bddc-manual/
160
Maxime DUROT Thèse de doctorat 2009
Figure 46. Implémentation de relation GPR à partir des spécifications d’un scénario
d’impact.
Nous avons également choisi un format XML pour représenter dans un fichier
l’ensemble des GPR générées pour une composante connexe (voir Figure 47). Le
nombre de propositions de corrections pouvant devenir très grand, nous avons
développé un programme supplémentaire exploitant ces fichiers pour d’une part
effectuer des statistiques sur les corrections proposées et d’autre part aider à la
sélection des corrections notamment en les ordonnant selon leur distance.
Figure 47. Format de fichier contenant l’ensemble des GPR générées. Ce format reprend
et complète celui utilisé pour énumérer les scénarios d’impact. Pour chaque scénario
d’impact, la balise IMPLGPR encadre les implémentations GPR possible d’une réaction. Les
balises GPR contiennent chacune une relation GPR compatible, représentée sous la forme
d’une expression booléenne (+ représente OU, . représente ET). La distance entre la GPR
proposée et la GPR initiale est donnée dans l’attribut dist de la balise GPR.
161
Maxime DUROT Thèse de doctorat 2009
Cette méthode fonctionne uniquement pour les cas de délétion simple de gène dont
l’essentialité est connue sur un seul milieu. Elle réalise le test d’existence de
correction pour chaque essentialité de gène incohérente de la manière suivante.
Si le gène est observé non-essentiel, une correction GPR existe dès lors que la
délétion du gène peut impacter un ensemble non-essentiel de réaction. L’ensemble
vide étant non-essentiel, il existerait a priori une solution GPR dans tous les cas, la
délétion pouvant être contrainte à n’impacter aucune réaction. Cependant, AutoGPR
interdit les corrections aboutissant au retrait de tous les gènes d’une GPR (voir Figure
42 page 153). Le test d’existence d’une correction GPR dans ce cas consiste alors à
examiner s’il existe des réactions essentielles reliées uniquement au gène considéré.
Si tel est le cas, alors le gène sera contraint à impacter la réaction pour ne pas retirer
tous ses gènes, impact incompatible avec l’essentialité de la réaction ; aucune
correction GPR n’est de ce fait envisageable. À l’inverse, si tel n’est pas le cas, alors
une correction GPR est envisageable dans laquelle aucune des réactions essentielle
n’est impactée. Ces dernières étant associées à au moins un autre gène, elles pourront
conserver au moins un gène dans leurs GPR, et ce, quel que soit l’impact des autres
gènes sur ces réactions71.
12 Résultats
Afin d’évaluer les performances d’AutoGPR, nous avons appliqué la méthode à la
correction des incohérences de cinq modèles métaboliques pour lesquels des données
d’essentialités étaient disponibles, parfois sur plusieurs environnements. Toutes les
71
Par exemple, soit une réaction essentielle reliée à un gène G1 non-essentiel et à un
gène G2. Si G2 est non-essentiel, une GPR admissible est « G1 or G2 ». Si G2 est
essentiel, une GPR admissible est « G2 ». Dans tous les cas, la réaction conserve au
moins un gène dans sa GPR.
162
Maxime DUROT Thèse de doctorat 2009
72
Les gènes de B. subtilis n’ont en toute rigueur pas été délétés, mais inactivés par
insertion d’une cassette de disruption (voir section 2.2.1).
73
Un nouveau modèle de B. subtilis, qui exploite de manière très complète des
données d’essentialité, a été publié récemment (Henry et al. 2009). Ce travail est
cependant trop récent pour pouvoir être inclus dans nos travaux.
163
Maxime DUROT Thèse de doctorat 2009
Cependant, dans le but d’évaluer la pertinence et l’intérêt pratique réel d’une telle
méthode de raisonnement automatique sur les GPR, nous avons tout d’abord cherché
à obtenir un aperçu de la complexité des GPR dans les modèles considérés ici. Si, en
moyenne, les GPR comportaient très peu de gènes et impliquaient peu de relations
booléennes distinctes, l’intérêt pratique d’une telle méthode s’avèrerait réduit. Au
contraire, si les GPR mettaient en jeu des combinaisons complexes de plusieurs
gènes, son intérêt serait a priori plus significatif.
Dans un premier temps, nous avons évalué le nombre de GPR présentes dans ces
modèles ainsi que leur variabilité. Le Tableau 17 donne un aperçu global de la taille
des modèles et du nombre de GPR distinctes impliquées dans chacun d’entre eux.
Dans cette partie, seul le modèle A. baylyi v2 sera considéré, les résultats pour A.
baylyi v3 étant quasiment identiques.
Nombre de GPR
Nombre de
Modèle Nombre de gènes distinctes (% p. r.
réactions
aux réactions)
A. baylyi 789 993 532 (54%)
E. coli 1260 2382 960 (40%)
B. subtilis 844 1250 586 (47%)
S. cerevisiae 750 1267 546 (43%)
Tableau 17. Nombre de réactions et de GPR distinctes dans les quatre modèles.
164
Maxime DUROT Thèse de doctorat 2009
précédentes du modèle (Edwards & Palsson 2000; Reed et al. 2003) et de la base de
données métabolique très complète Ecocyc (Keseler et al. 2009).
Figure 48. Distribution du nombre de réactions associées à chaque GPR distincte. Les
réactions de GPR vide (non associées à un gène) ont été écartées de cette analyse.
Bien que la grande majorité des GPR soient, dans tous les modèles, associées à
une unique réaction, une part non négligeable d’entre elles sont associées à 2
réactions ou plus. Dans ces derniers cas, les GPR représentent des activités
biochimiques capables de transformer plusieurs substrats différents. Par exemple,
165
Maxime DUROT Thèse de doctorat 2009
dans chacun des modèles, les GPR partagées par 5 à 8 réactions sont en majorité liées
aux processus de synthèse et de dégradation des lipides, pour lesquelles plusieurs
réactions agissant similairement sur des lipides de longueurs différentes possèdent la
même GPR. La Figure 48 révèle également que certaines GPR possèdent une
« spécificité » très large, une GPR d’E. coli codant pour une porine est par exemple
associée à 228 réactions qui réalisent le transport d’une grande variété de métabolites
entre le milieu extéruieur et le périplasme. En résumé, ces premiers résultats nous
montrent que le nombre de GPR distinctes dans les modèles est élevé, malgré le fait
que certaines d’entre elles soient partagées par de nombreuses réactions.
166
Maxime DUROT Thèse de doctorat 2009
167
Maxime DUROT Thèse de doctorat 2009
Les distributions du nombre de réactions par gène illustrent les mêmes tendances
que la Figure 48 : un grand nombre de gènes ont une spécificité très faible (liés à peu
de réactions) tandis qu’un groupe plus réduit possède une spécificité large.
Enfin, dans le but d’estimer la variété des règles booléennes utilisées dans les
GPR, nous avons calculé les distributions bivariées du nombre de ET et du nombre de
OU dans chaque GPR. Pour cela, et afin de pouvoir comparer rigoureusement les
résultats entre modèles, chaque GPR a été exprimée en forme normale disjonctive. La
Figure 50 présente ces résultats.
168
Maxime DUROT Thèse de doctorat 2009
Figure 50. Distribution du nombre de ET et OU dans les GPR des quatre modèles. Pour une
comparaison rigoureuse, les relations GPR ont toutes été exprimées en formes normales
disjonctives. Par soucis de clarté, le nombre de GPR ne comptant aucun ET et aucun OU n’est
pas affiché (ce nombre peut être déduit de la Figure 49, il s’agit du nombre de réactions associées
à 0 ou 1 gène).
Pour les quatre modèles, une majorité de GPR possède exclusivement des
opérateurs ET ou des opérateurs OU ; ces GPR expriment la présence soit d’un
complexe soit d’isozymes. Le nombre d’isozymes et, dans une moindre mesure, de
sous-unités de complexe peut être relativement élevé. En effet, les modèles d’A.
baylyi, d’E. coli et de S. cerevisiae comptent par exemple un grand nombre de GPR
ayant 4 isozymes ou plus. De même, les tailles de complexes dépassent fréquemment
4 pour tous les modèles. Dans chaque modèle, une minorité tout de même non
négligeable de GPR inclut simultanément des opérateurs ET et OU, exprimant des
alternatives entre complexes ou entre sous-unités d’un même complexe. Bien que
relativement peu nombreuses, ces dernières GPR sont cependant susceptibles de
comporter des erreurs dont l’interprétation à la lumière des phénotypes de croissance
peut se révéler plus complexe.
169
Maxime DUROT Thèse de doctorat 2009
En conclusion, cette petite étude sur les GPR des quatre modèles nous a montré
qu’un nombre significatif d’entre elles ne sont pas triviales et peuvent typiquement
bénéficier de la capacité de raisonnement automatique d’AutoGPR.
Les auteurs des cinq modèles ont tous confronté les prédictions de leurs modèles
aux données d’essentialités considérées ici. Afin d’exploiter par la suite leurs
interprétations expertes des incohérences, nous avons réalisé les prédictions en
utilisant les mêmes méthodes et paramètres, lorsque cela était possible.
Les prédictions de phénotypes avaient toutes été effectuées par la méthode FBA,
sauf pour les modèles A. baylyi (test de productibilité des précurseurs). Afin
d’uniformiser notre processus de test, nous avons tout de même réalisé les prédictions
de tous les modèles par FBA. Comme déjà discuté à la section 9.4.1, ce changement
de méthode provoque un petit nombre de différences de prédiction pour A. baylyi ; ces
différences n’impactent cependant pas significativement l’analyse effectuée ici.
Pour les modèles A. baylyi v2, A. baylyi v3, E. coli et B. subtilis, les contraintes
sur les flux d’échanges (modélisant les milieux) et les seuils de croissance à appliquer
aux réactions de biomasse (pour déterminer le phénotype qualitatif croissance/non
croissance) étaient explicités par leurs auteurs. Nous avons pu reproduire la totalité de
leurs prédictions. Dans le cas de S. cerevisiae, ces paramètres n’étaient pas précisés.
Nous les avons inférés de manière à reproduire au mieux les résultats des auteurs.
Deux ou trois prédictions par milieu demeurent différentes de celles publiées, elles
sont dans leur très grande majorité identiques.
Le Tableau 18 présente les prédictions obtenues et leur cohérence par rapport aux
données expérimentales.
170
Maxime DUROT Thèse de doctorat 2009
Sur l’ensemble des modèles et des milieux, le taux de bonnes prédictions est en
moyenne largement meilleur pour les gènes non-essentiels (toujours supérieur à 94%)
que pour les gènes essentiels. Nous avions déjà évoqué cette tendance pour A. baylyi.
Elle s’interprète par le fait qu’une large part des réactions des modèles ne participe
pas au fonctionnement métabolique sur des milieux précis ; la fonction des gènes qui
leurs sont associés ne peut être réellement évaluée par leur essentialité.
Les taux de bonnes prédictions des modèles A. baylyi v2, A. baylyi v3, E. coli et
B. subtilis sont du même ordre de grandeur (sans tenir compte des fluctuations pour
A. baylyi v3 pour les gènes essentiels, dues à leur petit nombre). En revanche, les
171
Maxime DUROT Thèse de doctorat 2009
Dans un premier temps, nous avons testé l’existence de correction GPR. Nous
avons utilisé pour cela le test simple d’existence (voir 11.2.2) appliqué séparément
aux incohérences de chaque milieu. Ce test n’est en effet valable que pour des
délétions simples évaluées sur un milieu unique.
172
Maxime DUROT Thèse de doctorat 2009
Dans l’ensemble, ce tableau montre que seule une minorité d’incohérences (entre
2% et 43%, selon le modèle et le milieu) pourrait être corrigée uniquement par des
corrections GPR. Toutes les autres nécessitent de rechercher des corrections soit en
dehors de la composante GPR soit en ajoutant de nouveaux gènes à associer aux
réactions.
173
Maxime DUROT Thèse de doctorat 2009
Afin d’évaluer l’effet de la taille des GPR et du nombre de réactions liées aux
gènes sur l’existence d’une correction, nous avons tracé les Box Plots de ces deux
grandeurs selon qu’une correction existe ou non (voir Figure 51).
174
Maxime DUROT Thèse de doctorat 2009
175
Maxime DUROT Thèse de doctorat 2009
Figure 51. Box Plot du nombre moyen de gènes contenus dans les GPR de chaque
gène incohérent et du nombre de réactions liées à chaque gène incohérent, selon
qu’une correction GPR existe ou non. Box plots de Tukey : chaque boîte est délimitée par
er ème
les 1 et 3 quartiles de la statistique et coupée par la médiane (ligne épaisse). Les
moustaches représentent les valeurs minimales et maximales rencontrées, dans la limite de
1,5 fois l’écart interquartile. Les cercles représentent les valeurs sortant de ces moustaches
(« outliers »).
Les incohérences pour lesquelles une correction GPR existe ont tendance à être
reliées à des GPR initiales de tailles plus grandes que lorsque aucune correction
n’existe (voir Figure 51 colonne de gauche). Cet effet s’interprète aisément, aucune
correction ne pouvant naturellement être proposée par AutoGPR lorsqu’un seul gène
est contenu dans la GPR à corriger. À l’inverse, on constate peu, voire aucune,
différence entre les nombres de réactions reliées aux gènes incohérents disposant ou
non de correction GPR. L’appartenance à une GPR de grande taille semble être ainsi
le premier indicateur de l’existence d’une correction purement GPR.
Enfin, dans un dernier temps, nous avons exécuté AutoGPR sur l’ensemble des
incohérences disposant, selon le test d’existence, d’une correction GPR sur au moins
176
Maxime DUROT Thèse de doctorat 2009
un des milieux. Des statistiques sur les corrections proposées sont données sur la
Figure 52 ci-dessous.
177
Maxime DUROT Thèse de doctorat 2009
178
Maxime DUROT Thèse de doctorat 2009
Figure 52. Histogrammes des nombres de GPR proposées par AutoGPR pour chaque
incohérence identifiée précédemment comme ayant une correction sur chaque milieu
pris séparément. Les GPR proposées sont compatibles simultanément sur tous les milieux.
L’échelle des abscisses est en partie logarithmique : elle demeure linéaire entre chaque
puissance de 10. Le cas « Non déterminé » indique les incohérences pour lesquelles
AutoGPR n’a pu générer les corrections pour cause de nombre excessif de combinaisons.
Pour les modèles dont les données d’essentialités existent sur plusieurs milieux
(A. baylyi v3, E. coli et S. cerevisiae), une part des incohérences ne dispose d’aucune
correction GPR, alors même que des corrections étaient envisageables pour chaque
milieu pris séparément. Ceci est particulièrement marqué chez S. cerevisiae où la
quasi-totalité des incohérences ne dispose plus de correction. Ces cas révèlent des
incompatibilités entre les contraintes d’essentialités posées sur les GPR par les
différents milieux. Ces incompatibilités traduisent une différence de comportement de
l’organisme entre les milieux qui n’est pas prise en compte par le modèle74. L’origine
de l’incohérence peut dans ce cas se trouver dans les composantes RESEAU et
BIOMASSE qui ne prédisent pas correctement les essentialités des réactions sur
certains environnements. L’origine de l’incohérence peut également porter sur la
régulation des gènes, certains d’entre eux ne s’exprimant que sur des milieux
particuliers. Dans ce cas, l’hypothèse de « GPR constante sur tous les
environnements » doit être levée pour pouvoir expliquer les phénotypes. Le recours à
des règles de régulation dépendant de l’environnement qui modulent la présence des
gènes dans les GPR – à l’image de la méthode rFBA (Covert et al. 2001) – semble
être une solution permettant de prendre efficacement ces cas en compte (Covert et al.
2004). Nous évoquerons quelques cas précis de ce type dans la section suivante.
74
En supposant bien entendu que les expériences réalisées sur les différents milieux
soient comparables et ne présentent pas de biais.
179
Maxime DUROT Thèse de doctorat 2009
à la taille des GPR et au nombre de réactions liées aux gènes. Afin d’aider à la
sélection des corrections GPR et rendre le calcul réalisable, les stratégies de
sélection/simplification évoquées plus haut – distance à la GPR initiale et contrainte
de GPR identiques pour plusieurs réactions – peuvent être employées (voir section
11.1).
Il est donc probable que ces réactions soient catalysées de manière similaire. En
les contraignant à avoir toutes la même GPR, la déduction des GPR compatibles
devient réalisable : seules deux configurations de GPR sont générées par AutoGPR75.
75
b0180 et b0954 sont tous deux essentiels, les réactions présentées ici sont
essentielles. b0954 est en outre associé seul à une autre réaction essentielle. Les deux
GPR proposées pour ces réactions sont donc « b0180 » et « b0180 ET b0954 ».
180
Maxime DUROT Thèse de doctorat 2009
A. baylyi v3 pour lesquels nous avions explicitement déterminé des corrections (voir
article inclus section 8) et d’autre part des modèles B. subtilis et E. coli dont les
auteurs ont proposés des interprétations à chaque incohérence. Cette section évalue la
pertinence des propositions d’AutoGPR en les confrontant à ces corrections et
interprétations.
181
Maxime DUROT Thèse de doctorat 2009
182
Maxime DUROT Thèse de doctorat 2009
Sensibilité76
Parmi les 34 incohérences que nous avons corrigées dans la composante GPR
(pour les deux modèles), 24 disposent de propositions d’AutoGPR. Pour 22 d’entre
elles, la correction appliquée est incluse dans les propositions, donnant un score
global de sensibilité de 65% pour les modèles A. baylyi.
AutoGPR propose dans la majorité des cas des corrections uniques aux
incohérences. Lorsque plusieurs corrections distinctes sont suggérées, les stratégies de
sélection permettent d’identifier efficacement la correction retenue. En effet, en
contraignant dans deux cas des réactions à avoir des GPR similaires (ACIAD3103 et
ACIAD0871, cas analogues à celui présenté pour E. coli section 12.2.3), la correction
retenue correspond dans 7 cas sur 9 à la proposition d’AutoGPR la plus proche des
GPR initiales. Ces stratégies peuvent ainsi s’avérer être des outils utiles à la sélection
des GPR les plus probables.
Seuls deux types de corrections GPR (toutefois majoritaires) sont pris en compte
par AutoGPR : la détection (1) d’isozyme non fonctionnelle et (2) d’activités
nécessitant la présence de tous les gènes (sous-unités de complexes enzymatiques).
Pour le premier type de correction, AutoGPR propose dans 86% des cas (19/22) la
correction retenue. Il s’agit le plus souvent de retirer une isozyme hypothétique d’une
GPR afin de retrouver l’essentialité de l’enzyme principale. Dans le cas par exemple
des incohérences de epd (ACIAD1255) et gap (ACIAD2565) qu’AutoGPR corrigea
76
Nous utiliserons un peu par abus de langage les termes de sensibilité et de
spécificité pour désigner respectivement la part de corrections expertes GPR
retrouvées par AutoGPR et la part de corrections d’AutoGPR effectivement retenues.
AutoGPR déduisant toutes les corrections GPR réalisables dans son champ
d’application, sa spécificité est théoriquement de 100%. La « spécificité » que nous
utiliserons ici cherche plutôt à évaluer quelle part des corrections expertes de la
composante GPR rentre dans le champ d’application d’AutoGPR.
183
Maxime DUROT Thèse de doctorat 2009
Pour le deuxième type de correction, AutoGPR proposa dans les trois cas la
correction experte réalisée. Parmi les corrections de ce type, celle de l’incohérence de
ilvH (ACIAD3103) mérite d’être détaillée (voir Figure 53).
Figure 53. Correction de l’incohérence du gène ilvH dans A. baylyi v2. La couleur rouge
(respectivement verte) indique une réaction ou un gène essentiel (respectivement non-
essentiel). Le gène en gras possède une essentialité incohérente avec la prédiction du
modèle. Les métabolites en triangle sont des précurseurs de biomasse.
184
Maxime DUROT Thèse de doctorat 2009
Les quatre autres types de corrections GPR expertes appliquées aux modèles d’A.
baylyi impliquent d’ajouter de nouveaux gènes aux GPR. Ces corrections sortent de
ce fait du cadre d’application d’AutoGPR, expliquant la quasi-inexistence de
proposition pour les incohérences de ces types.
Il est intéressant de noter ici que toutes les corrections GPR correctement
détectées par AutoGPR concernent des gènes essentiels. Il semble donc sur cet
exemple qu’AutoGPR ait un biais très fort envers les corrections d’incohérences de
gène essentiel. Ce biais peut s’interpréter de la manière suivante. La correction type
d’AutoGPR pour les gènes non-essentiels incohérents (prédits donc essentiels)
consiste à remplacer une relation ET en OU, c’est à dire à considérer les sous-unités
d’un complexe comme isozymes. Les complexes faisant généralement l’objet d’une
attention particulière lors de leur construction, il est relativement rare d’introduire par
erreur des interactions entre sous-unités. Toute autre correction GPR d’une
incohérence de gène non-essentiel consiste à ajouter une isozyme en introduisant un
nouveau gène dans la GPR (voir Tableau 20). Ce type de modification sort alors du
cadre d’action d’AutoGPR (correction à ensemble de gènes constant).
Spécificité
185
Maxime DUROT Thèse de doctorat 2009
Il est ainsi probable que, dans l’ensemble des incohérences n’ayant pu être
interprétées, les propositions réalisées par AutoGPR puissent fournir des pistes
d’investigation utiles.
Bien que les incohérences des modèles B. subtilis et S. cerevisiae n’aient pas
donné lieu à des corrections, leurs auteurs les ont tout de même examinées de manière
experte afin d’en déterminer la cause. L’ensemble de ces interprétations étant mis
librement à disposition sous la forme de données supplémentaires aux articles des
modèles (Oh et al. 2007; Duarte, Herrgard et al. 2004), nous les avons utilisées pour
évaluer la pertinence des propositions d’AutoGPR pour ces modèles.
B. subtilis
186
Maxime DUROT Thèse de doctorat 2009
autogpr
gène ess test n Commentaire des auteurs
GPR
BG10412 fbaA E - - Possibly regulation effect. fbaA could not be replaced by
fbaB.
BG11955 murAA E o 1 Possibly regulation effect. murAA could not replaced by a
homologue murAB.
BG11964 racE E o 1 Regulation effect. racE could not be replaced by yrpC.
BG12391 yumC E - - Possibly regulation effect. Both yumC and trxB products
seem to be essential for cell growth.
BG12398 trxB E - - Possibly regulation effect. Both yumC and trxB products
seem to be essential for cell growth.
RESEAU
BG10282 ndk D - - Metabolic gap and/or external source
BG10305 bkdB D o 1E+06 Metabolic gap and/or external source
BG10306 bkdAB D o 1E+06 Metabolic gap and/or external source
BG10307 bkdAA D o 1E+06 Metabolic gap and/or external source
BG11725 lpdV D o 1E+06 Metabolic gap and/or external source
BG13951 yubB D - - Metabolic gap and/or external source
BIOMASSE
BG10402 gtaB D - - Biomass composition
BG10548 dltD D o ND Biomass composition
BG10549 dltC D o ND Biomass composition
BG10550 dltB D o ND Biomass composition
BG10551 dltA D o ND Biomass composition
BG10724 tagE D o ND Biomass composition
BG11012 pssA D - - Biomass composition
BG11013 psd D - - Biomass composition
BG11192 ggaB D o 1 Biomass composition
BG11367 ggaA D o 1 Biomass composition
BG11611 ugtP D - - Biomass composition
BG11840 metK E - - Synthesize S-adenosylmethionine, which is necessary for
siroheme synthesis.
BG12089 acpS E - - Synthesize acyl-carrier protein.
BG12900 yfiX D - - Biomass composition
BG13824 ytaG E - - Synthesize coenzyme A.
Autre interprétation
BG10897 tpiA E - - Possibly toxic effect. Accumulation of dihydroxyacetone
phosphate, which may leads to the formation of the
bactericidal compound methylglyoxal
BG11062 pgk E - - Conditionally essential gene.
BG11937 fmt E - - Other function. Required for the formylation of methionyl
tRNA
BG12344 mrpF E - - Other function. Multiple resistance and pH homeostasis
BG12345 mrpD E - - Other function. Multiple resistance and pH homeostasis
BG12355 mrpA E - - Other function. Multiple resistance and pH homeostasis
BG12356 mrpB E - - Other function. Multiple resistance and pH homeostasis
BG12357 mrpC E - - Other function. Multiple resistance and pH homeostasis
BG13966 yueK E - - Toxic effect. Nicotinate accumulation.
Pas d'interprétation précise
BG10073 guaB E - - Not well understood.
BG10131 hprT E - - Not well understood.
BG10207 pdhA E - - Not well understood.
BG10273 odhB E - - Not well understood.
BG10410 pyrG E - - Not well understood.
BG11004 cmk E o 4 Not well understood.
BG11247 tkt E - - Not well understood.
BG11404 nrdE E - - Not well understood.
BG11405 nrdF E - - Not well understood.
BG11426 ymaA E - - Not well understood.
BG12644 pfkA E - - Not well understood.
Tableau 21. Comparaison des propositions d’AutoGPR aux interprétations expertes
des incohérences de B. subtilis. Les gènes incohérents sont classés par type
d’interprétation (les commentaires des auteurs sont repris en dernière colonne). Signification
des colonnes : ess, essentialité du gène (E essentiel, D non-essentiel) ; test, résultat du test
d’existence de correction GPR (o existence de correction) ; n, nombre de propositions
d’AutoGPR (ND proposition non réalisable).
187
Maxime DUROT Thèse de doctorat 2009
Nous avons pu classer les commentaires des auteurs en cinq catégories, selon que
l’interprétation se rattache à une des composantes du modèle (GPR, RESEAU et
BIOMASSE) ou non (« Autre interprétation » et « Pas d’interprétation précise »).
AutoGPR propose des corrections GPR pour une part significative des
incohérences interprétées comme liées aux composantes RESEAU et BIOMASSE.
Tous ces cas correspondent à des incohérences de gènes non-essentiels appartenant à
des complexes. Pour rendre ces gènes effectivement non-essentiels, AutoGPR
propose logiquement de transformer les relations de « complexes » en relations
d’« isozymes ». Cependant, l’examen des fonctions de ces gènes montre clairement
que ceux-ci ne peuvent se comporter comme des isozymes et forment réellement un
ensemble nécessitant leur présence conjointe. Si AutoGPR était contraint à ne pas
effectuer ce type de transformation pour ces complexes, aucune correction GPR
n’aurait alors été proposée. Ceci corrobore également une autre remarque faite ci-
dessus pour A. baylyi à propos de la correction de gènes non-essentiels.
188
Maxime DUROT Thèse de doctorat 2009
S. cerevisiae
189
Maxime DUROT Thèse de doctorat 2009
La catégorie Reg regroupe deux incohérences dues à des régulations. Toutes deux
ont été clairement interprétées comme dépendant de l’environnement : la première
implique une pyruvate kinase (CDC19 77) dont la seule isozyme (PYK2 78) est connue
pour être active uniquement pour de faibles flux glycolytiques, rendant CDC19
essentielle sur milieu glucose ; la seconde implique la réaction acetaldehyde
dehydrogenase dont seule une des cinq isozymes (ADH1 79) est a priori exprimée sur
milieu glucose, celui-ci réprimant l’expression des autres. AutoGPR identifie
correctement l’existence de correction sur les milieux glucose (ypd et ypd_ess).
Cependant, ces corrections sont incompatibles avec les autres milieux, car les
isozymes y « redeviennent » actives.
La catégorie Iso regroupe des interprétations liées aux GPR elles-mêmes, incluant
majoritairement l’ajout ou le retrait d’isozyme et la détection de sous-unité non-
essentielle dans un complexe. Sur les 19 incohérences classées dans cette catégorie,
10 disposent de corrections individuellement sur les milieux selon AutoGPR. Parmi
ces dernières 8 sont des incohérences de gènes essentiels et 2 de gènes non-essentiels,
corroborant ici aussi le biais constaté pour A. baylyi et S. cerevisiae. Les 9
incohérences ne disposant pas de corrections sont quant à elles équiréparties entre
gènes essentiels et non-essentiels.
77
Nom systématique : YAL038W
78
Nom systématique : YOR347C
79
Nom systématique : YOL086C
190
Maxime DUROT Thèse de doctorat 2009
13 Limites et perspectives
En conclusion, le développement de la méthode AutoGPR nous a montré que,
exploitées de manière appropriée, les données d’essentialité pouvaient conduire par
des déductions logiques à proposer automatiquement des corrections aux relations
GPR. L’implémentation que nous avons retenue ici – déduction systématique de
toutes les GPR envisageables, à ensemble constant de gènes – nous a permis
d’illustrer l’intérêt et de montrer la faisabilité d’une telle méthode sur cinq modèles.
Nous avons cependant évoqué à plusieurs reprises l’existence de limites et de
faiblesses. Nous allons les reprendre ici et proposer des possibilités d’amélioration de
la méthode, ainsi que des perspectives d’utilisation plus large.
Cependant, un examen plus approfondi des spécifications sur les GPR déduites
des scénarios d’impacts met en évidence des spécifications non-informatives qui
augmentent inutilement le nombre d’alternatives. La Figure 54 illustre cet effet sur
l’exemple que nous avions utilisé dans la partie théorique.
191
Maxime DUROT Thèse de doctorat 2009
Figure 54. Simplification des spécifications issues des scénarios d’impact générés par
AutoGPR. Les différents scénarios proposent des spécifications alternatives pour R2 qui,
lorsqu’on considère tous les ensembles de spécifications simultanément, se simplifient. Seul
un ensemble de spécifications se déduit réellement des contraintes posées par les
essentialités et les supports de réactions.
192
Maxime DUROT Thèse de doctorat 2009
proposées par AutoGPR pour les gènes non-essentiels consistent à transformer des
sous-unités d’un complexe en isozymes, corrections relativement peu probables étant
donné l’attention particulière généralement portée à la construction des complexes.
193
Maxime DUROT Thèse de doctorat 2009
totalement les fonctions des gènes80 et la plupart des méthodes de recherche de gènes
candidats n’exploitent pas leur essentialité et prennent en considération leurs places
dans les réseaux métaboliques de manière très simple.
Suivant par exemple le constat qu’aucune correction GPR n’existe, ces stratégies
pourraient être mises en œuvre pour corriger les composantes RESEAU ou
80
sauf, indirectement, à travers les liens gènes-réactions prédéfinis ; mais ceux-ci ne
sont pas modifiés par AutoGPR.
194
Maxime DUROT Thèse de doctorat 2009
Des interactions existent entre AutoGPR et ces stratégies de correction des autres
composantes. En effet, si aucune correction GPR n’existe pour une incohérence de
gène essentiel, cela signifie qu’il manque une ou un groupe de réactions essentielles à
associer au gène. Ce constat guide la recherche de corrections dans les autres
composantes : ces dernières doivent rendre essentiel au moins un groupe de réactions
parmi celles associées au gène pour qu’une correction GPR compatible soit ensuite
envisageable. Inversement, une incohérence de gène non-essentiel sans correction
GPR « demande » aux méthodes de correction des autres composantes à rendre non-
essentielle la réaction liée à ce gène.
Enfin, l’hypothèse d’uniformité des GPR sur tous les milieux est mise à mal par la
présence de régulations modifiant l’expression des gènes en fonction des milieux.
Dans ces cas, AutoGPR ne peut souvent pas concilier les essentialités sur les
différents milieux, ces dernières étant influencées par les régulations (voir l’exemple
des régulations pour S. cerevisiae sur milieu glucose).
195
Maxime DUROT Thèse de doctorat 2009
196
Maxime DUROT Thèse de doctorat 2009
CONCLUSIONS ET PERSPECTIVES
14 Contributions principales
Le principal objectif de cette thèse aura été de montrer que les capacités
d’analyses des modèles mathématiques du métabolisme pouvaient être
avantageusement mises à profit pour élucider le métabolisme des microorganismes.
Plus spécifiquement, cette thèse se sera concentrée sur un type de modèles – les
modèles globaux du métabolisme – et leur aptitude à exploiter une catégorie de
données expérimentales auparavant difficilement interprétable à la lumière du
métabolisme – les phénotypes de croissance. Elle se sera appuyée pour cela sur
l’organisme Acinetobacter baylyi ADP1, dont nous aurons reconstruit puis corrigé le
modèle métabolique à l’aide des phénotypes de croissance de ses mutants. Nous
allons reprendre ici succinctement les principales conclusions de nos travaux pour en
souligner nos contributions.
197
Maxime DUROT Thèse de doctorat 2009
198
Maxime DUROT Thèse de doctorat 2009
81
Nous nous excusons auprès des lecteurs des quelques répétitions avec la revue sur
les modèles métaboliques incluse en introduction.
82
Un tableau disponible à l’adresse
http://gcrg.ucsd.edu/In_Silico_Organisms/Other_Organisms cherche à répertorier les
modèles métaboliques globaux.
199
Maxime DUROT Thèse de doctorat 2009
83
Voir les améliorations apportées à MetaCyc à l’adresse suivante :
http://metacyc.org/release-notes.shtml
84
Une organisation chimique est un ensemble de métabolite ayant les propriétés de
clôture (aucun métabolite extérieur à l’ensemble ne peut être produit par une réaction
à partir de métabolites de l’organisation chimique) et d’autosuffisance (chaque
métabolite consommé dans l’organisation peut être recréé à partir d’autres métabolites
de l’organisation à une vitesse suffisante pour assurer sa présence).
200
Maxime DUROT Thèse de doctorat 2009
Dans le même esprit qu’AutoGPR ont été proposées des méthodes de corrections
automatiques des modèles permettant de résoudre les prédictions incohérentes de
phénotypes de croissances. Reed, Patel et al (2006) ont ainsi développé un algorithme
recherchant le nombre minimal de réactions à ajouter à un modèle pour lui permettre
de prédire la croissance sur un environnement particulier. Kumar & Maranas (2009)
ont quant à eux élaboré la méthode GrowMatch qui vise à réconcilier prédictions et
observations d’essentialités de gènes en modifiant principalement la composante
RESEAU des modèles (ajout/suppression de réactions, changement de leurs
réversibilités). Cette dernière méthode complèterait de manière appropriée AutoGPR
pour élaborer des corrections plus complètes des modèles.
85
par rapport aux délétions uniquement simples.
201
Maxime DUROT Thèse de doctorat 2009
16 Perspectives
Nous conclurons ce manuscrit en évoquant quelques perspectives ouvertes par
l’amélioration de la reconstruction des modèles et de leur capacité à intégrer des
données expérimentales.
86
Notamment MaGe (Vallenet et al. 2006), IMG (Markowitz et al. 2009) ou SEED
(Aziz et al. 2008).
202
Maxime DUROT Thèse de doctorat 2009
203
Maxime DUROT Thèse de doctorat 2009
que CycSim pour les phénotypes de croissance, constitueraient des outils bienvenus
pour interpréter ces données.
204
Maxime DUROT Thèse de doctorat 2009
REFERENCES BIBLIOGRAPHIQUES
Abbott, A., 2005. Medics braced for fresh superbug. Nature, 436(7052), 758.
Abbott, B.J., Laskin, A.I. & McCoy, C.J., 1974. Effect of growth rate and nutrient
limitation on the composition and biomass yield of Acinetobacter
calcoaceticus. Appl Microbiol, 28(1), 58–63.
Aghaie, A., Lechaplais, C., Sirven, P., Tricot, S., Besnard-Gonnet, M., Muselet, D.,
de Berardinis, V., Kreimeyer, A., Gyapay, G., Salanoubat, M. & Perret, A.,
2008. New insights into the alternative d-glucarate degradation pathway. J
Biol Chem, 283(23), 15638–15646.
Akerley, B.J., Rubin, E.J., Novick, V.L., Amaya, K., Judson, N. & Mekalanos, J.J.,
2002. A genome-scale analysis for identification of genes required for growth
or survival of Haemophilus influenzae. Proc Natl Acad Sci U S A, 99(2), 966–
971.
Arigoni, F., Talabot, F., Peitsch, M., Edgerton, M.D., Meldrum, E., Allet, E., Fish, R.,
Jamotte, T., Curchod, M.L. & Loferer, H., 1998. A genome-based approach
for the identification of essential bacterial genes. Nature Biotechnology, 16(9),
851-6.
Aziz, R.K., Bartels, D., Best, A.A., DeJongh, M., Disz, T., Edwards, R.A., Formsma,
K., Gerdes, S., Glass, E.M., Kubal, M., Meyer, F., Olsen, G.J., Olson, R.,
Osterman, A.L., Overbeek, R.A., McNeil, L.K., Paarmann, D., Paczian, T.,
Parrello, B., Pusch, G.D., Reich, C., Stevens, R., Vassieva, O., Vonstein, V.,
205
Maxime DUROT Thèse de doctorat 2009
Wilke, A. & Zagnitko, O., 2008. The RAST Server: rapid annotations using
subsystems technology. BMC Genomics, 9, 75.
Baba, T., Ara, T., Hasegawa, M., Takai, Y., Okumura, Y., Baba, M., Datsenko, K.A.,
Tomita, M., Wanner, B.L. & Mori, H., 2006. Construction of Escherichia coli
K-12 in-frame, single-gene knockout mutants: the Keio collection. Mol Syst
Biol, 2, 2006.0008.
Bairoch, A., 2000. The ENZYME database in 2000. Nucleic Acids Res, 28(1), 304–
305.
Barbe, V., Vallenet, D., Fonknechten, N., Kreimeyer, A., Oztas, S., Labarre, L.,
Cruveiller, S., Robert, C., Duprat, S., Wincker, P., Ornston, L.N.,
Weissenbach, J., Marlière, P., Cohen, G.N. & Médigue, C., 2004. Unique
features revealed by the genome sequence of Acinetobacter sp. ADP1, a
versatile and naturally transformation competent bacterium. Nucleic Acids
Res, 32(19), 5766–5779.
Barkai, N. & Leibler, S., 1997. Robustness in simple biochemical networks. Nature,
387(6636), 913-7.
Barthelmes, J., Ebeling, C., Chang, A., Schomburg, I. & Schomburg, D., 2007.
BRENDA, AMENDA and FRENDA: the enzyme information system in 2007.
Nucleic Acids Res, 35(Database issue), D511–D514.
Batada, N.N., Hurst, L.D. & Tyers, M., 2006. Evolutionary and physiological
importance of hub proteins. PLoS Computational Biology, 2(7), e88.
Beard, D.A., Babson, E., Curtis, E. & Qian, H., 2004. Thermodynamic constraints for
biochemical networks. J Theor Biol, 228(3), 327–333.
Beard, D.A., Liang, S. & Qian, H., 2002. Energy balance for analysis of complex
metabolic networks. Biophys J, 83(1), 79–86.
Becker, S.A., Feist, A.M., Mo, M.L., Hannum, G., Palsson, B.Ø. & Herrgard, M.J.,
2007. Quantitative prediction of cellular metabolism with constraint-based
models: the COBRA Toolbox. Nat Protoc, 2(3), 727–738.
Behre, J., Wilhelm, T., von Kamp, A., Ruppin, E. & Schuster, S., 2007. Structural
robustness of metabolic networks with respect to multiple knockouts. J Theor
Biol, 252(3), 433–441.
de Berardinis, V., Vallenet, D., Castelli, V., Besnard, M., Pinet, A., Cruaud, C.,
Samair, S., Lechaplais, C., Gyapay, G., Richez, C., Durot, M., Kreimeyer, A.,
Le Fèvre, F., Schächter, V., Pezo, V., Döring, V., Scarpelli, C., Médigue, C.,
Cohen, G.N., Marlière, P., Salanoubat, M. & Weissenbach, J., 2008. A
complete collection of single-gene deletion mutants of Acinetobacter baylyi
ADP1. Mol Syst Biol, 4, 174.
206
Maxime DUROT Thèse de doctorat 2009
Bonneau, R., Facciotti, M.T., Reiss, D.J., Schmid, A.K., Pan, M., Kaur, A., Thorsson,
V., Shannon, P., Johnson, M.H., Bare, J.C., Longabaugh, W., Vuthoori, M.,
Whitehead, K., Madar, A., Suzuki, L., Mori, T., Chang, D., Diruggiero, J.,
Johnson, C.H., Hood, L. & Baliga, N.S., 2007. A predictive model for
transcriptional control of physiology in a free living cell. Cell, 131(7), 1354-
65.
Borenstein, E., Kupiec, M., Feldman, M.W. & Ruppin, E., 2008. Large-scale
reconstruction and phylogenetic analysis of metabolic environments. Proc
Natl Acad Sci U S A, 105(38), 14482–14487.
Borodina, I., Krabben, P. & Nielsen, J., 2005. Genome-scale analysis of Streptomyces
coelicolor A3(2) metabolism. Genome Res, 15(6), 820–829.
Breitling, R., Vitkup, D. & Barrett, M.P., 2008. New surveyor tools for charting
microbial metabolic maps. Nat Rev Microbiol, 6(2), 156–161.
Briggs, G.E. & Haldane, J.B., 1925. A Note on the Kinetics of Enzyme Action. The
Biochemical Journal, 19(2), 338-9.
Bryan, B.A., Linhardt, R.J. & Daniels, L., 1986. Variation in composition and yield of
exopolysaccharides produced by Klebsiella sp. strain K32 and Acinetobacter
calcoaceticus BD4. Appl Environ Microbiol, 51(6), 1304–1308.
Burgard, A.P. & Maranas, C.D., 2003. Optimization-based framework for inferring
and testing hypothesized metabolic objective functions. Biotechnol Bioeng,
82(6), 670–677.
Burgard, A.P., Nikolaev, E.V., Schilling, C.H. & Maranas, C.D., 2004. Flux coupling
analysis of genome-scale metabolic network reconstructions. Genome Res,
14(2), 301–312.
Butland, G., Babu, M., Díaz-Mejía, J.J., Bohdana, F., Phanse, S., Gold, B., Yang, W.,
Li, J., Gagarinova, A.G., Pogoutse, O., Mori, H., Wanner, B.L., Lo, H.,
Wasniewski, J., Christopolous, C., Ali, M., Venn, P., Safavi-Naini, A.,
Sourour, N., Caron, S., Choi, J., Laigle, L., Nazarians-Armavil, A.,
Deshpande, A., Joe, S., Datsenko, K.A., Yamamoto, N., Andrews, B.J.,
Boone, C., Ding, H., Sheikh, B., Moreno-Hagelseib, G., Greenblatt, J.F. &
Emili, A., 2008. eSGA: E. coli synthetic genetic array analysis. Nature
Methods, 5(9), 789-95.
207
Maxime DUROT Thèse de doctorat 2009
Carpenter, A.E. & Sabatini, D.M., 2004. Systematic genome-wide screens of gene
function. Nat Rev Genet, 5(1), 11–22.
Carr, E.L., Kämpfer, P., Patel, B.K.C., Gürtler, V. & Seviour, R.J., 2003. Seven novel
species of Acinetobacter isolated from activated sludge. International Journal
of Systematic and Evolutionary Microbiology, 53(Pt 4), 953-63.
Caspi, R., Foerster, H., Fulcher, C.A., Kaipa, P., Krummenacker, M., Latendresse,
M., Paley, S., Rhee, S.Y., Shearer, A.G., Tissier, C., Walk, T.C., Zhang, P. &
Karp, P.D., 2008. The MetaCyc Database of metabolic pathways and enzymes
and the BioCyc collection of Pathway/Genome Databases. Nucleic Acids
Research, 36(Database issue), D623-31.
Chalker, A.F. & Lunsford, R.D., 2002. Rational identification of new antibacterial
drug targets that are essential for viability using a genomics-based approach.
Pharmacology & Therapeutics, 95(1), 1-20.
Chen, T., Siu, L., Lee, Y., Chen, C., Huang, L., Wu, R.C., Cho, W. & Fung, C., 2008.
Acinetobacter baylyi as a pathogen for opportunistic infection. Journal of
Clinical Microbiology, 46(9), 2938-44.
Christie, K.R., Weng, S., Balakrishnan, R., Costanzo, M.C., Dolinski, K., Dwight,
S.S., Engel, S.R., Feierbach, B., Fisk, D.G., Hirschman, J.E., Hong, E.L.,
Issel-Tarver, L., Nash, R., Sethuraman, A., Starr, B., Theesfeld, C.L.,
Andrada, R., Binkley, G., Dong, Q., Lane, C., Schroeder, M., Botstein, D. &
Cherry, J.M., 2004. Saccharomyces Genome Database (SGD) provides tools
to identify and analyze sequences from Saccharomyces cerevisiae and related
sequences from other organisms. Nucleic Acids Research, 32(Database issue),
D311-314.
Covert, M.W., Schilling, C.H. & Palsson, B., 2001. Regulation of gene expression in
flux balance models of metabolism. J Theor Biol, 213(1), 73–88.
Covert, M.W., Knight, E.M., Reed, J.L., Herrgard, M.J. & Palsson, B.O., 2004.
Integrating high-throughput and computational data elucidates bacterial
networks. Nature, 429(6987), 92–96.
Degtyarenko, K., de Matos, P., Ennis, M., Hastings, J., Zbinden, M., McNaught, A.,
Alcántara, R., Darsow, M., Guedj, M. & Ashburner, M., 2008. ChEBI: a
database and ontology for chemical entities of biological interest. Nucleic
Acids Research, 36(Database issue), D344-350.
DeJongh, M., Formsma, K., Boillot, P., Gould, J., Rycenga, M. & Best, A., 2007.
Toward the automated generation of genome-scale metabolic networks in the
SEED. BMC Bioinformatics, 8, 139.
208
Maxime DUROT Thèse de doctorat 2009
Deutscher, D., Meilijson, I., Kupiec, M. & Ruppin, E., 2006. Multiple knockout
analysis of genetic robustness in the yeast metabolic network. Nat Genet,
38(9), 993–998.
Deutscher, D., Meilijson, I., Schuster, S. & Ruppin, E., 2008. Can single knockouts
accurately single out gene functions? BMC Syst Biol, 2(1), 50.
Di Ventura, B., Lemerle, C., Michalodimitrakis, K. & Serrano, L., 2006. From in vivo
to in silico biology and back. Nature, 443(7111), 527–533.
Dole, M., 1965. The Natural History of Oxygen. The Journal of General Physiology,
49, 5–27.
Doten, R.C., Ngai, K.L., Mitchell, D.J. & Ornston, L.N., 1987. Cloning and genetic
organization of the pca gene cluster from Acinetobacter calcoaceticus. Journal
of Bacteriology, 169(7), 3168-3174.
Duarte, N.C., Herrgard, M.J. & Palsson, B.O., 2004. Reconstruction and validation of
Saccharomyces cerevisiae iND750, a fully compartmentalized genome-scale
metabolic model. Genome Res, 14(7), 1298–1309.
Duarte, N.C., Palsson, B.O. & Fu, P., 2004. Integrated analysis of metabolic
phenotypes in Saccharomyces cerevisiae. BMC Genomics, 5(1), 63.
Dunn, W.B., Bailey, N.J.C. & Johnson, H.E., 2005. Measuring the metabolome:
current analytical technologies. Analyst, 130(5), 606–625.
Durot, M., Bourguignon, P. & Schachter, V., 2009. Genome-scale models of bacterial
metabolism: reconstruction and applications. FEMS Microbiology Reviews,
33(1), 164-90.
Durot, M., Le Fèvre, F., de Berardinis, V., Kreimeyer, A., Vallenet, D., Combe, C.,
Smidtas, S., Salanoubat, M., Weissenbach, J. & Schachter, V., 2008. Iterative
reconstruction of a global metabolic model of Acinetobacter baylyi ADP1
using high-throughput growth phenotype and gene essentiality data. BMC
Systems Biology, 2, 85.
Dykhuizen, D.E., Dean, A.M. & Hartl, D.L., 1987. Metabolic flux and fitness.
Genetics, 115(1), 25–31.
Dykxhoorn, D.M., Novina, C.D. & Sharp, P.A., 2003. Killing the messenger: short
RNAs that silence gene expression. Nature Reviews. Molecular Cell Biology,
4(6), 457-67.
Edwards, J.S., Ibarra, R.U. & Palsson, B.O., 2001. In silico predictions of Escherichia
coli metabolic capabilities are consistent with experimental data. Nat
Biotechnol, 19(2), 125–130.
209
Maxime DUROT Thèse de doctorat 2009
Edwards, J.S. & Palsson, B.O., 2000. The Escherichia coli MG1655 in silico
metabolic genotype: its definition, characteristics, and capabilities. Proc Natl
Acad Sci U S A, 97(10), 5528–5533.
Ellis, L.B.M., Roe, D. & Wackett, L.P., 2006. The University of Minnesota
Biocatalysis/Biodegradation Database: the first decade. Nucleic Acids Res,
34(Database issue), D517–D521.
Engdahl, H.M., Hjalt, T.A. & Wagner, E.G., 1997. A two unit antisense RNA cassette
test system for silencing of target genes. Nucleic Acids Research, 25(16),
3218-27.
Fahy, E., Subramaniam, S., Murphy, R.C., Nishijima, M., Raetz, C.R.H., Shimizu, T.,
Spener, F., van Meer, G., Wakelam, M.J.O. & Dennis, E.A., 2009. Update of
the LIPID MAPS comprehensive classification system for lipids. Journal of
Lipid Research, 50(Supplement), S9-14.
Famili, I., Forster, J., Nielsen, J. & Palsson, B.O., 2003. Saccharomyces cerevisiae
phenotypes can be predicted by using constraint-based analysis of a genome-
scale reconstructed metabolic network. Proc Natl Acad Sci U S A, 100(23),
13134–13139.
Fang, G., Rocha, E. & Danchin, A., 2005. How essential are nonessential genes? Mol
Biol Evol, 22(11), 2147–2156.
Feist, A.M., Henry, C.S., Reed, J.L., Krummenacker, M., Joyce, A.R., Karp, P.D.,
Broadbelt, L.J., Hatzimanikatis, V. & Palsson, B.Ø., 2007. A genome-scale
metabolic reconstruction for Escherichia coli K-12 MG1655 that accounts for
1260 ORFs and thermodynamic information. Mol Syst Biol, 3, 121.
Feist, A.M., Herrgård, M.J., Thiele, I., Reed, J.L. & Palsson, B.Ø., 2009.
Reconstruction of biochemical networks in microorganisms. Nature Reviews.
Microbiology, 7(2), 129-43.
Fell, D.A., 1992. Metabolic control analysis: a survey of its theoretical and
experimental development. Biochem J, 286 ( Pt 2), 313–330.
de Figueiredo, L.F., Schuster, S., Kaleta, C. & Fell, D.A., 2009. Can sugars be
produced from fatty acids? A test case for pathway analysis tools.
Bioinformatics (Oxford, England), 25(1), 152-158.
Fisher, J. & Henzinger, T.A., 2007. Executable cell biology. Nat Biotechnol, 25(11),
1239–1249.
Forsyth, R.A., Haselbeck, R.J., Ohlsen, K.L., Yamamoto, R.T., Xu, H., Trawick, J.D.,
Wall, D., Wang, L., Brown-Driver, V., Froelich, J.M., C, K.G., King, P.,
McCarthy, M., Malone, C., Misiner, B., Robbins, D., Tan, Z., Zhu Zy, Z.,
Carr, G., Mosca, D.A., Zamudio, C., Foulkes, J.G. & Zyskind, J.W., 2002. A
genome-wide strategy for the identification of essential genes in
Staphylococcus aureus. Molecular Microbiology, 43(6), 1387-400.
210
Maxime DUROT Thèse de doctorat 2009
Fournier, P., Vallenet, D., Barbe, V., Audic, S., Ogata, H., Poirel, L., Richet, H.,
Robert, C., Mangenot, S., Abergel, C., Nordmann, P., Weissenbach, J., Raoult,
D. & Claverie, J., 2006. Comparative genomics of multidrug resistance in
Acinetobacter baumannii. PLoS Genet, 2(1), e7.
French, C.T., Lao, P., Loraine, A.E., Matthews, B.T., Yu, H. & Dybvig, K., 2008.
Large-scale transposon mutagenesis of Mycoplasma pulmonis. Molecular
Microbiology, 69(1), 67-76.
Funahashi, A., Morohashi, M., Kitano, H. & Tanimura, N., 2003. CellDesigner: a
process diagram editor for gene-regulatory and biochemical networks.
Biosilico, 1(5), 159-162.
Gallagher, L.A., Ramage, E., Jacobs, M.A., Kaul, R., Brittnacher, M. & Manoil, C.,
2007. A comprehensive transposon mutant library of Francisella novicida, a
bioweapon surrogate. Proceedings of the National Academy of Sciences of the
United States of America, 104(3), 1009-14.
Gennis, R.B. & Stewart, V., 1996. Respiration. Dans F. C. Neidhardt, éd. Escherichia
coli and Salmonella: cellular and molecular biology. Washington, D.C.:
ASM Press, pp. 217–261.
Gerdes, S.Y., Scholle, M.D., Campbell, J.W., Balázsi, G., Ravasz, E., Daugherty,
M.D., Somera, A.L., Kyrpides, N.C., Anderson, I., Gelfand, M.S.,
Bhattacharya, A., Kapatral, V., D'Souza, M., Baev, M.V., Grechkin, Y.,
Mseeh, F., Fonstein, M.Y., Overbeek, R., Barabási, A., Oltvai, Z.N. &
Osterman, A.L., 2003. Experimental determination and system level analysis
of essential genes in Escherichia coli MG1655. J Bacteriol, 185(19), 5673–
5684.
Gerdes, S., Edwards, R., Kubal, M., Fonstein, M., Stevens, R. & Osterman, A., 2006.
Essential genes on metabolic maps. Curr Opin Biotechnol, 17(5), 448–456.
Gerischer, U., Jerg, B. & Fischer, R., 2008. Spotlight on the Acinetobacter baylyi
beta-ketoadipate pathway: multiple levels of regulation. Dans Acinetobacter
Molecular Biology. Norfolk, UK: Caister Academic Press, pp. 203-230.
Gevorgyan, A., Poolman, M.G. & Fell, D.A., 2008. Detection of stoichiometric
inconsistencies in biomolecular models. Bioinformatics, 24(19), 2245–2251.
Giaever, G., Chu, A.M., Ni, L., Connelly, C., Riles, L., Véronneau, S., Dow, S.,
Lucau-Danila, A., Anderson, K., André, B., Arkin, A.P., Astromoff, A., El-
Bakkoury, M., Bangham, R., Benito, R., Brachat, S., Campanaro, S., Curtiss,
M., Davis, K., Deutschbauer, A., Entian, K., Flaherty, P., Foury, F., Garfinkel,
D.J., Gerstein, M., Gotte, D., Güldener, U., Hegemann, J.H., Hempel, S.,
Herman, Z., Jaramillo, D.F., Kelly, D.E., Kelly, S.L., Kötter, P., LaBonte, D.,
Lamb, D.C., Lan, N., Liang, H., Liao, H., Liu, L., Luo, C., Lussier, M., Mao,
R., Menard, P., Ooi, S.L., Revuelta, J.L., Roberts, C.J., Rose, M., Ross-
Macdonald, P., Scherens, B., Schimmack, G., Shafer, B., Shoemaker, D.D.,
211
Maxime DUROT Thèse de doctorat 2009
Sookhai-Mahadeo, S., Storms, R.K., Strathern, J.N., Valle, G., Voet, M.,
Volckaert, G., Wang, C., Ward, T.R., Wilhelmy, J., Winzeler, E.A., Yang, Y.,
Yen, G., Youngman, E., Yu, K., Bussey, H., Boeke, J.D., Snyder, M.,
Philippsen, P., Davis, R.W. & Johnston, M., 2002. Functional profiling of the
Saccharomyces cerevisiae genome. Nature, 418(6896), 387–391.
Gillespie, D.T., 2007. Stochastic simulation of chemical kinetics. Annu Rev Phys
Chem, 58, 35–55.
Glasner, J.D., Liss, P., Plunkett, G., Darling, A., Prasad, T., Rusch, M., Byrnes, A.,
Gilson, M., Biehl, B., Blattner, F.R. & Perna, N.T., 2003. ASAP, a systematic
annotation package for community analysis of genomes. Nucleic Acids
Research, 31(1), 147-151.
Glass, J.I., Assad-Garcia, N., Alperovich, N., Yooseph, S., Lewis, M.R., Maruf, M.,
Hutchison, C.A., Smith, H.O. & Venter, J.C., 2006. Essential genes of a
minimal bacterium. Proc Natl Acad Sci U S A, 103(2), 425–430.
Gong, X., Fan, S., Bilderbeck, A., Li, M., Pang, H. & Tao, S., 2008. Comparative
analysis of essential genes and nonessential genes in Escherichia coli K12.
Molecular Genetics and Genomics, 279(1), 87-94.
Hahn, M.W. & Kern, A.D., 2005. Comparative genomics of centrality and essentiality
in three eukaryotic protein-interaction networks. Molecular Biology and
Evolution, 22(4), 803-6.
Handorf, T., Christian, N., Ebenhöh, O. & Kahn, D., 2008. An environmental
perspective on metabolism. Journal of Theoretical Biology, 252(3), 530-7.
Handorf, T., Ebenhöh, O. & Heinrich, R., 2005. Expanding metabolic networks:
scopes of compounds, robustness, and evolution. Journal of Molecular
Evolution, 61(4), 498-512.
Hare, R.S., Walker, S.S., Dorman, T.E., Greene, J.R., Guzman, L.M., Kenney, T.J.,
Sulavik, M.C., Baradaran, K., Houseweart, C., Yu, H., Foldes, Z., Motzer, A.,
Walbridge, M., Shimer, G.H. & Shaw, K.J., 2001. Genetic footprinting in
bacteria. Journal of Bacteriology, 183(5), 1694-706.
Harrison, R., Papp, B., Pál, C., Oliver, S.G. & Delneri, D., 2007. Plasticity of genetic
interactions in metabolic networks of yeast. Proc Natl Acad Sci U S A, 104(7),
2307–2312.
Hayes, F., 2003. Transposon-based strategies for microbial functional genomics and
proteomics. Annual Review of Genetics, 37, 3-29.
212
Maxime DUROT Thèse de doctorat 2009
Henry, C., Zinner, J., Cohoon, M. & Stevens, R., 2009. iBsu1103: a new genome-
scale metabolic model of Bacillus subtilis based on SEED annotations.
Genome Biology, 10(6), R69.
Hofestädt, R., 2003. Petri nets and the simulation of metabolic networks. In Silico
Biology, 3(3), 321-2.
Hucka, M., Finney, A., Bornstein, B.J., Keating, S.M., Shapiro, B.E., Matthews, J.,
Kovitz, B.L., Schilstra, M.J., Funahashi, A., Doyle, J.C. & Kitano, H., 2004.
Evolving a lingua franca and associated software infrastructure for
computational systems biology: the Systems Biology Markup Language
(SBML) project. Syst Biol (Stevenage), 1(1), 41–53.
Hunter, P.J. & Borg, T.K., 2003. Integration from proteins to organs: the Physiome
Project. Nature Reviews. Molecular Cell Biology, 4(3), 237-43.
Hutchison, C.A., Peterson, S.N., Gill, S.R., Cline, R.T., White, O., Fraser, C.M.,
Smith, H.O. & Venter, J.C., 1999. Global transposon mutagenesis and a
minimal Mycoplasma genome. Science (New York, N.Y.), 286(5447), 2165-9.
Ibarra, R.U., Edwards, J.S. & Palsson, B.O., 2002. Escherichia coli K-12 undergoes
adaptive evolution to achieve in silico predicted optimal growth. Nature,
420(6912), 186–189.
Imielinski, M. & Belta, C., 2008. Exploiting the pathway structure of metabolism to
reveal high-order epistasis. BMC Systems Biology, 2(1), 40.
Imielinski, M., Belta, C., Halasz, A. & Rubin, H., 2005. Investigating metabolite
essentiality through genome-scale analysis of Escherichia coli production
capabilities. Bioinformatics, 21(9), 2008–2016.
Imielinski, M., Belta, C., Rubin, H. & Halász, A., 2006. Systematic analysis of
conservation relations in Escherichia coli genome-scale metabolic network
reveals novel growth media. Biophys J, 90(8), 2659–2672.
Jacobs, M.A., Alwood, A., Thaipisuttikul, I., Spencer, D., Haugen, E., Ernst, S., Will,
O., Kaul, R., Raymond, C., Levy, R., Chun-Rong, L., Guenthner, D., Bovee,
D., Olson, M.V. & Manoil, C., 2003. Comprehensive transposon mutant
library of Pseudomonas aeruginosa. Proc Natl Acad Sci U S A, 100(24),
14339–14344.
213
Maxime DUROT Thèse de doctorat 2009
Janssen, D.B., Dinkla, I.J.T., Poelarends, G.J. & Terpstra, P., 2005. Bacterial
degradation of xenobiotic compounds: evolution and distribution of novel
enzyme activities. Environ Microbiol, 7(12), 1868–1882.
Jeong, H., Mason, S.P., Barabási, A.L. & Oltvai, Z.N., 2001. Lethality and centrality
in protein networks. Nature, 411(6833), 41-2.
Jeong, H., Tombor, B., Albert, R., Oltvai, Z.N. & Barabasi, A.L., 2000. The large-
scale organization of metabolic networks. Nature, 407(6804), 651–654.
Ji, Y., Zhang, B., Van, S.F., Horn, Warren, P., Woodnutt, G., Burnham, M.K. &
Rosenberg, M., 2001. Identification of critical staphylococcal genes using
conditional phenotypes generated by antisense RNA. Science, 293(5538),
2266-9.
Joyce, A.R. & Palsson, B.Ø., 2006. The model organism as a system: integrating
'omics' data sets. Nat Rev Mol Cell Biol, 7(3), 198–210.
Joyce, A.R., Reed, J.L., White, A., Edwards, R., Osterman, A., Baba, T., Mori, H.,
Lesely, S.A., Palsson, B.Ø. & Agarwalla, S., 2006. Experimental and
computational assessment of conditionally essential genes in Escherichia coli.
J Bacteriol, 188(23), 8259–8271.
Kacser, H. & Burns, J.A., 1973. The control of flux. Symposia of the Society for
Experimental Biology, 27, 65-104.
Kaleta, C., Centler, F., Fenizio, P.S.D. & Dittrich, P., 2008. Phenotype prediction in
regulated metabolic networks. BMC Syst Biol, 2(1), 37.
Kanehisa, M., Araki, M., Goto, S., Hattori, M., Hirakawa, M., Itoh, M., Katayama, T.,
Kawashima, S., Okuda, S., Tokimatsu, T. & Yamanishi, Y., 2007. KEGG for
linking genomes to life and the environment. Nucl. Acids Res., 36, D480–
D484.
Kanehisa, M., Goto, S., Hattori, M., Aoki-Kinoshita, K.F., Itoh, M., Kawashima, S.,
Katayama, T., Araki, M. & Hirakawa, M., 2006. From genomics to chemical
genomics: new developments in KEGG. Nucleic Acids Res, 34(Database
issue), D354–D357.
Kanehisa, M., Goto, S., Kawashima, S., Okuno, Y. & Hattori, M., 2004. The KEGG
resource for deciphering the genome. Nucleic Acids Res, 32(Database issue),
D277–D280.
214
Maxime DUROT Thèse de doctorat 2009
Kang, Y., Durfee, T., Glasner, J.D., Qiu, Y., Frisch, D., Winterberg, K.M. & Blattner,
F.R., 2004. Systematic mutagenesis of the Escherichia coli genome. J
Bacteriol, 186(15), 4921–4930.
Karp, P.D., Paley, S. & Romero, P., 2002. The Pathway Tools software.
Bioinformatics, 18 Suppl 1, S225–S232.
King, R.D., Whelan, K.E., Jones, F.M., Reiser, P.G.K., Bryant, C.H., Muggleton,
S.H., Kell, D.B. & Oliver, S.G., 2004. Functional genomic hypothesis
generation and experimentation by a robot scientist. Nature, 427(6971), 247–
252.
King, R.D., Rowland, J., Oliver, S.G., Young, M., Aubrey, W., Byrne, E., Liakata,
M., Markham, M., Pir, P., Soldatova, L.N., Sparkes, A., Whelan, K.E. &
Clare, A., 2009. The Automation of Science. Science, 324(5923), 85-89.
Kitagawa, M., Ara, T., Arifuzzaman, M., Ioka-Nakamichi, T., Inamoto, E., Toyonaga,
H. & Mori, H., 2005. Complete set of ORF clones of Escherichia coli ASKA
library (a complete set of E. coli K-12 ORF archive): unique resources for
biological research. DNA Res, 12(5), 291–299.
Kitano, H., 2002. Systems biology: a brief overview. Science (New York, N.Y.),
295(5560), 1662-4.
Kitano, H., 2007. Towards a theory of biological robustness. Mol Syst Biol, 3, 137.
Klamt, S. & Gilles, E.D., 2004. Minimal cut sets in biochemical reaction networks.
Bioinformatics, 20(2), 226–234.
Klamt, S., Saez-Rodriguez, J. & Gilles, E.D., 2007. Structural and functional analysis
of cellular networks with CellNetAnalyzer. BMC Syst Biol, 1, 2.
Klipp, E., Heinrich, R. & Holzhütter, H., 2002. Prediction of temporal gene
expression. Metabolic opimization by re-distribution of enzyme activities. Eur
J Biochem, 269(22), 5406–5413.
Knoll, A.H., 2003. The geological consequences of evolution. Geobiology, 1(1), 3-14.
Knuth, K., Niesalla, H., Hueck, C.J. & Fuchs, T.M., 2004. Large-scale identification
of essential Salmonella genes by trapping lethal insertions. Molecular
Microbiology, 51(6), 1729-44.
Kobayashi, K., Ehrlich, S.D., Albertini, A., Amati, G., Andersen, K.K., Arnaud, M.,
Asai, K., Ashikaga, S., Aymerich, S., Bessieres, P., Boland, F., Brignell, S.C.,
215
Maxime DUROT Thèse de doctorat 2009
Bron, S., Bunai, K., Chapuis, J., Christiansen, L.C., Danchin, A.,
Débarbouille, M., Dervyn, E., Deuerling, E., Devine, K., Devine, S.K.,
Dreesen, O., Errington, J., Fillinger, S., Foster, S.J., Fujita, Y., Galizzi, A.,
Gardan, R., Eschevins, C., Fukushima, T., Haga, K., Harwood, C.R., Hecker,
M., Hosoya, D., Hullo, M.F., Kakeshita, H., Karamata, D., Kasahara, Y.,
Kawamura, F., Koga, K., Koski, P., Kuwana, R., Imamura, D., Ishimaru, M.,
Ishikawa, S., Ishio, I., Coq, D.L., Masson, A., Mauël, C., Meima, R., Mellado,
R.P., Moir, A., Moriya, S., Nagakawa, E., Nanamiya, H., Nakai, S., Nygaard,
P., Ogura, M., Ohanan, T., O'Reilly, M., O'Rourke, M., Pragai, Z., Pooley,
H.M., Rapoport, G., Rawlins, J.P., Rivas, L.A., Rivolta, C., Sadaie, A., Sadaie,
Y., Sarvas, M., Sato, T., Saxild, H.H., Scanlan, E., Schumann, W., Seegers,
J.F.M.L., Sekiguchi, J., Sekowska, A., Séror, S.J., Simon, M., Stragier, P.,
Studer, R., Takamatsu, H., Tanaka, T., Takeuchi, M., Thomaides, H.B.,
Vagner, V., Dijl, J.M.V., Watabe, K., Wipat, A., Yamamoto, H., Yamamoto,
M., Yamamoto, Y., Yamane, K., Yata, K., Yoshida, K., Yoshikawa, H.,
Zuber, U. & Ogasawara, N., 2003. Essential Bacillus subtilis genes. Proc Natl
Acad Sci U S A, 100(8), 4678–4683.
Koch, I., Junker, B.H. & Heiner, M., 2005. Application of Petri net theory for
modelling and validation of the sucrose breakdown pathway in the potato
tuber. Bioinformatics (Oxford, England), 21(7), 1219-26.
Koonin, E.V., 2003. Comparative genomics, minimal gene-sets and the last universal
common ancestor. Nature Reviews. Microbiology, 1(2), 127-36.
Kuepfer, L., Sauer, U. & Blank, L.M., 2005. Metabolic functions of duplicate genes
in Saccharomyces cerevisiae. Genome Res, 15(10), 1421–1430.
Kumar, V.S., Dasika, M.S. & Maranas, C.D., 2007. Optimization based automated
curation of metabolic reconstructions. BMC Bioinformatics, 8, 212.
Kumar, V.S. & Maranas, C.D., 2009. GrowMatch: an automated method for
reconciling in silico/in vivo growth predictions. PLoS Computational Biology,
5(3), e1000308.
Kümmel, A., Panke, S. & Heinemann, M., 2006a. Putative regulatory sites unraveled
by network-embedded thermodynamic analysis of metabolome data. Mol Syst
Biol, 2, 2006.0034.
Le Fèvre, F., Smidtas, S., Combe, C., Durot, M., d'Alché-Buc, F. & Schachter, V.,
2009. CycSim - an online tool for exploring and experimenting with genome-
216
Maxime DUROT Thèse de doctorat 2009
Le Fèvre, F., Smidtas, S. & Schächter, V., 2007. Cyclone: java-based querying and
computing with Pathway/Genome databases. Bioinformatics, 23(10), 1299–
1300.
Le Novère, N., Bornstein, B., Broicher, A., Courtot, M., Donizelli, M., Dharuri, H.,
Li, L., Sauro, H., Schilstra, M., Shapiro, B., Snoep, J.L. & Hucka, M., 2006.
BioModels Database: a free, centralized database of curated, published,
quantitative kinetic models of biochemical and cellular systems. Nucleic Acids
Res, 34(Database issue), D689–D691.
Lee, J.M., Gianchandani, E.P., Eddy, J.A. & Papin, J.A., 2008. Dynamic analysis of
integrated signaling, metabolic, and regulatory networks. PLoS Comput Biol,
4(5), e1000086.
Lemerle, C., Di Ventura, B. & Serrano, L., 2005. Space as the final frontier in
stochastic simulations of biological systems. FEBS Letters, 579(8), 1789-94.
Lespinet, O. & Labedan, B., 2006a. ORENZA: a web resource for studying ORphan
ENZyme activities. BMC Bioinformatics, 7, 436.
Liberati, N.T., Urbach, J.M., Miyata, S., Lee, D.G., Drenkard, E., Wu, G., Villanueva,
J., Wei, T. & Ausubel, F.M., 2006. An ordered, nonredundant library of
Pseudomonas aeruginosa strain PA14 transposon insertion mutants. Proc Natl
Acad Sci U S A, 103(8), 2833–2838.
Ma, H. & Zeng, A., 2003. Reconstruction of metabolic networks from genome data
and analysis of their global structure for various organisms. Bioinformatics,
19(2), 270–277.
Mahadevan, R. & Schilling, C.H., 2003. The effects of alternate optimal solutions in
constraint-based genome-scale metabolic models. Metab Eng, 5(4), 264–276.
Makula, R.A., Lockwood, P.J. & Finnerty, W.R., 1975. Comparative analysis of the
lipids of Acinetobacter species grown on hexadecane. J Bacteriol, 121(1),
250–258.
217
Maxime DUROT Thèse de doctorat 2009
Markowitz, V.M., Mavromatis, K., Ivanova, N.N., Chen, I.A., Chu, K. & Kyrpides,
N.C., 2009. IMG ER: A System for Microbial Genome Annotation Expert
Review and Curation. Bioinformatics (Oxford, England). Available at:
http://www.ncbi.nlm.nih.gov/pubmed/19561336 [Accédé Juillet 29, 2009].
Maskow, T. & von Stockar, U., 2005. How reliable are thermodynamic feasibility
statements of biochemical pathways? Biotechnol Bioeng, 92(2), 223–230.
May, R.M., 2004. Uses and abuses of mathematics in biology. Science (New York,
N.Y.), 303(5659), 790-3.
McGovern, P.E., Glusker, D.L., Exner, L.J. & Voigt, M.M., 1996. Neolithic resinated
wine. Nature, 381(6582), 480-481.
van der Meer, J.R., de Vos, W.M., Harayama, S. & Zehnder, A.J., 1992. Molecular
mechanisms of genetic adaptation to xenobiotic compounds. Microbiological
Reviews, 56(4), 677-94.
Metzgar, D., Bacher, J.M., Pezo, V., Reader, J., Döring, V., Schimmel, P., Marlière,
P. & de Crécy-Lagard, V., 2004. Acinetobacter sp. ADP1: an ideal model
organism for genetic analysis and genome engineering. Nucleic Acids Res,
32(19), 5780–5790.
Médigue, C. & Moszer, I., 2007. Annotation, comparison and databases for hundreds
of bacterial genomes. Res Microbiol, 158(10), 724–736.
Michaelis, L. & Menten, M.L., 1913. Die Kinetik der Invertinwirkung. Biochem. Z,
49(333), 148.
Mitchell, A., Romano, G.H., Groisman, B., Yona, A., Dekel, E., Kupiec, M., Dahan,
O. & Pilpel, Y., 2009. Adaptive prediction of environmental changes by
microorganisms. Nature. Available at:
http://www.ncbi.nlm.nih.gov/pubmed/19536156 [Accédé Juillet 8, 2009].
Moraru, I.I., Schaff, J.C., Slepchenko, B.M., Blinov, M.L., Morgan, F.,
Lakshminarayana, A., Gao, F., Li, Y. & Loew, L.M., 2008. Virtual Cell
modelling and simulation software environment. IET Systems Biology, 2(5),
352-62.
Motter, A.E., Gulbahce, N., Almaas, E. & Barabási, A., 2008. Predicting synthetic
rescues in metabolic networks. Mol Syst Biol, 4, 168.
Murphy, K.C., Campellone, K.G. & Poteete, A.R., 2000. PCR-mediated gene
replacement in Escherichia coli. Gene, 246(1-2), 321–330.
218
Maxime DUROT Thèse de doctorat 2009
Mushegian, A.R. & Koonin, E.V., 1996. A minimal gene set for cellular life derived
by comparison of complete bacterial genomes. Proceedings of the National
Academy of Sciences of the United States of America, 93(19), 10268-73.
Neidhardt, F.C., 1996. The Enteric Bacterial Cell and the Age of Bacteria. Dans F. C.
Neidhardt, éd. Escherichia coli and Salmonella: cellular and molecular
biology. Washington, D.C.: ASM Press, pp. 1-4.
Neidhardt, F.C. & Umbarger, H.E., 1996. Chemical composition of Escherichia coli.
Dans F. C. Neidhardt, éd. Escherichia coli and Salmonella: cellular and
molecular biology. Washington, D.C.: ASM Press, pp. 13-16.
Neidhardt, F.C. éd., 1996. Escherichia coli and Salmonella: cellular and molecular
biology 2 éd., Washington, D.C.: ASM Press.
Neijssel, O.M., Teixeira de Mattos, M.J. & Tempest, D.W., 1996. Growth Yield and
Energy Distribution. Dans F. C. Neidhardt, éd. Escherichia coli and
Salmonella: cellular and molecular biology. Washington, D.C.: ASM Press,
pp. 1683-1692.
Noble, D., 2002. Modeling the heart--from genes to cells to the whole organ. Science,
295(5560), 1678-82.
Oberhardt, M.A., Pucha#ka, J., Fryer, K.E., Santos, V.A.P.M.D. & Papin, J.A., 2008.
Genome-scale metabolic network analysis of the opportunistic pathogen
Pseudomonas aeruginosa PAO1. J Bacteriol, 190(8), 2790–2803.
Oh, Y., Palsson, B.O., Park, S.M., Schilling, C.H. & Mahadevan, R., 2007. Genome-
scale reconstruction of metabolic network in Bacillus subtilis based on high-
throughput phenotyping and gene essentiality data. J Biol Chem, 282(39),
28791–28799.
Oliveira, A.P., Nielsen, J. & Förster, J., 2005. Modeling Lactococcus lactis using a
genome-scale flux model. BMC Microbiology, 5, 39.
Overbeek, R., Begley, T., Butler, R.M., Choudhuri, J.V., Chuang, H., Cohoon, M., de
Crécy-Lagard, V., Diaz, N., Disz, T., Edwards, R., Fonstein, M., Frank, E.D.,
Gerdes, S., Glass, E.M., Goesmann, A., Hanson, A., Iwata-Reuyl, D., Jensen,
R., Jamshidi, N., Krause, L., Kubal, M., Larsen, N., Linke, B., McHardy,
A.C., Meyer, F., Neuweger, H., Olsen, G., Olson, R., Osterman, A., Portnoy,
V., Pusch, G.D., Rodionov, D.A., Rückert, C., Steiner, J., Stevens, R., Thiele,
I., Vassieva, O., Ye, Y., Zagnitko, O. & Vonstein, V., 2005. The subsystems
approach to genome annotation and its use in the project to annotate 1000
genomes. Nucleic Acids Res, 33(17), 5691–5702.
Paley, S.M. & Karp, P.D., 2006. The Pathway Tools cellular overview diagram and
Omics Viewer. Nucleic Acids Res, 34(13), 3771–3778.
219
Maxime DUROT Thèse de doctorat 2009
Papp, B., Pál, C. & Hurst, L.D., 2004. Metabolic network analysis of the causes and
evolution of enzyme dispensability in yeast. Nature, 429(6992), 661–664.
Park, J.H., Lee, S.Y., Kim, T.Y. & Kim, H.U., 2008. Application of systems biology
for bioprocess development. Trends Biotechnol, 26(8), 404–412.
Pál, C., Papp, B. & Lercher, M.J., 2005. Adaptive evolution of bacterial metabolic
networks by horizontal gene transfer. Nat Genet, 37(12), 1372–1375.
Pál, C., Papp, B., Lercher, M.J., Csermely, P., Oliver, S.G. & Hurst, L.D., 2006.
Chance and necessity in the evolution of minimal metabolic networks. Nature,
440(7084), 667–670.
Pouliot, Y. & Karp, P.D., 2007. A survey of orphan enzyme activities. BMC
Bioinformatics, 8, 244.
du Preez, J.C., Lategan, P.M. & Toerien, D.F., 1984. Influence of the growth rate on
the macromolecular composition of A cinetobacter calcoaceticus in carbon-
limited chemostat culture. FEMS Microbiology Letters, 23, 71–75.
Price, N.D., Reed, J.L. & Palsson, B.O., 2004. Genome-scale models of microbial
cells: evaluating the consequences of constraints. Nat Rev Microbiol, 2(11),
886–897.
Pucha#ka, J., Oberhardt, M.A., Godinho, M., Bielecka, A., Regenhardt, D., Timmis,
K.N., Papin, J.A. & Santos, V.A.P.M.D., 2008. Genome-Scale Reconstruction
and Analysis of the Pseudomonas putida KT2440 Metabolic Network
Facilitates Applications in Biotechnology. PLoS Comput Biol, 4(10),
e1000210.
Ravasz, E., Somera, A.L., Mongru, D.A., Oltvai, Z.N. & Barabási, A.L., 2002.
Hierarchical organization of modularity in metabolic networks. Science,
297(5586), 1551–1555.
Raymond, J. & Segrè, D., 2006. The effect of oxygen on biochemical networks and
the evolution of complex life. Science, 311(5768), 1764–1767.
Reams, A.B. & Neidle, E.L., 2004. Selection for gene clustering by tandem
duplication. Annual Review of Microbiology, 58, 119-42.
Reddy, V.N., Liebman, M.N. & Mavrovouniotis, M.L., 1996. Qualitative analysis of
biochemical reaction systems. Computers in Biology and Medicine, 26(1), 9-
24.
Reed, J.L., Famili, I., Thiele, I. & Palsson, B.O., 2006. Towards multidimensional
genome annotation. Nat Rev Genet, 7(2), 130–141.
Reed, J.L., Patel, T.R., Chen, K.H., Joyce, A.R., Applebee, M.K., Herring, C.D., Bui,
O.T., Knight, E.M., Fong, S.S. & Palsson, B.O., 2006. Systems approach to
220
Maxime DUROT Thèse de doctorat 2009
Reed, J.L., Vo, T.D., Schilling, C.H. & Palsson, B.O., 2003. An expanded genome-
scale model of Escherichia coli K-12 (iJR904 GSM/GPR). Genome Biol, 4(9),
R54.
Reich, K.A., Chovan, L. & Hessler, P., 1999. Genome scanning in Haemophilus
influenzae for identification of essential genes. Journal of Bacteriology,
181(16), 4961-8.
Ren, Q., Kang, K.H. & Paulsen, I.T., 2004. TransportDB: a relational database of
cellular membrane transport systems. Nucleic Acids Res, 32(Database issue),
D284–D288.
Reznikoff, W.L. & Winterberg, K.M., 2008. Transposon-based strategies for the
identification of essential bacterial genes. Dans A. L. Osterman & S. Y.
Gerdes, éd. Microbial Gene Essentiality: Protocols and bioinformatics.
Methods in Molecular Biology. Totowa, NJ: Humana Press, pp. 13-26.
Ro, D., Paradise, E.M., Ouellet, M., Fisher, K.J., Newman, K.L., Ndungu, J.M., Ho,
K.A., Eachus, R.A., Ham, T.S., Kirby, J., Chang, M.C.Y., Withers, S.T.,
Shiba, Y., Sarpong, R. & Keasling, J.D., 2006. Production of the antimalarial
drug precursor artemisinic acid in engineered yeast. Nature, 440(7086), 940–
943.
Rocha, E.P.C. & Danchin, A., 2003. Essentiality, not expressiveness, drives gene-
strand bias in bacteria. Nat Genet, 34(4), 377–378.
Saghatelian, A., Trauger, S.A., Want, E.J., Hawkins, E.G., Siuzdak, G. & Cravatt,
B.F., 2004. Assignment of endogenous substrates to enzymes by global
metabolite profiling. Biochemistry, 43(45), 14332–14339.
Saito, N., Robert, M., Kitamura, S., Baran, R., Soga, T., Mori, H., Nishioka, T. &
Tomita, M., 2006. Metabolomics approach for enzyme discovery. J Proteome
Res, 5(8), 1979–1987.
221
Maxime DUROT Thèse de doctorat 2009
Salama, N.R., Shepherd, B. & Falkow, S., 2004. Global transposon mutagenesis and
essential gene analysis of Helicobacter pylori. Journal of Bacteriology,
186(23), 7926-35.
Sassetti, C.M., Boyd, D.H. & Rubin, E.J., 2003. Genes required for mycobacterial
growth defined by high density mutagenesis. Mol Microbiol, 48(1), 77–84.
Schellenberger, J. & Palsson, B.Ø., 2009. Use of randomized sampling for analysis of
metabolic networks. The Journal of Biological Chemistry, 284(9), 5457-61.
Schuetz, R., Kuepfer, L. & Sauer, U., 2007. Systematic evaluation of objective
functions for predicting intracellular fluxes in Escherichia coli. Mol Syst Biol,
3, 119.
Schwarz, R., Liang, C., Kaleta, C., Kühnel, M., Hoffmann, E., Kuznetsov, S., Hecker,
M., Griffiths, G., Schuster, S. & Dandekar, T., 2007. Integrated network
reconstruction, visualization and analysis using YANAsquare. BMC
Bioinformatics, 8, 313.
Scott, C.C., Makula, S.R. & Finnerty, W.R., 1976. Isolation and characterization of
membranes from a hydrocarbon-oxidizing Acinetobacter sp. J Bacteriol,
127(1), 469–480.
Segrè, D., Vitkup, D. & Church, G.M., 2002. Analysis of optimality in natural and
perturbed metabolic networks. Proc Natl Acad Sci U S A, 99(23), 15112–
15117.
Segrè, D., Zucker, J., Katz, J., Lin, X., D'haeseleer, P., Rindone, W.P., Kharchenko,
P., Nguyen, D.H., Wright, M.A. & Church, G.M., 2003. From annotated
genomes to metabolic flux models and kinetic parameter fitting. OMICS, 7(3),
301–316.
Segura, D., Mahadevan, R., Juárez, K. & Lovley, D.R., 2008. Computational and
Experimental Analysis of Redundancy in the Central Metabolism of
Geobacter sulfurreducens. PLoS Comput Biol, 4(2), e36.
Senger, R.S. & Papoutsakis, E.T., 2008. Genome-scale model for Clostridium
acetobutylicum: Part I. Metabolic network resolution and analysis. Biotechnol
Bioeng, 101(5), 1036–1052.
Serres, M.H., Goswami, S. & Riley, M., 2004. GenProtEC: an updated and improved
analysis of functions of Escherichia coli K-12 proteins. Nucleic Acids Res,
32(Database issue), D300–D302.
222
Maxime DUROT Thèse de doctorat 2009
Shannon, P., Markiel, A., Ozier, O., Baliga, N.S., Wang, J.T., Ramage, D., Amin, N.,
Schwikowski, B. & Ideker, T., 2003. Cytoscape: a software environment for
integrated models of biomolecular interaction networks. Genome Res, 13(11),
2498–2504.
Shlomi, T., Berkman, O. & Ruppin, E., 2005. Regulatory on/off minimization of
metabolic flux changes after genetic perturbations. Proc Natl Acad Sci U S A,
102(21), 7695–7700.
Simão, E., Remy, E., Thieffry, D. & Chaouiya, C., 2005. Qualitative modelling of
regulated metabolic pathways: application to the tryptophan biosynthesis in
E.coli. Bioinformatics (Oxford, England), 21 Suppl 2, ii190-6.
Smith, V., Botstein, D. & Brown, P.O., 1995. Genetic footprinting: a genomic
strategy for determining a gene's function given its sequence. Proceedings of
the National Academy of Sciences of the United States of America, 92(14),
6479-83.
Snitkin, E., Dudley, A., Janse, D., Wong, K., Church, G. & Segrè, D., 2008. Model-
driven analysis of experimentally determined growth phenotypes for 465 yeast
gene deletion mutants under 16 different conditions. Genome Biol, 9(9), R140.
Song, J., Ko, K.S., Lee, J., Baek, J.Y., Oh, W.S., Yoon, H.S., Jeong, J. & Chun, J.,
2005. Identification of essential genes in Streptococcus pneumoniae by allelic
replacement mutagenesis. Molecules and Cells, 19(3), 365-74.
Steinmetz, L.M., Scharfe, C., Deutschbauer, A.M., Mokranjac, D., Herman, Z.S.,
Jones, T., Chu, A.M., Giaever, G., Prokisch, H., Oefner, P.J. & Davis, R.W.,
2002. Systematic screen for human disease genes in yeast. Nat Genet, 31(4),
400–404.
Stelling, J., 2004. Mathematical models in microbial systems biology. Curr Opin
Microbiol, 7(5), 513–518.
Stelling, J., Sauer, U., Szallasi, Z., Doyle, F.J. & Doyle, J., 2004. Robustness of
cellular functions. Cell, 118(6), 675–685.
Stephanopoulos, G.N., Aristidou, A.A. & Nielsen, J., 1998. Metabolic engineering.
Principles and methodologies., San Diego, CA, USA: Academic Press,
Elsevier Science.
von Stockar, U. & Liu, J., 1999. Does microbial life always feed on negative entropy?
Thermodynamic analysis of microbial growth. Biochimica Et Biophysica Acta,
1412(3), 191-211.
223
Maxime DUROT Thèse de doctorat 2009
Strathern, J.N., Jones, E.W. & Broach, J. éd., 1982. Molecular Biology of the Yeast
Saccharomyces: Metabolism and Gene Expression, Cold Spring Harbor
Laboratory Press,U.S.A.
Suthers, P.F., Dasika, M.S., Kumar, V.S., Denisov, G., Glass, J.I. & Maranas, C.D.,
2009. A genome-scale metabolic reconstruction of Mycoplasma genitalium,
iPS189. PLoS Computational Biology, 5(2), e1000285.
Tagkopoulos, I., Liu, Y. & Tavazoie, S., 2008. Predictive behavior within microbial
genetic networks. Science, 320(5881), 1313–1317.
Taylor, W.H. & Juni, E., 1961a. Pathways for biosynthesis of a bacterial capsular
polysaccharide. I. Characterization of the organism and polysaccharide.
Journal of Bacteriology, 81, 688-93.
Taylor, W.H. & Juni, E., 1961b. Pathways for biosynthesis of a bacterial capsular
polysaccharide. II. Carbohydrate metabolism and terminal oxidation
mechanisms of a capsuleproducing coccus. Journal of Bacteriology, 81, 694-
703.
Taylor, W.H. & Juni, E., 1961c. Pathways for biosynthesis of a bacterial capsular
polysaccharide. III. Syntheses from radioactive substrates. The Journal of
Biological Chemistry, 236, 1231-4.
Thanassi, J.A., Hartman-Neumann, S.L., Dougherty, T.J., Dougherty, B.A. & Pucci,
M.J., 2002. Identification of 113 conserved essential genes using a high-
throughput gene disruption system in Streptococcus pneumoniae. Nucleic
Acids Research, 30(14), 3152-62.
Thiele, I., Vo, T.D., Price, N.D. & Palsson, B.Ø., 2005. Expanded metabolic
reconstruction of Helicobacter pylori (iIT341 GSM/GPR): an in silico
genome-scale characterization of single- and double-deletion mutants. J
Bacteriol, 187(16), 5818–5830.
Thorne, K.J., Thornley, M.J. & Glauert, A.M., 1973. Chemical analysis of the outer
membrane and other layers of the cell envelope of Acinetobacter sp. J
Bacteriol, 116(1), 410–417.
Tong, A.H.Y., Lesage, G., Bader, G.D., Ding, H., Xu, H., Xin, X., Young, J., Berriz,
G.F., Brost, R.L., Chang, M., Chen, Y., Cheng, X., Chua, G., Friesen, H.,
Goldberg, D.S., Haynes, J., Humphries, C., He, G., Hussein, S., Ke, L.,
Krogan, N., Li, Z., Levinson, J.N., Lu, H., Ménard, P., Munyana, C., Parsons,
A.B., Ryan, O., Tonikian, R., Roberts, T., Sdicu, A., Shapiro, J., Sheikh, B.,
Suter, B., Wong, S.L., Zhang, L.V., Zhu, H., Burd, C.G., Munro, S., Sander,
C., Rine, J., Greenblatt, J., Peter, M., Bretscher, A., Bell, G., Roth, F.P.,
Brown, G.W., Andrews, B., Bussey, H. & Boone, C., 2004. Global mapping
of the yeast genetic interaction network. Science, 303(5659), 808–813.
224
Maxime DUROT Thèse de doctorat 2009
Tong, I.T., Liao, H.H. & Cameron, D.C., 1991. 1,3-Propanediol production by
Escherichia coli expressing genes from the Klebsiella pneumoniae dha
regulon. Applied and Environmental Microbiology, 57(12), 3541-6.
Vallenet, D., Labarre, L., Rouy, Z., Barbe, V., Bocs, S., Cruveiller, S., Lajus, A.,
Pascal, G., Scarpelli, C. & Médigue, C., 2006. MaGe: a microbial genome
annotation system supported by synteny results. Nucleic Acids Res, 34(1), 53–
65.
Vallenet, D., Nordmann, P., Barbe, V., Poirel, L., Mangenot, S., Bataille, E., Dossat,
C., Gas, S., Kreimeyer, A., Lenoble, P., Oztas, S., Poulain, J., Segurens, B.,
Robert, C., Abergel, C., Claverie, J., Raoult, D., Médigue, C., Weissenbach, J.
& Cruveiller, S., 2008. Comparative analysis of Acinetobacters: three
genomes for three lifestyles. PLoS ONE, 3(3), e1805.
Vaneechoutte, M., Young, D.M., Ornston, L.N., De Baere, T., Nemec, A., Van Der
Reijden, T., Carr, E., Tjernberg, I. & Dijkshoorn, L., 2006. Naturally
transformable Acinetobacter sp. strain ADP1 belongs to the newly described
species Acinetobacter baylyi. Appl Environ Microbiol, 72(1), 932–936.
Varma, A. & Palsson, B.O., 1994. Metabolic Flux Balancing: Basic Concepts,
Scientific and Practical Use. Bio/Technology, 12, 994–998.
Villas-Boas, S.G., Roessner, U., Hansen, M.A.E., Smedsgaard, J. & Nielsen, J., 2007.
Metabolome Analysis: An Introduction, Wiley InterScience.
Vojinovi", V. & von Stockar, U., 2009. Influence of uncertainties in pH, pMg,
activity coefficients, metabolite concentrations, and other factors on the
analysis of the thermodynamic feasibility of metabolic pathways.
Biotechnology and Bioengineering. Available at:
http://www.ncbi.nlm.nih.gov/pubmed/19365870 [Accédé Avril 16, 2009].
de Vries, J. & Wackernagel, W., 2002. Integration of foreign DNA during natural
transformation of Acinetobacter sp. by homology-facilitated illegitimate
recombination. Proceedings of the National Academy of Sciences of the
United States of America, 99(4), 2094-2099.
Vyazmensky, M., Sella, C., Barak, Z. & Chipman, D.M., 1996. Isolation and
characterization of subunits of acetohydroxy acid synthase isozyme III and
reconstitution of the holoenzyme. Biochemistry, 35(32), 10339–10346.
Whelan, K.E. & King, R.D., 2008. Using a logical model to predict the growth of
yeast. BMC Bioinformatics, 9, 97.
225
Maxime DUROT Thèse de doctorat 2009
Wittig, U., Golebiewski, M., Kania, R., Krebs, O., Mir, S., Weidemann, A., Anstein,
S., Saric, J. & Rojas, I., 2006. SABIO-RK: integration and curation of reaction
kinetics data. Lecture Notes in Computer Science, 4075, 94.
Wunderlich, Z. & Mirny, L.A., 2006. Using the topology of metabolic networks to
predict viability of mutant strains. Biophys J, 91(6), 2304–2311.
Yamazaki, Y., Niki, H. & Kato, J., 2008. Profiling of Escherichia coli Chromosome
database. Dans A. L. Osterman & S. Y. Gerdes, éd. Microbial Gene
Essentiality: Protocols and bioinformatics. Methods in Molecular Biology.
Totowa, NJ: Humana Press, pp. 385-9.
Young, D.M., Parke, D. & Ornston, L.N., 2005. Opportunities for genetic
investigation afforded by Acinetobacter baylyi, a nutritionally versatile
bacterial species that is highly competent for natural transformation. Annu Rev
Microbiol, 59, 519–551.
Zaslaver, A., Mayo, A.E., Rosenberg, R., Bashkin, P., Sberro, H., Tsalyuk, M.,
Surette, M.G. & Alon, U., 2004. Just-in-time transcription program in
metabolic pathways. Nat Genet, 36(5), 486–491.
Zhang, R. & Lin, Y., 2009. DEG 5.0, a database of essential genes in both
prokaryotes and eukaryotes. Nucleic Acids Research, 37(Database issue),
D455-8.
226
Maxime DUROT Thèse de doctorat 2009
ANNEXE
Le Fèvre, F., Smidtas, S., Combe, C., Durot, M., d'Alché-Buc, F. & Schachter, V.,
2009. CycSim - an online tool for exploring and experimenting with genome-
scale metabolic models. Bioinformatics, 25(15), 1987-1988.
de Berardinis, V., Durot, M., Weissenbach, J. & Salanoubat, M., 2009. Acinetobacter
baylyi ADP1 as a model for metabolic system biology. Curr Opin Microbiol,
12(5), 568-576.
227
BIOINFORMATICS APPLICATIONS NOTE
Vol. 25 no. 15 2009, pages 1987–1988
doi:10.1093/bioinformatics/btp268
Systems biology
Fig. 1. CycSim screenshots. From the analysis of growth phenotypes of multiple mutants on multiple media (left), a flux distribution can be computed and
visualized directly on relevant pathways (right).
pathways. Any of these four data types can be submitted online, Funding: European FP6 Networks of Excellence BioSapiens
using for models the SBML format, enhanced with MIRIAM (LSHG-CT-2003-503265); ENFIN (LSHG-CT-2005-518254).
annotations (Finney and Hucka, 2003; Le Novère et al., 2005).
Conflict of Interest: none declared.
1988