i i
“epidemiologie” — 2006/5/11 — 9:29 — page 113 — #149
i i
CHAPITRE 4
Épidémiologie et sciences
mathématiques
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 114 — #150
i i
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 115 — #151
i i
SOUS-CHAPITRE 4.1
Épidémiologie et statistique
GUY THOMAS, MARC YOR ET PIERRE-YVES BOËLLE
Dans le domaine du vivant, les sources de variabilité sont très nombreuses,
et pour la plupart inconnues. Même si l’on imaginait pouvoir connaître tous
les paramètres intervenant dans le phénomène étudié, un modèle prenant en
compte tous ces degrés de liberté serait beaucoup trop complexe pour être utile.
Dans ce contexte, les épidémiologistes ont été amenés :
– à développer des protocoles spécifiques de recueil de données ;
– à modéliser les phénomènes étudiés comme des phénomènes aléatoires ;
– à analyser les données recueillies dans le cadre théorique de la statistique
mathématique.
Les interactions entre épidémiologie et statistique mathématique sont riches
et bilatérales. Certains problèmes rencontrés en épidémiologie sont à l’origine
de méthodes statistiques originales et spécifiques, dont l’étude théorique est me-
née par des mathématiciens. Réciproquement, des résultats de mathématique
contemporaine trouvent un domaine d’application en épidémiologie. Cette dy-
namique interactive peut seule garantir la qualité de la recherche en épidémio-
logie, alors que la disponibilité croissante de logiciels « clés en main » permet
désormais à des utilisateurs naïfs de mener des analyses complexes sans maî-
trise des outils méthodologiques.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 116 — #152
i i
116 L’ ÉPIDÉMIOLOGIE HUMAINE
L’objet de ce chapitre est d’illustrer les interactions entre épidémiologie et
statistique mathématique par des exemples appartenant à différents domaines
de l’épidémiologie, mais sans aucune prétention à l’exhaustivité.
1 Statistique mathématique et épidémiologie
Les fondements de l’approche statistique sont évidemment mathématiques,
même si cette caractéristique peut être masquée par la possibilité d’appliquer
certains résultats sans avoir à maîtriser la théorie sous-jacente. La disponibilité
croissante de logiciels mettant en œuvre simplement et rapidement les traite-
ments statistiques les plus complexes ne peut que renforcer l’écart entre compré-
hension et utilisation d’une méthode.
1.1 Analyse des essais thérapeutiques
Dans un protocole d’essai clinique (on considérera ici un protocole de
phase III, de recherche de supériorité ou d’équivalence), on retrouve généra-
lement les caractéristiques suivantes : un nombre de patients à inclure est fixé
dès le début du protocole, grâce à un calcul basé sur la différence entre traite-
ments que l’on souhaite déceler avec des risques acceptés ; la conclusion n’est
connue qu’une fois l’ensemble des patients observés, à l’issue d’une analyse
finale ; l’analyse est conduite dans un cadre statistique « fréquentiste ».
L’analyse de tels essais peut ne pas nécessiter de compétences mathématiques
particulières, par exemple si l’on effectue une simple comparaison de moyennes.
Néanmoins, la théorie mathématique qui sous-tend la validité de la méthodolo-
gie statistique fait appel à des concepts mathématiques comme la convergence
en loi d’une suite de variables aléatoires, qui ne sont enseignés que dans le
2e cycle des études supérieures.
Le protocole type de l’essai contrôlé reste régulièrement critiqué, en raison
de problèmes éthiques, de l’écart entre la recherche d’un résultat « statistique-
ment significatif » et de sa pertinence clinique, et également en raison du temps
nécessaire pour obtenir une conclusion (souvent plusieurs années). Des dévelop-
pements récents de statistique mathématique ont été réalisés qui ciblent certains
de ces problèmes, au prix toutefois d’une plus grande complexité de l’analyse.
Un exemple important est le développement des méthodes de tests répétés ou
séquentiels. La propriété recherchée est alors de pouvoir conclure à l’efficacité
d’une intervention en s’appuyant sur le nombre le plus réduit possible d’unités
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 117 — #153
i i
É PIDÉMIOLOGIE ET STATISTIQUE 117
expérimentales. La répétition des tests, ainsi que la poursuite de l’essai condi-
tionnellement aux résultats antérieurs, posent cependant des problèmes mathé-
matiques ardus pour déterminer quelle procédure garantit un risque d’erreur
global spécifié à l’avance.
Par exemple, la recherche d’une fonction de coût optimale pour répartir cette
erreur au cours des analyses successives est un terrain de recherche encore ac-
tif. Bien qu’a priori d’essence différente, la recherche de méthodes de randomi-
sation adaptative, où l’intervention attribuée aux patients nouvellement recrutés
dans un essai est biaisée vers celle qui semble la plus efficace au vu des données
antérieures (stratégie Play the Winner) possède des caractéristiques équivalentes
à celle des essais séquentiels. Les développements mathématiques nécessaires
pour établir les propriétés de ces méthodes sont très techniques, notamment
lorsque l’on veut garantir une taille finie à ces essais : les démonstrations sont
réalisées grâce aux propriétés de fonctionnelles du mouvement brownien, dont
le niveau mathématique est celui d’un troisième cycle. L’implémentation en pra-
tique de ces méthodes reste limitée, d’une part à cause de problèmes logistiques
(l’analyse des données doit être contemporaine du déroulement de l’essai), mais
également en raison de la plus grande complexité de la méthode. Cependant
au moins deux logiciels spécialisés sont actuellement commercialisés (PESTTM ,
EASTTM ) qui permettent de simplifier tant la planification que la conduite de tels
essais.
Un changement beaucoup plus radical dans la conduite des essais cliniques
est celui qui est annoncé dans un récent éditorial de la revue Science : l’au-
teur constate que « si la majeure partie des sciences ont travaillé pour que la
connaissance a priori soit largement intégrée dans les analyses ultérieures, il
n’en est pas de même pour les essais cliniques ». Bien qu’une grande quantité
d’information a priori soit néanmoins utilisée dans la construction d’un essai, il
est vrai que l’analyse finale de l’essai repose sur les seules données recueillies au
cours de l’essai, privilégiant une forme d’objectivité de l’analyse en dehors de
tout a priori. Dans les essais de phase I/II, c’est-à-dire de recherche de dose et
toxicité, ce paradigme tend de plus en plus à être remplacé par des approches
« bayésiennes » où l’information connue avant l’essai et obtenue en cours d’es-
sai est utilisée dans la conduite du protocole. Les essais de phase III sont encore
peu réalisés selon l’approche bayésienne, bien qu’il ait été suggéré que cela
puisse s’avérer très fructueux, notamment dans le cas des maladies rares. Ces
approches « bayésiennes » sont généralement plus complexes dans leur mise
en œuvre, puisqu’elles reposent sur des calculs (essentiellement) numériques de
densités conditionnelles. Ici, bien qu’il n’existe pas encore de logiciels « clés en
main » permettant la planification et l’analyse de ces essais, des plates-formes
non spécifiques sont déjà disponibles (par exemple BUGSTM ).
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 118 — #154
i i
118 L’ ÉPIDÉMIOLOGIE HUMAINE
1.2 Données manquantes
Il n’est généralement pas acceptable, et toujours préjudiciable, d’exclure de
l’analyse les données qui sont incomplètes. C’est cependant la méthode qui est
généralement appliquée dans les analyses épidémiologiques, notamment parce
que les logiciels d’analyse procèdent à l’élimination des données incomplètes
avant analyse.
Éviter les données manquantes est donc une priorité qui doit se gérer prin-
cipalement lors du recueil des données par le contrôle de qualité. Cependant,
l’utilisation de méthodes statistiques récentes permet, le cas échéant, de rendre
compte de ces données manquantes lors de l’analyse. Par exemple, des tech-
niques de type EM (« expectation, maximisation ») sont quelquefois possibles.
Il s’agit généralement, par une méthode itérative où les données manquantes
sont remplacées par leur moyenne prédite, de parvenir à une estimation des
paramètres. Le développement de la méthode est cependant ad hoc et doit être
adapté à chaque jeu de données.
Une autre voie de recherche à visée plus globale est de procéder à une im-
putation des données manquantes. À l’aide d’un modèle prédictif ajusté sur
les données observées (généralement un modèle non paramétrique, ou par ré-
échantillonnage), les valeurs manquantes sont « imputées », avec une variabilité
qui reflète l’incertitude du modèle prédictif. On peut donc obtenir un jeu de
données complet, qui a l’avantage d’être analysable avec des outils statistiques
classiques. Il faut généralement procéder à des imputations multiples pour ga-
rantir la validité statistique de la procédure.
Bien évidemment, des hypothèses sont nécessaires à la validité de ces ap-
proches : ainsi, elle a été établie pour des données manquantes « totalement au
hasard » ou « au hasard », mais la meilleure prise en compte des données man-
quantes « non au hasard », ou des données « à manquantes informatives » reste
un champ de recherche ouvert. Cependant, on ne sait pas caractériser, pour un
jeu de données, la nature des données manquantes : « au hasard » ou « infor-
matives ». La disponibilité des méthodes d’imputation multiple dans les logiciels
statistiques standard peut alors poser des problèmes d’utilisation indiscriminée.
1.3 Régression non paramétrique
Dans les études où les facteurs de confusions sont nombreux et/ou de nature
quantitative, l’estimation non biaisée des relations statistiques d’intérêt repose
sur l’utilisation de modèles de régression, où les facteurs de confusion figurent
en tant que covariables. Dans ce contexte, les modèles de régression dits « non
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 119 — #155
i i
É PIDÉMIOLOGIE ET STATISTIQUE 119
paramétriques » ont l’intérêt majeur de ne pas imposer d’hypothèse a priori sur
la forme mathématique de la relation entre la variable à expliquer et les cova-
riables. Ces modèles sont mathématiquement complexes. Néanmoins, il existe
aujourd’hui des logiciels qui permettent d’effectuer des régressions non para-
métriques en épargnant à l’utilisateur tout aspect technique. Cette apparente
simplicité peut conduire à des conclusions erronées.
Exemple : mortalité et pollution atmosphérique
Les relations entre pollution atmosphérique et mortalité font l’objet de nom-
breuses recherches. Dans ce contexte, il est devenu habituel d’utiliser une ap-
proche non paramétrique pour décrire les covariables (jour de la semaine, sai-
sonnalité, tendances, facteurs métérologiques) dans le modèle de la variable à
expliquer, et de garder un modèle paramétrique simple pour la relation entre
l’indicateur de pollution et la mortalité. Un article récent (Dominici et al., 2002)
illustre les risques inhérents à l’utilisation « naïve » des logiciels de régression
non paramétrique dans ce contexte. En prenant pour exemple le problème de
l’estimation de la relation entre la mortalité chez les plus de 75 ans et la concen-
tration en particules de l’atmosphère, les auteurs montrent que les procédures
automatiques de logiciels « clés en main » peuvent conduire à des biais impor-
tants, et que les options par défaut des programmes doivent être adaptées en
fonction du problème à traiter.
Ainsi, plus les outils méthodologiques sont puissants et flexibles, plus les ma-
thématiques sous-jacentes sont complexes, plus leur utilisation doit être encadrée
par des épidémiologistes qui en maîtrisent les aspects théoriques.
1.4 Méthodes géostatistiques
La cartographie des maladies transmissibles a pour but immédiat de repré-
senter géographiquement l’incidence, mais également d’analyser la dissémina-
tion spatiotemporelle de la maladie, ouvrant ainsi la possibilité de prédire ou de
contrôler celle-ci.
En géologie, l’analyse de gisements doit s’appuyer sur une vue partielle des
sous-sols, obtenue généralement par carottage. Extrapoler la composition du
sous-sol à partir de quelques sondages a donc été l’objet d’une recherche spé-
cifique qui a débouché sur la méthode du krigeage (Matheron, 1970). À partir
de données pareillement prélevées par « sondage » auprès d’un échantillon de
médecins répartis sur un territoire, il est donc possible d’appliquer le même type
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 120 — #156
i i
120 L’ ÉPIDÉMIOLOGIE HUMAINE
de méthodes en épidémiologie (Carrat et Valleron, 1992). La figure 4.1-1 per-
met de juger l’intérêt de la méthode dans la représentation graphique de la
grippe en France.
Plusieurs problèmes conceptuels et statistiques se posent :
– comment prendre en compte la dynamique temporelle de l’épidémie ? il
s’agit d’un problème lié à la dynamique des épidémies, et que l’on n’avait
donc pas à traiter en géostatistique ;
– la proximité géographique est-elle pertinente dans la diffusion des épi-
démies ? Ou faut-il plutôt prendre en compte une géographie liée aux
transports ?
L’utilisation de l’approche bayésienne hiérarchique permet aujourd’hui de
répondre à certains de ces aspects, notamment dans la prise en compte de la
dynamique temporelle.
1.5 Méthodes amplitude/fréquence
Dans l’étude des maladies transmissibles, l’existence de fronts de propagation
devrait être observée si la dimension spatiale géographique est prépondérante.
On peut également s’attendre à ce que cette propagation soit plus apparente
pour des maladies impliquant un vecteur (moustiques par exemple). De fait, on
a observé de tels fronts pour la propagation de la dengue en Thaïlande. L’ana-
lyse permettant cette mise en évidence emprunte à la théorie du signal, avec une
décomposition en modes empiriques. Cette méthode permet de décomposer sur
une famille de fonctions empiriques (et non pas une base de fonctions choisie
par avance, comme une base d’ondelettes) la variance des données observées.
Dans le cas de la dengue, on a ainsi pu mettre en évidence l’existence d’un mode
de période 3 ans, qui correspond au balayage du pays par des fronts d’infec-
tion partant de Bangkok. De telles analyses ont également été conduites avec la
rougeole en Grande-Bretagne, en s’appuyant par exemple sur une décomposi-
tion par ondelettes, avec la mise en évidence de sources de cas, correspondant
aux grandes communautés, et de puits, correspondant à des communautés trop
petites pour entretenir la maladie mais susceptibles de constituer des réserves de
personnes à risque. L’application de ces méthodes permet de mettre en évidence
des effets ténus, indétectables dans les données brutes. Il est cependant clair
que, pour beaucoup d’épidémiologistes, ces résultats restent très abstraits, car
correspondant à des méthodes encore peu connues. Une formation / accompa-
gnement dans la mise en place et l’interprétation est donc nécessaire.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 121 — #157
i i
É PIDÉMIOLOGIE ET STATISTIQUE 121
Figure 4.1-1
Représentation de la dynamique de l’épidémiologie de syndromes grippaux en France en 2003-2004 :
cartes hebdomadaires. (Données : Réseau sentinelles, cf. http://www.u707.upmc.fr/sentiweb).
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 122 — #158
i i
122 L’ ÉPIDÉMIOLOGIE HUMAINE
2 Résultats de mathématique contemporaine appliqués
à l’épidémiologie
2.1 Méthodes de Monte-Carlo
Récemment, les approches de type Monte-Carlo ont connu un développe-
ment intense. Leur utilisation en épidémiologie permet l’estimation des para-
mètres dans le cadre de modèles complexes (modèles bayésiens notamment).
D’un point de vue général, les techniques Monte-Carlo permettent de calculer
efficacement des intégrales inaccessibles aux méthodes de calcul numérique dé-
terministes. Pour les mettre en œuvre, il faut pouvoir simuler des lois de probabi-
lité, domaine qui a donné naissance à de très nombreux travaux fondamentaux.
On peut citer dans ce champ l’apparition récente de méthodes de simulation
exacte en temps fini (Propp et Wilson, 1996), fondées sur des méthodes de
couplage utilisées pour l’étude théorique des chaînes de Markov. Ces méthodes
n’étaient à l’origine applicables qu’à des modèles ne comportant qu’un nombre
fini d’états, mais les travaux les plus récents étendent le domaine d’application
à des modèles plus généraux.
2.2 Critères de sélection de modèles
L’épidémiologiste est souvent confronté au problème de sélectionner le
« meilleur » modèle au sein d’une famille de modèles rivaux. Historiquement, la
première solution a consisté à traiter ce problème comme un problème statistique
de test d’hypothèse, mais cette approche était limitée à certaines familles de mo-
dèles (familles de modèles emboîtés) et conduisait à des incohérences logiques.
Le deuxième type de solution est apparu au cours des années 1970, avec l’utili-
sation de critères de sélection construits sur des arguments heuristiques. Ce n’est
qu’au cours des dix dernières années qu’a été élaborée une théorie satisfaisante
des critères de sélection, couvrant le domaine de l’estimation non paramétrique.
Par exemple, le problème du choix optimal de la largeur de bande d’un histo-
gramme (problème d’apparence élémentaire) est l’objet d’un article publié en
2000 (Castellan, 2000). Le critère permettant de déterminer la largeur de bande
d’un histogramme peut être utilisé sans en comprendre l’origine, mais les mathé-
matiques sous-jacentes correspondent aux travaux de recherche les plus récents
de mathématiciens professionnels.
2.3 Tests séquentiels
Lors de la mise en place d’un essai clinique, le calcul du nombre de sujets
nécessaires est l’étape déterminante qui assure que la quantité d’information
recueillie (information statistique, au sens de l’information statistique de Fisher
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 123 — #159
i i
É PIDÉMIOLOGIE ET STATISTIQUE 123
par exemple) permettra de détecter une différence d’intérêt clinique avec une
grande probabilité. L’information de Fisher croît linéairement avec la taille de
l’échantillon, et en pratique celle-ci devient disponible au cours de l’essai avec
l’observation ou la mesure des événements d’intérêt chez les patients, et non pas
lorsque tous les patients ont été observés.
La construction de tests séquentiels a pour objet d’exploiter cette augmenta-
tion graduelle de l’information afin de permettre d’obtenir une conclusion plus
rapidement qu’un essai classique de taille fixe. Les premières approches séquen-
tielles (du type test du rapport de vraisemblance de Wald) souffraient cependant
d’une limitation pratique : en théorie, on était certain de pouvoir prendre une
décision, et en moyenne cette décision serait prise avant un test classique de
mêmes caractéristiques, mais aucune garantie n’était donnée sur la taille maxi-
male nécessaire. Deux innovations ont permis de rendre les essais séquentiels
plus attrayants. Il s’agit d’une part des tests « triangulaires », et d’autre part de
l’étude des propriétés statistiques des tests répétés.
Le test triangulaire renvoie à la représentation graphique de l’information
recueillie au cours d’un essai. La trajectoire de celle-ci est suivie dans le plan
(moyenne, variance) de la statistique de test, et des frontières triangulaires sont
tracées dans ce plan qui assurent un risque de première espèce égal à 5 %.
Contrairement au test séquentiel de Wald, les frontières sont concourantes et
non parallèles, ce qui garantit que l’on conclut en temps fini, avec un effectif
maximal excédant de peu celui du test classique.
La deuxième méthode correspond à une extension plus intuitive de l’approche
classique : plutôt que de faire un test unique, on réalisera plusieurs tests, en
nombre fixé a priori, en s’arrangeant pour que le risque global soit de 5 %. Des
approches pragmatiques peuvent être employées : faire les premiers tests avec
un risque très faible (par exemple 1 ‰) pour n’arrêter l’essai précocement que
si une différence massive existe, et pratiquer le dernier avec un risque presque
semblable à celui que l’on aurait eu en taille fixée (approche de Peto). Des ap-
proches optimales sont également possibles, dans lesquelles on essaie de limiter
au maximum la taille de l’échantillon nécessaire.
Bien que simples d’énoncé, ces deux approches donnent lieu à des problèmes
mathématiques très techniques. Par exemple, l’étude des trajectoires d’une sta-
tistique de test dans le plan moyenne/variance peut être ramenée en première
approximation à l’étude des fonctionnelles du mouvement brownien, comme dé-
crit par Siegmund (1985). Avec cette formulation, l’étude de certaines proprié-
tés devient possible. On peut déterminer les propriétés d’un test où l’on examine
les événements à des temps fixés d’avance (avec un nombre aléatoire de me-
sures entre deux temps), ou lorsque l’on réalise un test à une cadence fixée par
un nombre d’événements donné. En particulier, ces derniers développements
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 124 — #160
i i
124 L’ ÉPIDÉMIOLOGIE HUMAINE
donnent lieu à des calculs mathématiques de corrections liées au dépassement
des frontières avant que le test soit effectué. Il en résulte des tests dits « en arbre
de Noël » où les frontières sont corrigées pour prendre en compte l’augmenta-
tion discrète de l’information.
Enfin, l’estimation de quantités d’intérêt suite à la pratique de ces tests de-
mande des précautions particulières, étant donné que la quantité d’information
recueillie est conditionnelle à la différence observée.
En pratique, ces tests demeurent peu utilisés. On peut donner deux éléments
d’explication : le premier est que l’économie potentielle en taille d’échantillon
peut s’avérer insuffisante au regard de l’addition en complexité tant logistique
que technique. Le second est que ce type d’approche demande une compétence
statistique qui ne s’acquiert généralement pas avant le 3e cycle et demandent
un travail technique conséquent de la part du statisticien.
2.4 Relations causales — Facteurs de confusion —
Choix des covariables
L’existence de facteurs de confusion constitue l’un des obstacles essentiels à
l’élucidation de relations causales à partir de données non expérimentales. Dans
la mesure où le phénomène de confusion est un concept de nature causale,
les tentatives d’élucidation et de définition dont il a été l’objet dans un cadre
strictement statistique sont restées infructueuses et ont abouti à une littérature
abondante mais obscure.
Le paradoxe de Simpson est une illustration spectaculaire du problème des
facteurs de confusion dans les études non expérimentales. Il correspond à la
situation où un événement C augmente la probabilité de E dans une popula-
tion p, tout en diminuant la probabilité de E dans toute sous-population de p.
Par exemple, on observe que la proportion des patients qui guérissent est plus
élevée dans le groupe traité que dans le groupe témoin. Cependant, si l’on
considère l’effet du traitement séparément chez les hommes et chez les femmes,
on observe que la proportion de patients qui guérissent est plus faible dans les
groupes traités que dans les groupes témoins. Cette constatation est évidemment
paradoxale et contraire au bon sens, si l’on interprète la relation statistique trai-
tement/guérison comme causale (plus généralement, toute relation statistique
entre deux variables peut être inversée par ajustement sur d’autres variables).
La solution de ce paradoxe a été donnée par Pearl (2000) dans le cadre de
la théorie mathématique de la causalité. Pearl a montré que les concepts de fac-
teurs de confusion et d’ajustement étaient de nature causale, et ne pouvait donc
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 125 — #161
i i
É PIDÉMIOLOGIE ET STATISTIQUE 125
être définis et manipulés rigoureusement qu’à l’aide de modèles de causalité. Il a
notamment établi des critères mathématiques qui permettent de décider quelles
sont les variables sur lesquelles on doit effectuer un ajustement (« back-door »
criterion).
3 Les apports spécifiques de l’épidémiologie
3.1 Apports méthodologiques à d’autres disciplines
appliquées
Dans un certain nombre de cas, les épidémiologistes ont été à l’origine du
développement de méthodes spécifiques, qui ont par la suite trouvé d’autres
domaines d’application.
3.1.1 Modèle logit
Historiquement développé pour décrire des relations dose/réponse en épi-
démiologie, le modèle logit est aujourd’hui très utilisé en économétrie, où il
concurrence largement les modèles probit traditionnellement utilisés.
3.1.2 Analyse des données de survie
L’exemple le plus spectaculaire de la diffusion d’une approche épidémiolo-
gique est peut-être celui de l’analyse des données de survie. En pratique, il
s’agit d’observer le temps jusqu’à la survenue d’un événement d’intérêt (décès,
rechute, guérison, . . .). Dans de telles études les données recueillies sont carac-
térisées par le fait qu’elles sont incomplètes, au moins pour des raisons pratiques
liées à la durée limitée de l’étude. En effet, il est clair que l’on ne peut connaître
la durée de survie que pour les personnes qui seront décédées. Si l’on choisit
d’arrêter l’étude avant d’avoir observé le décès de toutes les personnes suivies,
certaines personnes seront encore en vie, et on saura seulement que leur délai
de survie est au moins supérieur à leur durée de suivi dans l’étude. Cette carac-
téristique est appelée censure (ici « à droite »), et exige des méthodes statistiques
spécifiques.
C’est le statisticien anglais David Cox qui a proposé en 1972 le modèle,
connu aujourd’hui comme le « modèle de Cox », afin d’analyser les données
de survie tout en tenant compte de caractéristiques individuelles qui pouvaient
influencer la durée de survie. Le modèle de Cox repose sur une modélisation
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 126 — #162
i i
126 L’ ÉPIDÉMIOLOGIE HUMAINE
semi-paramétrique de la fonction de risque instantané associée à une technique
d’estimation par vraisemblance partielle. Le succès du modèle de Cox dans
le domaine de l’épidémiologie s’est plus récemment étendu à des domaines
comme la fiabilité ou les mathématiques financières. Dans cet exemple, ce sont
donc en quelque sorte les épidémiologistes qui ont joué le rôle de précurseurs,
en donnant naissance à une technique qui est à présent adoptée par d’autres
champs disciplinaires.
3.2 Modèles de régression à effets aléatoires
Ces modèles ont été imaginés par les épidémiologistes pour analyser les don-
nées issues d’enquêtes longitudinales, ou les ensembles de données structurées
de manière hiérarchique. Dans ce type d’étude, un même sujet est observé à
plusieurs reprises au cours d’une certaine période. Ou bien, on recueille des
données sur des individus qui appartiennent à des sous-groupes homogènes
(par exemple : fréquentant la même école, ou habitant la même ville. . .). De
ce fait, les données issues d’un même sujet, ou d’un sous-groupe homogène
reflètent l’influence de facteurs communs (facteurs individuels, géographiques,
environnementaux, sociaux). Comme il n’est généralement pas possible de faire
l’inventaire exhaustif, et encore moins de mesurer ces facteurs de similarité, l’ap-
proche statistique consiste à prévoir dans le modèle d’analyse l’existence d’une
dépendance stochastique entre les observations d’un même individu ou d’un
même sous-groupe. Si cette précaution n’est pas prise, les conclusions des tests
statistiques sont incorrectes (car l’estimation de la variance est inexacte). Les
modèles à effets aléatoires permettent précisément d’introduire et de modéliser
une dépendance stochastique : ils consistent à considérer que la valeur obser-
vée chez un sujet donné est la somme d’un effet fixe, commun à tous les sujets,
et d’un effet aléatoire reflétant les caractéristiques inobservées du sujet ou du
sous-groupe auquel il appartient.
3.3 Travaux de recherche mathématique suscités
par l’épidémiologie
Il arrive que des épidémiologistes imaginent une solution heuristique pour ré-
pondre à leurs besoins spécifiques, et que l’étude théorique de la solution (et
donc de ses conditions de validité) devienne un thème de recherche mathéma-
tique au cours des années suivantes.
3.3.1 Méthodes de vraisemblance
Les méthodes de vraisemblance ont été introduites par Fisher dans les années
1920 à 1925 sur des arguments heuristiques. L’étude théorique des propriétés
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 127 — #163
i i
É PIDÉMIOLOGIE ET STATISTIQUE 127
des estimateurs du maximum de vraisemblance a constitué de 1930 à nos jours
un domaine de recherche pour de nombreux mathématiciens parmi lesquels on
peut citer Hotelling, Doob, Cramer, Wald, Neyman et LeCam.
La méthode de vraisemblance partielle imaginée par Cox (1971, 1975) a
été formalisée et validée sur le plan théorique au cours des 15 années suivantes
(Andersen et Gill, 1982 ; Wong, 1986).
3.3.2 Le bootstrap
La méthode du bootstrap a été décrite en 1979 par Efron (qui se définit lui-
même comme un biostatisticien). L’étude des propriétés théoriques de cette mé-
thode s’est faite au cours des années suivantes (1980-1990), engendrant ainsi
de nombreux travaux par des mathématiciens comme Bickel, Freedman, Beran
et Hall. Giné et Zinn (1990) ont étendu la validité du bootstrap aux processus
empiriques, dans des espaces fonctionnels très généraux.
3.3.3 Formalisation de l’inférence causale
Comme l’a dit Pearl lui-même, les problèmes et paradoxes de l’épidémiologie
(de l’économétrie et des sciences sociales) ont été à l’origine de sa recherche
sur la théorie mathématique de la causalité (Pearl, 2000). Réciproquement, les
résultats de Pearl apportent aujourd’hui la solution à la question de l’inférence
causale à partir de données non expérimentales.
Conclusion
Comme les autres sciences appliquées, les méthodes de l’épidémiologie com-
portent des méthodes spécifiques — qui concernent à la fois des protocoles de
recueil de données et les méthodes d’analyse de ces données — et des mé-
thodes générales de formalisation mathématique. Les interactions entre épidé-
miologistes et mathématiciens constituent une condition essentielle du dévelop-
pement de la recherche en épidémiologie.
Recommandations
– « Contacts » mathématiciens/épidémiologistes : au sein de quelles
structures ?
– Encadrement des utilisateurs de logiciels.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 128 — #164
i i
128 L’ ÉPIDÉMIOLOGIE HUMAINE
Bibliographie
Andersen PK., Gill RD. (1982). Cox’s regression model for counting processes :
a large sample study. Ann Statist, 10 : 1100-1120.
Carrat F., Valleron AJ. (1992). Epidemiologic mapping using the « kriging »
method : application to an influenza-like illness epidemic in France. Am J
Epidemiol, 135 : 1293-1300.
Castellan G. (2000). Sélection d’histogrammes à l’aide d’un critère de type
Akaike. C. R. Acad. Sci. Paris Sér. I Math, 330 : 729-732.
Cox DR. (1972). Regression models and life tables (with discussion). J Roy Statist
Soc B, 34 : 187-220.
Cox DR. (1975). Partial likelihood. Biometrika, 62 : 269-276.
Dominici F. et al. (2002). On the use of generalized additive models in time-
series studies of air pollution and health. Am J Epidemiol, 156 : 193-203.
Efron B. (1979). Bootstrap methods : another look at the jackknife. Ann Statist,
7 : 1-26.
Giné E., Zinn J. (1990). Bootstrapping general empirical measures. Ann Prob,
18 : 851-869.
Matheron G. (1970). La théorie des variables régionalisées et ses applications.
Les Cahiers du Centre de Morphologie Mathématique de Fontainebleau.
Pearl J. (2000). Causality. Models, Reasoning, and Inference. Cambridge Uni-
versity Press, Cambridge, UK.
Propp JG., Wilson DB. (1996). Exact sampling with coupled Markov chains and
applications to statistical mechanics. Rand Struc Alg, 9 : 223-252.
Siegmund D. (1985). Sequential analysis. Tests and confidence intervals. Sprin-
ger, New-York.
Wong Hu. (1986). Theory of partial likelihood. Ann Statist, 14 : 88-123.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 129 — #165
i i
SOUS-CHAPITRE 4.2
Épidémiologie et data mining
ou fouille de données
GILBERT SAPORTA
1 Définitions et historique
Le data mining que l’on peut traduire par « fouille de données » apparaît au
milieu des années 1990 aux États-Unis comme une nouvelle discipline à l’inter-
face de la statistique et des technologies de l’information : bases de données,
intelligence artificielle, apprentissage automatique (machine learning).
David Hand (1998) en donne la définition suivante : « Data Mining consists
in the discovery of interesting, unexpected, or valuable structures in large data
sets ». Voir également Fayyad et al. (1996) et Friedman (1997).
La métaphore qui consiste à considérer les grandes bases de données comme
des gisements d’où l’on peut extraire des pépites à l’aide d’outils spécifiques
n’est certes pas nouvelle. Dès les années 1970 Jean-Paul Benzécri n’assignait-il
pas le même objectif à l’analyse des données ? : « L’analyse des données est un
outil pour dégager de la gangue des données le pur diamant de la véridique
nature ».
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 130 — #166
i i
130 L’ ÉPIDÉMIOLOGIE HUMAINE
On a pu donc considérer que bien des praticiens faisaient du data mining
sans le savoir.
On confondra ici le data mining, au sens étroit qui désigne la phase d’ex-
traction des connaissances, avec la découverte de connaissances dans les
bases de données (KDD ou Knowledge Discovery in Databases) (cf. Hébrail
et Lechevallier, 2003).
Comme l’écrivent ces derniers auteurs :
« La naissance du data mining est essentiellement due à la conjonction des
deux facteurs suivants :
– l’accroissement exponentiel dans les entreprises, de données liées à leur
activité (données sur la clientèle, les stocks, la fabrication, la comp-
tabilité. . .) qu’il serait dommage de jeter car elles contiennent des
informations-clés sur leur fonctionnement (. . .) stratégiques pour la prise
de décision ;
– les progrès très rapides des matériels et des logiciels (. . .).
L’objectif poursuivi par le data mining est donc celui de la valorisation des
données contenues dans les systèmes d’information des entreprises. »
Les premières applications se sont faites dans le domaine de la gestion de la
relation client qui consiste à analyser le comportement de la clientèle pour mieux
la fidéliser et lui proposer des produits adaptés. Ce qui caractérise la fouille de
données (et choque souvent certains statisticiens) est qu’il s’agit d’une analyse
dite « secondaire » de données recueillies à d’autres fins (souvent de gestion)
sans qu’un protocole expérimental ou une méthode de sondage ait été mis en
œuvre.
Quand elle est bien menée, la fouille de données a apporté des succès cer-
tains, à tel point que l’engouement qu’elle suscite a pu entraîner la transfor-
mation (au moins nominale) de services statistiques de grandes entreprises en
services de data mining.
La recherche d’information dans les grandes bases de données médicales
ou de santé (enquêtes, données hospitalières, etc.) par des techniques de data
mining est encore relativement peu développée, mais devrait se développer très
vite à partir du moment où les outils existent. Quels sont les outils du data mining
et que peut-on trouver et prouver ?
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 131 — #167
i i
É PIDÉMIOLOGIE ET DATA MINING OU FOUILLE DE DONNÉES 131
2 Les outils
On y retrouve des méthodes statistiques bien établies, mais aussi des déve-
loppements récents issus directement de l’informatique. Sans prétendre à l’ex-
haustivité, on distinguera les méthodes exploratoires, où il s’agit de découvrir
des structures ou des comportement inattendus, de la recherche de modèles pré-
dictifs où une « réponse » est à prédire, mais on verra plus loin que l’acception
du terme « modèle » diffère fondamentalement de son sens habituel.
2.1 Exploration « non supervisée »
2.1.1 Analyse des données : visualisation, classification
Les techniques de projection orthogonale sur des sous-espaces : analyse en
composantes principales, analyse des correspondances, permettent de réduire
efficacement la dimension, du point de vue du nombre de variables. Les mé-
thodes de classification visent à former des groupes homogènes d’unités en
maximisant des critères liés à la dispersion (k-means). Des extensions non li-
néaires (splines, noyaux, etc.) étendent le champ de ces méthodes classiques.
2.1.2 Recherche de règles d’association
Cette méthode est une des innovations du data mining : introduite en 1993
par des chercheurs en base de données d’IBM, elle a pour but de rechercher
des conjonctions significatives d’événements. Typiquement une règle de décision
s’exprime sous la forme : si (A et B) alors C mais il s’agit d’une règle probabi-
liste et non déterministe. On définit le support de la règle comme la probabilité
d’observer à la fois la prémisse X et la conclusion Y : P(X ∩ Y ) et la confiance
comme P(Y /X ). Parmi les règles ayant un support et une confiance minimale,
on s’intéressera à celles où P(Y /X ) est très supérieur à P(Y ). Les premières ap-
plications ont concerné les achats dans les grandes surfaces : parmi les milliers
de références disponibles et les millions de croisements, identifier les achats
concomitants qui correspondent à des fréquences importantes. Cette méthode
s’étend bien au-delà de ce type d’application. L’originalité tient essentiellement
à la complexité algorithmique du problème.
2.2 Prédiction ou apprentissage « supervisé »
Inutile d’évoquer ici les techniques de régression bien connues. La méthode la
plus typique du data mining est certainement celle des arbres de décision : pour
prédire une réponse Y , qu’elle soit numérique ou qualitative, on cherche tout
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 132 — #168
i i
132 L’ ÉPIDÉMIOLOGIE HUMAINE
d’abord la meilleure partition de l’ensemble des données (en général en deux
sous-ensembles) issue d’une partition effectuée sur les prédicteurs et on itère
dans chacun des sous-ensembles : la croissance exponentielle de l’arbre est
contrôlée par des critères d’arrêt de type coût-complexité ainsi que par l’usage
de données de validation qui permettent d’éliminer les branches non pertinentes.
Cette technique conduit à des règles de décision très lisibles, d’où son succès,
et hiérarchise les facteurs explicatifs. À l’opposé en termes de lisibilité, les logi-
ciels de data mining proposent souvent des méthodes hautement non linéaires
comme les réseaux de neurones, les machines à vecteurs de support (SVM).
Même si les règles de décision ont une forme mathématique explicite, celle-ci est
en général très complexe et ces méthodes sont utilisées comme des boîtes noires.
Une autre approche consiste à complexifier des méthodes simples : les arbres
de décision étant souvent instables, on va en utiliser plusieurs obtenus sur des
données rééchantillonnées par bootstrap : la décision finale s’obtient par une
procédure de vote s’il s’agit d’un problème de classification, ou de moyenne
pour un problème de régression : c’est le bagging. Citons également le boosting,
qui consiste à améliorer des procédures de décision en surpondérant les unités
mal classées, et en itérant le processus.
3 Quelques applications en épidémiologie et santé publique
L’utilisation des méthodes de data mining en épidémiologie et santé publique
est en forte croissance. Comme dans d’autres domaines, c’est la disponibilité
de vastes bases de données historiques (on parle maintenant d’entrepôts de
données) qui incite à les valoriser, alors qu’au dire de beaucoup de spécialistes
elles sont actuellement sous-utilisées.
Pour n’en citer que deux, la revue Artificial Intelligence in Medicine et le
Journal of the American Medical Informatics Association y consacrent de plus
en plus d’articles.
La plupart des publications portent sur les arbres de décision et les règles
d’association (Lavrac, 1999). Parmi les domaines traités, mentionnons la re-
cherche de facteurs de risque pour les accidents domestiques, le diabète
(Figure 4.2-1), les suicides, les infections nosocomiales (Brossette et al., 1998),
la détection de la fraude (Medicare, Australie). Ces publications mentionnent
souvent la découverte de règles inattendues et efficaces.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 133 — #169
i i
É PIDÉMIOLOGIE ET DATA MINING OU FOUILLE DE DONNÉES 133
Figure 4.2-1
Prévision de la complication de Saint-Vincent (Projet Data Diab, A. Duhamel, Lille 2).
La recherche en génomique et la protéomique font également de plus en plus
appel à des techniques de data mining.
4 Data mining versus modélisation statistique
4.1 Le rôle des modèles
La notion de modèle en fouille de données prend un sens particulier : un mo-
dèle est une relation entre des variables, exprimable sous une forme analytique
ou algorithmique qui ne provient pas d’une théorie mais réalise un bon ajuste-
ment aux données. Ainsi, il est courant d’explorer différents modèles (linéaires,
non linéaires) en faisant varier les paramètres (nombre de couches dans un
réseau de neurones, noyau pour des SVM, etc.) jusqu’à obtenir les meilleures
prédictions. On est très loin de la démarche usuelle de modélisation, mais plu-
tôt dans une optique pragmatique où il ne s’agit pas forcément de comprendre
mais simplement de prévoir. Rappelons quand même qu’un modèle, au sens
classique, n’est qu’une simplification de la réalité et comme le disait George
Box : « Tous les modèles sont faux, certains sont utiles ».
Cette démarche n’est pas pour autant du pur empirisme et se fonde sur une
théorie solide, celle de l’apprentissage statistique : un modèle réalise un compro-
mis entre sa capacité à rendre compte des données d’apprentissage et sa capa-
cité de généralisation à de nouvelles données. Plutôt que des indices statistiques
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 134 — #170
i i
134 L’ ÉPIDÉMIOLOGIE HUMAINE
de type vraisemblance pénalisée (critères d’Akaïké ou de Schwarz) reposant sur
des hypothèses distributionnelles, le choix d’un modèle en data mining se fait en
fonction de ses performances sur d’autres données que celles qui ont servi à le
choisir et le caler, d’où l’emploi de méthodes de validation croisée (les données
sont divisées en plusieurs parties, chacune étant prédite à l’aide du reste des
données) ou de mesures de capacité de type dimension de Vapnik-Cervonenkis.
4.2 Problèmes spécifiques d’inférence et de validation
dans les grandes bases de données
L’inférence statistique classique a été développée pour traiter des « petits »
échantillons. En présence de très grandes bases de données, le paradoxe est que
tout devient significatif : par exemple, pour un million d’individus, l’hypothèse
d’indépendance entre deux variables sera rejetée au risque 5 % si le coefficient
de corrélation linéaire est supérieur en valeur absolue à 0,002, ce qui est sans
intérêt pratique. L’inférence classique ne fonctionne plus et la fouille des grandes
bases de données amène à repenser la notion de test et conduit ainsi à des
recherches nouvelles.
L’échantillonnage ne perd cependant pas ses droits car il est souvent préfé-
rable de travailler sur une partie de la base que sur la totalité. L’exhaustivité des
traitements n’est souvent qu’un argument commercial des éditeurs de logiciels.
Un problème demeure cependant, celui de la représentativité de la base : même
très grande, on ne peut garantir que les futures observations se comporteront
comme les passées, d’autant plus que la base n’a pas été constituée à des fins
de traitement statistique. Des recherches originales portent sur ce point.
L’alimentation continuelle des bases de données de façon quasi automatique
pose également des problèmes nouveaux connus sous le nom de flots de don-
nées (data streams) qu’il faut traiter « à la volée » sans devoir reprendre à
chaque fois l’ensemble des données disponibles (Domingos et Hulten, 2000).
Quand, en fouille de données, on a exhibé une structure ou une association
intéressante et inattendue, on n’est pas certain de sa validité. En effet, avec une
exploration combinatoire, il est inévitable de trouver toujours quelque chose !
Ce problème est proche de celui bien connu des comparaisons multiples, mais
à une toute autre échelle. On trouve ce genre de situations dans la recherche
de règles d’associations ou dans l’analyse des puces à ADN où on réalise des
milliers de tests simultanément. La théorie pertinente est celle du contrôle du
taux de fausses découvertes de Benjamini et Hochberg (1995) qui fait l’objet de
recherches en plein essor, voir l’article de Ge et al. (2003).
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 135 — #171
i i
É PIDÉMIOLOGIE ET DATA MINING OU FOUILLE DE DONNÉES 135
La « découverte » de règles intéressantes par la fouille de données doit donc
être considérée comme une phase exploratoire, nécessitant une validation ulté-
rieure, mais avec des outils différents. Même en cas de validation, le problème
de la causalité reste posé.
4.3 Penser la complexité
Il est illusoire de croire que des modèles simples peuvent toujours convenir à
des situations complexes. Les modèles de régression (linéaire ou logistique) ont
l’avantage de l’interprétabilité, mais cela ne suffit plus en présence de phéno-
mènes fortement non linéaires. Il faut alors souvent plonger les données dans
des espaces de grande dimension en utilisant des opérateurs de régularisation.
Le traitement d’images médicales ou de puces à ADN en est une illustration
frappante : il pose un défi dû à la fois à la complexité des données et au rap-
port inhabituel entre le nombre de variables et le nombre d’observations. Le
nombre de variables est souvent considérablement plus grand que celui des ob-
servations : une image d’un megapixel en couleur correspond à trois millions
de variables. . . La théorie de l’apprentissage déjà évoquée (Hastie et al., 2001)
fournit le cadre théorique adapté tout en faisant le lien avec des aspects bien
connus des statisticiens : estimation fonctionnelle (splines de lissage, estimateurs
à noyaux) et régression non paramétrique.
Conclusion
La disponibilité accrue de bases de données médicales de plus en plus vastes
(carte Vitale, données hospitalières, grandes enquêtes, etc.) sera un domaine
de prédilection pour les méthodes de fouille de données, et des découvertes
pourront certainement en être tirées. Ces découvertes doivent être validées par
des techniques différentes des tests de la statistique classique.
Une nouvelle forme d’inférence pour les grands ensembles de données est en
train d’émerger et le data mining est aussi une source de recherches théoriques
et pas seulement un ensemble de techniques empiriques. Le data mining n’est
certainement pas une mode éphémère, mais une démarche et des outils appro-
priés à l’analyse des très grandes bases de données. Il serait dommageable de
laisser ce champ aux seuls informaticiens, car, de par leur formation à l’aléa-
toire et à la compréhension de la variabilité, statisticiens et épidémiologistes sont
les plus à même d’en tirer profit et d’en déjouer les pièges.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 136 — #172
i i
136 L’ ÉPIDÉMIOLOGIE HUMAINE
Recommandations
– Associer dans les formations universitaires épidémiologie et bio-
informatique.
– Enseigner aux épidémiologistes les techniques et les outils de la fouille de
données, ainsi que les bases de données.
– Organiser des groupes de travail interdisciplinaires à l’instar du « Dimacs-
Working Group on Data Mining and Epidemiology » de Rutgers.
Bibliographie
Benjamini Y., Hochberg Y. (1995). Controlling the false discovery rate : a prac-
tical and powerful approach to multiple testing. JRSSB, 57 : 289-300.
Brossette SE. et al. (1998). Association rules and data mining in hospital infec-
tion control and public health surveillance. J Am Med Inform Assoc, 5 (4) :
373-81.
Domingos P., Hulten G. (2000). Mining high-speed data streams. ACM
SIGKDD, Fayyad U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R. (eds.)
(1996). Advances in Knowledge Discovery and Data Mining. Menlo Park,
California, AAAI Press.
Friedman JH. (1997). Data mining and statistics : what’s the connection ?
http://www-stat.stanford.edu/∼jhf/ftp/dm-stat.ps
Ge Y., Dudoit S., Speed TP. (2003). Resampling-based multiple testing for DNA
microarray data analysis. Test, 12 : 1-77.
Hand DJ. (1998). Data mining : statistics and more ? The American Statistician,
52 : 112-118.
Hastie T., Tibshirani R., Friedman J. (2001). The Elements of Statistical Learning,
Springer.
Hébrail G., Lechevallier Y. (2003). Data Mining et Analyse des données. In :
Analyse des données, G. Govaert (ed.). Hermes, 323-355.
Lavrac N. (1999) Selected techniques for data mining in medicine. Artificial
Intelligence in Medicine, 16 : 3-33.
Saporta G. (2000). Data Mining and Official Statistics, Quinta Conferenza Na-
tionale di Statistica, ISTAT, Rome.
Journal de la SFdS 142, 1, (2001) : numéro spécial sur le data mining.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 137 — #173
i i
SOUS-CHAPITRE 4.3
Épidémiologie et informatique
PIERRE-YVES BOËLLE
Plusieurs pays ont annoncé, voire débuté, le développement d’un dossier mé-
dical informatisé individuel « universel », parmi lesquels : le Royaume-Uni, dans
le cadre du « National IT program for the NHS » (doté de 5 milliards de livres)
qui vise 50 millions de dossiers accessibles par 30 000 professionnels ; les États-
Unis avec le « National Health Information Infrastructure » ; la France avec le
dossier médical informatisé annoncé en 2004.
Ces projets créent pour la santé publique, et particulièrement l’épidémiologie,
l’opportunité de réaliser des études, en population ou à l’hôpital, dans lesquelles
des problèmes pratiques couramment rencontrés dans les enquêtes pourraient
être réduits en grande partie : description rétrospective de l’histoire d’un sujet,
parfois sur plusieurs dizaines d’années ; mise en place une surveillance épidé-
miologique à « très large spectre » ; coûts engendrés par le recueil, la vérification
et la validation des données ; diffusion des résultats auprès de la population.
Les sciences de l’information sont au centre de cette nouvelle évolution de
l’épidémiologie. Nous décrivons dans la suite certaines interactions qui se
mettent en place aujourd’hui entre les deux disciplines, ainsi que des pistes de
développement suscitées par l’évolution des questions et des données épidémio-
logiques.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 138 — #174
i i
138 L’ ÉPIDÉMIOLOGIE HUMAINE
1 Recueil et exploitation des données
Actuellement, un recueil de données spécifique est généralement mis en place
pour les besoins d’une enquête épidémiologique. Par exemple, pour connaître
la prise en charge des patients infectés par le VIH en France, le dossier médico-
épidémiologique de l’immunodéficience humaine, a été développé dès la fin
des années 1980, avec une participation forte de l’Inserm et de la Direction des
hôpitaux. Ce dossier informatisé, élaboré dans un cadre de recherche, a permis
de suivre environ 100 000 patients infectés au cours du temps et sert de base à
la connaissance de l’épidémiologie du sida en France.
Depuis les années 1990, des progiciels organisés autour de systèmes de ges-
tion de bases de données sont couramment utilisés, et des études sont réali-
sées aujourd’hui directement sur Internet sans support papier (McAlindon et al.,
2003). Les grands éditeurs de logiciels de systèmes de gestion de base de don-
née et d’analyse statistique commercialisent de tels produits, et des solutions ont
également été développées localement dans la recherche publique. Quelques
petites entreprises (start-up) sont présentes, en proposant des solutions logicielles
adaptées à des pathologies ou organisations de travail spécifiques. La forma-
lisation du recueil des données, par exemple en définition d’une étude, d’un
patient, d’une visite, l’intégration de contraintes de cohérence dans le recueil, le
retour d’information vers les investigateurs ont donné lieu à une recherche qui a
pu être intégrée dans ces progiciels. Cependant, ceux-ci restent avant tout des
« cahiers d’observation électroniques », dédiés à une étude spécifique, plutôt
que des véritables dossiers informatisés.
Parallèlement, il existe également des recueils de données en routine qui ont
un intérêt épidémiologique : par exemple les décès (Centre d’épidémiologie
sur les causes médicales de décès, Inserm – CepiDc, sous-chapitre 3.1), les
séjours hospitaliers (Programme de médicalisation du système d’information,
PMSI – voir sous-chapitre 3.2), les prescriptions/remboursements (organismes
d’Assurance maladie), les données de pharmacovigilance. . .
L’exploitation de ces données, déjà informatisées, a pu servir de base à plu-
sieurs études épidémiologiques : notamment dans l’étude de la mortalité spé-
cifique du cancer et d’autres maladies ayant une morbidité et mortalité consé-
quentes. Des problèmes pratiques subsistent dans l’exploitation de ces données
non recueillies spécifiquement : le temps nécessaire à l’obtention de données
consolidées, incompatible avec une réactivité rapide (quelques années pour les
décès, un semestre pour l’hôpital), la qualité des données recueillies et de leur
codage, souvent auprès de professionnels mal informés des conséquences d’un
codage erroné, et la confidentialité.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 139 — #175
i i
É PIDÉMIOLOGIE ET INFORMATIQUE 139
Le recueil de données de routine permet toutefois la mise en place d’études
épidémiologiques rapides. Ainsi, en Angleterre, le « GPRD — General Practi-
tioner Research Database » (Walley et Mantgani, 1997), qui recueille les évé-
nements de santé de 5 % de la population anglaise en médecine générale, a
donné lieu à des études dans de nombreuses pathologies (plus de 270 à ce
jour). Aux États-Unis, certaines HMO (« Health Management Organizations »,
organisations rassemblant organismes de remboursement et de délivrance des
soins) se sont dotées de systèmes de gestion de dossiers médicaux électroniques
qui, en exploitant l’évolution longitudinale du patient, permettent de déterminer
si les patients sont traités conformément à la meilleure connaissance médicale du
moment, et dans certains cas d’appliquer certaines recommandations de santé,
au moyen de « pense-bêtes » édités lors des consultations (Garg et al., 2005)
Bien que la France ait été pionnière dans le domaine de la surveillance épi-
démiologique appuyée sur les technologies de l’information, notamment avec le
Réseau national téléinformatique de surveillance et d’information sur les mala-
dies transmissibles (Valleron et al., 1986) (RNTMT, l’ancêtre du réseau « Senti-
nelles »), cet avantage ne s’est pas maintenu. Il n’y a pas aujourd’hui de système
de collection de données de santé utile pour la surveillance épidémiologique
doté d’une couverture comparable à celle trouvée dans les pays anglo-saxons
(voir par exemple les études Nhanes décrites dans le sous-chapitre 9.3).
L’extension des recueils systématiques à l’ensemble des événements de santé,
visée par les dossiers médicaux universels, est évidemment prometteuse. Ces dé-
veloppements posent des problèmes pratiques, par exemple dans le stockage de
l’information, sa préservation, ainsi que celui de la puissance de calcul néces-
saire à son traitement. Dans les deux projets de dossier électronique de santé
anglo-saxons, pour lesquels un cahier des charges détaillé existe déjà, il faut
noter que la possibilité d’une recherche épidémiologique de bonne qualité n’est
pas mise en avant.
Il est aujourd’hui essentiel pour les épidémiologistes de s’associer plus active-
ment aux spécialistes des sciences de l’information qui détermineront les plans
de collection de données de santé, et de favoriser l’accès à ces bases de données
ainsi qu’à des moyens de traitement informatique performants.
2 Confidentialité : la (non-)identification des individus
Le croisement d’informations recueillies pour un même individu dans des
bases de données informatisées issues de divers domaines (par exemple : décès,
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 140 — #176
i i
140 L’ ÉPIDÉMIOLOGIE HUMAINE
registres, hôpitaux, prescriptions, génomique, emploi, environnement, adminis-
tration, météorologie, assurances, etc.) permettrait la mise en place d’enquêtes
épidémiologiques aujourd’hui inédites ou impossibles à réaliser. Afin d’augmen-
ter la puissance des études, et de détecter de faibles différences de risques, il est
impératif que ces recoupements se fassent sur une base individuelle, c’est-à-dire
que l’on puisse relier les observations pour un même individu dans des bases
de données différentes.
Un problème informatique central est alors que les règles de confidentia-
lité, souvent différentes pour chaque source, et généralement restrictives lorsqu’il
s’agit de données liées à la santé, pourraient être mises à mal lors de ces re-
coupements. Il est établi par exemple que la connaissance de 80 SNP (single
nucleotide polymorphism, l’unité de base de la variabilité génétique) suffirait à
identifier de manière totalement unique tout individu dans le monde (Lin et al.,
2004) !
D’autre part, les pays se sont dotés de lois régissant l’exploitation des don-
nées de santé, qui reposent principalement sur la notion de consentement donné
pour une recherche particulière. Quelles devront être les aménagements pour
permettre l’exploitation des données issues des dossiers médicaux universels ?
La gestion globale de la confidentialité dans les bases de données informatisées
utilisées ou potentiellement utilisables en épidémiologie peut ainsi être l’origine
d’une recherche originale en informatique.
3 Thésaurus, nomenclature, classification : des outils
indispensables en perpétuelle évolution
L’utilisation de bases de données informatisées pour la recherche épidémiolo-
gique est subordonnée à l’existence d’une structuration et d’une indexation des
informations collectées. Grâce à la recherche en informatique médicale, des so-
lutions satisfaisantes ont déjà émergé. Par exemple, l’ensemble des publications
biomédicales sont indexées grâce au vocabulaire contrôlé « MeSH : Medical
Subject Headings » (Lowe et Barnett, 1994) (l’analogue du Pacs des physiciens).
Les systèmes de classification des maladies (par exemple la Classification
internationale des maladies, Cim10), de nomenclature médicale (par exemple
Systematic Nomenclature of Medicine, Snomed) (Cote et Robboy, 1980), sont
aujourd’hui disponibles, et la recherche en informatique médicale a permis
de rendre opérationnels ces systèmes à l’aide par exemple de gestionnaires
d’ontologies. Leur intégration dans des applications informatiques médicales
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 141 — #177
i i
É PIDÉMIOLOGIE ET INFORMATIQUE 141
est possible et a largement dépassé le stade de la recherche (dossier pa-
tient électronique, système d’aide à la prescription, etc.). Le transcodage entre
termes de différentes classifications est possible (Unified Medical Language Sys-
tem, UMLS), bien que non exempt de problèmes. Par ailleurs, des protocoles
d’échange assurant l’interopérabilité entre logiciels ont été définis (par exemple
HL7 : Health Level 7) et un regain d’intérêt existe pour le développement de ces
fonctionnalités en utilisant par exemple XML. Ces composantes font d’ailleurs
partie du cahier des charges des projets anglais « National IT Program for the
NHS » et américain « National Health Information Infrastructure » pour le dos-
sier médical universel.
Le développement de thésaurus, nomenclatures et classifications demeure
l’objet d’une recherche active, mais ils sont d’ores et déjà utilisés en routine.
L’apport des technologies de l’information doit être de faciliter leur utilisation
pratique, notamment dans les projets à grande échelle et avec une multitude
d’intervenants ; ainsi que de garantir l’exhaustivité et la fiabilité des informa-
tions recueillies.
4 Aide à l’analyse de données complexes par la modélisation
informatique
Afin d’exploiter pleinement l’information épidémiologique contenue dans les
bases de données médicales actuelles et à venir, on doit s’orienter vers l’ana-
lyse automatique. Dès à présent, il serait possible d’appliquer des « règles »
simples à des données informatisées, à des fins de connaissance et de sur-
veillance (Lindberg et al., 1993) : par exemple pour surveiller l’évolution de
l’obésité, ou de l’hypertension artérielle et sa prise en charge.
Cependant, l’analyse informatique, comme l’interprétation, de certaines don-
nées médicales ou biologiques pose des problèmes de recherche à l’heure ac-
tuelle non résolus. Prenons par exemple la détection du cancer du sein : on
s’appuie aujourd’hui sur les mammographies, sur lesquelles on recherche des
« microcalcifications ». Il s’avère aujourd’hui impossible de proposer une mé-
thode automatique qui ait des caractéristiques de sensibilité et spécificité com-
patibles avec une utilisation en population générale. De même, il n’existe pas
d’interprétation automatique des données recueillies dans les scanners, ou lors
d’échographies, bien que des progrès notables aient été réalisées par exemple
dans le recalage de données (par exemple pour réorienter la direction d’une ra-
diographie) ainsi que pour la fusion de données acquises de plusieurs sources
différentes.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 142 — #178
i i
142 L’ ÉPIDÉMIOLOGIE HUMAINE
Un enjeu des sciences et technologies de l’information est donc de dévelop-
per modèles et techniques qui permettront cette automatisation. Une première
étape vise à améliorer l’analyse de données. Ceci repose par exemple sur la
composition de données intégrant l’information brute et les résultats de simula-
tions informatiques basées sur des modèles mathématiques de processus phy-
siologiques, pharmacodynamiques et épidémiologiques pertinents. Par ailleurs,
les méthodes d’apprentissage basées sur le data mining pourraient être mise à
profit pour des données très complexes pour lesquelles il n’existe pas de modèle
théorique satisfaisant.
Bibliographie
Cote RA., Robboy S. (1980). Progress in medical information management.
Systematized nomenclature of medicine (SNOMED). JAMA, 243 : 756-62.
Garg AX., Adhikari NK., McDonald H. et al. (2005). Effects of computerized
clinical decision support systems on practitioner performance and patient
outcomes : a systematic review. JAMA, 293 : 1223-38.
Lin Z., Owen AB., Altman RB. (2004). Genetics. Genomic research and human
subject privacy. Science, 305 : 183.
Lindberg DA., Humphreys BL., McCray AT. (1993). The Unified Medical Lan-
guage System. Methods Inf Med, 32 : 281-91.
Lowe HJ., Barnett GO. (1994). Understanding and using the medical subject
headings (MeSH) vocabulary to perform literature searches. JAMA, 271 :
1103-8.
McAlindon T., Formica M., Kabbara K., LaValley M., Lehmer M. (2003).
Conducting clinical trials over the internet : feasibility study. BMJ, 327 :
484-7.
Valleron AJ., Bouvet E., Garnerin P. et al. (1986). A computer network for the
surveillance of communicable diseases : the French experiment. Am J Public
Health, 76 : 1289-92.
Walley T., Mantgani A. (1997). The UK General Practice Research Database.
Lancet, 350 : 1097-9.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 143 — #179
i i
SOUS-CHAPITRE 4.4
Épidémiologie théorique :
modèles mathématiques
et maladies transmissibles
PIERRE-YVES BOËLLE, NOËL BONNEUIL, JEAN-PIERRE FRANÇOISE,
MICHEL LANGLAIS ET KHASHAYAR PAKDAMAN
L’épidémiologie théorique des maladies transmissibles est devenue une dis-
cipline à part entière, distincte de la démographie théorique et de l’écologie
théorique, et offre un terrain fertile en applications et en problèmes pour les ma-
thématiques (Hethcote, 2000). Nous illustrons ceci dans ce chapitre, en montrant
comment les modèles ont pu stimuler la réflexion sur des problèmes épidémiolo-
giques et devenir des outils d’aide à la décision en santé publique.
Introduction
La modélisation mathématique dynamique d’une épidémie liée à une maladie
transmissible permet d’analyser les conditions de son démarrage, de mettre au
point et de comparer des stratégies de contrôle ou de prévention. L’importance
et l’acceptation croissante de cette approche est manifeste si l’on considère la
liste des articles parus dans des revues telles que Nature, Science et The New
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 144 — #180
i i
144 L’ ÉPIDÉMIOLOGIE HUMAINE
England Journal of Medicine au cours des dernières années : évaluation de l’im-
pact des maladies émergentes comme le Sras (Lipsitch et al., 2003 ; Riley et al.,
2003), stratégies de vaccination antivariolique en cas d’attaque bioterroriste
(Bozzette et al., 2003), surveillance du démarrage d’une possible pandémie
grippale (Ferguson et al., 2004), détermination du rapport coût/efficacité des
traitements pour l’infection à VIH (Freedberg et al., 2001).
Parallèlement à ces exemples visant à une prévision quantitative, il existe
une modélisation plus qualitative dont le but est de formaliser certains méca-
nismes pour mieux les comprendre. Les maladies à prions fournissent un re-
marquable exemple d’une telle approche : dès 1967, quinze ans avant que
Stanley Prusiner (1982) introduise la dénomination « prion » (Prusiner, 1982),
J.S. Griffith décrivait plusieurs modèles biochimiques qui établissaient la plau-
sibilité d’un agent infectieux purement protéique, donc dépourvu de matériel
génétique propre (Griffith, 1967). Griffith proposait également que l’agent in-
fectieux de la tremblante du mouton puisse être de cette nature ; ceci a été établi
plus tard par Prusiner. Les modèles ont donc également un intérêt « spéculatif »,
dont le but est d’inciter les expérimentateurs à ne pas négliger ou abandon-
ner une hypothèse qui peut apparaître incongrue de prime abord. Profitons de
cet exemple pour insister sur l’importance des données expérimentales comme
base à la modélisation, même lorsque celle-ci est spéculative. Des travaux expé-
rimentaux avaient montré que l’agent de la tremblante du mouton résistait aux
traitements qui dénaturaient le matériel génétique, mais pas les protéines : cette
observation avait motivé Griffith dans sa démonstration de la plausibilité d’un
agent infectieux protéique.
Les deux approches décrites ci-dessus illustrent deux utilisations de la mo-
délisation épidémiologique : l’une quantitative pour aider la décision en santé
publique, l’autre spéculative pour montrer la plausibilité d’un mécanisme. En
pratique, les mêmes techniques peuvent être mises en œuvre dans ces deux dé-
marches, en combinant spéculation et prévision. Ce point est illustré dans la
section suivante qui présente un bref historique de la modélisation dynamique
des épidémies en faisant ressortir les principaux concepts et les approches. Nous
conclurons alors sur les nouvelles directions de recherche qui se mettent en place
aujourd’hui dans le domaine.
Soulignons dès l’introduction que les problèmes issus de la modélisation des
épidémies ont motivé des travaux mathématiques originaux, qui ont acquis une
vie indépendante de leur motivation initiale. La théorie de la percolation en est
un exemple fameux : celle-ci émerge notamment dans l’analyse de la propaga-
tion d’un agent infectieux dans un verger (Broadbent et al., 1957 ; Hammersley,
1957) ; mais les phénomènes de percolation font aujourd’hui partie des do-
maines classiques d’application de la théorie des probabilités, sans que les mo-
tivations initiales soient nécessairement rappelées.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 145 — #181
i i
É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 145
Modèles mathématiques des épidémies
En épidémiologie, on utilise la statistique plus que toute autre théorie mathé-
matique. Une exception notable concerne l’étude des épidémies où des travaux
théoriques et pratiques réalisés depuis le début du XXe siècle ont fait appel à
une très large gamme de compétences mathématiques. Bien que les principales
revues d’épidémiologie (American Journal of Epidemiology, Epidemiology, Epi-
demiologic Reviews) publient peu de tels travaux, ce sont ceux qui reçoivent la
plus grande exposition dans la communauté scientifique générale : dans l’in-
fection à VIH dans les années 1980-90 (May et al., 1987), l’encéphalopathie
spongiforme bovine et le nouveau variant de la maladie de Creutzfeldt-Jacob
(Ghani et al., 1998 ; Valleron et al., 2001), la fièvre aphteuse (Keeling et al.,
2001), et plus récemment le syndrome respiratoire aigu et sévère (Lipsitch et al.,
2003 ; Riley et al., 2003).
Pourquoi la modélisation mathématique a-t-elle pris une telle importance dans
l’épidémiologie des maladies transmissibles ? On peut invoquer, a minima, la
faillite des comparaisons basées sur des extrapolations simples dans ce do-
maine. En effet, si l’incidence d’un cancer est divisée par deux dans une popu-
lation de taille pareillement réduite, il n’en irait pas de même pour la taille d’une
épidémie, à cause d’effets de seuils décrits plus bas.
Les premiers modèles théoriques modernes sont l’œuvre de En’ko, Hamer
et Ross et datent du début du XXe siècle. Ceux-ci proposent la description
« compartimentale » de l’histoire naturelle d’une infection en trois phases :
« Susceptibles » avant l’infection, « Infectieux » pour une personne infectée et
contagieuse, « Retirés » pour les personnes guéries, immunes ou décédées. La
deuxième étape importante est due à Kermack et McKendrik (1927). Enfin, de-
puis le début des années 1980, dans le sillage de la collaboration prolifique d’un
théoricien, Sir Robert May, et d’un écologiste et biologiste, Roy Anderson, l’in-
térêt des grands journaux généralistes s’est renouvelé (Anderson et al., 1979 ;
May et al., 1979).
1 L’approche « systèmes dynamiques » : équilibre, stabilité, . . .
La motivation des travaux de Kermack et McKendrik est leur constat que « La
caractéristique la plus notable dans l’étude des épidémies est la difficulté de
trouver un facteur causal qui expliquerait la diversité des magnitudes des épidé-
mies ».
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 146 — #182
i i
146 L’ ÉPIDÉMIOLOGIE HUMAINE
Dans les articles correspondant à cette étude (Kermack et al., 1927 ; Kermack
et al., 1932 ; Kermack et al., 1933), les auteurs décrivent ce qui est maintenant
connu sous le nom de modèle « SIR ». Sous la forme la plus simple, ce modèle
correspond au système d’équation suivant :
dS (t)
= λ − β S (t) I (t) − µ S (t)
dt
dI (t)
= β S (t) I (t) − γ I (t) − µ I (t)
dt
dR
= γ I (t) − µ R (t)
dt
où S(t), I(t), R(t) correspondent au nombre de personnes dans chaque com-
partiment à un instant t donné, et plusieurs paramètres sont utilisés pour rendre
compte de la dynamique de cette population : λ correspond aux naissances dans
la population, supposées toutes susceptibles, 1/µ est la durée de vie moyenne,
1/γ la durée infectieuse moyenne et β correspond au taux de contact menant
à une transmission effective de la maladie. En pratique, ce modèle restitue de
manière saisissante la forme des épidémies observées et rapportées dans la
littérature (figure 4.4-1).
L’analyse des propriétés d’équilibre de ce système d’équations fait apparaître
un résultat d’une portée pratique inattendue, le « théorème du seuil » : pour
qu’une épidémie puisse avoir lieu, il faut une communauté susceptible de taille
supérieure à un seuil déterminé par deux termes : la contagiosité de l’infection
et la durée de la phase infectieuse. Ce seuil serait par exemple de l’ordre de
200 000 à 300 000 pour la rougeole dans les pays occidentaux (Bailey, 1975),
en l’absence de vaccination. D’autre part, la taille de l’épidémie peut facilement
s’expliquer en fonction de la fraction de susceptibles de la population avant
l’épidémie.
Plusieurs faits surprenants furent également tirés de l’analyse mathématique
du modèle :
– la dissémination d’une maladie repose avant tout sur le nombre de per-
sonnes qui ne l’ont pas eue, beaucoup plus que sur le nombre initial de
personnes infectées ;
– il est normal d’échapper « naturellement » à une épidémie, puisque celle-ci
s’arrête avant d’utiliser tous les susceptibles ;
– une situation endémique stable peut prévaloir dans une population,
lorsque l’incidence peut être exactement compensée par les retraits de
personnes infectieuses.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 147 — #183
i i
É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 147
Figure 4.4-1
Courbe d’incidence épidémique. Nombre de cas de syndromes grippaux observés en France en 2003/2004
(données du réseau Sentinelles de l’Inserm) et ajustement d’un modèle mathématique du type SIR (en trait
continu).
Le théorème du seuil a été reformulé par la notion du ratio de reproduction de
l’épidémie, noté R0 , dont l’interprétation usuelle est le nombre de cas directement
infectés par un unique sujet infecté dans une population entièrement susceptible.
L’intuition, et les mathématiques, montrent que lorsque R0 est plus grand que 1,
on aura une épidémie ; et pas lorsque R0 sera inférieur à 1.
Suivant les travaux de Kermack et McKendrik, de très nombreuses exten-
sions ont été proposées : prendre en compte les effets aléatoires (Bailey, 1975 ;
Andersson et al., 2000), structurer les compartiments (voir § 3), estimer des
paramètres à partir de données (Dietz, 1993 ; Mollison et al., 1994).
Bernoulli avait montré dès le XVIIe siècle l’intérêt de la modélisation mathé-
matique dans l’étude de la variolisation, pratique précurseur de la vaccination
antivariolique (Valleron, 2000). L’étude des conditions d’une vaccination opti-
male est toujours à l’origine de nombreux développements en épidémiologie
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 148 — #184
i i
148 L’ ÉPIDÉMIOLOGIE HUMAINE
théorique. En effet, du point de vue d’un individu, il semble que la prévention de
la maladie passe toujours par la vaccination. Mais l’existence d’un seuil critique
de population susceptible en deçà duquel une épidémie est impossible montre
qu’il n’en est rien : un individu pourrait échapper à la maladie sans être vacciné
dans une telle population : ceci est l’immunité grégaire. Avec cette propriété, il
apparaît également possible d’éradiquer une maladie transmissible : si la pro-
portion de susceptibles est toujours inférieure au seuil critique, alors la maladie
doit disparaître. Ceci a été le cas avec la variole, et on espère aujourd’hui l’éra-
dication de la poliomyélite et de la rougeole.
La vaccination pose encore aujourd’hui des problèmes nouveaux, pour les-
quels la modélisation mathématique demeure indispensable. Notamment, la dis-
parition programmée de maladies amène à réfléchir sur la nécessité de renforcer
la vaccination ou de l’arrêter ; la diminution rapide de l’immunité vaccinale est
également à l’origine de questions de santé publique que l’on peut étudier par
modélisation.
2 L’approche probabiliste et statistique : processus ponctuels,
MCMC
Pour passer de modèles « spéculatifs » à des modèles plus « quantitatifs »,
la principale difficulté rencontrée est de donner une valeur aux paramètres du
modèle. La confrontation des modèles mathématiques d’épidémie avec des don-
nées réelles est nécessaire, avec la difficulté que les paramètres des modèles épi-
démiques ne sont pas tous directement observables : s’il est possible de relier,
par exemple, la durée d’excrétion virale ou de colonisation avec la durée de la
phase infectieuse, il n’existe pas de moyen simple d’observer la valeur des taux
de contact efficaces au cours de la vie infectieuse.
On est donc confronté au problème statistique de la construction d’estimateurs
de paramètres inobservables, à partir de données de terrain le plus souvent
partielles et/ou agrégées. De nombreux développements ont donné un cadre
probabiliste à l’étude des épidémies, et aujourd’hui ceci se fait généralement
dans le cadre de la théorie des processus ponctuels (Neyman a d’ailleurs été un
précurseur de ce type de description dans les systèmes biologiques), avec des
techniques statistiques « de Monte-Carlo ». Des estimateurs aux propriétés de
martingales ont été développés (Picard, 1980). L’utilisation de techniques mo-
dernes, combinant augmentation de données et chaînes de Markov de Monte-
Carlo est également prometteuse (O’Neill et al., 2000).
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 149 — #185
i i
É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 149
3 L’approche « systèmes complexes » : apport des modèles
structurés
Les individus d’une population ne sont généralement pas égaux devant l’ex-
position à une épidémie ; cependant les caractéristiques qui expliquent cette va-
riabilité sont généralement délicates à identifier à partir des données de terrain.
Si l’on peut structurer la population selon ces facteurs, on pourra proposer un
modèle qui reflète mieux les données de terrain. Une liste de tels facteurs peut
comprendre :
l’âge chronologique d’un individu. Ce paramètre intervient dans l’étude des
maladies infantiles, lorsque la fertilité est affectée ou que la transmission ver-
ticale n’est pas négligeable. Des modèles intégrant l’évolution démographique
d’une population sont nécessaires dans ce cas, mais d’analyse mathématique
et numérique complexe. Les modèles de Leslie, de Lotka, Sharpe et al. intègrent
ces aspects ;
la structuration spatiale. La localisation géographique d’un individu peut
avoir un fort impact sur la démographie et sur les densités locales d’individus,
comme sur les taux de contacts entre individus et les structurations sociales lo-
cales. Dans ce cas, on pourra choisir de maintenir le taux de contact constant
avec la densité, ou au contraire proportionnel à celle-ci. La structuration spatiale
peut être formulée dans des modèles mathématiques de type réaction-diffusion
incluant des termes de transport. L’analyse de ceux-ci pose des problèmes d’ana-
lyse mathématique très complexes. Cependant, l’exemple récent de la propa-
gation fulgurante du Sras à l’échelle de la planète à partir d’un foyer unique
montre toutefois qu’un parasite peut franchir de grandes distances quasi instan-
tanément, invalidant ainsi l’approche de réaction-diffusion. Une représentation
sous formes de patchs du domaine spatial reliés les uns aux autres par des
connexions, avec un modèle de type SEIRS dans chaque patch, sera alors plus
opérationnelle. La complexité viendra alors de la taille des systèmes différentiels
à traiter ;
la structuration sociale. Les différents modes de propagation d’un parasite
— amical/agressif, aérienne, transmission sexuelle, indirecte, partage de se-
ringues contaminées — n’ont pas le même impact dans une population donnée
selon le groupe d’individus considéré. La propagation est essentiellement liée au
nombre et au type de contacts efficaces entre individus à l’intérieur d’un groupe
ou entre individus appartenant à des groupes distincts. Une fois la population à
étudier structurée en groupes socialement distincts, la propagation d’un parasite
entre les groupes peut être modélisée par un modèle du type patchs précédent ;
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 150 — #186
i i
150 L’ ÉPIDÉMIOLOGIE HUMAINE
l’âge de l’infection. La contagiosité d’une maladie transmissible peut changer
au cours du temps chez un individu infecté, une surinfection peut survenir ou au
contraire l’immunisation se renforcer après une nouvelle exposition. La gestion
des échelles de temps entre la durée de vie des individus et la durée de vie
d’un infectieux ou la durée du stade infectieux rend alors plus délicate l’étude
théorique et numérique du modèle.
4 L’approche « systèmes complexes » : les réseaux de contact
On a précisé plus haut comment le ratio de reproduction de la maladie (R0 )
pouvait être utilisé pour quantifier si les conditions sont propices à la propaga-
tion d’un agent infectieux et comment il était devenu une mesure commune du
potentiel épidémique d’une maladie. Il est toutefois facile d’oublier que l’impor-
tance de ce paramètre, et l’estimation de sa valeur à partir des données, sont
indissociables du formalisme du modèle SIR. En d’autres termes, l’existence d’un
seuil épidémique est tributaire de la validité du modèle SIR pour cette épidémie.
La théorie du seuil doit-elle être remise en cause ? La structuration des compar-
timents dans le modèle SIR ne remet pas fondamentalement en cause l’existence
même d’un seuil, même si son calcul devient plus compliqué (il est alors dé-
fini comme la plus grande valeur propre d’une matrice jacobienne en un point
d’équilibre). May et Anderson (1988) ont montré que la propriété de seuil de-
meurait, tant que la variance des taux de contacts entre compartiments était
finie.
Que se passe-t-il dans le cas contraire ? Il est d’abord nécessaire de déve-
lopper un nouveau formalisme pour décrire les contacts entre individus. Prenons
l’exemple des maladies sexuellement transmissibles (MST) pour illustrer comment
les données de terrain sont centrales dans ce problème. Dans ces maladies, on
peut obtenir des informations directes et détaillées sur les contacts entre indi-
vidus (par exemple l’étude ACSF — Analyse des comportements sexuels des
Français) et reproduire les caractéristiques des réseaux de partenaires. En pra-
tique, des limitations apparaissent : la simultanéité temporelle des partenariats
est généralement mal mesurée, des incohérences notables apparaissent dans les
données : par exemple, les hommes déclarent en moyenne plus de partenaires
que les femmes. Il est donc impossible de nourrir le modèle à partir des seules
données brutes.
Face à ces difficultés, des travaux plus « spéculatifs » sont menés pour identi-
fier les caractéristiques nécessaires et suffisantes des contacts dans la propaga-
tion des épidémies. Pastor-Satorras et Vespignani (Pastor-Satorras et al., 2001)
ont examiné par exemple la dissémination de virus informatiques sur Internet, et
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 151 — #187
i i
É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 151
montrent que le théorème du seuil n’est pas forcément satisfait dans des réseaux
où le nombre de connections des sites suit une loi de puissance. D’autres travaux
qualitatifs et spéculatifs de même nature ont suivi cet exemple, notamment pour
étudier les stratégies qui permettent d’enrayer la propagation d’épidémies dans
ces réseaux hautement hétérogènes. En plus de susciter de nombreuses études
numériques et exploratoires, l’intérêt de ces résultats a été d’attirer l’attention
sur l’importance de bonnes observations pour descriptions et modélisations des
mécanismes de contacts.
Ces travaux soulignent la sensibilité des résultats au choix de la structure des
contacts entre individus. La conclusion que l’on peut en tirer est donc qu’il est
important de ne pas se limiter aux modèles de contact « empruntés » à d’autres
disciplines, jadis la chimie et aujourd’hui les réseaux informatiques. Les modèles
épidémiologiques doivent s’orienter vers une description des contacts à partir de
données et d’observations appropriées.
5 L’approche « contrôle » appliquée aux systèmes dynamiques :
l’exemple de la viabilité
Comment contrôler un système dynamique de sorte qu’une propriété qua-
litative soit conservée au cours du temps ? Comment manœuvrer un système
dynamique de sorte qu’une propriété qualitative soit obtenue avant un temps
donné ? Au lieu de considérer le comportement asymptomatique du système, la
question du maintien dans un ensemble donné se pose à chaque instant, en
phase transitoire, avec ou sans attracteurs, sans besoin d’optimiser un critère in-
tertemporel souvent rendu irréaliste par l’incertitude inhérente au comportement
futur de l’agent.
L’ensemble de tous les états initiaux à partir desquels il existe une trajec-
toire restant dans un ensemble fixé correspondant à la propriété qu’on souhaite
voir se perpétuer joue un rôle important. On l’appelle le noyau de viabilité. L’en-
semble des états initiaux à partir desquels il existe au moins une trajectoire attei-
gnant une cible donnée est le domaine de capture. En un état donné, l’ensemble
des contrôles pour lesquels il existe une trajectoire restant dans l’ensemble fixé
ou bien atteignant la cible est la loi de régulation.
En épidémiologie des pistes sont ouvertes :
– quelles politiques de vaccination, à quel âge, en quelles proportions ?
Cette question a été envisagée par plusieurs auteurs. Cependant, il s’agit
souvent d’examiner les conséquences d’une politique donnée. En viabilité,
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 152 — #188
i i
152 L’ ÉPIDÉMIOLOGIE HUMAINE
nous posons le problème à l’envers : quelles mesures de vaccination au
cours du temps de sorte que l’épidémie soit toujours maintenue en dessous
d’un certain seuil, ou bien soit ramenée en dessous d’un seuil donné ? Les
contrôles ne sont pas fixés au départ, mais sont adaptatifs aux change-
ments de l’environnement ;
– sans avoir besoin de spécifier un critère d’optimisation intertemporel, sans
avoir besoin de spéculer sur le comportement futur du système (comme
des oscillations), l’analyse de viabilité offre des procédures de sélection
de devenirs viables, en respectant les contraintes d’état ;
– l’existence, l’unicité et la viabilité des solutions des systèmes dynamiques
complexes utilisés en épidémiologie reposent parfois sur des hypothèses
de constance des risques instantanés, et mettent en jeu des fonctions sup-
posées intégrables au sens L1, ou dérivables en un sens faible. Le concept
d’enveloppe d’invariance issu de la théorie de la viabilité permet d’ex-
plorer ces questions dans l’espace beaucoup plus grand des fonctions à
graphe fermé, en utilisant le concept judicieux de dérivée contingente.
En dynamique des populations, Aubin, Bonneuil et Maurin (Aubin et al.,
2000) ont étudié le système de Lotka-McKendrick. Il reste des choses à
faire en épidémiologie, où il vaut mieux savoir si les solutions existent,
sont uniques, ou sous quelles conditions elles sont viables ;
– équations mutationnelles : lorsque la variable d’état est elle-même un en-
semble, l’évolution du système s’écrit sous forme d’équation mutationnelle.
Par exemple, quelle politique de contrôle sanitaire mettre en œuvre afin
de maintenir un territoire infecté dans des limites prescrites ? Ce travail est
en cours et mené par Karine Pichard (université de Pau).
6 Autres développements récents
Un travail récent, paru dans la revue Nature, combine de manière intéres-
sante les nouvelles approches de la modélisation en épidémiologie (Eubank
et al., 2004). L’objectif de ce travail est d’étudier l’impact d’une attaque bio-
terroriste en milieu urbain et de comparer les interventions possibles. Bien que
classique dans ses objectifs et ses conclusions, la méthodologie utilisée rend ce
travail remarquable. En effet, plutôt que de faire des hypothèses a priori sur
les contacts entre individus, les interactions entre individus dans leur modèle
intègrent des données réelles de circulation urbaine et de démographie de la
ville de Portland aux États-Unis. L’architecture des réseaux de contact n’est donc
pas posée a priori, comme c’est le cas dans beaucoup de modèles, et n’est pas
empruntée aux réactions chimiques ou à Internet : il s’agit d’une approche qui
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 153 — #189
i i
É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 153
exploite directement les facteurs qui régissent réellement les contacts entre les
personnes.
Cette approche est également liée à de nouvelles techniques de modélisation,
plus détaillée, dite “ par agents » ou « individu-centrée ». Dans celle-ci, on privi-
légie une description « locale » des interactions à la description macroscopique.
De telles approches sont par exemple essentielles lorsque l’on souhaite pouvoir
aborder des aspects « intra-hôte », par exemple l’évolution génétique des para-
sites, et des aspects populationnels comme les caractéristiques de la transmission
entre hôtes. Reposant aujourd’hui avant tout sur des simulations, ces approches
demandent le développement d’outils analytiques spécifiques.
Enfin, avec l’explosion des données génomiques, à la fois sur les virus, bac-
téries ou leurs hôtes, il faut aujourd’hui imaginer des méthodes qui permettront
d’intégrer ces données dans la modélisation. Des approches séduisantes ont été
proposées, qui exploitent les propriétés d’échantillonnage du nombre de va-
riants génétiques dans des populations d’effectif non stationnaire. Il est alors
possible, en utilisant comme seule donnée un échantillon de la population vi-
rale à un moment donné, et en connaissant la vitesse de l’horloge moléculaire
associée aux mutations, d’estimer la vitesse de croissance de la population por-
teuse de l’organisme considéré. Des résultats extrêmement convaincants ont été
obtenus concernant par exemple l’histoire de l’épidémie d’hépatite C en Égypte
(Pybus et al., 2001) ou de l’évolution du virus de la grippe (Ferguson et al.,
2003). L’unification des modèles classiques et de ces approches génomiques est
un terrain qui semble offrir des possibilités immenses en épidémiologie théorique
(Grenfell et al., 2004).
Conclusion
L’épidémiologie théorique des maladies transmissibles est devenue une dis-
cipline à part entière, distincte de la démographie théorique et de l’écologie
mathématique (Hethcote, 2000). Celle-ci se caractérise par une combinaison de
techniques issues de la modélisation des populations, de la virologie et la mi-
crobiologie, et offre un terrain d’application immense pour les mathématiques
et les statistiques. Au-delà des résultats théoriques, cette discipline vise à fournir
des bases quantitatives pour la réflexion de santé publique autour des mala-
dies infectieuses. Dans cette direction, on notera que, si l’utilisation de modèles
basés sur des arbres de décision, bien que sans aucune complexité mathéma-
tique, devient un outil commun dans la communauté épidémiologique et mé-
dicale (Freedberg et al., 2001), l’utilisation de modèles plus vraisemblables (et
plus complexes mathématiquement) serait cependant souhaitable.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 154 — #190
i i
154 L’ ÉPIDÉMIOLOGIE HUMAINE
Le développement de ce domaine doit s’appuyer sur les points suivants :
Renforcer les interactions. Les interactions entre épidémiologistes et mathé-
maticiens/probabilistes sont informelles. On pourrait favoriser l’émergence de
projets du type ACI Mathématiques pour l’épidémiologie.
Recueillir des données. On est aujourd’hui arrivé à une bonne connaissance
théorique des propriétés des modèles mathématiques simulant des épidémies.
Cette étape « spéculative » doit laisser place à une étape de validation, nourrie
des données de terrain. Pour cela, celles-ci doivent être recueillies prospective-
ment et à grande échelle. Pour avoir de bons modèles, utiles en santé publique,
il faut avoir avant tout de bonnes données.
Faire des modèles des outils de santé publique. Les effets d’une décision
de santé publique peuvent parfois être anticipés en s’appuyant sur des résultats
de modélisation. De la part des modélisateurs, cela nécessite de franchir une
étape entre aspects « spéculatifs » du modèle et aspects « quantitatifs » utiles
pour baser une décision.
Explorer les limites des modèles. Comme indiqué plus haut, si la modélisa-
tion peut aider à interpréter des données, elle n’a pas pour finalité de remplacer
l’observation et l’expérimentation réelle. Les conditions qui font qu’un modèle
est utilisable, que l’on aura confiance dans ses résultats et que ceux-ci pourront
convaincre doivent être mieux étudiées.
Bibliographie
Anderson RM., May RM. (1979). Population biology of infectious diseases :
Part I. Nature, 280 (5721) : 361-7.
Andersson H., Britton T. (2000). Stochastic epidemics and their statisitcal analy-
sis. Springer-Verlag, New York.
Aubin J., Bonneuil N. et al. (2000). Non-linear Structured Population Dynamics
with Co-Variates. Mathematical Population Studies, 9 (1) : 1-31.
Bailey N. (1975). The Mathematical Theory of Infectious Diseases. Griffin,
London.
Bozzette SA., Boer R. et al. (2003). A model for a smallpox-vaccination policy.
N Engl J Med, 348 (5) : 416-25.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 155 — #191
i i
É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 155
Broadbent S., Hammersley J. (1957). Percolation processes I. Proc. Cambridge
Philos Soc, 53 : 629-641.
Dietz K. (1993). The estimation of the basic reproduction number for infectious
diseases. Stat Methods Med Res, 2 (1) : 23-41.
Eubank S., Guclu H. et al. (2004). Modelling disease outbreaks in realistic urban
social networks. Nature, 429 (6988) : 180-4.
Ferguson NM., Fraser C. et al. (2004). Public health. Public health risk from the
avian H5N1 influenza epidemic. Science, 304 (5673) : 968-9.
Ferguson NM., Galvani AP. et al. (2003). Ecological and immunological deter-
minants of influenza evolution. Nature, 422 (6930) : 428-33.
Freedberg KA., Losina E. et al. (2001). The cost effectiveness of combination
antiretroviral therapy for HIV disease. N Engl J Med, 344 (11) : 824-31.
Ghani AC., Ferguson NM. et al. (1998). Estimation of the number of people
incubating variant CJD. Lancet, 352 (9137) : 1353-4.
Grenfell BT., Pybus OG. et al. (2004). Unifying the epidemiological and evolu-
tionary dynamics of pathogens. Science, 303 (5656) : 327-32.
Griffith JS. (1967). Self-replication and scrapie. Nature, 215 (105) : 1043-4.
Hammersley J. (1957). Percolation processes II. Proc Cambridge Philos Soc, 53 :
642-645.
Hethcote H. (2000). The mathematics of infectious diseases. SIAM Review, 42
(4) : 599-653.
Keeling MJ., Woolhouse ME. et al. (2001). Dynamics of the 2001 UK foot
and mouth epidemic : stochastic dispersal in a heterogeneous landscape.
Science, 294 (5543) : 813-7.
Kermack WO., McKendrick AG. (1927). Contributions to the mathematical
theory of epidemics-I. Proc Roy Soc Lond A, 115 : 700-721.
Kermack WO., McKendrick AG. (1932). Contributions to the mathematical
theory of epidemics-II. The problem of endemicity. Proc Roy Soc Lond A,
138 : 55-83.
Kermack WO., McKendrick AG. (1933). Contributions to the mathematical
theory of epidemics-III. Further studies of the problem of endemicity. Proc
Roy Soc Lond A, 141 : 94-122.
Lipsitch M., Cohen T. et al. (2003). Transmission dynamics and control of severe
acute respiratory syndrome. Science, 300 (5627) : 1966-70.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 156 — #192
i i
156 L’ ÉPIDÉMIOLOGIE HUMAINE
May RM., Anderson RM. (1979). Population biology of infectious diseases : Part
II. Nature, 280 (5722) : 455-61.
May RM., Anderson RM. (1987). Transmission dynamics of HIV infection. Na-
ture, 326 (6109) : 137-42.
Mollison D., Isham V. et al. (1994). Epidemics : models and data. J R Stat Soc
Ser A Stat Soc, 157 (1) : 115-49.
O’Neill P., Balding D. et al. (2000). Analysis of infectious disease data from hou-
sehold outbreaks by Markov chain Monte Carlo methods. Applied Statistics,
49 : 517-542.
Pastor-Satorras R., Vespignani A. (2001). Epidemic spreading in scale free net-
works. Phys Rev Lett., 86 : 3200-3203.
Picard P. (1980). Applications of martingale theory to some epidemic models.
Journal of Applied Probability, 17 : 583-599.
Prusiner SB. (1982). Novel proteinaceous infectious particles cause scrapie.
Science, 216 (4542) : 136-44.
Pybus OG., Charleston MA. et al. (2001). The epidemic behavior of the hepatitis
C virus. Science, 292 (5525) : 2323-5.
Riley S., Fraser C. et al. (2003). Transmission dynamics of the etiological agent
of SARS in Hong Kong : impact of public health interventions. Science, 300
(5627) : 1961-6.
Valleron AJ. (2000). The roles for modeling in epidemiology. C. R. Acad. Sci. III,
323 (5) : 429-33.
Valleron AJ., Boëlle PY. et al. (2001). Estimation of epidemic size and incubation
time based on age characteristics of vCJD in the United Kingdom. Science,
294 (5547) : 1726-8.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 157 — #193
i i
SOUS-CHAPITRE 4.5
La modélisation
en épidémiologie du cancer
FRÉDÉRIC YVES BOIS
L’apport des mathématiques à l’épidémiologie des cancers peut se faire à trois
niveaux. Le premier correspond à celui de l’épidémiologie analytique, qui étudie
le lien entre des expositions environnementales d’origines diverses (alimentaires,
physiques, chimiques), des facteurs constitutionnels (notamment génétiques) et la
survenue ou l’évolution de cancers. À ce niveau, la modélisation concerne à la
fois le lien cancer/exposition mais aussi la reconstruction des expositions dans
le temps. Le second niveau concerne les définitions de seuil dans le cadre des
actions de prévention et de contrôle des instances réglementaires, où des tech-
niques de modélisation stochastique des processus de cancérogenèse sont de
plus en plus sollicitées. Le dernier niveau concerne l’épidémiologie expérimen-
tale, où de nombreux modèles sont conçus pour l’analyse de données cliniques,
en vue du développement de thérapies ou d’outils de pronostic. Si tous ces der-
niers travaux ont un intérêt appliqué certain, ils ont aussi une portée scientifique
et peuvent être l’occasion de développements mathématiques originaux. La fi-
gure 4.5-1 résume l’articulation des différentes disciplines de recherche autour
de la cancérogenèse et de ses facteurs.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 158 — #194
i i
158 L’ ÉPIDÉMIOLOGIE HUMAINE
Figure 4.5-1
Articulation des différentes disciplines de recherche épidémiologique ou toxicologique autour de la
cancérogenèse et de ses facteurs étiologiques.
La multiplicité apparente des étapes de la cancérisation et celles des facteurs la régulant rendent difficile
l’identification des causes « mineures » de cancer. Les mathématiques sont utilisées par chacune des
disciplines pour modéliser tout ou partie du processus.
1 Historique et cadre général
C’est à partir de 1950 que les premières théories mathématiques de la can-
cérogenèse furent développées (Iversen et Arley, 1950 ; Nordling, 1953). Elles
s’appuyaient sur des travaux concernant les processus stochastiques (Kendall,
1952). Leurs motivations et applications visaient à expliquer des résultats ex-
périmentaux chez l’animal ou l’évolution de l’incidence des cas de cancer hu-
mains en fonction de l’âge. Naturellement, des applications de prévention ou de
pronostic étaient également recherchées (Armitage et Doll, 1954). Les étroites
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 159 — #195
i i
L A MODÉLISATION EN ÉPIDÉMIOLOGIE DU CANCER 159
fenêtres thérapeutiques des chimiothérapies et des thérapies par irradiation
poussèrent ensuite au développement de modèles mathématiques quantitatifs
pour l’optimisation des doses de traitement atteignant les tumeurs. Ces applica-
tions ont ensuite eut une vie propre que bouleversent maintenant les données de
la génétique.
1.1 Les mathématiques sont utiles à l’étude
de toutes les étapes de la cancérogenèse
1.1.1 Modélisation du processus de cancérogenèse
C’est l’observation épidémiologique d’une évolution non linéaire de l’inci-
dence des cancers en fonction de l’âge qui motiva les premiers travaux de mo-
délisation mathématique de la cancérogenèse (Armitage et Doll, 1954). Ce fut,
pour les statisticiens collaborant avec des épidémiologistes, l’occasion de pro-
poser des modèles stochastiques markoviens offrant de bonnes descriptions de
l’évolution des taux de cancer avec l’âge (Kendall, 1960 ; Whittemore et Keller,
1978 ; Moolgavkar et Venzon, 1979). L’application des modèles les plus simples
à l’étude de la cancérogenèse expérimentale a été nettement moins fructueuse,
car ils prennent mal en compte les mécanismes de réparation de l’ADN, les
interactions cancer/hôte, ou les phénomènes d’apoptose. Les travaux les plus
récents tentent de remédier à cette situation (Bois et Compton-Quintana, 1992 ;
Kopp-Schneider, 1997 ; Dunson, 2000 ; van Leeuwen et Zonneveld, 2001 ; Little
et Wright, 2003, http://www.maths.dundee.ac.uk/mbg/).
1.1.2 Modélisation des étapes cliniques et des traitements
thérapeutiques du cancer
Indépendamment du traitement de données d’épidémiologie analytique ou
de toxicologie animale, la modélisation de l’évolution de tumeurs avérées a une
utilité indéniable pour le dépistage et la mise au point de thérapies anticancé-
reuses (Tubiana et Koscielny, 1999). Les modèles mathématiques utilisés en épi-
démiologie expérimentale font appel au calcul différentiel classique (Barbolosi
et Iliadis, 2001 ; Simeoni et al., 2004), au calcul stochastique (Ciampi et al.,
1986 ; Smolle et Stettner, 1993) mais aussi aux simulations stochastiques (Periti
et al., 1979 ; Düchting et Vogelsaenger, 1987 ; Michelson, 1990) ou aux auto-
mates cellulaires (Qi et al., 1993). Des développements récents font appel à la
théorie des graphes (Radmacher et al., 2001).
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 160 — #196
i i
160 L’ ÉPIDÉMIOLOGIE HUMAINE
1.1.3 Modélisation de la dose interne
La relation entre la dose (de radiation, médicament, cancérigène chimique)
administrée et la dose interne, active, n’est pas forcement linéaire. La complexité
des mécanismes d’absorption, diffusion, transport, métabolisme, élimination et
les cascades d’événements secondaires menant à la dose interne font que l’on
s’est très tôt orienté vers des modèles basés sur l’anatomophysiologie (Teorell,
1937). C’est dans les années 1970 que les progrès du calcul ont permis l’uti-
lisation courante des modèles pharmacocinétiques « physiologiques » (Dedrick
et al., 1970) ou des fantômes numériques (Kerr et al., 1976). Les modèles ac-
tuels font le plus souvent appel à la résolution numérique de systèmes différen-
tiels ordinaires ou aux dérivées partielles. Ils sont utilisés en thérapeutique, en
clinique, ou en évaluation des risques pour prendre en compte des différences
physiologiques entre individus, affiner le calcul des relations dose-réponse, et
reconstruire les expositions passées.
1.1.4 Les liens avec la statistique
Les modèles les plus complexes s’accommodent mal de méthodes fréquen-
tistes classiques d’estimation des paramètres. Des développements intéressants
font appel aux modèles statistiques hiérarchiques (Greenland, 2000), aux sta-
tistiques bayésiennes (Begg et al., 1998) à l’analyse non linéraire de séries
temporelles (De Gunst et Luebeck, 1994 ; Davidian et Giltinan, 1995).
2 Évolution, besoins, perspectives
L’épidémiologie expérimentale ou clinique dispose de « bons » modèles, vali-
dés, prédictifs, opérationnels. La recherche dans ce domaine doit se poursuivre
pour intégrer les progrès des outils de dépistage, de diagnostic, et de traitement.
Une grande partie de cette recherche est directement financée par l’industrie de
la santé.
L’épidémiologie analytique est plus mal lotie. Les modèles existants intègrent
mal la multiplicité des causes de cancers ; les modèles les plus solides néces-
sitent le recours à des techniques statistiques complexes. Cependant, des mo-
dèles simplifiés, voire simplistes, comme le modèle multi-étapes dans l’évalua-
tion du risque ou les approximations par des modèles linéaires ou logistiques en
épidémiologie descriptive, restent encore largement utilisés, car considérés bien
souvent comme suffisants pour décrire correctement l’évolution temporelle des
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 161 — #197
i i
L A MODÉLISATION EN ÉPIDÉMIOLOGIE DU CANCER 161
cancers. On peut s’accommoder de ces modèles simplifiés s’il s’agit d’interpo-
ler des données, mais ils n’ont guère de justification scientifique quand il s’agit
d’évaluer les risques aux faibles doses ou pour de faibles durées d’exposition.
Comment améliorer les modèles utilisés pour l’évaluation quantitative de la
relation dose-risques ou celle de l’impact sur les populations ? Il est nécessaire
de mieux comprendre les régulations fines des premières étapes de la cancéro-
genèse. L’analyse quantitative des régulations génétiques de la différenciation
cellulaire, discipline faisant fortement appel à la statistique et aux mathéma-
tiques, devrait faire progresser la question. La solution ne sera probablement
pas simple puisque plus de 1 % des gènes sont susceptibles de mutations contri-
buant au développement de cancers (Futreal et al., 2004). Pour s’en approcher,
il est nécessaire de développer et financer des recherches intégratives alliant
biologie moléculaire, toxicologie, bio-informatique et épidémiologie.
Bibliographie
Armitage P., Doll R. (1954). The age distribution of cancer and a multi-stage
theory of carcinogenesis. British Journal of Cancer, 8 : 1-12.
Barbolosi D., Iliadis A. (2001). Optimizing drug regimens in cancer chemothe-
rapy : a simulation study using a PK-PD model. Computers in Biology and
Medicine, 31 : 157-172.
Begg CB. et al. (1998). A new strategy for evaluating the impact of epidemio-
logic risk factors for cancer with application to melanoma. Journal of the
American Statistical Association, 93 : 415-426.
Bois FY., Compton-Quintana PGE. (1992). Sensitivity analysis of a new model
of carcinogenesis. Journal of Theoretical Biology, 159 : 361-375.
Ciampi A. et al. (1986). Multi-type Galton-Watson process as a model for pro-
liferating human tumour cell populations derived from stem cells : estimation
of stem cell self-renewal probabilities in human ovarian carcinomas. Cell
and Tissue Kinetics, 19 : 129-140.
Davidian M., Giltinan DM. (1995). Nonlinear Models for Repeated Measure-
ment Data. London, Chapman & Hall.
De Gunst MC., Luebeck EG. (1994). Quantitative analysis of two-dimensional
observations of premalignant clones in the presence or absence of malignant
tumors. Mathematical Biosciences, 119 : 5-34.
Dedrick RL. et al. (1970). Interspecies correlation of plasma concentration history
of methotrexate (NSC-740). Cancer Chemotherapy Reports, 54 : 95-101.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 162 — #198
i i
162 L’ ÉPIDÉMIOLOGIE HUMAINE
Düchting W., Vogelsaenger T. (1987). An approach of modelling and simula-
ting the spread of heterogeneous tumor cells in a three-dimensional tissue
segment. Computers and Mathematics with Applications, 14 : 783-792.
Dunson DB. (2000). Models for papilloma multiplicity and regression : appli-
cations to transgenic mouse studies (with erratum). Applied Statistics, 49 :
19-30.
Futreal PA. et al. (2004). A census of human cancer genes. Nature Reviews
Cancer, 4 : 177-183.
Greenland S. (2000). Principles of multilevel modelling. International Journal of
Epidemiology, 29 : 158-167.
Iversen S., Arley N. (1950). On the mechanism of experimental carcinogenesis.
Acta Pathologica Microbiologica Scandinavica, 27 : 773-803.
Kendall DG. (1952). Les processus stochastiques de croissance en biologie. An-
nales de l’Institut Henri Poincarré, 13 : 43-108.
Kendall DG. (1960). Birth and death processes and the theory of carcinogenesis.
Biometrika, 47 : 13-21.
Kerr GD. et al. (1976). A mathematical model of a phantom developed for use
in calculations of radiation dose to the body and major internal organs of a
japanese adult. Journal of Radiation Research, 17 : 211-229.
Kopp-Schneider A. (1997). Carcinogenesis models for risk assessment. Statisti-
cal Methods in Medical Research, 6 : 317-340.
Little MP., Wright EG. (2003). A stochastic carcinogenesis model incorporating
genomic instability fitted to colon cancer data. Mathematical Biosciences,
183 : 111-134.
Michelson S. (1990). A system for Monte-Carlo simulation of heterogenous tu-
mor cell populations. Computers and Mathematics with Applications, 20 :
139-148.
Moolgavkar SH., Venzon J. (1979). Two-events models for carcinogenesis : in-
cidence curves for childhood and adult tumors. Mathematical Biosciences,
47 : 55-77.
Nordling CO. (1953). A new theory on the cancer-inducer mechanism. British
Journal of Cancer, 7 : 68-72.
Periti P. et al. (1979). Mathematical models of the neoplastic growth control.
Medical Biology and Environment, 7 : 185-214.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 163 — #199
i i
L A MODÉLISATION EN ÉPIDÉMIOLOGIE DU CANCER 163
Qi, A-S. et al. (1993). A cellular automaton model of cancerous growth. Journal
of Theoretical Biology, 161 : 1-12.
Radmacher MD. et al. (2001). Graph models of oncogenesis with an application
to melanoma. Journal of Theoretical Biology, 212 : 535-548.
Simeoni M. et al. (2004). Predictive pharmacokinetic-pharmacodynamic mo-
deling of tumor growth kinetics in xenograft models after administration of
anticancer agents. Cancer Research, 64 : 1094-1101.
Smolle J., Stettner H. (1993). Computer simulation of tumour cell invasion by a
stochastic growth model. Journal of Theoretical Biology, 160 : 63-72.
Teorell T. (1937). Kinetics of distribution of substances administered to the
body. Archives Internationales de Pharmacodynamie et de Thérapie, 57 :
205-240.
Tubiana M., Koscielny S. (1999). The rationale for early diagnosis of cancer —
The example of breast cancer. Acta Oncologica, 38 : 295-303.
van Leeuwen IMM., Zonneveld C. (2001). From exposure to effect : a compari-
son of modeling approaches to chemical carcinogenesis. Mutation Research-
Reviews in Mutation Research, 489 : 17-45.
Whittemore AS., Keller JB. (1978). Quantitative theories of carcinogenesis.
SIAM Reviews, 20 : 1-30.
i i
i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 164 — #200
i i
i i
i i