0% ont trouvé ce document utile (0 vote)

30 vues52 pages

Épidémiologie Et Sciences Mathématiques: Chapitre

Ce chapitre explore les interactions entre l'épidémiologie et les sciences mathématiques, en mettant l'accent sur l'importance de la statistique dans l'analyse des données épidémiologiques. Il aborde des sujets tels que les essais cliniques, les données manquantes, et les méthodes géostatistiques, tout en soulignant les défis et les avancées méthodologiques dans ces domaines. L'utilisation croissante de logiciels d'analyse statistique soulève des questions sur la compréhension et l'application des méthodes par les chercheurs.

Transféré par

Ismail Anfour

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

30 vues52 pages

Épidémiologie Et Sciences Mathématiques: Chapitre

Transféré par

Ismail Anfour

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

i i

“epidemiologie” — 2006/5/11 — 9:29 — page 113 — #149

i i

CHAPITRE 4

Épidémiologie et sciences
mathématiques

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 114 — #150
i i

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 115 — #151
i i

SOUS-CHAPITRE 4.1

Épidémiologie et statistique
GUY THOMAS, MARC YOR ET PIERRE-YVES BOËLLE

Dans le domaine du vivant, les sources de variabilité sont très nombreuses,

et pour la plupart inconnues. Même si l’on imaginait pouvoir connaître tous
les paramètres intervenant dans le phénomène étudié, un modèle prenant en
compte tous ces degrés de liberté serait beaucoup trop complexe pour être utile.
Dans ce contexte, les épidémiologistes ont été amenés :

– à développer des protocoles spéciﬁques de recueil de données ;

– à modéliser les phénomènes étudiés comme des phénomènes aléatoires ;
– à analyser les données recueillies dans le cadre théorique de la statistique
mathématique.

Les interactions entre épidémiologie et statistique mathématique sont riches

et bilatérales. Certains problèmes rencontrés en épidémiologie sont à l’origine
de méthodes statistiques originales et spéciﬁques, dont l’étude théorique est me-
née par des mathématiciens. Réciproquement, des résultats de mathématique
contemporaine trouvent un domaine d’application en épidémiologie. Cette dy-
namique interactive peut seule garantir la qualité de la recherche en épidémio-
logie, alors que la disponibilité croissante de logiciels « clés en main » permet
désormais à des utilisateurs naïfs de mener des analyses complexes sans maî-
trise des outils méthodologiques.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 116 — #152
i i

116 L’ ÉPIDÉMIOLOGIE HUMAINE

L’objet de ce chapitre est d’illustrer les interactions entre épidémiologie et

statistique mathématique par des exemples appartenant à différents domaines
de l’épidémiologie, mais sans aucune prétention à l’exhaustivité.

1 Statistique mathématique et épidémiologie

Les fondements de l’approche statistique sont évidemment mathématiques,

même si cette caractéristique peut être masquée par la possibilité d’appliquer
certains résultats sans avoir à maîtriser la théorie sous-jacente. La disponibilité
croissante de logiciels mettant en œuvre simplement et rapidement les traite-
ments statistiques les plus complexes ne peut que renforcer l’écart entre compré-
hension et utilisation d’une méthode.

1.1 Analyse des essais thérapeutiques

Dans un protocole d’essai clinique (on considérera ici un protocole de

phase III, de recherche de supériorité ou d’équivalence), on retrouve généra-
lement les caractéristiques suivantes : un nombre de patients à inclure est ﬁxé
dès le début du protocole, grâce à un calcul basé sur la différence entre traite-
ments que l’on souhaite déceler avec des risques acceptés ; la conclusion n’est
connue qu’une fois l’ensemble des patients observés, à l’issue d’une analyse
ﬁnale ; l’analyse est conduite dans un cadre statistique « fréquentiste ».

L’analyse de tels essais peut ne pas nécessiter de compétences mathématiques

particulières, par exemple si l’on effectue une simple comparaison de moyennes.
Néanmoins, la théorie mathématique qui sous-tend la validité de la méthodolo-
gie statistique fait appel à des concepts mathématiques comme la convergence
en loi d’une suite de variables aléatoires, qui ne sont enseignés que dans le
2e cycle des études supérieures.

Le protocole type de l’essai contrôlé reste régulièrement critiqué, en raison

de problèmes éthiques, de l’écart entre la recherche d’un résultat « statistique-
ment signiﬁcatif » et de sa pertinence clinique, et également en raison du temps
nécessaire pour obtenir une conclusion (souvent plusieurs années). Des dévelop-
pements récents de statistique mathématique ont été réalisés qui ciblent certains
de ces problèmes, au prix toutefois d’une plus grande complexité de l’analyse.
Un exemple important est le développement des méthodes de tests répétés ou
séquentiels. La propriété recherchée est alors de pouvoir conclure à l’efﬁcacité
d’une intervention en s’appuyant sur le nombre le plus réduit possible d’unités

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 117 — #153
i i

É PIDÉMIOLOGIE ET STATISTIQUE 117

expérimentales. La répétition des tests, ainsi que la poursuite de l’essai condi-

tionnellement aux résultats antérieurs, posent cependant des problèmes mathé-
matiques ardus pour déterminer quelle procédure garantit un risque d’erreur
global spéciﬁé à l’avance.

Par exemple, la recherche d’une fonction de coût optimale pour répartir cette
erreur au cours des analyses successives est un terrain de recherche encore ac-
tif. Bien qu’a priori d’essence différente, la recherche de méthodes de randomi-
sation adaptative, où l’intervention attribuée aux patients nouvellement recrutés
dans un essai est biaisée vers celle qui semble la plus efficace au vu des données
antérieures (stratégie Play the Winner) possède des caractéristiques équivalentes
à celle des essais séquentiels. Les développements mathématiques nécessaires
pour établir les propriétés de ces méthodes sont très techniques, notamment
lorsque l’on veut garantir une taille finie à ces essais : les démonstrations sont
réalisées grâce aux propriétés de fonctionnelles du mouvement brownien, dont
le niveau mathématique est celui d’un troisième cycle. L’implémentation en pra-
tique de ces méthodes reste limitée, d’une part à cause de problèmes logistiques
(l’analyse des données doit être contemporaine du déroulement de l’essai), mais
également en raison de la plus grande complexité de la méthode. Cependant
au moins deux logiciels spécialisés sont actuellement commercialisés (PESTTM ,
EASTTM ) qui permettent de simplifier tant la planification que la conduite de tels
essais.

Un changement beaucoup plus radical dans la conduite des essais cliniques

est celui qui est annoncé dans un récent éditorial de la revue Science : l’au-
teur constate que « si la majeure partie des sciences ont travaillé pour que la
connaissance a priori soit largement intégrée dans les analyses ultérieures, il
n’en est pas de même pour les essais cliniques ». Bien qu’une grande quantité
d’information a priori soit néanmoins utilisée dans la construction d’un essai, il
est vrai que l’analyse finale de l’essai repose sur les seules données recueillies au
cours de l’essai, privilégiant une forme d’objectivité de l’analyse en dehors de
tout a priori. Dans les essais de phase I/II, c’est-à-dire de recherche de dose et
toxicité, ce paradigme tend de plus en plus à être remplacé par des approches
« bayésiennes » où l’information connue avant l’essai et obtenue en cours d’es-
sai est utilisée dans la conduite du protocole. Les essais de phase III sont encore
peu réalisés selon l’approche bayésienne, bien qu’il ait été suggéré que cela
puisse s’avérer très fructueux, notamment dans le cas des maladies rares. Ces
approches « bayésiennes » sont généralement plus complexes dans leur mise
en œuvre, puisqu’elles reposent sur des calculs (essentiellement) numériques de
densités conditionnelles. Ici, bien qu’il n’existe pas encore de logiciels « clés en
main » permettant la planification et l’analyse de ces essais, des plates-formes
non spécifiques sont déjà disponibles (par exemple BUGSTM ).

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 118 — #154
i i

118 L’ ÉPIDÉMIOLOGIE HUMAINE

1.2 Données manquantes

Il n’est généralement pas acceptable, et toujours préjudiciable, d’exclure de

l’analyse les données qui sont incomplètes. C’est cependant la méthode qui est
généralement appliquée dans les analyses épidémiologiques, notamment parce
que les logiciels d’analyse procèdent à l’élimination des données incomplètes
avant analyse.

Éviter les données manquantes est donc une priorité qui doit se gérer prin-
cipalement lors du recueil des données par le contrôle de qualité. Cependant,
l’utilisation de méthodes statistiques récentes permet, le cas échéant, de rendre
compte de ces données manquantes lors de l’analyse. Par exemple, des tech-
niques de type EM (« expectation, maximisation ») sont quelquefois possibles.
Il s’agit généralement, par une méthode itérative où les données manquantes
sont remplacées par leur moyenne prédite, de parvenir à une estimation des
paramètres. Le développement de la méthode est cependant ad hoc et doit être
adapté à chaque jeu de données.

Une autre voie de recherche à visée plus globale est de procéder à une im-
putation des données manquantes. À l’aide d’un modèle prédictif ajusté sur
les données observées (généralement un modèle non paramétrique, ou par ré-
échantillonnage), les valeurs manquantes sont « imputées », avec une variabilité
qui reﬂète l’incertitude du modèle prédictif. On peut donc obtenir un jeu de
données complet, qui a l’avantage d’être analysable avec des outils statistiques
classiques. Il faut généralement procéder à des imputations multiples pour ga-
rantir la validité statistique de la procédure.

Bien évidemment, des hypothèses sont nécessaires à la validité de ces ap-

proches : ainsi, elle a été établie pour des données manquantes « totalement au
hasard » ou « au hasard », mais la meilleure prise en compte des données man-
quantes « non au hasard », ou des données « à manquantes informatives » reste
un champ de recherche ouvert. Cependant, on ne sait pas caractériser, pour un
jeu de données, la nature des données manquantes : « au hasard » ou « infor-
matives ». La disponibilité des méthodes d’imputation multiple dans les logiciels
statistiques standard peut alors poser des problèmes d’utilisation indiscriminée.

1.3 Régression non paramétrique

Dans les études où les facteurs de confusions sont nombreux et/ou de nature
quantitative, l’estimation non biaisée des relations statistiques d’intérêt repose
sur l’utilisation de modèles de régression, où les facteurs de confusion ﬁgurent
en tant que covariables. Dans ce contexte, les modèles de régression dits « non

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 119 — #155
i i

É PIDÉMIOLOGIE ET STATISTIQUE 119

paramétriques » ont l’intérêt majeur de ne pas imposer d’hypothèse a priori sur

la forme mathématique de la relation entre la variable à expliquer et les cova-
riables. Ces modèles sont mathématiquement complexes. Néanmoins, il existe
aujourd’hui des logiciels qui permettent d’effectuer des régressions non para-
métriques en épargnant à l’utilisateur tout aspect technique. Cette apparente
simplicité peut conduire à des conclusions erronées.

Exemple : mortalité et pollution atmosphérique

Les relations entre pollution atmosphérique et mortalité font l’objet de nom-

breuses recherches. Dans ce contexte, il est devenu habituel d’utiliser une ap-
proche non paramétrique pour décrire les covariables (jour de la semaine, sai-
sonnalité, tendances, facteurs métérologiques) dans le modèle de la variable à
expliquer, et de garder un modèle paramétrique simple pour la relation entre
l’indicateur de pollution et la mortalité. Un article récent (Dominici et al., 2002)
illustre les risques inhérents à l’utilisation « naïve » des logiciels de régression
non paramétrique dans ce contexte. En prenant pour exemple le problème de
l’estimation de la relation entre la mortalité chez les plus de 75 ans et la concen-
tration en particules de l’atmosphère, les auteurs montrent que les procédures
automatiques de logiciels « clés en main » peuvent conduire à des biais impor-
tants, et que les options par défaut des programmes doivent être adaptées en
fonction du problème à traiter.

Ainsi, plus les outils méthodologiques sont puissants et ﬂexibles, plus les ma-
thématiques sous-jacentes sont complexes, plus leur utilisation doit être encadrée
par des épidémiologistes qui en maîtrisent les aspects théoriques.

1.4 Méthodes géostatistiques

La cartographie des maladies transmissibles a pour but immédiat de repré-

senter géographiquement l’incidence, mais également d’analyser la dissémina-
tion spatiotemporelle de la maladie, ouvrant ainsi la possibilité de prédire ou de
contrôler celle-ci.

En géologie, l’analyse de gisements doit s’appuyer sur une vue partielle des
sous-sols, obtenue généralement par carottage. Extrapoler la composition du
sous-sol à partir de quelques sondages a donc été l’objet d’une recherche spé-
ciﬁque qui a débouché sur la méthode du krigeage (Matheron, 1970). À partir
de données pareillement prélevées par « sondage » auprès d’un échantillon de
médecins répartis sur un territoire, il est donc possible d’appliquer le même type

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 120 — #156
i i

120 L’ ÉPIDÉMIOLOGIE HUMAINE

de méthodes en épidémiologie (Carrat et Valleron, 1992). La ﬁgure 4.1-1 per-

met de juger l’intérêt de la méthode dans la représentation graphique de la
grippe en France.

Plusieurs problèmes conceptuels et statistiques se posent :

– comment prendre en compte la dynamique temporelle de l’épidémie ? il

s’agit d’un problème lié à la dynamique des épidémies, et que l’on n’avait
donc pas à traiter en géostatistique ;

– la proximité géographique est-elle pertinente dans la diffusion des épi-

démies ? Ou faut-il plutôt prendre en compte une géographie liée aux
transports ?

L’utilisation de l’approche bayésienne hiérarchique permet aujourd’hui de

répondre à certains de ces aspects, notamment dans la prise en compte de la
dynamique temporelle.

1.5 Méthodes amplitude/fréquence

Dans l’étude des maladies transmissibles, l’existence de fronts de propagation

devrait être observée si la dimension spatiale géographique est prépondérante.
On peut également s’attendre à ce que cette propagation soit plus apparente
pour des maladies impliquant un vecteur (moustiques par exemple). De fait, on
a observé de tels fronts pour la propagation de la dengue en Thaïlande. L’ana-
lyse permettant cette mise en évidence emprunte à la théorie du signal, avec une
décomposition en modes empiriques. Cette méthode permet de décomposer sur
une famille de fonctions empiriques (et non pas une base de fonctions choisie
par avance, comme une base d’ondelettes) la variance des données observées.
Dans le cas de la dengue, on a ainsi pu mettre en évidence l’existence d’un mode
de période 3 ans, qui correspond au balayage du pays par des fronts d’infec-
tion partant de Bangkok. De telles analyses ont également été conduites avec la
rougeole en Grande-Bretagne, en s’appuyant par exemple sur une décomposi-
tion par ondelettes, avec la mise en évidence de sources de cas, correspondant
aux grandes communautés, et de puits, correspondant à des communautés trop
petites pour entretenir la maladie mais susceptibles de constituer des réserves de
personnes à risque. L’application de ces méthodes permet de mettre en évidence
des effets ténus, indétectables dans les données brutes. Il est cependant clair
que, pour beaucoup d’épidémiologistes, ces résultats restent très abstraits, car
correspondant à des méthodes encore peu connues. Une formation / accompa-
gnement dans la mise en place et l’interprétation est donc nécessaire.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 121 — #157
i i

É PIDÉMIOLOGIE ET STATISTIQUE 121

Figure 4.1-1
Représentation de la dynamique de l’épidémiologie de syndromes grippaux en France en 2003-2004 :
cartes hebdomadaires. (Données : Réseau sentinelles, cf. http://www.u707.upmc.fr/sentiweb).

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 122 — #158
i i

122 L’ ÉPIDÉMIOLOGIE HUMAINE

2 Résultats de mathématique contemporaine appliqués

à l’épidémiologie

2.1 Méthodes de Monte-Carlo

Récemment, les approches de type Monte-Carlo ont connu un développe-

ment intense. Leur utilisation en épidémiologie permet l’estimation des para-
mètres dans le cadre de modèles complexes (modèles bayésiens notamment).
D’un point de vue général, les techniques Monte-Carlo permettent de calculer
efficacement des intégrales inaccessibles aux méthodes de calcul numérique dé-
terministes. Pour les mettre en œuvre, il faut pouvoir simuler des lois de probabi-
lité, domaine qui a donné naissance à de très nombreux travaux fondamentaux.
On peut citer dans ce champ l’apparition récente de méthodes de simulation
exacte en temps fini (Propp et Wilson, 1996), fondées sur des méthodes de
couplage utilisées pour l’étude théorique des chaînes de Markov. Ces méthodes
n’étaient à l’origine applicables qu’à des modèles ne comportant qu’un nombre
fini d’états, mais les travaux les plus récents étendent le domaine d’application
à des modèles plus généraux.

2.2 Critères de sélection de modèles

L’épidémiologiste est souvent confronté au problème de sélectionner le

« meilleur » modèle au sein d’une famille de modèles rivaux. Historiquement, la
première solution a consisté à traiter ce problème comme un problème statistique
de test d’hypothèse, mais cette approche était limitée à certaines familles de mo-
dèles (familles de modèles emboîtés) et conduisait à des incohérences logiques.
Le deuxième type de solution est apparu au cours des années 1970, avec l’utili-
sation de critères de sélection construits sur des arguments heuristiques. Ce n’est
qu’au cours des dix dernières années qu’a été élaborée une théorie satisfaisante
des critères de sélection, couvrant le domaine de l’estimation non paramétrique.
Par exemple, le problème du choix optimal de la largeur de bande d’un histo-
gramme (problème d’apparence élémentaire) est l’objet d’un article publié en
2000 (Castellan, 2000). Le critère permettant de déterminer la largeur de bande
d’un histogramme peut être utilisé sans en comprendre l’origine, mais les mathé-
matiques sous-jacentes correspondent aux travaux de recherche les plus récents
de mathématiciens professionnels.

2.3 Tests séquentiels

Lors de la mise en place d’un essai clinique, le calcul du nombre de sujets

nécessaires est l’étape déterminante qui assure que la quantité d’information
recueillie (information statistique, au sens de l’information statistique de Fisher

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 123 — #159
i i

É PIDÉMIOLOGIE ET STATISTIQUE 123

par exemple) permettra de détecter une différence d’intérêt clinique avec une
grande probabilité. L’information de Fisher croît linéairement avec la taille de
l’échantillon, et en pratique celle-ci devient disponible au cours de l’essai avec
l’observation ou la mesure des événements d’intérêt chez les patients, et non pas
lorsque tous les patients ont été observés.

La construction de tests séquentiels a pour objet d’exploiter cette augmenta-

tion graduelle de l’information aﬁn de permettre d’obtenir une conclusion plus
rapidement qu’un essai classique de taille ﬁxe. Les premières approches séquen-
tielles (du type test du rapport de vraisemblance de Wald) souffraient cependant
d’une limitation pratique : en théorie, on était certain de pouvoir prendre une
décision, et en moyenne cette décision serait prise avant un test classique de
mêmes caractéristiques, mais aucune garantie n’était donnée sur la taille maxi-
male nécessaire. Deux innovations ont permis de rendre les essais séquentiels
plus attrayants. Il s’agit d’une part des tests « triangulaires », et d’autre part de
l’étude des propriétés statistiques des tests répétés.

Le test triangulaire renvoie à la représentation graphique de l’information

recueillie au cours d’un essai. La trajectoire de celle-ci est suivie dans le plan
(moyenne, variance) de la statistique de test, et des frontières triangulaires sont
tracées dans ce plan qui assurent un risque de première espèce égal à 5 %.
Contrairement au test séquentiel de Wald, les frontières sont concourantes et
non parallèles, ce qui garantit que l’on conclut en temps ﬁni, avec un effectif
maximal excédant de peu celui du test classique.

La deuxième méthode correspond à une extension plus intuitive de l’approche

classique : plutôt que de faire un test unique, on réalisera plusieurs tests, en
nombre ﬁxé a priori, en s’arrangeant pour que le risque global soit de 5 %. Des
approches pragmatiques peuvent être employées : faire les premiers tests avec
un risque très faible (par exemple 1 ‰) pour n’arrêter l’essai précocement que
si une différence massive existe, et pratiquer le dernier avec un risque presque
semblable à celui que l’on aurait eu en taille ﬁxée (approche de Peto). Des ap-
proches optimales sont également possibles, dans lesquelles on essaie de limiter
au maximum la taille de l’échantillon nécessaire.

Bien que simples d’énoncé, ces deux approches donnent lieu à des problèmes
mathématiques très techniques. Par exemple, l’étude des trajectoires d’une sta-
tistique de test dans le plan moyenne/variance peut être ramenée en première
approximation à l’étude des fonctionnelles du mouvement brownien, comme dé-
crit par Siegmund (1985). Avec cette formulation, l’étude de certaines proprié-
tés devient possible. On peut déterminer les propriétés d’un test où l’on examine
les événements à des temps ﬁxés d’avance (avec un nombre aléatoire de me-
sures entre deux temps), ou lorsque l’on réalise un test à une cadence ﬁxée par
un nombre d’événements donné. En particulier, ces derniers développements

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 124 — #160
i i

124 L’ ÉPIDÉMIOLOGIE HUMAINE

donnent lieu à des calculs mathématiques de corrections liées au dépassement

des frontières avant que le test soit effectué. Il en résulte des tests dits « en arbre
de Noël » où les frontières sont corrigées pour prendre en compte l’augmenta-
tion discrète de l’information.

Enﬁn, l’estimation de quantités d’intérêt suite à la pratique de ces tests de-

mande des précautions particulières, étant donné que la quantité d’information
recueillie est conditionnelle à la différence observée.

En pratique, ces tests demeurent peu utilisés. On peut donner deux éléments
d’explication : le premier est que l’économie potentielle en taille d’échantillon
peut s’avérer insufﬁsante au regard de l’addition en complexité tant logistique
que technique. Le second est que ce type d’approche demande une compétence
statistique qui ne s’acquiert généralement pas avant le 3e cycle et demandent
un travail technique conséquent de la part du statisticien.

2.4 Relations causales — Facteurs de confusion —

Choix des covariables

L’existence de facteurs de confusion constitue l’un des obstacles essentiels à

l’élucidation de relations causales à partir de données non expérimentales. Dans
la mesure où le phénomène de confusion est un concept de nature causale,
les tentatives d’élucidation et de déﬁnition dont il a été l’objet dans un cadre
strictement statistique sont restées infructueuses et ont abouti à une littérature
abondante mais obscure.

Le paradoxe de Simpson est une illustration spectaculaire du problème des

facteurs de confusion dans les études non expérimentales. Il correspond à la
situation où un événement C augmente la probabilité de E dans une popula-
tion p, tout en diminuant la probabilité de E dans toute sous-population de p.
Par exemple, on observe que la proportion des patients qui guérissent est plus
élevée dans le groupe traité que dans le groupe témoin. Cependant, si l’on
considère l’effet du traitement séparément chez les hommes et chez les femmes,
on observe que la proportion de patients qui guérissent est plus faible dans les
groupes traités que dans les groupes témoins. Cette constatation est évidemment
paradoxale et contraire au bon sens, si l’on interprète la relation statistique trai-
tement/guérison comme causale (plus généralement, toute relation statistique
entre deux variables peut être inversée par ajustement sur d’autres variables).

La solution de ce paradoxe a été donnée par Pearl (2000) dans le cadre de

la théorie mathématique de la causalité. Pearl a montré que les concepts de fac-
teurs de confusion et d’ajustement étaient de nature causale, et ne pouvait donc

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 125 — #161
i i

É PIDÉMIOLOGIE ET STATISTIQUE 125

être déﬁnis et manipulés rigoureusement qu’à l’aide de modèles de causalité. Il a

notamment établi des critères mathématiques qui permettent de décider quelles
sont les variables sur lesquelles on doit effectuer un ajustement (« back-door »
criterion).

3 Les apports spéciﬁques de l’épidémiologie

3.1 Apports méthodologiques à d’autres disciplines

appliquées

Dans un certain nombre de cas, les épidémiologistes ont été à l’origine du

développement de méthodes spéciﬁques, qui ont par la suite trouvé d’autres
domaines d’application.

3.1.1 Modèle logit

Historiquement développé pour décrire des relations dose/réponse en épi-

démiologie, le modèle logit est aujourd’hui très utilisé en économétrie, où il
concurrence largement les modèles probit traditionnellement utilisés.

3.1.2 Analyse des données de survie

L’exemple le plus spectaculaire de la diffusion d’une approche épidémiolo-

gique est peut-être celui de l’analyse des données de survie. En pratique, il
s’agit d’observer le temps jusqu’à la survenue d’un événement d’intérêt (décès,
rechute, guérison, . . .). Dans de telles études les données recueillies sont carac-
térisées par le fait qu’elles sont incomplètes, au moins pour des raisons pratiques
liées à la durée limitée de l’étude. En effet, il est clair que l’on ne peut connaître
la durée de survie que pour les personnes qui seront décédées. Si l’on choisit
d’arrêter l’étude avant d’avoir observé le décès de toutes les personnes suivies,
certaines personnes seront encore en vie, et on saura seulement que leur délai
de survie est au moins supérieur à leur durée de suivi dans l’étude. Cette carac-
téristique est appelée censure (ici « à droite »), et exige des méthodes statistiques
spéciﬁques.

C’est le statisticien anglais David Cox qui a proposé en 1972 le modèle,

connu aujourd’hui comme le « modèle de Cox », aﬁn d’analyser les données
de survie tout en tenant compte de caractéristiques individuelles qui pouvaient
inﬂuencer la durée de survie. Le modèle de Cox repose sur une modélisation

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 126 — #162
i i

126 L’ ÉPIDÉMIOLOGIE HUMAINE

semi-paramétrique de la fonction de risque instantané associée à une technique

d’estimation par vraisemblance partielle. Le succès du modèle de Cox dans
le domaine de l’épidémiologie s’est plus récemment étendu à des domaines
comme la ﬁabilité ou les mathématiques ﬁnancières. Dans cet exemple, ce sont
donc en quelque sorte les épidémiologistes qui ont joué le rôle de précurseurs,
en donnant naissance à une technique qui est à présent adoptée par d’autres
champs disciplinaires.

3.2 Modèles de régression à effets aléatoires

Ces modèles ont été imaginés par les épidémiologistes pour analyser les don-
nées issues d’enquêtes longitudinales, ou les ensembles de données structurées
de manière hiérarchique. Dans ce type d’étude, un même sujet est observé à
plusieurs reprises au cours d’une certaine période. Ou bien, on recueille des
données sur des individus qui appartiennent à des sous-groupes homogènes
(par exemple : fréquentant la même école, ou habitant la même ville. . .). De
ce fait, les données issues d’un même sujet, ou d’un sous-groupe homogène
reflètent l’influence de facteurs communs (facteurs individuels, géographiques,
environnementaux, sociaux). Comme il n’est généralement pas possible de faire
l’inventaire exhaustif, et encore moins de mesurer ces facteurs de similarité, l’ap-
proche statistique consiste à prévoir dans le modèle d’analyse l’existence d’une
dépendance stochastique entre les observations d’un même individu ou d’un
même sous-groupe. Si cette précaution n’est pas prise, les conclusions des tests
statistiques sont incorrectes (car l’estimation de la variance est inexacte). Les
modèles à effets aléatoires permettent précisément d’introduire et de modéliser
une dépendance stochastique : ils consistent à considérer que la valeur obser-
vée chez un sujet donné est la somme d’un effet fixe, commun à tous les sujets,
et d’un effet aléatoire reflétant les caractéristiques inobservées du sujet ou du
sous-groupe auquel il appartient.

3.3 Travaux de recherche mathématique suscités

par l’épidémiologie
Il arrive que des épidémiologistes imaginent une solution heuristique pour ré-
pondre à leurs besoins spéciﬁques, et que l’étude théorique de la solution (et
donc de ses conditions de validité) devienne un thème de recherche mathéma-
tique au cours des années suivantes.

3.3.1 Méthodes de vraisemblance

Les méthodes de vraisemblance ont été introduites par Fisher dans les années
1920 à 1925 sur des arguments heuristiques. L’étude théorique des propriétés

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 127 — #163
i i

É PIDÉMIOLOGIE ET STATISTIQUE 127

des estimateurs du maximum de vraisemblance a constitué de 1930 à nos jours

un domaine de recherche pour de nombreux mathématiciens parmi lesquels on
peut citer Hotelling, Doob, Cramer, Wald, Neyman et LeCam.

La méthode de vraisemblance partielle imaginée par Cox (1971, 1975) a

été formalisée et validée sur le plan théorique au cours des 15 années suivantes
(Andersen et Gill, 1982 ; Wong, 1986).

3.3.2 Le bootstrap

La méthode du bootstrap a été décrite en 1979 par Efron (qui se déﬁnit lui-
même comme un biostatisticien). L’étude des propriétés théoriques de cette mé-
thode s’est faite au cours des années suivantes (1980-1990), engendrant ainsi
de nombreux travaux par des mathématiciens comme Bickel, Freedman, Beran
et Hall. Giné et Zinn (1990) ont étendu la validité du bootstrap aux processus
empiriques, dans des espaces fonctionnels très généraux.

3.3.3 Formalisation de l’inférence causale

Comme l’a dit Pearl lui-même, les problèmes et paradoxes de l’épidémiologie

(de l’économétrie et des sciences sociales) ont été à l’origine de sa recherche
sur la théorie mathématique de la causalité (Pearl, 2000). Réciproquement, les
résultats de Pearl apportent aujourd’hui la solution à la question de l’inférence
causale à partir de données non expérimentales.

Conclusion

Comme les autres sciences appliquées, les méthodes de l’épidémiologie com-

portent des méthodes spéciﬁques — qui concernent à la fois des protocoles de
recueil de données et les méthodes d’analyse de ces données — et des mé-
thodes générales de formalisation mathématique. Les interactions entre épidé-
miologistes et mathématiciens constituent une condition essentielle du dévelop-
pement de la recherche en épidémiologie.

Recommandations
– « Contacts » mathématiciens/épidémiologistes : au sein de quelles
structures ?
– Encadrement des utilisateurs de logiciels.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 128 — #164
i i

128 L’ ÉPIDÉMIOLOGIE HUMAINE

Bibliographie
Andersen PK., Gill RD. (1982). Cox’s regression model for counting processes :
a large sample study. Ann Statist, 10 : 1100-1120.
Carrat F., Valleron AJ. (1992). Epidemiologic mapping using the « kriging »
method : application to an inﬂuenza-like illness epidemic in France. Am J
Epidemiol, 135 : 1293-1300.
Castellan G. (2000). Sélection d’histogrammes à l’aide d’un critère de type
Akaike. C. R. Acad. Sci. Paris Sér. I Math, 330 : 729-732.
Cox DR. (1972). Regression models and life tables (with discussion). J Roy Statist
Soc B, 34 : 187-220.
Cox DR. (1975). Partial likelihood. Biometrika, 62 : 269-276.
Dominici F. et al. (2002). On the use of generalized additive models in time-
series studies of air pollution and health. Am J Epidemiol, 156 : 193-203.

Efron B. (1979). Bootstrap methods : another look at the jackknife. Ann Statist,
7 : 1-26.
Giné E., Zinn J. (1990). Bootstrapping general empirical measures. Ann Prob,
18 : 851-869.
Matheron G. (1970). La théorie des variables régionalisées et ses applications.
Les Cahiers du Centre de Morphologie Mathématique de Fontainebleau.
Pearl J. (2000). Causality. Models, Reasoning, and Inference. Cambridge Uni-
versity Press, Cambridge, UK.
Propp JG., Wilson DB. (1996). Exact sampling with coupled Markov chains and
applications to statistical mechanics. Rand Struc Alg, 9 : 223-252.
Siegmund D. (1985). Sequential analysis. Tests and conﬁdence intervals. Sprin-
ger, New-York.
Wong Hu. (1986). Theory of partial likelihood. Ann Statist, 14 : 88-123.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 129 — #165
i i

SOUS-CHAPITRE 4.2

Épidémiologie et data mining

ou fouille de données
GILBERT SAPORTA

1 Déﬁnitions et historique

Le data mining que l’on peut traduire par « fouille de données » apparaît au
milieu des années 1990 aux États-Unis comme une nouvelle discipline à l’inter-
face de la statistique et des technologies de l’information : bases de données,
intelligence artiﬁcielle, apprentissage automatique (machine learning).

David Hand (1998) en donne la déﬁnition suivante : « Data Mining consists

in the discovery of interesting, unexpected, or valuable structures in large data
sets ». Voir également Fayyad et al. (1996) et Friedman (1997).

La métaphore qui consiste à considérer les grandes bases de données comme

des gisements d’où l’on peut extraire des pépites à l’aide d’outils spéciﬁques
n’est certes pas nouvelle. Dès les années 1970 Jean-Paul Benzécri n’assignait-il
pas le même objectif à l’analyse des données ? : « L’analyse des données est un
outil pour dégager de la gangue des données le pur diamant de la véridique
nature ».

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 130 — #166
i i

130 L’ ÉPIDÉMIOLOGIE HUMAINE

On a pu donc considérer que bien des praticiens faisaient du data mining

sans le savoir.

On confondra ici le data mining, au sens étroit qui désigne la phase d’ex-
traction des connaissances, avec la découverte de connaissances dans les
bases de données (KDD ou Knowledge Discovery in Databases) (cf. Hébrail
et Lechevallier, 2003).

Comme l’écrivent ces derniers auteurs :

« La naissance du data mining est essentiellement due à la conjonction des

deux facteurs suivants :

– l’accroissement exponentiel dans les entreprises, de données liées à leur

activité (données sur la clientèle, les stocks, la fabrication, la comp-
tabilité. . .) qu’il serait dommage de jeter car elles contiennent des
informations-clés sur leur fonctionnement (. . .) stratégiques pour la prise
de décision ;

– les progrès très rapides des matériels et des logiciels (. . .).

L’objectif poursuivi par le data mining est donc celui de la valorisation des
données contenues dans les systèmes d’information des entreprises. »

Les premières applications se sont faites dans le domaine de la gestion de la

relation client qui consiste à analyser le comportement de la clientèle pour mieux
la ﬁdéliser et lui proposer des produits adaptés. Ce qui caractérise la fouille de
données (et choque souvent certains statisticiens) est qu’il s’agit d’une analyse
dite « secondaire » de données recueillies à d’autres ﬁns (souvent de gestion)
sans qu’un protocole expérimental ou une méthode de sondage ait été mis en
œuvre.

Quand elle est bien menée, la fouille de données a apporté des succès cer-
tains, à tel point que l’engouement qu’elle suscite a pu entraîner la transfor-
mation (au moins nominale) de services statistiques de grandes entreprises en
services de data mining.

La recherche d’information dans les grandes bases de données médicales

ou de santé (enquêtes, données hospitalières, etc.) par des techniques de data
mining est encore relativement peu développée, mais devrait se développer très
vite à partir du moment où les outils existent. Quels sont les outils du data mining
et que peut-on trouver et prouver ?

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 131 — #167
i i

É PIDÉMIOLOGIE ET DATA MINING OU FOUILLE DE DONNÉES 131

2 Les outils

On y retrouve des méthodes statistiques bien établies, mais aussi des déve-
loppements récents issus directement de l’informatique. Sans prétendre à l’ex-
haustivité, on distinguera les méthodes exploratoires, où il s’agit de découvrir
des structures ou des comportement inattendus, de la recherche de modèles pré-
dictifs où une « réponse » est à prédire, mais on verra plus loin que l’acception
du terme « modèle » diffère fondamentalement de son sens habituel.

2.1 Exploration « non supervisée »

2.1.1 Analyse des données : visualisation, classiﬁcation

Les techniques de projection orthogonale sur des sous-espaces : analyse en

composantes principales, analyse des correspondances, permettent de réduire
efﬁcacement la dimension, du point de vue du nombre de variables. Les mé-
thodes de classiﬁcation visent à former des groupes homogènes d’unités en
maximisant des critères liés à la dispersion (k-means). Des extensions non li-
néaires (splines, noyaux, etc.) étendent le champ de ces méthodes classiques.

2.1.2 Recherche de règles d’association

Cette méthode est une des innovations du data mining : introduite en 1993
par des chercheurs en base de données d’IBM, elle a pour but de rechercher
des conjonctions significatives d’événements. Typiquement une règle de décision
s’exprime sous la forme : si (A et B) alors C mais il s’agit d’une règle probabi-
liste et non déterministe. On définit le support de la règle comme la probabilité
d’observer à la fois la prémisse X et la conclusion Y : P(X ∩ Y ) et la confiance
comme P(Y /X ). Parmi les règles ayant un support et une confiance minimale,
on s’intéressera à celles où P(Y /X ) est très supérieur à P(Y ). Les premières ap-
plications ont concerné les achats dans les grandes surfaces : parmi les milliers
de références disponibles et les millions de croisements, identifier les achats
concomitants qui correspondent à des fréquences importantes. Cette méthode
s’étend bien au-delà de ce type d’application. L’originalité tient essentiellement
à la complexité algorithmique du problème.

2.2 Prédiction ou apprentissage « supervisé »

Inutile d’évoquer ici les techniques de régression bien connues. La méthode la

plus typique du data mining est certainement celle des arbres de décision : pour
prédire une réponse Y , qu’elle soit numérique ou qualitative, on cherche tout

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 132 — #168
i i

132 L’ ÉPIDÉMIOLOGIE HUMAINE

d’abord la meilleure partition de l’ensemble des données (en général en deux

sous-ensembles) issue d’une partition effectuée sur les prédicteurs et on itère
dans chacun des sous-ensembles : la croissance exponentielle de l’arbre est
contrôlée par des critères d’arrêt de type coût-complexité ainsi que par l’usage
de données de validation qui permettent d’éliminer les branches non pertinentes.

Cette technique conduit à des règles de décision très lisibles, d’où son succès,
et hiérarchise les facteurs explicatifs. À l’opposé en termes de lisibilité, les logi-
ciels de data mining proposent souvent des méthodes hautement non linéaires
comme les réseaux de neurones, les machines à vecteurs de support (SVM).
Même si les règles de décision ont une forme mathématique explicite, celle-ci est
en général très complexe et ces méthodes sont utilisées comme des boîtes noires.

Une autre approche consiste à complexifier des méthodes simples : les arbres
de décision étant souvent instables, on va en utiliser plusieurs obtenus sur des
données rééchantillonnées par bootstrap : la décision finale s’obtient par une
procédure de vote s’il s’agit d’un problème de classification, ou de moyenne
pour un problème de régression : c’est le bagging. Citons également le boosting,
qui consiste à améliorer des procédures de décision en surpondérant les unités
mal classées, et en itérant le processus.

3 Quelques applications en épidémiologie et santé publique

L’utilisation des méthodes de data mining en épidémiologie et santé publique

est en forte croissance. Comme dans d’autres domaines, c’est la disponibilité
de vastes bases de données historiques (on parle maintenant d’entrepôts de
données) qui incite à les valoriser, alors qu’au dire de beaucoup de spécialistes
elles sont actuellement sous-utilisées.

Pour n’en citer que deux, la revue Artiﬁcial Intelligence in Medicine et le

Journal of the American Medical Informatics Association y consacrent de plus
en plus d’articles.

La plupart des publications portent sur les arbres de décision et les règles
d’association (Lavrac, 1999). Parmi les domaines traités, mentionnons la re-
cherche de facteurs de risque pour les accidents domestiques, le diabète
(Figure 4.2-1), les suicides, les infections nosocomiales (Brossette et al., 1998),
la détection de la fraude (Medicare, Australie). Ces publications mentionnent
souvent la découverte de règles inattendues et efﬁcaces.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 133 — #169
i i

É PIDÉMIOLOGIE ET DATA MINING OU FOUILLE DE DONNÉES 133

Figure 4.2-1
Prévision de la complication de Saint-Vincent (Projet Data Diab, A. Duhamel, Lille 2).

La recherche en génomique et la protéomique font également de plus en plus

appel à des techniques de data mining.

4 Data mining versus modélisation statistique

4.1 Le rôle des modèles

La notion de modèle en fouille de données prend un sens particulier : un mo-

dèle est une relation entre des variables, exprimable sous une forme analytique
ou algorithmique qui ne provient pas d’une théorie mais réalise un bon ajuste-
ment aux données. Ainsi, il est courant d’explorer différents modèles (linéaires,
non linéaires) en faisant varier les paramètres (nombre de couches dans un
réseau de neurones, noyau pour des SVM, etc.) jusqu’à obtenir les meilleures
prédictions. On est très loin de la démarche usuelle de modélisation, mais plu-
tôt dans une optique pragmatique où il ne s’agit pas forcément de comprendre
mais simplement de prévoir. Rappelons quand même qu’un modèle, au sens
classique, n’est qu’une simpliﬁcation de la réalité et comme le disait George
Box : « Tous les modèles sont faux, certains sont utiles ».

Cette démarche n’est pas pour autant du pur empirisme et se fonde sur une
théorie solide, celle de l’apprentissage statistique : un modèle réalise un compro-
mis entre sa capacité à rendre compte des données d’apprentissage et sa capa-
cité de généralisation à de nouvelles données. Plutôt que des indices statistiques

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 134 — #170
i i

134 L’ ÉPIDÉMIOLOGIE HUMAINE

de type vraisemblance pénalisée (critères d’Akaïké ou de Schwarz) reposant sur

des hypothèses distributionnelles, le choix d’un modèle en data mining se fait en
fonction de ses performances sur d’autres données que celles qui ont servi à le
choisir et le caler, d’où l’emploi de méthodes de validation croisée (les données
sont divisées en plusieurs parties, chacune étant prédite à l’aide du reste des
données) ou de mesures de capacité de type dimension de Vapnik-Cervonenkis.

4.2 Problèmes spéciﬁques d’inférence et de validation

dans les grandes bases de données

L’inférence statistique classique a été développée pour traiter des « petits »

échantillons. En présence de très grandes bases de données, le paradoxe est que
tout devient signiﬁcatif : par exemple, pour un million d’individus, l’hypothèse
d’indépendance entre deux variables sera rejetée au risque 5 % si le coefﬁcient
de corrélation linéaire est supérieur en valeur absolue à 0,002, ce qui est sans
intérêt pratique. L’inférence classique ne fonctionne plus et la fouille des grandes
bases de données amène à repenser la notion de test et conduit ainsi à des
recherches nouvelles.

L’échantillonnage ne perd cependant pas ses droits car il est souvent préfé-
rable de travailler sur une partie de la base que sur la totalité. L’exhaustivité des
traitements n’est souvent qu’un argument commercial des éditeurs de logiciels.
Un problème demeure cependant, celui de la représentativité de la base : même
très grande, on ne peut garantir que les futures observations se comporteront
comme les passées, d’autant plus que la base n’a pas été constituée à des ﬁns
de traitement statistique. Des recherches originales portent sur ce point.

L’alimentation continuelle des bases de données de façon quasi automatique

pose également des problèmes nouveaux connus sous le nom de ﬂots de don-
nées (data streams) qu’il faut traiter « à la volée » sans devoir reprendre à
chaque fois l’ensemble des données disponibles (Domingos et Hulten, 2000).

Quand, en fouille de données, on a exhibé une structure ou une association

intéressante et inattendue, on n’est pas certain de sa validité. En effet, avec une
exploration combinatoire, il est inévitable de trouver toujours quelque chose !
Ce problème est proche de celui bien connu des comparaisons multiples, mais
à une toute autre échelle. On trouve ce genre de situations dans la recherche
de règles d’associations ou dans l’analyse des puces à ADN où on réalise des
milliers de tests simultanément. La théorie pertinente est celle du contrôle du
taux de fausses découvertes de Benjamini et Hochberg (1995) qui fait l’objet de
recherches en plein essor, voir l’article de Ge et al. (2003).

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 135 — #171
i i

É PIDÉMIOLOGIE ET DATA MINING OU FOUILLE DE DONNÉES 135

La « découverte » de règles intéressantes par la fouille de données doit donc

être considérée comme une phase exploratoire, nécessitant une validation ulté-
rieure, mais avec des outils différents. Même en cas de validation, le problème
de la causalité reste posé.

4.3 Penser la complexité

Il est illusoire de croire que des modèles simples peuvent toujours convenir à
des situations complexes. Les modèles de régression (linéaire ou logistique) ont
l’avantage de l’interprétabilité, mais cela ne sufﬁt plus en présence de phéno-
mènes fortement non linéaires. Il faut alors souvent plonger les données dans
des espaces de grande dimension en utilisant des opérateurs de régularisation.

Le traitement d’images médicales ou de puces à ADN en est une illustration

frappante : il pose un déﬁ dû à la fois à la complexité des données et au rap-
port inhabituel entre le nombre de variables et le nombre d’observations. Le
nombre de variables est souvent considérablement plus grand que celui des ob-
servations : une image d’un megapixel en couleur correspond à trois millions
de variables. . . La théorie de l’apprentissage déjà évoquée (Hastie et al., 2001)
fournit le cadre théorique adapté tout en faisant le lien avec des aspects bien
connus des statisticiens : estimation fonctionnelle (splines de lissage, estimateurs
à noyaux) et régression non paramétrique.

Conclusion

La disponibilité accrue de bases de données médicales de plus en plus vastes

(carte Vitale, données hospitalières, grandes enquêtes, etc.) sera un domaine
de prédilection pour les méthodes de fouille de données, et des découvertes
pourront certainement en être tirées. Ces découvertes doivent être validées par
des techniques différentes des tests de la statistique classique.

Une nouvelle forme d’inférence pour les grands ensembles de données est en
train d’émerger et le data mining est aussi une source de recherches théoriques
et pas seulement un ensemble de techniques empiriques. Le data mining n’est
certainement pas une mode éphémère, mais une démarche et des outils appro-
priés à l’analyse des très grandes bases de données. Il serait dommageable de
laisser ce champ aux seuls informaticiens, car, de par leur formation à l’aléa-
toire et à la compréhension de la variabilité, statisticiens et épidémiologistes sont
les plus à même d’en tirer proﬁt et d’en déjouer les pièges.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 136 — #172
i i

136 L’ ÉPIDÉMIOLOGIE HUMAINE

Recommandations
– Associer dans les formations universitaires épidémiologie et bio-
informatique.
– Enseigner aux épidémiologistes les techniques et les outils de la fouille de
données, ainsi que les bases de données.
– Organiser des groupes de travail interdisciplinaires à l’instar du « Dimacs-
Working Group on Data Mining and Epidemiology » de Rutgers.

Bibliographie
Benjamini Y., Hochberg Y. (1995). Controlling the false discovery rate : a prac-
tical and powerful approach to multiple testing. JRSSB, 57 : 289-300.
Brossette SE. et al. (1998). Association rules and data mining in hospital infec-
tion control and public health surveillance. J Am Med Inform Assoc, 5 (4) :
373-81.
Domingos P., Hulten G. (2000). Mining high-speed data streams. ACM
SIGKDD, Fayyad U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R. (eds.)
(1996). Advances in Knowledge Discovery and Data Mining. Menlo Park,
California, AAAI Press.
Friedman JH. (1997). Data mining and statistics : what’s the connection ?
http://www-stat.stanford.edu/∼jhf/ftp/dm-stat.ps
Ge Y., Dudoit S., Speed TP. (2003). Resampling-based multiple testing for DNA
microarray data analysis. Test, 12 : 1-77.
Hand DJ. (1998). Data mining : statistics and more ? The American Statistician,
52 : 112-118.
Hastie T., Tibshirani R., Friedman J. (2001). The Elements of Statistical Learning,
Springer.
Hébrail G., Lechevallier Y. (2003). Data Mining et Analyse des données. In :
Analyse des données, G. Govaert (ed.). Hermes, 323-355.
Lavrac N. (1999) Selected techniques for data mining in medicine. Artiﬁcial
Intelligence in Medicine, 16 : 3-33.
Saporta G. (2000). Data Mining and Ofﬁcial Statistics, Quinta Conferenza Na-
tionale di Statistica, ISTAT, Rome.
Journal de la SFdS 142, 1, (2001) : numéro spécial sur le data mining.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 137 — #173
i i

SOUS-CHAPITRE 4.3

Épidémiologie et informatique
PIERRE-YVES BOËLLE

Plusieurs pays ont annoncé, voire débuté, le développement d’un dossier mé-
dical informatisé individuel « universel », parmi lesquels : le Royaume-Uni, dans
le cadre du « National IT program for the NHS » (doté de 5 milliards de livres)
qui vise 50 millions de dossiers accessibles par 30 000 professionnels ; les États-
Unis avec le « National Health Information Infrastructure » ; la France avec le
dossier médical informatisé annoncé en 2004.

Ces projets créent pour la santé publique, et particulièrement l’épidémiologie,

l’opportunité de réaliser des études, en population ou à l’hôpital, dans lesquelles
des problèmes pratiques couramment rencontrés dans les enquêtes pourraient
être réduits en grande partie : description rétrospective de l’histoire d’un sujet,
parfois sur plusieurs dizaines d’années ; mise en place une surveillance épidé-
miologique à « très large spectre » ; coûts engendrés par le recueil, la vériﬁcation
et la validation des données ; diffusion des résultats auprès de la population.

Les sciences de l’information sont au centre de cette nouvelle évolution de

l’épidémiologie. Nous décrivons dans la suite certaines interactions qui se
mettent en place aujourd’hui entre les deux disciplines, ainsi que des pistes de
développement suscitées par l’évolution des questions et des données épidémio-
logiques.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 138 — #174
i i

138 L’ ÉPIDÉMIOLOGIE HUMAINE

1 Recueil et exploitation des données

Actuellement, un recueil de données spéciﬁque est généralement mis en place

pour les besoins d’une enquête épidémiologique. Par exemple, pour connaître
la prise en charge des patients infectés par le VIH en France, le dossier médico-
épidémiologique de l’immunodéﬁcience humaine, a été développé dès la ﬁn
des années 1980, avec une participation forte de l’Inserm et de la Direction des
hôpitaux. Ce dossier informatisé, élaboré dans un cadre de recherche, a permis
de suivre environ 100 000 patients infectés au cours du temps et sert de base à
la connaissance de l’épidémiologie du sida en France.

Depuis les années 1990, des progiciels organisés autour de systèmes de ges-
tion de bases de données sont couramment utilisés, et des études sont réali-
sées aujourd’hui directement sur Internet sans support papier (McAlindon et al.,
2003). Les grands éditeurs de logiciels de systèmes de gestion de base de don-
née et d’analyse statistique commercialisent de tels produits, et des solutions ont
également été développées localement dans la recherche publique. Quelques
petites entreprises (start-up) sont présentes, en proposant des solutions logicielles
adaptées à des pathologies ou organisations de travail spécifiques. La forma-
lisation du recueil des données, par exemple en définition d’une étude, d’un
patient, d’une visite, l’intégration de contraintes de cohérence dans le recueil, le
retour d’information vers les investigateurs ont donné lieu à une recherche qui a
pu être intégrée dans ces progiciels. Cependant, ceux-ci restent avant tout des
« cahiers d’observation électroniques », dédiés à une étude spécifique, plutôt
que des véritables dossiers informatisés.

Parallèlement, il existe également des recueils de données en routine qui ont

un intérêt épidémiologique : par exemple les décès (Centre d’épidémiologie
sur les causes médicales de décès, Inserm – CepiDc, sous-chapitre 3.1), les
séjours hospitaliers (Programme de médicalisation du système d’information,
PMSI – voir sous-chapitre 3.2), les prescriptions/remboursements (organismes
d’Assurance maladie), les données de pharmacovigilance. . .

L’exploitation de ces données, déjà informatisées, a pu servir de base à plu-

sieurs études épidémiologiques : notamment dans l’étude de la mortalité spé-
cifique du cancer et d’autres maladies ayant une morbidité et mortalité consé-
quentes. Des problèmes pratiques subsistent dans l’exploitation de ces données
non recueillies spécifiquement : le temps nécessaire à l’obtention de données
consolidées, incompatible avec une réactivité rapide (quelques années pour les
décès, un semestre pour l’hôpital), la qualité des données recueillies et de leur
codage, souvent auprès de professionnels mal informés des conséquences d’un
codage erroné, et la confidentialité.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 139 — #175
i i

É PIDÉMIOLOGIE ET INFORMATIQUE 139

Le recueil de données de routine permet toutefois la mise en place d’études

épidémiologiques rapides. Ainsi, en Angleterre, le « GPRD — General Practi-
tioner Research Database » (Walley et Mantgani, 1997), qui recueille les évé-
nements de santé de 5 % de la population anglaise en médecine générale, a
donné lieu à des études dans de nombreuses pathologies (plus de 270 à ce
jour). Aux États-Unis, certaines HMO (« Health Management Organizations »,
organisations rassemblant organismes de remboursement et de délivrance des
soins) se sont dotées de systèmes de gestion de dossiers médicaux électroniques
qui, en exploitant l’évolution longitudinale du patient, permettent de déterminer
si les patients sont traités conformément à la meilleure connaissance médicale du
moment, et dans certains cas d’appliquer certaines recommandations de santé,
au moyen de « pense-bêtes » édités lors des consultations (Garg et al., 2005)

Bien que la France ait été pionnière dans le domaine de la surveillance épi-
démiologique appuyée sur les technologies de l’information, notamment avec le
Réseau national téléinformatique de surveillance et d’information sur les mala-
dies transmissibles (Valleron et al., 1986) (RNTMT, l’ancêtre du réseau « Senti-
nelles »), cet avantage ne s’est pas maintenu. Il n’y a pas aujourd’hui de système
de collection de données de santé utile pour la surveillance épidémiologique
doté d’une couverture comparable à celle trouvée dans les pays anglo-saxons
(voir par exemple les études Nhanes décrites dans le sous-chapitre 9.3).

L’extension des recueils systématiques à l’ensemble des événements de santé,

visée par les dossiers médicaux universels, est évidemment prometteuse. Ces dé-
veloppements posent des problèmes pratiques, par exemple dans le stockage de
l’information, sa préservation, ainsi que celui de la puissance de calcul néces-
saire à son traitement. Dans les deux projets de dossier électronique de santé
anglo-saxons, pour lesquels un cahier des charges détaillé existe déjà, il faut
noter que la possibilité d’une recherche épidémiologique de bonne qualité n’est
pas mise en avant.

Il est aujourd’hui essentiel pour les épidémiologistes de s’associer plus active-

ment aux spécialistes des sciences de l’information qui détermineront les plans
de collection de données de santé, et de favoriser l’accès à ces bases de données
ainsi qu’à des moyens de traitement informatique performants.

2 Conﬁdentialité : la (non-)identiﬁcation des individus

Le croisement d’informations recueillies pour un même individu dans des

bases de données informatisées issues de divers domaines (par exemple : décès,

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 140 — #176
i i

140 L’ ÉPIDÉMIOLOGIE HUMAINE

registres, hôpitaux, prescriptions, génomique, emploi, environnement, adminis-

tration, météorologie, assurances, etc.) permettrait la mise en place d’enquêtes
épidémiologiques aujourd’hui inédites ou impossibles à réaliser. Aﬁn d’augmen-
ter la puissance des études, et de détecter de faibles différences de risques, il est
impératif que ces recoupements se fassent sur une base individuelle, c’est-à-dire
que l’on puisse relier les observations pour un même individu dans des bases
de données différentes.

Un problème informatique central est alors que les règles de conﬁdentia-

lité, souvent différentes pour chaque source, et généralement restrictives lorsqu’il
s’agit de données liées à la santé, pourraient être mises à mal lors de ces re-
coupements. Il est établi par exemple que la connaissance de 80 SNP (single
nucleotide polymorphism, l’unité de base de la variabilité génétique) sufﬁrait à
identiﬁer de manière totalement unique tout individu dans le monde (Lin et al.,
2004) !

D’autre part, les pays se sont dotés de lois régissant l’exploitation des don-
nées de santé, qui reposent principalement sur la notion de consentement donné
pour une recherche particulière. Quelles devront être les aménagements pour
permettre l’exploitation des données issues des dossiers médicaux universels ?
La gestion globale de la conﬁdentialité dans les bases de données informatisées
utilisées ou potentiellement utilisables en épidémiologie peut ainsi être l’origine
d’une recherche originale en informatique.

3 Thésaurus, nomenclature, classiﬁcation : des outils

indispensables en perpétuelle évolution

L’utilisation de bases de données informatisées pour la recherche épidémiolo-

gique est subordonnée à l’existence d’une structuration et d’une indexation des
informations collectées. Grâce à la recherche en informatique médicale, des so-
lutions satisfaisantes ont déjà émergé. Par exemple, l’ensemble des publications
biomédicales sont indexées grâce au vocabulaire contrôlé « MeSH : Medical
Subject Headings » (Lowe et Barnett, 1994) (l’analogue du Pacs des physiciens).

Les systèmes de classiﬁcation des maladies (par exemple la Classiﬁcation

internationale des maladies, Cim10), de nomenclature médicale (par exemple
Systematic Nomenclature of Medicine, Snomed) (Cote et Robboy, 1980), sont
aujourd’hui disponibles, et la recherche en informatique médicale a permis
de rendre opérationnels ces systèmes à l’aide par exemple de gestionnaires
d’ontologies. Leur intégration dans des applications informatiques médicales

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 141 — #177
i i

É PIDÉMIOLOGIE ET INFORMATIQUE 141

est possible et a largement dépassé le stade de la recherche (dossier pa-

tient électronique, système d’aide à la prescription, etc.). Le transcodage entre
termes de différentes classifications est possible (Unified Medical Language Sys-
tem, UMLS), bien que non exempt de problèmes. Par ailleurs, des protocoles
d’échange assurant l’interopérabilité entre logiciels ont été définis (par exemple
HL7 : Health Level 7) et un regain d’intérêt existe pour le développement de ces
fonctionnalités en utilisant par exemple XML. Ces composantes font d’ailleurs
partie du cahier des charges des projets anglais « National IT Program for the
NHS » et américain « National Health Information Infrastructure » pour le dos-
sier médical universel.

Le développement de thésaurus, nomenclatures et classiﬁcations demeure

l’objet d’une recherche active, mais ils sont d’ores et déjà utilisés en routine.
L’apport des technologies de l’information doit être de faciliter leur utilisation
pratique, notamment dans les projets à grande échelle et avec une multitude
d’intervenants ; ainsi que de garantir l’exhaustivité et la ﬁabilité des informa-
tions recueillies.

4 Aide à l’analyse de données complexes par la modélisation

informatique

Aﬁn d’exploiter pleinement l’information épidémiologique contenue dans les

bases de données médicales actuelles et à venir, on doit s’orienter vers l’ana-
lyse automatique. Dès à présent, il serait possible d’appliquer des « règles »
simples à des données informatisées, à des ﬁns de connaissance et de sur-
veillance (Lindberg et al., 1993) : par exemple pour surveiller l’évolution de
l’obésité, ou de l’hypertension artérielle et sa prise en charge.

Cependant, l’analyse informatique, comme l’interprétation, de certaines don-

nées médicales ou biologiques pose des problèmes de recherche à l’heure ac-
tuelle non résolus. Prenons par exemple la détection du cancer du sein : on
s’appuie aujourd’hui sur les mammographies, sur lesquelles on recherche des
« microcalciﬁcations ». Il s’avère aujourd’hui impossible de proposer une mé-
thode automatique qui ait des caractéristiques de sensibilité et spéciﬁcité com-
patibles avec une utilisation en population générale. De même, il n’existe pas
d’interprétation automatique des données recueillies dans les scanners, ou lors
d’échographies, bien que des progrès notables aient été réalisées par exemple
dans le recalage de données (par exemple pour réorienter la direction d’une ra-
diographie) ainsi que pour la fusion de données acquises de plusieurs sources
différentes.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 142 — #178
i i

142 L’ ÉPIDÉMIOLOGIE HUMAINE

Un enjeu des sciences et technologies de l’information est donc de dévelop-

per modèles et techniques qui permettront cette automatisation. Une première
étape vise à améliorer l’analyse de données. Ceci repose par exemple sur la
composition de données intégrant l’information brute et les résultats de simula-
tions informatiques basées sur des modèles mathématiques de processus phy-
siologiques, pharmacodynamiques et épidémiologiques pertinents. Par ailleurs,
les méthodes d’apprentissage basées sur le data mining pourraient être mise à
proﬁt pour des données très complexes pour lesquelles il n’existe pas de modèle
théorique satisfaisant.

Bibliographie
Cote RA., Robboy S. (1980). Progress in medical information management.
Systematized nomenclature of medicine (SNOMED). JAMA, 243 : 756-62.
Garg AX., Adhikari NK., McDonald H. et al. (2005). Effects of computerized
clinical decision support systems on practitioner performance and patient
outcomes : a systematic review. JAMA, 293 : 1223-38.
Lin Z., Owen AB., Altman RB. (2004). Genetics. Genomic research and human
subject privacy. Science, 305 : 183.
Lindberg DA., Humphreys BL., McCray AT. (1993). The Uniﬁed Medical Lan-
guage System. Methods Inf Med, 32 : 281-91.
Lowe HJ., Barnett GO. (1994). Understanding and using the medical subject
headings (MeSH) vocabulary to perform literature searches. JAMA, 271 :
1103-8.
McAlindon T., Formica M., Kabbara K., LaValley M., Lehmer M. (2003).
Conducting clinical trials over the internet : feasibility study. BMJ, 327 :
484-7.
Valleron AJ., Bouvet E., Garnerin P. et al. (1986). A computer network for the
surveillance of communicable diseases : the French experiment. Am J Public
Health, 76 : 1289-92.
Walley T., Mantgani A. (1997). The UK General Practice Research Database.
Lancet, 350 : 1097-9.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 143 — #179
i i

SOUS-CHAPITRE 4.4

Épidémiologie théorique :
modèles mathématiques
et maladies transmissibles
PIERRE-YVES BOËLLE, NOËL BONNEUIL, JEAN-PIERRE FRANÇOISE,
MICHEL LANGLAIS ET KHASHAYAR PAKDAMAN

L’épidémiologie théorique des maladies transmissibles est devenue une dis-

cipline à part entière, distincte de la démographie théorique et de l’écologie
théorique, et offre un terrain fertile en applications et en problèmes pour les ma-
thématiques (Hethcote, 2000). Nous illustrons ceci dans ce chapitre, en montrant
comment les modèles ont pu stimuler la réﬂexion sur des problèmes épidémiolo-
giques et devenir des outils d’aide à la décision en santé publique.

Introduction

La modélisation mathématique dynamique d’une épidémie liée à une maladie

transmissible permet d’analyser les conditions de son démarrage, de mettre au
point et de comparer des stratégies de contrôle ou de prévention. L’importance
et l’acceptation croissante de cette approche est manifeste si l’on considère la
liste des articles parus dans des revues telles que Nature, Science et The New

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 144 — #180
i i

144 L’ ÉPIDÉMIOLOGIE HUMAINE

England Journal of Medicine au cours des dernières années : évaluation de l’im-

pact des maladies émergentes comme le Sras (Lipsitch et al., 2003 ; Riley et al.,
2003), stratégies de vaccination antivariolique en cas d’attaque bioterroriste
(Bozzette et al., 2003), surveillance du démarrage d’une possible pandémie
grippale (Ferguson et al., 2004), détermination du rapport coût/efﬁcacité des
traitements pour l’infection à VIH (Freedberg et al., 2001).

Parallèlement à ces exemples visant à une prévision quantitative, il existe

une modélisation plus qualitative dont le but est de formaliser certains méca-
nismes pour mieux les comprendre. Les maladies à prions fournissent un re-
marquable exemple d’une telle approche : dès 1967, quinze ans avant que
Stanley Prusiner (1982) introduise la dénomination « prion » (Prusiner, 1982),
J.S. Griffith décrivait plusieurs modèles biochimiques qui établissaient la plau-
sibilité d’un agent infectieux purement protéique, donc dépourvu de matériel
génétique propre (Griffith, 1967). Griffith proposait également que l’agent in-
fectieux de la tremblante du mouton puisse être de cette nature ; ceci a été établi
plus tard par Prusiner. Les modèles ont donc également un intérêt « spéculatif »,
dont le but est d’inciter les expérimentateurs à ne pas négliger ou abandon-
ner une hypothèse qui peut apparaître incongrue de prime abord. Profitons de
cet exemple pour insister sur l’importance des données expérimentales comme
base à la modélisation, même lorsque celle-ci est spéculative. Des travaux expé-
rimentaux avaient montré que l’agent de la tremblante du mouton résistait aux
traitements qui dénaturaient le matériel génétique, mais pas les protéines : cette
observation avait motivé Griffith dans sa démonstration de la plausibilité d’un
agent infectieux protéique.

Les deux approches décrites ci-dessus illustrent deux utilisations de la mo-

délisation épidémiologique : l’une quantitative pour aider la décision en santé
publique, l’autre spéculative pour montrer la plausibilité d’un mécanisme. En
pratique, les mêmes techniques peuvent être mises en œuvre dans ces deux dé-
marches, en combinant spéculation et prévision. Ce point est illustré dans la
section suivante qui présente un bref historique de la modélisation dynamique
des épidémies en faisant ressortir les principaux concepts et les approches. Nous
conclurons alors sur les nouvelles directions de recherche qui se mettent en place
aujourd’hui dans le domaine.

Soulignons dès l’introduction que les problèmes issus de la modélisation des

épidémies ont motivé des travaux mathématiques originaux, qui ont acquis une
vie indépendante de leur motivation initiale. La théorie de la percolation en est
un exemple fameux : celle-ci émerge notamment dans l’analyse de la propaga-
tion d’un agent infectieux dans un verger (Broadbent et al., 1957 ; Hammersley,
1957) ; mais les phénomènes de percolation font aujourd’hui partie des do-
maines classiques d’application de la théorie des probabilités, sans que les mo-
tivations initiales soient nécessairement rappelées.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 145 — #181
i i

É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 145

Modèles mathématiques des épidémies

En épidémiologie, on utilise la statistique plus que toute autre théorie mathé-

matique. Une exception notable concerne l’étude des épidémies où des travaux
théoriques et pratiques réalisés depuis le début du XXe siècle ont fait appel à
une très large gamme de compétences mathématiques. Bien que les principales
revues d’épidémiologie (American Journal of Epidemiology, Epidemiology, Epi-
demiologic Reviews) publient peu de tels travaux, ce sont ceux qui reçoivent la
plus grande exposition dans la communauté scientiﬁque générale : dans l’in-
fection à VIH dans les années 1980-90 (May et al., 1987), l’encéphalopathie
spongiforme bovine et le nouveau variant de la maladie de Creutzfeldt-Jacob
(Ghani et al., 1998 ; Valleron et al., 2001), la ﬁèvre aphteuse (Keeling et al.,
2001), et plus récemment le syndrome respiratoire aigu et sévère (Lipsitch et al.,
2003 ; Riley et al., 2003).

Pourquoi la modélisation mathématique a-t-elle pris une telle importance dans

l’épidémiologie des maladies transmissibles ? On peut invoquer, a minima, la
faillite des comparaisons basées sur des extrapolations simples dans ce do-
maine. En effet, si l’incidence d’un cancer est divisée par deux dans une popu-
lation de taille pareillement réduite, il n’en irait pas de même pour la taille d’une
épidémie, à cause d’effets de seuils décrits plus bas.

Les premiers modèles théoriques modernes sont l’œuvre de En’ko, Hamer

et Ross et datent du début du XXe siècle. Ceux-ci proposent la description
« compartimentale » de l’histoire naturelle d’une infection en trois phases :
« Susceptibles » avant l’infection, « Infectieux » pour une personne infectée et
contagieuse, « Retirés » pour les personnes guéries, immunes ou décédées. La
deuxième étape importante est due à Kermack et McKendrik (1927). Enﬁn, de-
puis le début des années 1980, dans le sillage de la collaboration proliﬁque d’un
théoricien, Sir Robert May, et d’un écologiste et biologiste, Roy Anderson, l’in-
térêt des grands journaux généralistes s’est renouvelé (Anderson et al., 1979 ;
May et al., 1979).

1 L’approche « systèmes dynamiques » : équilibre, stabilité, . . .

La motivation des travaux de Kermack et McKendrik est leur constat que « La

caractéristique la plus notable dans l’étude des épidémies est la difﬁculté de
trouver un facteur causal qui expliquerait la diversité des magnitudes des épidé-
mies ».

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 146 — #182
i i

146 L’ ÉPIDÉMIOLOGIE HUMAINE

Dans les articles correspondant à cette étude (Kermack et al., 1927 ; Kermack
et al., 1932 ; Kermack et al., 1933), les auteurs décrivent ce qui est maintenant
connu sous le nom de modèle « SIR ». Sous la forme la plus simple, ce modèle
correspond au système d’équation suivant :



 dS (t)


 = λ − β S (t) I (t) − µ S (t)


 dt



 dI (t)


 = β S (t) I (t) − γ I (t) − µ I (t)


 dt





 dR
 = γ I (t) − µ R (t)
dt

où S(t), I(t), R(t) correspondent au nombre de personnes dans chaque com-

partiment à un instant t donné, et plusieurs paramètres sont utilisés pour rendre
compte de la dynamique de cette population : λ correspond aux naissances dans
la population, supposées toutes susceptibles, 1/µ est la durée de vie moyenne,
1/γ la durée infectieuse moyenne et β correspond au taux de contact menant
à une transmission effective de la maladie. En pratique, ce modèle restitue de
manière saisissante la forme des épidémies observées et rapportées dans la
littérature (ﬁgure 4.4-1).

L’analyse des propriétés d’équilibre de ce système d’équations fait apparaître

un résultat d’une portée pratique inattendue, le « théorème du seuil » : pour
qu’une épidémie puisse avoir lieu, il faut une communauté susceptible de taille
supérieure à un seuil déterminé par deux termes : la contagiosité de l’infection
et la durée de la phase infectieuse. Ce seuil serait par exemple de l’ordre de
200 000 à 300 000 pour la rougeole dans les pays occidentaux (Bailey, 1975),
en l’absence de vaccination. D’autre part, la taille de l’épidémie peut facilement
s’expliquer en fonction de la fraction de susceptibles de la population avant
l’épidémie.

Plusieurs faits surprenants furent également tirés de l’analyse mathématique

du modèle :

– la dissémination d’une maladie repose avant tout sur le nombre de per-

sonnes qui ne l’ont pas eue, beaucoup plus que sur le nombre initial de
personnes infectées ;

– il est normal d’échapper « naturellement » à une épidémie, puisque celle-ci

s’arrête avant d’utiliser tous les susceptibles ;

– une situation endémique stable peut prévaloir dans une population,

lorsque l’incidence peut être exactement compensée par les retraits de
personnes infectieuses.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 147 — #183
i i

É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 147

Figure 4.4-1
Courbe d’incidence épidémique. Nombre de cas de syndromes grippaux observés en France en 2003/2004
(données du réseau Sentinelles de l’Inserm) et ajustement d’un modèle mathématique du type SIR (en trait
continu).

Le théorème du seuil a été reformulé par la notion du ratio de reproduction de

l’épidémie, noté R0 , dont l’interprétation usuelle est le nombre de cas directement
infectés par un unique sujet infecté dans une population entièrement susceptible.
L’intuition, et les mathématiques, montrent que lorsque R0 est plus grand que 1,
on aura une épidémie ; et pas lorsque R0 sera inférieur à 1.

Suivant les travaux de Kermack et McKendrik, de très nombreuses exten-

sions ont été proposées : prendre en compte les effets aléatoires (Bailey, 1975 ;
Andersson et al., 2000), structurer les compartiments (voir § 3), estimer des
paramètres à partir de données (Dietz, 1993 ; Mollison et al., 1994).

Bernoulli avait montré dès le XVIIe siècle l’intérêt de la modélisation mathé-

matique dans l’étude de la variolisation, pratique précurseur de la vaccination
antivariolique (Valleron, 2000). L’étude des conditions d’une vaccination opti-
male est toujours à l’origine de nombreux développements en épidémiologie

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 148 — #184
i i

148 L’ ÉPIDÉMIOLOGIE HUMAINE

théorique. En effet, du point de vue d’un individu, il semble que la prévention de

la maladie passe toujours par la vaccination. Mais l’existence d’un seuil critique
de population susceptible en deçà duquel une épidémie est impossible montre
qu’il n’en est rien : un individu pourrait échapper à la maladie sans être vacciné
dans une telle population : ceci est l’immunité grégaire. Avec cette propriété, il
apparaît également possible d’éradiquer une maladie transmissible : si la pro-
portion de susceptibles est toujours inférieure au seuil critique, alors la maladie
doit disparaître. Ceci a été le cas avec la variole, et on espère aujourd’hui l’éra-
dication de la poliomyélite et de la rougeole.

La vaccination pose encore aujourd’hui des problèmes nouveaux, pour les-

quels la modélisation mathématique demeure indispensable. Notamment, la dis-
parition programmée de maladies amène à réﬂéchir sur la nécessité de renforcer
la vaccination ou de l’arrêter ; la diminution rapide de l’immunité vaccinale est
également à l’origine de questions de santé publique que l’on peut étudier par
modélisation.

2 L’approche probabiliste et statistique : processus ponctuels,

MCMC

Pour passer de modèles « spéculatifs » à des modèles plus « quantitatifs »,

la principale difficulté rencontrée est de donner une valeur aux paramètres du
modèle. La confrontation des modèles mathématiques d’épidémie avec des don-
nées réelles est nécessaire, avec la difficulté que les paramètres des modèles épi-
démiques ne sont pas tous directement observables : s’il est possible de relier,
par exemple, la durée d’excrétion virale ou de colonisation avec la durée de la
phase infectieuse, il n’existe pas de moyen simple d’observer la valeur des taux
de contact efficaces au cours de la vie infectieuse.

On est donc confronté au problème statistique de la construction d’estimateurs

de paramètres inobservables, à partir de données de terrain le plus souvent
partielles et/ou agrégées. De nombreux développements ont donné un cadre
probabiliste à l’étude des épidémies, et aujourd’hui ceci se fait généralement
dans le cadre de la théorie des processus ponctuels (Neyman a d’ailleurs été un
précurseur de ce type de description dans les systèmes biologiques), avec des
techniques statistiques « de Monte-Carlo ». Des estimateurs aux propriétés de
martingales ont été développés (Picard, 1980). L’utilisation de techniques mo-
dernes, combinant augmentation de données et chaînes de Markov de Monte-
Carlo est également prometteuse (O’Neill et al., 2000).

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 149 — #185
i i

É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 149

3 L’approche « systèmes complexes » : apport des modèles

structurés

Les individus d’une population ne sont généralement pas égaux devant l’ex-
position à une épidémie ; cependant les caractéristiques qui expliquent cette va-
riabilité sont généralement délicates à identiﬁer à partir des données de terrain.
Si l’on peut structurer la population selon ces facteurs, on pourra proposer un
modèle qui reﬂète mieux les données de terrain. Une liste de tels facteurs peut
comprendre :

l’âge chronologique d’un individu. Ce paramètre intervient dans l’étude des

maladies infantiles, lorsque la fertilité est affectée ou que la transmission ver-
ticale n’est pas négligeable. Des modèles intégrant l’évolution démographique
d’une population sont nécessaires dans ce cas, mais d’analyse mathématique
et numérique complexe. Les modèles de Leslie, de Lotka, Sharpe et al. intègrent
ces aspects ;

la structuration spatiale. La localisation géographique d’un individu peut

avoir un fort impact sur la démographie et sur les densités locales d’individus,
comme sur les taux de contacts entre individus et les structurations sociales lo-
cales. Dans ce cas, on pourra choisir de maintenir le taux de contact constant
avec la densité, ou au contraire proportionnel à celle-ci. La structuration spatiale
peut être formulée dans des modèles mathématiques de type réaction-diffusion
incluant des termes de transport. L’analyse de ceux-ci pose des problèmes d’ana-
lyse mathématique très complexes. Cependant, l’exemple récent de la propa-
gation fulgurante du Sras à l’échelle de la planète à partir d’un foyer unique
montre toutefois qu’un parasite peut franchir de grandes distances quasi instan-
tanément, invalidant ainsi l’approche de réaction-diffusion. Une représentation
sous formes de patchs du domaine spatial reliés les uns aux autres par des
connexions, avec un modèle de type SEIRS dans chaque patch, sera alors plus
opérationnelle. La complexité viendra alors de la taille des systèmes différentiels
à traiter ;

la structuration sociale. Les différents modes de propagation d’un parasite

— amical/agressif, aérienne, transmission sexuelle, indirecte, partage de se-
ringues contaminées — n’ont pas le même impact dans une population donnée
selon le groupe d’individus considéré. La propagation est essentiellement liée au
nombre et au type de contacts efﬁcaces entre individus à l’intérieur d’un groupe
ou entre individus appartenant à des groupes distincts. Une fois la population à
étudier structurée en groupes socialement distincts, la propagation d’un parasite
entre les groupes peut être modélisée par un modèle du type patchs précédent ;

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 150 — #186
i i

150 L’ ÉPIDÉMIOLOGIE HUMAINE

l’âge de l’infection. La contagiosité d’une maladie transmissible peut changer

au cours du temps chez un individu infecté, une surinfection peut survenir ou au
contraire l’immunisation se renforcer après une nouvelle exposition. La gestion
des échelles de temps entre la durée de vie des individus et la durée de vie
d’un infectieux ou la durée du stade infectieux rend alors plus délicate l’étude
théorique et numérique du modèle.

4 L’approche « systèmes complexes » : les réseaux de contact

On a précisé plus haut comment le ratio de reproduction de la maladie (R0 )

pouvait être utilisé pour quantiﬁer si les conditions sont propices à la propaga-
tion d’un agent infectieux et comment il était devenu une mesure commune du
potentiel épidémique d’une maladie. Il est toutefois facile d’oublier que l’impor-
tance de ce paramètre, et l’estimation de sa valeur à partir des données, sont
indissociables du formalisme du modèle SIR. En d’autres termes, l’existence d’un
seuil épidémique est tributaire de la validité du modèle SIR pour cette épidémie.

La théorie du seuil doit-elle être remise en cause ? La structuration des compar-

timents dans le modèle SIR ne remet pas fondamentalement en cause l’existence
même d’un seuil, même si son calcul devient plus compliqué (il est alors dé-
ﬁni comme la plus grande valeur propre d’une matrice jacobienne en un point
d’équilibre). May et Anderson (1988) ont montré que la propriété de seuil de-
meurait, tant que la variance des taux de contacts entre compartiments était
ﬁnie.

Que se passe-t-il dans le cas contraire ? Il est d’abord nécessaire de déve-

lopper un nouveau formalisme pour décrire les contacts entre individus. Prenons
l’exemple des maladies sexuellement transmissibles (MST) pour illustrer comment
les données de terrain sont centrales dans ce problème. Dans ces maladies, on
peut obtenir des informations directes et détaillées sur les contacts entre indi-
vidus (par exemple l’étude ACSF — Analyse des comportements sexuels des
Français) et reproduire les caractéristiques des réseaux de partenaires. En pra-
tique, des limitations apparaissent : la simultanéité temporelle des partenariats
est généralement mal mesurée, des incohérences notables apparaissent dans les
données : par exemple, les hommes déclarent en moyenne plus de partenaires
que les femmes. Il est donc impossible de nourrir le modèle à partir des seules
données brutes.

Face à ces difficultés, des travaux plus « spéculatifs » sont menés pour identi-
fier les caractéristiques nécessaires et suffisantes des contacts dans la propaga-
tion des épidémies. Pastor-Satorras et Vespignani (Pastor-Satorras et al., 2001)
ont examiné par exemple la dissémination de virus informatiques sur Internet, et

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 151 — #187
i i

É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 151

montrent que le théorème du seuil n’est pas forcément satisfait dans des réseaux
où le nombre de connections des sites suit une loi de puissance. D’autres travaux
qualitatifs et spéculatifs de même nature ont suivi cet exemple, notamment pour
étudier les stratégies qui permettent d’enrayer la propagation d’épidémies dans
ces réseaux hautement hétérogènes. En plus de susciter de nombreuses études
numériques et exploratoires, l’intérêt de ces résultats a été d’attirer l’attention
sur l’importance de bonnes observations pour descriptions et modélisations des
mécanismes de contacts.

Ces travaux soulignent la sensibilité des résultats au choix de la structure des

contacts entre individus. La conclusion que l’on peut en tirer est donc qu’il est
important de ne pas se limiter aux modèles de contact « empruntés » à d’autres
disciplines, jadis la chimie et aujourd’hui les réseaux informatiques. Les modèles
épidémiologiques doivent s’orienter vers une description des contacts à partir de
données et d’observations appropriées.

5 L’approche « contrôle » appliquée aux systèmes dynamiques :

l’exemple de la viabilité

Comment contrôler un système dynamique de sorte qu’une propriété qua-

litative soit conservée au cours du temps ? Comment manœuvrer un système
dynamique de sorte qu’une propriété qualitative soit obtenue avant un temps
donné ? Au lieu de considérer le comportement asymptomatique du système, la
question du maintien dans un ensemble donné se pose à chaque instant, en
phase transitoire, avec ou sans attracteurs, sans besoin d’optimiser un critère in-
tertemporel souvent rendu irréaliste par l’incertitude inhérente au comportement
futur de l’agent.

L’ensemble de tous les états initiaux à partir desquels il existe une trajec-
toire restant dans un ensemble ﬁxé correspondant à la propriété qu’on souhaite
voir se perpétuer joue un rôle important. On l’appelle le noyau de viabilité. L’en-
semble des états initiaux à partir desquels il existe au moins une trajectoire attei-
gnant une cible donnée est le domaine de capture. En un état donné, l’ensemble
des contrôles pour lesquels il existe une trajectoire restant dans l’ensemble ﬁxé
ou bien atteignant la cible est la loi de régulation.

En épidémiologie des pistes sont ouvertes :

– quelles politiques de vaccination, à quel âge, en quelles proportions ?

Cette question a été envisagée par plusieurs auteurs. Cependant, il s’agit
souvent d’examiner les conséquences d’une politique donnée. En viabilité,

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 152 — #188
i i

152 L’ ÉPIDÉMIOLOGIE HUMAINE

nous posons le problème à l’envers : quelles mesures de vaccination au

cours du temps de sorte que l’épidémie soit toujours maintenue en dessous
d’un certain seuil, ou bien soit ramenée en dessous d’un seuil donné ? Les
contrôles ne sont pas ﬁxés au départ, mais sont adaptatifs aux change-
ments de l’environnement ;

– sans avoir besoin de spéciﬁer un critère d’optimisation intertemporel, sans

avoir besoin de spéculer sur le comportement futur du système (comme
des oscillations), l’analyse de viabilité offre des procédures de sélection
de devenirs viables, en respectant les contraintes d’état ;

– l’existence, l’unicité et la viabilité des solutions des systèmes dynamiques

complexes utilisés en épidémiologie reposent parfois sur des hypothèses
de constance des risques instantanés, et mettent en jeu des fonctions sup-
posées intégrables au sens L1, ou dérivables en un sens faible. Le concept
d’enveloppe d’invariance issu de la théorie de la viabilité permet d’ex-
plorer ces questions dans l’espace beaucoup plus grand des fonctions à
graphe fermé, en utilisant le concept judicieux de dérivée contingente.
En dynamique des populations, Aubin, Bonneuil et Maurin (Aubin et al.,
2000) ont étudié le système de Lotka-McKendrick. Il reste des choses à
faire en épidémiologie, où il vaut mieux savoir si les solutions existent,
sont uniques, ou sous quelles conditions elles sont viables ;

– équations mutationnelles : lorsque la variable d’état est elle-même un en-

semble, l’évolution du système s’écrit sous forme d’équation mutationnelle.
Par exemple, quelle politique de contrôle sanitaire mettre en œuvre aﬁn
de maintenir un territoire infecté dans des limites prescrites ? Ce travail est
en cours et mené par Karine Pichard (université de Pau).

6 Autres développements récents

Un travail récent, paru dans la revue Nature, combine de manière intéres-

sante les nouvelles approches de la modélisation en épidémiologie (Eubank
et al., 2004). L’objectif de ce travail est d’étudier l’impact d’une attaque bio-
terroriste en milieu urbain et de comparer les interventions possibles. Bien que
classique dans ses objectifs et ses conclusions, la méthodologie utilisée rend ce
travail remarquable. En effet, plutôt que de faire des hypothèses a priori sur
les contacts entre individus, les interactions entre individus dans leur modèle
intègrent des données réelles de circulation urbaine et de démographie de la
ville de Portland aux États-Unis. L’architecture des réseaux de contact n’est donc
pas posée a priori, comme c’est le cas dans beaucoup de modèles, et n’est pas
empruntée aux réactions chimiques ou à Internet : il s’agit d’une approche qui

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 153 — #189
i i

É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 153

exploite directement les facteurs qui régissent réellement les contacts entre les
personnes.

Cette approche est également liée à de nouvelles techniques de modélisation,

plus détaillée, dite “ par agents » ou « individu-centrée ». Dans celle-ci, on privi-
légie une description « locale » des interactions à la description macroscopique.
De telles approches sont par exemple essentielles lorsque l’on souhaite pouvoir
aborder des aspects « intra-hôte », par exemple l’évolution génétique des para-
sites, et des aspects populationnels comme les caractéristiques de la transmission
entre hôtes. Reposant aujourd’hui avant tout sur des simulations, ces approches
demandent le développement d’outils analytiques spéciﬁques.

Enﬁn, avec l’explosion des données génomiques, à la fois sur les virus, bac-
téries ou leurs hôtes, il faut aujourd’hui imaginer des méthodes qui permettront
d’intégrer ces données dans la modélisation. Des approches séduisantes ont été
proposées, qui exploitent les propriétés d’échantillonnage du nombre de va-
riants génétiques dans des populations d’effectif non stationnaire. Il est alors
possible, en utilisant comme seule donnée un échantillon de la population vi-
rale à un moment donné, et en connaissant la vitesse de l’horloge moléculaire
associée aux mutations, d’estimer la vitesse de croissance de la population por-
teuse de l’organisme considéré. Des résultats extrêmement convaincants ont été
obtenus concernant par exemple l’histoire de l’épidémie d’hépatite C en Égypte
(Pybus et al., 2001) ou de l’évolution du virus de la grippe (Ferguson et al.,
2003). L’uniﬁcation des modèles classiques et de ces approches génomiques est
un terrain qui semble offrir des possibilités immenses en épidémiologie théorique
(Grenfell et al., 2004).

Conclusion

L’épidémiologie théorique des maladies transmissibles est devenue une dis-

cipline à part entière, distincte de la démographie théorique et de l’écologie
mathématique (Hethcote, 2000). Celle-ci se caractérise par une combinaison de
techniques issues de la modélisation des populations, de la virologie et la mi-
crobiologie, et offre un terrain d’application immense pour les mathématiques
et les statistiques. Au-delà des résultats théoriques, cette discipline vise à fournir
des bases quantitatives pour la réﬂexion de santé publique autour des mala-
dies infectieuses. Dans cette direction, on notera que, si l’utilisation de modèles
basés sur des arbres de décision, bien que sans aucune complexité mathéma-
tique, devient un outil commun dans la communauté épidémiologique et mé-
dicale (Freedberg et al., 2001), l’utilisation de modèles plus vraisemblables (et
plus complexes mathématiquement) serait cependant souhaitable.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 154 — #190
i i

154 L’ ÉPIDÉMIOLOGIE HUMAINE

Le développement de ce domaine doit s’appuyer sur les points suivants :

Renforcer les interactions. Les interactions entre épidémiologistes et mathé-

maticiens/probabilistes sont informelles. On pourrait favoriser l’émergence de
projets du type ACI Mathématiques pour l’épidémiologie.

Recueillir des données. On est aujourd’hui arrivé à une bonne connaissance

théorique des propriétés des modèles mathématiques simulant des épidémies.
Cette étape « spéculative » doit laisser place à une étape de validation, nourrie
des données de terrain. Pour cela, celles-ci doivent être recueillies prospective-
ment et à grande échelle. Pour avoir de bons modèles, utiles en santé publique,
il faut avoir avant tout de bonnes données.

Faire des modèles des outils de santé publique. Les effets d’une décision
de santé publique peuvent parfois être anticipés en s’appuyant sur des résultats
de modélisation. De la part des modélisateurs, cela nécessite de franchir une
étape entre aspects « spéculatifs » du modèle et aspects « quantitatifs » utiles
pour baser une décision.

Explorer les limites des modèles. Comme indiqué plus haut, si la modélisa-
tion peut aider à interpréter des données, elle n’a pas pour ﬁnalité de remplacer
l’observation et l’expérimentation réelle. Les conditions qui font qu’un modèle
est utilisable, que l’on aura conﬁance dans ses résultats et que ceux-ci pourront
convaincre doivent être mieux étudiées.

Bibliographie

Anderson RM., May RM. (1979). Population biology of infectious diseases :

Part I. Nature, 280 (5721) : 361-7.

Andersson H., Britton T. (2000). Stochastic epidemics and their statisitcal analy-
sis. Springer-Verlag, New York.

Aubin J., Bonneuil N. et al. (2000). Non-linear Structured Population Dynamics

with Co-Variates. Mathematical Population Studies, 9 (1) : 1-31.

Bailey N. (1975). The Mathematical Theory of Infectious Diseases. Grifﬁn,

London.

Bozzette SA., Boer R. et al. (2003). A model for a smallpox-vaccination policy.

N Engl J Med, 348 (5) : 416-25.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 155 — #191
i i

É PIDÉMIOLOGIE THÉORIQUE : MODÈLES MATHÉMATIQUES ET MALADIES TRANSMISSIBLES 155

Broadbent S., Hammersley J. (1957). Percolation processes I. Proc. Cambridge

Philos Soc, 53 : 629-641.

Dietz K. (1993). The estimation of the basic reproduction number for infectious
diseases. Stat Methods Med Res, 2 (1) : 23-41.

Eubank S., Guclu H. et al. (2004). Modelling disease outbreaks in realistic urban
social networks. Nature, 429 (6988) : 180-4.

Ferguson NM., Fraser C. et al. (2004). Public health. Public health risk from the
avian H5N1 inﬂuenza epidemic. Science, 304 (5673) : 968-9.

Ferguson NM., Galvani AP. et al. (2003). Ecological and immunological deter-
minants of inﬂuenza evolution. Nature, 422 (6930) : 428-33.

Freedberg KA., Losina E. et al. (2001). The cost effectiveness of combination

antiretroviral therapy for HIV disease. N Engl J Med, 344 (11) : 824-31.

Ghani AC., Ferguson NM. et al. (1998). Estimation of the number of people
incubating variant CJD. Lancet, 352 (9137) : 1353-4.

Grenfell BT., Pybus OG. et al. (2004). Unifying the epidemiological and evolu-
tionary dynamics of pathogens. Science, 303 (5656) : 327-32.

Grifﬁth JS. (1967). Self-replication and scrapie. Nature, 215 (105) : 1043-4.

Hammersley J. (1957). Percolation processes II. Proc Cambridge Philos Soc, 53 :

642-645.

Hethcote H. (2000). The mathematics of infectious diseases. SIAM Review, 42

(4) : 599-653.

Keeling MJ., Woolhouse ME. et al. (2001). Dynamics of the 2001 UK foot
and mouth epidemic : stochastic dispersal in a heterogeneous landscape.
Science, 294 (5543) : 813-7.

Kermack WO., McKendrick AG. (1927). Contributions to the mathematical

theory of epidemics-I. Proc Roy Soc Lond A, 115 : 700-721.

Kermack WO., McKendrick AG. (1932). Contributions to the mathematical

theory of epidemics-II. The problem of endemicity. Proc Roy Soc Lond A,
138 : 55-83.

Kermack WO., McKendrick AG. (1933). Contributions to the mathematical

theory of epidemics-III. Further studies of the problem of endemicity. Proc
Roy Soc Lond A, 141 : 94-122.

Lipsitch M., Cohen T. et al. (2003). Transmission dynamics and control of severe
acute respiratory syndrome. Science, 300 (5627) : 1966-70.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 156 — #192
i i

156 L’ ÉPIDÉMIOLOGIE HUMAINE

May RM., Anderson RM. (1979). Population biology of infectious diseases : Part
II. Nature, 280 (5722) : 455-61.
May RM., Anderson RM. (1987). Transmission dynamics of HIV infection. Na-
ture, 326 (6109) : 137-42.

Mollison D., Isham V. et al. (1994). Epidemics : models and data. J R Stat Soc
Ser A Stat Soc, 157 (1) : 115-49.
O’Neill P., Balding D. et al. (2000). Analysis of infectious disease data from hou-
sehold outbreaks by Markov chain Monte Carlo methods. Applied Statistics,
49 : 517-542.
Pastor-Satorras R., Vespignani A. (2001). Epidemic spreading in scale free net-
works. Phys Rev Lett., 86 : 3200-3203.
Picard P. (1980). Applications of martingale theory to some epidemic models.
Journal of Applied Probability, 17 : 583-599.
Prusiner SB. (1982). Novel proteinaceous infectious particles cause scrapie.
Science, 216 (4542) : 136-44.
Pybus OG., Charleston MA. et al. (2001). The epidemic behavior of the hepatitis
C virus. Science, 292 (5525) : 2323-5.
Riley S., Fraser C. et al. (2003). Transmission dynamics of the etiological agent
of SARS in Hong Kong : impact of public health interventions. Science, 300
(5627) : 1961-6.
Valleron AJ. (2000). The roles for modeling in epidemiology. C. R. Acad. Sci. III,
323 (5) : 429-33.
Valleron AJ., Boëlle PY. et al. (2001). Estimation of epidemic size and incubation
time based on age characteristics of vCJD in the United Kingdom. Science,
294 (5547) : 1726-8.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 157 — #193
i i

SOUS-CHAPITRE 4.5

La modélisation
en épidémiologie du cancer
FRÉDÉRIC YVES BOIS

L’apport des mathématiques à l’épidémiologie des cancers peut se faire à trois

niveaux. Le premier correspond à celui de l’épidémiologie analytique, qui étudie
le lien entre des expositions environnementales d’origines diverses (alimentaires,
physiques, chimiques), des facteurs constitutionnels (notamment génétiques) et la
survenue ou l’évolution de cancers. À ce niveau, la modélisation concerne à la
fois le lien cancer/exposition mais aussi la reconstruction des expositions dans
le temps. Le second niveau concerne les définitions de seuil dans le cadre des
actions de prévention et de contrôle des instances réglementaires, où des tech-
niques de modélisation stochastique des processus de cancérogenèse sont de
plus en plus sollicitées. Le dernier niveau concerne l’épidémiologie expérimen-
tale, où de nombreux modèles sont conçus pour l’analyse de données cliniques,
en vue du développement de thérapies ou d’outils de pronostic. Si tous ces der-
niers travaux ont un intérêt appliqué certain, ils ont aussi une portée scientifique
et peuvent être l’occasion de développements mathématiques originaux. La fi-
gure 4.5-1 résume l’articulation des différentes disciplines de recherche autour
de la cancérogenèse et de ses facteurs.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 158 — #194
i i

158 L’ ÉPIDÉMIOLOGIE HUMAINE

Figure 4.5-1
Articulation des différentes disciplines de recherche épidémiologique ou toxicologique autour de la
cancérogenèse et de ses facteurs étiologiques.
La multiplicité apparente des étapes de la cancérisation et celles des facteurs la régulant rendent difﬁcile
l’identiﬁcation des causes « mineures » de cancer. Les mathématiques sont utilisées par chacune des
disciplines pour modéliser tout ou partie du processus.

1 Historique et cadre général

C’est à partir de 1950 que les premières théories mathématiques de la can-

cérogenèse furent développées (Iversen et Arley, 1950 ; Nordling, 1953). Elles
s’appuyaient sur des travaux concernant les processus stochastiques (Kendall,
1952). Leurs motivations et applications visaient à expliquer des résultats ex-
périmentaux chez l’animal ou l’évolution de l’incidence des cas de cancer hu-
mains en fonction de l’âge. Naturellement, des applications de prévention ou de
pronostic étaient également recherchées (Armitage et Doll, 1954). Les étroites

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 159 — #195
i i

L A MODÉLISATION EN ÉPIDÉMIOLOGIE DU CANCER 159

fenêtres thérapeutiques des chimiothérapies et des thérapies par irradiation

poussèrent ensuite au développement de modèles mathématiques quantitatifs
pour l’optimisation des doses de traitement atteignant les tumeurs. Ces applica-
tions ont ensuite eut une vie propre que bouleversent maintenant les données de
la génétique.

1.1 Les mathématiques sont utiles à l’étude

de toutes les étapes de la cancérogenèse

1.1.1 Modélisation du processus de cancérogenèse

C’est l’observation épidémiologique d’une évolution non linéaire de l’inci-

dence des cancers en fonction de l’âge qui motiva les premiers travaux de mo-
délisation mathématique de la cancérogenèse (Armitage et Doll, 1954). Ce fut,
pour les statisticiens collaborant avec des épidémiologistes, l’occasion de pro-
poser des modèles stochastiques markoviens offrant de bonnes descriptions de
l’évolution des taux de cancer avec l’âge (Kendall, 1960 ; Whittemore et Keller,
1978 ; Moolgavkar et Venzon, 1979). L’application des modèles les plus simples
à l’étude de la cancérogenèse expérimentale a été nettement moins fructueuse,
car ils prennent mal en compte les mécanismes de réparation de l’ADN, les
interactions cancer/hôte, ou les phénomènes d’apoptose. Les travaux les plus
récents tentent de remédier à cette situation (Bois et Compton-Quintana, 1992 ;
Kopp-Schneider, 1997 ; Dunson, 2000 ; van Leeuwen et Zonneveld, 2001 ; Little
et Wright, 2003, http://www.maths.dundee.ac.uk/mbg/).

1.1.2 Modélisation des étapes cliniques et des traitements

thérapeutiques du cancer

Indépendamment du traitement de données d’épidémiologie analytique ou

de toxicologie animale, la modélisation de l’évolution de tumeurs avérées a une
utilité indéniable pour le dépistage et la mise au point de thérapies anticancé-
reuses (Tubiana et Koscielny, 1999). Les modèles mathématiques utilisés en épi-
démiologie expérimentale font appel au calcul différentiel classique (Barbolosi
et Iliadis, 2001 ; Simeoni et al., 2004), au calcul stochastique (Ciampi et al.,
1986 ; Smolle et Stettner, 1993) mais aussi aux simulations stochastiques (Periti
et al., 1979 ; Düchting et Vogelsaenger, 1987 ; Michelson, 1990) ou aux auto-
mates cellulaires (Qi et al., 1993). Des développements récents font appel à la
théorie des graphes (Radmacher et al., 2001).

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 160 — #196
i i

160 L’ ÉPIDÉMIOLOGIE HUMAINE

1.1.3 Modélisation de la dose interne

La relation entre la dose (de radiation, médicament, cancérigène chimique)

administrée et la dose interne, active, n’est pas forcement linéaire. La complexité
des mécanismes d’absorption, diffusion, transport, métabolisme, élimination et
les cascades d’événements secondaires menant à la dose interne font que l’on
s’est très tôt orienté vers des modèles basés sur l’anatomophysiologie (Teorell,
1937). C’est dans les années 1970 que les progrès du calcul ont permis l’uti-
lisation courante des modèles pharmacocinétiques « physiologiques » (Dedrick
et al., 1970) ou des fantômes numériques (Kerr et al., 1976). Les modèles ac-
tuels font le plus souvent appel à la résolution numérique de systèmes différen-
tiels ordinaires ou aux dérivées partielles. Ils sont utilisés en thérapeutique, en
clinique, ou en évaluation des risques pour prendre en compte des différences
physiologiques entre individus, afﬁner le calcul des relations dose-réponse, et
reconstruire les expositions passées.

1.1.4 Les liens avec la statistique

Les modèles les plus complexes s’accommodent mal de méthodes fréquen-

tistes classiques d’estimation des paramètres. Des développements intéressants
font appel aux modèles statistiques hiérarchiques (Greenland, 2000), aux sta-
tistiques bayésiennes (Begg et al., 1998) à l’analyse non linéraire de séries
temporelles (De Gunst et Luebeck, 1994 ; Davidian et Giltinan, 1995).

2 Évolution, besoins, perspectives

L’épidémiologie expérimentale ou clinique dispose de « bons » modèles, vali-

dés, prédictifs, opérationnels. La recherche dans ce domaine doit se poursuivre
pour intégrer les progrès des outils de dépistage, de diagnostic, et de traitement.
Une grande partie de cette recherche est directement ﬁnancée par l’industrie de
la santé.

L’épidémiologie analytique est plus mal lotie. Les modèles existants intègrent
mal la multiplicité des causes de cancers ; les modèles les plus solides néces-
sitent le recours à des techniques statistiques complexes. Cependant, des mo-
dèles simpliﬁés, voire simplistes, comme le modèle multi-étapes dans l’évalua-
tion du risque ou les approximations par des modèles linéaires ou logistiques en
épidémiologie descriptive, restent encore largement utilisés, car considérés bien
souvent comme sufﬁsants pour décrire correctement l’évolution temporelle des

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 161 — #197
i i

L A MODÉLISATION EN ÉPIDÉMIOLOGIE DU CANCER 161

cancers. On peut s’accommoder de ces modèles simpliﬁés s’il s’agit d’interpo-

ler des données, mais ils n’ont guère de justiﬁcation scientiﬁque quand il s’agit
d’évaluer les risques aux faibles doses ou pour de faibles durées d’exposition.

Comment améliorer les modèles utilisés pour l’évaluation quantitative de la

relation dose-risques ou celle de l’impact sur les populations ? Il est nécessaire
de mieux comprendre les régulations ﬁnes des premières étapes de la cancéro-
genèse. L’analyse quantitative des régulations génétiques de la différenciation
cellulaire, discipline faisant fortement appel à la statistique et aux mathéma-
tiques, devrait faire progresser la question. La solution ne sera probablement
pas simple puisque plus de 1 % des gènes sont susceptibles de mutations contri-
buant au développement de cancers (Futreal et al., 2004). Pour s’en approcher,
il est nécessaire de développer et ﬁnancer des recherches intégratives alliant
biologie moléculaire, toxicologie, bio-informatique et épidémiologie.

Bibliographie
Armitage P., Doll R. (1954). The age distribution of cancer and a multi-stage
theory of carcinogenesis. British Journal of Cancer, 8 : 1-12.

Barbolosi D., Iliadis A. (2001). Optimizing drug regimens in cancer chemothe-

rapy : a simulation study using a PK-PD model. Computers in Biology and
Medicine, 31 : 157-172.

Begg CB. et al. (1998). A new strategy for evaluating the impact of epidemio-
logic risk factors for cancer with application to melanoma. Journal of the
American Statistical Association, 93 : 415-426.

Bois FY., Compton-Quintana PGE. (1992). Sensitivity analysis of a new model

of carcinogenesis. Journal of Theoretical Biology, 159 : 361-375.

Ciampi A. et al. (1986). Multi-type Galton-Watson process as a model for pro-

liferating human tumour cell populations derived from stem cells : estimation
of stem cell self-renewal probabilities in human ovarian carcinomas. Cell
and Tissue Kinetics, 19 : 129-140.

Davidian M., Giltinan DM. (1995). Nonlinear Models for Repeated Measure-
ment Data. London, Chapman & Hall.

De Gunst MC., Luebeck EG. (1994). Quantitative analysis of two-dimensional

observations of premalignant clones in the presence or absence of malignant
tumors. Mathematical Biosciences, 119 : 5-34.

Dedrick RL. et al. (1970). Interspecies correlation of plasma concentration history

of methotrexate (NSC-740). Cancer Chemotherapy Reports, 54 : 95-101.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 162 — #198
i i

162 L’ ÉPIDÉMIOLOGIE HUMAINE

Düchting W., Vogelsaenger T. (1987). An approach of modelling and simula-

ting the spread of heterogeneous tumor cells in a three-dimensional tissue
segment. Computers and Mathematics with Applications, 14 : 783-792.

Dunson DB. (2000). Models for papilloma multiplicity and regression : appli-
cations to transgenic mouse studies (with erratum). Applied Statistics, 49 :
19-30.

Futreal PA. et al. (2004). A census of human cancer genes. Nature Reviews
Cancer, 4 : 177-183.

Greenland S. (2000). Principles of multilevel modelling. International Journal of

Epidemiology, 29 : 158-167.

Iversen S., Arley N. (1950). On the mechanism of experimental carcinogenesis.

Acta Pathologica Microbiologica Scandinavica, 27 : 773-803.

Kendall DG. (1952). Les processus stochastiques de croissance en biologie. An-

nales de l’Institut Henri Poincarré, 13 : 43-108.

Kendall DG. (1960). Birth and death processes and the theory of carcinogenesis.
Biometrika, 47 : 13-21.

Kerr GD. et al. (1976). A mathematical model of a phantom developed for use
in calculations of radiation dose to the body and major internal organs of a
japanese adult. Journal of Radiation Research, 17 : 211-229.

Kopp-Schneider A. (1997). Carcinogenesis models for risk assessment. Statisti-

cal Methods in Medical Research, 6 : 317-340.

Little MP., Wright EG. (2003). A stochastic carcinogenesis model incorporating

genomic instability ﬁtted to colon cancer data. Mathematical Biosciences,
183 : 111-134.

Michelson S. (1990). A system for Monte-Carlo simulation of heterogenous tu-

mor cell populations. Computers and Mathematics with Applications, 20 :
139-148.

Moolgavkar SH., Venzon J. (1979). Two-events models for carcinogenesis : in-

cidence curves for childhood and adult tumors. Mathematical Biosciences,
47 : 55-77.

Nordling CO. (1953). A new theory on the cancer-inducer mechanism. British

Journal of Cancer, 7 : 68-72.

Periti P. et al. (1979). Mathematical models of the neoplastic growth control.

Medical Biology and Environment, 7 : 185-214.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 163 — #199
i i

L A MODÉLISATION EN ÉPIDÉMIOLOGIE DU CANCER 163

Qi, A-S. et al. (1993). A cellular automaton model of cancerous growth. Journal
of Theoretical Biology, 161 : 1-12.
Radmacher MD. et al. (2001). Graph models of oncogenesis with an application
to melanoma. Journal of Theoretical Biology, 212 : 535-548.

Simeoni M. et al. (2004). Predictive pharmacokinetic-pharmacodynamic mo-

deling of tumor growth kinetics in xenograft models after administration of
anticancer agents. Cancer Research, 64 : 1094-1101.
Smolle J., Stettner H. (1993). Computer simulation of tumour cell invasion by a
stochastic growth model. Journal of Theoretical Biology, 160 : 63-72.
Teorell T. (1937). Kinetics of distribution of substances administered to the
body. Archives Internationales de Pharmacodynamie et de Thérapie, 57 :
205-240.
Tubiana M., Koscielny S. (1999). The rationale for early diagnosis of cancer —
The example of breast cancer. Acta Oncologica, 38 : 295-303.
van Leeuwen IMM., Zonneveld C. (2001). From exposure to effect : a compari-
son of modeling approaches to chemical carcinogenesis. Mutation Research-
Reviews in Mutation Research, 489 : 17-45.
Whittemore AS., Keller JB. (1978). Quantitative theories of carcinogenesis.
SIAM Reviews, 20 : 1-30.

i i

i i
i i
“epidemiologie” — 2006/5/11 — 9:29 — page 164 — #200
i i

i i

Vous aimerez peut-être aussi

Polycope de Cours Biostatistique
Pas encore d'évaluation
Polycope de Cours Biostatistique
83 pages
TCEM Tests-Statistiques Rappels
100% (1)
TCEM Tests-Statistiques Rappels
32 pages
Polycop Biostat Tome 1 Methodes Statistiques
100% (9)
Polycop Biostat Tome 1 Methodes Statistiques
118 pages
0PEintro Diapo
Pas encore d'évaluation
0PEintro Diapo
90 pages
Test Stat
Pas encore d'évaluation
Test Stat
59 pages
Biostatistique pour Médecins Débutants
Pas encore d'évaluation
Biostatistique pour Médecins Débutants
88 pages
2024 Cours Theories de La Decision - Gbio - Iut - Un
Pas encore d'évaluation
2024 Cours Theories de La Decision - Gbio - Iut - Un
31 pages
Ii-Application Des Maths en Biostatistique
Pas encore d'évaluation
Ii-Application Des Maths en Biostatistique
14 pages
Inference Statistique IFRI
Pas encore d'évaluation
Inference Statistique IFRI
54 pages
Designs Bayésiens Séquentiels de Groupe
Pas encore d'évaluation
Designs Bayésiens Séquentiels de Groupe
74 pages
La Régression Linéaire Et Ses Conditions D'application: Bulletin de L'Union Des Physiciens 353
Pas encore d'évaluation
La Régression Linéaire Et Ses Conditions D'application: Bulletin de L'Union Des Physiciens 353
17 pages
Poly. Stat Inferentielle
Pas encore d'évaluation
Poly. Stat Inferentielle
107 pages
Poly M1
Pas encore d'évaluation
Poly M1
96 pages
Épidémiologie Clinique et Études Cliniques
100% (1)
Épidémiologie Clinique et Études Cliniques
20 pages
Introduction À La Régression Logistique
Pas encore d'évaluation
Introduction À La Régression Logistique
13 pages
Test d'hypothèse statistique
Pas encore d'évaluation
Test d'hypothèse statistique
54 pages
Cours Biostatistique I 1ere Medecine (ALIA Zeid)
Pas encore d'évaluation
Cours Biostatistique I 1ere Medecine (ALIA Zeid)
79 pages
Ii-Application Des Maths en Épidémiologie
Pas encore d'évaluation
Ii-Application Des Maths en Épidémiologie
13 pages
Devoir de Statistique Inférentielle 2022-2023
Pas encore d'évaluation
Devoir de Statistique Inférentielle 2022-2023
5 pages
Initiation Demarche de Recherche Chapitre 7 2
Pas encore d'évaluation
Initiation Demarche de Recherche Chapitre 7 2
38 pages
Méthodologie et Analyse Statistique
Pas encore d'évaluation
Méthodologie et Analyse Statistique
15 pages
20 Ex 18 Lecture Critique Darticle
Pas encore d'évaluation
20 Ex 18 Lecture Critique Darticle
21 pages
Td3 Msag l3 Gestion 2023
100% (1)
Td3 Msag l3 Gestion 2023
2 pages
Causalité Et Stat Descriptive 21 Mars
Pas encore d'évaluation
Causalité Et Stat Descriptive 21 Mars
54 pages
Cours Khi Deux - A6 - DR BENELFEKIR
Pas encore d'évaluation
Cours Khi Deux - A6 - DR BENELFEKIR
9 pages
Statistiques Pour Les Nuls
100% (3)
Statistiques Pour Les Nuls
71 pages
Lpssa - Tests-Stat 2022-23 - M
Pas encore d'évaluation
Lpssa - Tests-Stat 2022-23 - M
47 pages
Anova À 2 Facteurs 2020
Pas encore d'évaluation
Anova À 2 Facteurs 2020
11 pages
Théorie Statistique: Exercices Avancés
Pas encore d'évaluation
Théorie Statistique: Exercices Avancés
7 pages
Tests Statistiques Paramétriques: Méthodes et Applications
Pas encore d'évaluation
Tests Statistiques Paramétriques: Méthodes et Applications
9 pages
Feuilletage 2734
Pas encore d'évaluation
Feuilletage 2734
25 pages
TD - Test-Stat - Lpssa-2024-25 Et
Pas encore d'évaluation
TD - Test-Stat - Lpssa-2024-25 Et
4 pages
Teste Statistique
Pas encore d'évaluation
Teste Statistique
33 pages
Le Cours de Biostatistiques
100% (2)
Le Cours de Biostatistiques
16 pages
Statistiques et Probabilités Avancées
Pas encore d'évaluation
Statistiques et Probabilités Avancées
1 page
MEDI-G-5591 Z 15449 SPL
Pas encore d'évaluation
MEDI-G-5591 Z 15449 SPL
460 pages
Plans d'expériences et modélisation
Pas encore d'évaluation
Plans d'expériences et modélisation
19 pages
Chimiométrie : Plans d'Expériences Optimisés
100% (1)
Chimiométrie : Plans d'Expériences Optimisés
39 pages
Cours de Statistique Inductive II Isscm Mulo
100% (1)
Cours de Statistique Inductive II Isscm Mulo
70 pages
Précis d'épidémiologie médicale en Algérie
Pas encore d'évaluation
Précis d'épidémiologie médicale en Algérie
479 pages
Etude Des Caractéristiques de Fonctionnement Fréquentistes Dans Le Cadre Des Designs Bayésiens
Pas encore d'évaluation
Etude Des Caractéristiques de Fonctionnement Fréquentistes Dans Le Cadre Des Designs Bayésiens
77 pages
Questions D Exams
Pas encore d'évaluation
Questions D Exams
5 pages
L'essentiel de La Biostatistique Pour Un Physicien Médical: Polycopié de Cours Avec Exercices Corrigés
Pas encore d'évaluation
L'essentiel de La Biostatistique Pour Un Physicien Médical: Polycopié de Cours Avec Exercices Corrigés
46 pages
Fiches de Révision Pour L'internat en Pharmacie - Statistiques
Pas encore d'évaluation
Fiches de Révision Pour L'internat en Pharmacie - Statistiques
47 pages
INTRODUCTION
Pas encore d'évaluation
INTRODUCTION
6 pages
Adl TSD 24-25
Pas encore d'évaluation
Adl TSD 24-25
4 pages
Chapitre 2 - Théorie de La Décision Statistiques
Pas encore d'évaluation
Chapitre 2 - Théorie de La Décision Statistiques
12 pages
Méthodologie de Recherche Et Biostatistiques - Syllabus Et Programme - M.D (Hom) - WBUHS
Pas encore d'évaluation
Méthodologie de Recherche Et Biostatistiques - Syllabus Et Programme - M.D (Hom) - WBUHS
5 pages
01 Epss 2018 2019 Intro Stat PDF
Pas encore d'évaluation
01 Epss 2018 2019 Intro Stat PDF
23 pages
CM Logistique
Pas encore d'évaluation
CM Logistique
56 pages
2022 TD Theories de La Decision Gbio3 Iut - Un
Pas encore d'évaluation
2022 TD Theories de La Decision Gbio3 Iut - Un
4 pages
Cours sur l'Échantillonnage et l'Estimation
Pas encore d'évaluation
Cours sur l'Échantillonnage et l'Estimation
16 pages
Banque de Biostatistique
Pas encore d'évaluation
Banque de Biostatistique
34 pages
Biostatistiques - Questions À Choix Multiples
Pas encore d'évaluation
Biostatistiques - Questions À Choix Multiples
4 pages
Statistique Bivariée
Pas encore d'évaluation
Statistique Bivariée
9 pages
Corrigé ModStat
Pas encore d'évaluation
Corrigé ModStat
5 pages
TD Biostatistique
Pas encore d'évaluation
TD Biostatistique
6 pages
M2 EPI Fiche Descriptive UEs
Pas encore d'évaluation
M2 EPI Fiche Descriptive UEs
41 pages
Programme Du Master Professionnel de Biostatistiques
Pas encore d'évaluation
Programme Du Master Professionnel de Biostatistiques
8 pages
Tests Statistiques: Normale, Proportion et Khi-deux
Pas encore d'évaluation
Tests Statistiques: Normale, Proportion et Khi-deux
4 pages
Introduction 1
Pas encore d'évaluation
Introduction 1
30 pages
01 - Module 1 - Leçon Introductive Les Fondamentauxde La Recherche - Dounedon
Pas encore d'évaluation
01 - Module 1 - Leçon Introductive Les Fondamentauxde La Recherche - Dounedon
16 pages
Méthodologie de Recherche Master
Pas encore d'évaluation
Méthodologie de Recherche Master
254 pages
Statistique Cours New
Pas encore d'évaluation
Statistique Cours New
28 pages
Fiche de TD D'element D'econometrie Unilu 2025
Pas encore d'évaluation
Fiche de TD D'element D'econometrie Unilu 2025
10 pages
Cours de Biostatistique : Estimation
100% (1)
Cours de Biostatistique : Estimation
7 pages
Initiation à la recherche scientifique
Pas encore d'évaluation
Initiation à la recherche scientifique
68 pages
Cours de Theorie Marketing (1) - 2
100% (3)
Cours de Theorie Marketing (1) - 2
12 pages
Cours Metrologie
100% (2)
Cours Metrologie
41 pages
Méthodes d'analyse des données discrètes
Pas encore d'évaluation
Méthodes d'analyse des données discrètes
143 pages
Introduction À La Politique Comparée CURSUS
Pas encore d'évaluation
Introduction À La Politique Comparée CURSUS
150 pages
Exercices de Krigeage et Variogrammes
Pas encore d'évaluation
Exercices de Krigeage et Variogrammes
9 pages
Variables Aléatoires: Discrètes et Continues
Pas encore d'évaluation
Variables Aléatoires: Discrètes et Continues
13 pages
Critique Méthodologique d'Articles Médicaux
Pas encore d'évaluation
Critique Méthodologique d'Articles Médicaux
41 pages
FICHE METHODE - La Dissertation
100% (1)
FICHE METHODE - La Dissertation
2 pages
Guide d'Orientation RIASEC
Pas encore d'évaluation
Guide d'Orientation RIASEC
33 pages
PHILO - COMPO REG. 2nd SEMEST. 1CD VF
Pas encore d'évaluation
PHILO - COMPO REG. 2nd SEMEST. 1CD VF
1 page
ANOVA à 1 facteur avec R
Pas encore d'évaluation
ANOVA à 1 facteur avec R
23 pages
Cours de Statistique Inferentielle 1 l2 LMD Statistique
100% (1)
Cours de Statistique Inferentielle 1 l2 LMD Statistique
38 pages
Maths 4 : Probabilités et Statistiques
Pas encore d'évaluation
Maths 4 : Probabilités et Statistiques
60 pages