Risques Génétiques et Données Familiales
Thèmes abordés
Risques Génétiques et Données Familiales
Thèmes abordés
THÈSE
présentée et soutenue publiquement le 7 Juillet 2009
pour l’obtention du
par
Flora ALARCON
Composition du jury
Président : Florence Demenais
"Un seul mot, usé, mais qui brille comme une vieille pièce de monnaie : merci !" (Pablo Neruda)
Je tiens à remercier tout particulièrement Catherine Bonaïti, ma directrice de thèse, pour sa disponi-
bilité, ses conseils. Merci pour tout ce que vous m’avez appris.
Je remercie également Catherine Bourgain pour avoir relu et corrigé mes articles et pour m’avoir remonté
le moral bien des fois.
Je remercie Françoise Clerget de m’avoir accueillie dans l’unité U535.
Je remercie sincèrement les membres de mon jury de thèse. Merci à Jean-Louis Golmard et Maria
Martinez qui ont bien voulu rapporter cette thèse. Merci à Nadine Andrieu, Dominique Stoppa-Lyonnet
et Florence Demenais d’avoir accepté de faire partie de mon jury.
Je souhaite remercier très chaleureusement Alfred Spira et Emmanuel Barillot de m’avoir fait confiance
et de m’avoir donner l’envie de poursuivre dans la recherche.
Je tiens à remercier mes compagnons de route, ceux qui sont passés et ceux qui sont restés.
Je commence bien sûr par Céline avec qui j’ai partagé mon bureau durant ces trois années. Merci d’avoir
pris le temps d’écouter mes problèmes de programme, d’écriture d’article. Merci pour toutes ces discus-
sions enrichissantes. Et je te renvoie le compliment, Céline, "Ta présence m’aura terriblement manqué
lors de la rédaction de ma thèse" et je bénis gmail !
Merci au "quatuor non cantinien" de m’avoir accompagnée dans cette dernière ligne droite. Merci à
Marie-Claude, Hervé, Emeline et Hélène pour tous ces déjeuners plaisants.
Comment remercier Marie-Claude ? Car tu es l’un de nos deux GI préférés mais tu as aussi relu mes
articles et presque toutes mes présentations. Enfin, tu as relu cette thèse. De tout ça, je te remercie !
Un merci particulier aussi à Hervé. Merci de m’avoir aidée dans mes programmes, de m’avoir écoutée
i
Remerciements
L’un des grand moment de cette thèse fut ma collaboration avec Hugo. En plus d’être un ami cher,
tu es le compagnon de travail idéal. Tu m’as beaucoup appris, bien plus encore que la EL...
J’aimerai aussi remercier mes amis. Merci à Pierre qui m’a initiée à la génétique. J’espère que nous
aurons l’occasion de travailler ensemble.
Merci aussi à Thieums, tu vas nous manquer !
Merci à Anne, Chacha, Virginie, Brubru, Guigui pour votre présence si précieuse.
Je remercie ma "petite famille" pour leur soutien. Merci de vous être toujours tellement intéressé à
tout ce que je faisais ! Merci à mon père, à mon parrain Philippe, à Tonio et à Jo ! Merci à Max !
Merci de tout mon coeur à ma mère qui fait toujours tout pour me rendre la vie plus simple. Merci de
m’aider, de m’aimer comme tu le fais !
Enfin, merci merci merci...à mes tendres, mes doux, mes merveilleux amours !
Colombine, tu fais de ma vie un enchantement !
Fred, c’est bien toi ma plus belle rencontre...
Flora
ii
A Colombine, la parenthèse enchantée de cette thèse.
iii
Remerciements
iv
Table des matières
Introduction 1
1 État de l’Art 5
1.1 L’analyse de ségrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1 Les méthodes dites "simples" . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Les méthodes dites "complexes" . . . . . . . . . . . . . . . . . . . . . 8
1.1.2.1 Vraisemblance du modèle pour les généalogies . . . . . . . . 8
1.1.2.2 Les modèles généraux . . . . . . . . . . . . . . . . . . . . . 10
1.1.2.3 Prise en compte des âges de début variable . . . . . . . . . . 11
1.2 Données génétiques familiales pour l’estimation de la pénétrance . . . . . . . . 13
1.2.1 Recensement sur critères indépendants de l’histoire familiale . . . . . . 14
1.2.2 Recensement sur critères familiaux . . . . . . . . . . . . . . . . . . . 14
1.3 Les méthodes d’estimation de la pénétrance . . . . . . . . . . . . . . . . . . . 16
1.3.1 La méthode "kin-cohort" . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.2 Les vraisemblances proposées par Kraft et Thomas . . . . . . . . . . . 17
1.3.3 La vraisemblance prospective . . . . . . . . . . . . . . . . . . . . . . 18
1.3.4 La vraisemblance rétrospective . . . . . . . . . . . . . . . . . . . . . . 19
1.3.5 La Genotype Restricted Likelihood (ou GRL) . . . . . . . . . . . . . . 20
1.3.6 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
v
Table des matières
vi
4.4 Étude de l’hétérogénéité de la pénétrance de la NAH dans la population suédoise 73
4.4.1 Description des données . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.5 Conclusion et Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
vii
Table des matières
Publications 165
Bibliographie 169
viii
Table des figures
3.1 Structure des familles avec : (1) La famille nucléaire de l’index et le couple
ancêtre (famille A) ; (2) famille A + les membres de la famille nucléaire se-
condaire avec un atteint et pas de génotype connu (famille de type A+B+C ou
A+B) ; (3) famille A + la famille nucléaire secondaire avec deux apparentés at-
teints et pas de génotype connu (famille de type A+C) ; (4) tous les membres de
la famille. Le cas index est marqué par une flèche. . . . . . . . . . . . . . . . . 37
ix
Table des figures
x
Liste des tableaux
xi
Liste des tableaux
xii
Introduction
L’épidémiologie génétique s’intéresse à la mise en évidence des facteurs de risque et, plus
particulièrement ceux d’origine génétique, dans les maladies humaines. Les premiers facteurs
génétiques ont été découverts pour des maladies dites monogéniques ou mendéliennes, qui sont
des maladies dues à une mutation délétère rare dans un seul gène. Pour ces maladies, une agré-
gation familiale a été démontrée grâce à l’analyse de ségrégation, et la ségrégation du trait a été
expliquée par un mode génétique simple, récessif ou dominant.
Aujourd’hui, les études en épidémiologie génétique portent également sur des maladies dites
multifactorielles, qui résultent de la combinaison complexe de facteurs multiples aussi bien gé-
nétiques qu’environnementaux. Parmi ces maladies complexes, certaines possèdent des sous-
entités mendéliennes, c’est-à-dire des formes rares, dues à une ou plusieurs mutation(s) dans un
seul gène. Ces sous-entités, que l’on peut aussi appeler monogéniques, sont caractérisées par
un risque beaucoup plus élevé et/ou un âge d’apparition plus jeune que celui de la maladie en
population générale.
Pour ces sous-entités aussi bien que pour les maladies mendéliennes, l’estimation du risque
morbide associée à une mutation génétique (que l’on appelle fonction de pénétrance) en fonc-
tion de l’âge, est un défi majeur en santé publique car il permet non seulement une prise en
charge adaptée mais également de mieux comprendre la maladie.
L’estimation des risques se fait presque toujours à partir de données familiales. Ces familles
ne sont pas recensées aléatoirement dans la population mais à partir d’individus atteints dont
les apparentés sont susceptibles de porter le ou les génotypes à risque. L’estimation de la péné-
1
Introduction
L’objectif de ce travail de thèse a été d’étudier puis de développer des méthodes permettant
l’estimation de la fonction de pénétrance en fonction de l’âge, à partir de données familiales, en
tenant compte du mode de recensement des familles.
Nous nous sommes intéressés, dans un premier temps, à l’étude d’une méthode asymptotique-
ment sans biais, fournissant des estimations de la pénétrance au moyen de familles recensées
sur des critères pouvant être complexes ou mal définis. Nous avons étudié l’efficacité relative de
cette méthode dans le cas où plusieurs individus n’étaient pas génotypés dans la famille. Nous
nous sommes intéressés également au comportement de la méthode selon les apparentés inclus
ou non dans la généalogie.
Ensuite, nous avons entrepris de développer une méthode, basée sur une approche paramétrique,
permettant d’estimer la fonction de pénétrance en prenant en compte le fait que les familles ont
été recensées sur l’existence d’au moins un individu atteint. Puis, nous avons étudié cette mé-
thode et l’avons comparé à une méthode déjà existante.
Enfin, nous avons développé une seconde méthode, permettant également d’estimer la péné-
trance dans le cas de familles recensées sur l’existence d’au moins un atteint dans la famille
2
mais à l’aide d’une approche non-paramétrique.
Ce manuscrit est construit en cinq chapitres. Après une brève description des méthodes
d’analyse de ségrégation qui ont permis les premières estimations de risque, le chapitre 1 pré-
sentera un état de l’art sur l’estimation des risques de maladies dues à des mutations génétiques
rares. Le second chapitre présentera la méthodologie commune utilisée dans les chapitres 3 et
4 pour l’estimation de la fonction de pénétrance à partir de données familiales. Dans le troi-
sième chapitre, nous présenterons l’étude d’efficacité relative que nous avons menée sur une
méthode d’estimation de la pénétrance à partir de familles recensées sur des critères complexes.
Dans un quatrième chapitre, nous exposerons une méthode d’estimation paramétrique que nous
avons développée afin d’estimer la pénétrance en tenant compte du biais de recensement à par-
tir de familles recensées sur des critères indépendants de l’histoire familiale. Nous illustrerons
notre méthode à l’aide de plusieurs jeux de données, l’un portant sur des familles françaises
atteintes d’une maladie mendélienne : la neuropathie amyloïde héréditaire ; l’autre, portant sur
des familles françaises atteintes d’une maladie complexe à sous-entité monogénique : le cancer
du sein. Nous présenterons également une application sur des familles suédoises atteintes de
neuropathie amyloide héréditaire. Dans le chapitre 5, nous présenterons une méthode que nous
avons développée. Il s’agit d’une méthode non-paramétrique basée sur la vraisemblance empi-
rique, qui permet également l’estimation de la fonction de pénétrance.
Enfin, nous conclurons ce travail en essayant de dégager les points importants de cette recherche
et les perspectives à envisager.
3
Introduction
4
Chapitre 1
État de l’Art
5
Chapitre 1. État de l’Art
type de modèle génétique associé. Enfin, nous présenterons les différentes méthodes permettant
d’estimer la fonction de pénétrance en prenant en compte le recensement des familles mais aussi
les âges variables de début de la maladie ainsi que l’information génotypique des individus.
L’analyse de ségrégation vise à détecter l’existence et à spécifier la nature d’un facteur géné-
tique susceptible d’expliquer les distributions familiales observées d’un phénotype donné. Elle
utilise comme unité d’échantillonnage un groupe de sujets apparentés, la famille. Il s’agit de la
première étape nécessaire pour déterminer, à partir de données familiales, le mode de transmis-
sion d’un phénotype, avec comme but principal, l’identification d’un gène ayant un effet fort
que nous appellerons gène "majeur".
Classiquement, la méthode d’analyse de ségrégation dite "simple" consistait à tester si la
transmission du caractère dans les familles était en accord avec les lois de l’hérédité mendé-
lienne monogénique.
Or, dans de nombreux cas, un tel mécanisme simple ne permet pas d’expliquer les concentra-
tions familiales observées. Dans cette situation, on peut chercher s’il existe un "gène majeur",
c’est-à-dire un gène qui explique une partie importante de la variabilité du caractère, parmi
l’ensemble des facteurs qui déterminent ce caractère. Des méthodes d’analyse de ségrégation
dites "complexes" ont été développées dans ce but.
Généralement, pour que les observations apportent suffisamment d’information sur la sé-
grégation du trait, les familles sont recensées à partir de la population d’étude, non pas aléa-
toirement, mais en fonction de certaines considérations portant sur le phénotype étudié. Ces
familles ne sont pas détectées "en bloc" mais par l’intermédiaire d’un (ou plusieurs) de ses
membres ayant un phénotype particulier. La première étape consiste à recueillir un échantillon
de malades par les méthodes classiques, en s’adressant aux secteurs susceptibles de voir de tels
malade : services hospitaliers, instituts spécialisés, etc. La deuxième étape consiste à contacter
la famille de chaque malade et à établir un diagnostic pour les membres de la famille que l’on
6
1.1. L’analyse de ségrégation
Le schéma de recensement des individus par lesquels la famille est sélectionnée (on les
appelle les proposants) doit donc être pris en compte dans les méthodes d’analyse de ségréga-
tion.
– La "méthode du proposant" de Weinberg [47, 14]. Il s’agit d’une méthode intuitive ba-
sée sur le constat qu’un proposant (c’est-à-dire un individu atteint et recensé) fournit
l’information que ses parents sont capables d’engendrer un enfant malade. Le reste des
individus de la fratrie, sans le proposant, fournit alors une estimation sans biais du rap-
port entre individus malades et individus sains. Dans le cas de plusieurs proposants par
familles, l’auteur propose de dupliquer les familles autant de fois qu’il y a de proposants.
Crow a montré que "la méthode du proposant" de Weinberg fournissait une estimation
consistante du ratio de ségrégation [14]. La preuve est donnée en Annexe A.
– Morton a développé un modèle de recensement [33] qui s’applique à des familles nu-
cléaires et qui a été très utilisé à cause de sa simplicité dans la procédure de correction.
Il introduit la probabilité π qu’un cas, choisi aléatoirement dans la population, soit sélec-
tionné comme étant un proposant. Dans la situation où π = 1 (que l’on appelle sélection
tronquée), toutes les familles avec au moins un cas seront incluses dans l’analyse. Dans
la situation contraire où π → 0 (que l’on appelle sélection unique), la probabilité qu’une
7
Chapitre 1. État de l’Art
famille soit recensée est proportionnelle au nombre d’atteints dans la famille. Dans ce
cas, les familles avec plusieurs atteints seront sur-représentées.
Dans les situations intermédiaires où 0 < π < 1 (que l’on appelle sélection multiple), les
familles possédant plusieurs proposants sont très probables.
– Cannings et Thompson [8] ont proposé une stratégie pour reconstruire la généalogie une
fois le proposant identifié. Ils ont montré qu’en adoptant leur stratégie, le fait de corriger
uniquement pour le recensement initial, permet de s’affranchir du biais de recensement
de l’analyse.
Les méthodes dites "complexes" ont été développées afin de tester différentes hypothèses
de transmission génétique dans le cas de maladies complexes. La méthodologie statistique est
basée sur le maximum de vraisemblance. Le principe est de construire des modèles généraux
qui vont emboîter les modèles génétiques que l’on veut tester. Pour cela, on a besoin de calculer
la vraisemblance du modèle pour les généalogies.
Avant de définir la vraisemblance du modèle pour une famille, nous allons définir précisé-
ment la fonction de pénétrance.
Si on note B l’allèle non muté, b l’allèle muté et P hen le phénotype, on peut définir trois
pénétrances :
fbb = P(P hen = atteint|Gen = bb)
8
1.1. L’analyse de ségrégation
phénotype avec un âge de début variable, la pénétrance est nécessairement une fonction de l’âge.
La vraisemblance du modèle pour une généalogie est la probabilité d’observer les phéno-
types (P hen) sachant les paramètres du modèle, θ = (f, q), où f représente le vecteur des
pénétrances f = (fbb , fbB , fBB ), q représente la fréquence de l’allèle muté et A représente le
recensement des familles. Elle s’écrit :
X
P(P hen|θ) = P(P hen, Gen = g|θ)
g
X
= P(P hen|Gen = g; θ)P(Gen = g|θ)
g
X
= P(P hen|Gen = g; f )P(Gen = g|q),
g
et,
P(Gen) = P(Gen1 )P(Gen2 |Gen1 )...P(Genn |Gen1 . . . Genn−1 )
Si on suppose les lois de Mendel, les génotypes des enfants ne dépendent que des génotypes
des parents. Pour les individus fondateurs, les génotypes dépendent des fréquences alléliques.
La difficulté majeure dans le calcul des probabilités génotypique est que l’ensemble des combi-
naisons génotypiques possibles peut être très grand. Pour parer à ce problème, Elston et Stewart
ont proposé un algorithme récursif [21] de sorte que la complexité du calcul n’augmente pas
exponentiellement mais linéairement avec la taille de la généalogie.
Cependant, les familles ne sont pas recensées aléatoirement en population mais à travers
un individu atteint : le proposant. La prise en compte du recensement se fait alors à l’aide
9
Chapitre 1. État de l’Art
où, A représente l’évènement "la famille a été recensée". Le dénominateur peut s’écrire :
X
P(A|θ; π) = P(A|P hen = y; π)P(P hen = y|θ).
y
Les modèles généraux vont donc emboîter les modèles génétiques et vont nous permettre de
les tester par la méthode du maximum de vraisemblance. Parmi ces modèles généraux, le mo-
dèle des probabilités de transmission (appelé aussi modèle des taux de transmission) permet
de tester si la transmission est bien monogénique en fabriquant un sur-modèle où l’on suppo-
sera que la transmission des allèles d’une génération à l’autre ne suit pas nécessairement les lois
de Mendel. Elston et Stewart [21] ont donc introduit les probabilités de transmission. De cette
façon, le modèle où les probabilités de transmission sont mendéliennes sera comparé au modèle
où ces probabilités sont libres, comprises entre 0 et 1. Mais ce modèle permet uniquement de
tester le modèle monogénique. Pour pouvoir tester également le modèle polygénique, on utilise
le modèle mixte proposé par Morton et MacLean [34] qui suppose que la susceptibilité à la ma-
ladie est la somme de trois composantes indépendantes qui sont la composante monogénique,
la composante polygénique et la composante environnementale.
Enfin, le modèle unifié, proposée par Lalouel et al. [30], est la combinaison des deux modèles
précédents. Ce modèle permet de se prémunir contre un modèle monogénique qui simulerait
l’existence d’un gène majeur.
10
1.1. L’analyse de ségrégation
Dans les maladies à âge de début variable, on doit tenir compte du fait que les individus non
atteints de la famille pourraient développer la maladie par la suite. Dans ce cas, la pénétrance
est le risque cumulé à un âge donné.
Abel et al. [1] ont développé un modèle de régression logistique incluant une méthode d’ana-
lyse de survie afin de prendre en compte, dans l’analyse de données familiales, le problème
d’âge de début variable ainsi que des covariables dépendantes du temps. Cette méthode est une
extension du modèle de régression logistique introduit par Bonney [7]. La méthode est basée
sur la modélisation de la probabilité d’être atteint à l’intérieur d’un certain intervalle de temps.
L’analyse de survie permet de modéliser la fonction de pénétrance. Si on note F (t), la fonction
de pénétrance variant avec l’âge pour les porteurs de la mutation, on a :
1 − F (t ) Si i n’est pas atteint à l’âge ti
i
P(P heni |Geni ) =
F (t + 1) − F (t ) Si i est atteint entre t et t
i i i i+1
11
Chapitre 1. État de l’Art
une maladie donnée, une fois que l’existence d’un gène a été détectée grâce à l’analyse de
ségrégation, puis identifié par analyse de liaison, il est préférable d’estimer la fonction de péné-
trance en utilisant l’information phénotypique mais également l’information génotypique. Ceci
présente le double avantage d’avoir une meilleure information et de pouvoir mettre en place des
stratégies de prise en charge et de suivie plus adaptées. Cependant, le problème du recensement
des familles demeurent et doit toujours être pris en compte dans les modèles d’estimations de
la fonction de pénétrance.
12
1.2. Données génétiques familiales pour l’estimation de la pénétrance
La méthode utilisée afin d’estimer la pénétrance va donc dépendre du type de protocole qui
a permis le recensement des familles mais également du modèle génétique de la maladie.
13
Chapitre 1. État de l’Art
On peut cependant distinguer deux types de recensement pour les données familiales : le re-
censement sur critères familiaux et le recensement sur critères indépendants de l’histoire
familiale.
Dans le cas de maladies mendéliennes, des critères simples suffisent à recruter des familles
comportant des individus porteurs d’une mutation prédisposante (on dit alors que les familles
sont informatives). Ainsi, le fait de recenser la famille sur la présence d’au moins un atteint est
suffisant pour détecter la présence de la mutation dans cette famille. On parlera alors de recen-
sement sur critères indépendants de l’histoire familiale.
Par ailleurs, il a été démontré que dans les maladies complexes à sous-entités monogéniques,
les cas dus à une mutation prédisposante apparaissaient à des âges précoces par rapport aux
cas sporadiques [11]. Dans ce cas, l’inclusion d’un critère d’âge à la sélection va augmenter la
probabilité pour un atteint de porter la mutation et va nous permettre d’avoir des familles infor-
matives. Ce mode de recensement est alors une alternative au mode de recensement sur critères
familiaux dans le cas des maladies complexes à sous-entité monogénique.
14
1.2. Données génétiques familiales pour l’estimation de la pénétrance
doivent être atteintes et au moins un des cancers doit être diagnostiqué avant 50 ans [10].
Lorsque l’on étudie des maladies complexes à sous-entités monogéniques, les critères utilisés
seront donc plus généralement des critères familiaux. D’autres critères peuvent s’y ajouter. Par
exemple l’expertise de 2003 [20] a proposé un certain nombre de critères évocateurs d’une
prédisposition héréditaire au cancer du sein dans une famille :
– Le nombre de cas de cancer du sein chez une personne de premier ou deuxième degré
dans la même branche parentale.
– La précocité de survenue du cancer du sein (40 ans ou moins).
– La présence de cancer de l’ovaire.
– L’existence de tumeurs primitives multiples sein-ovaire.
– La présence de cancer du sein chez l’homme.
La combinaison de ces critères sert à poser les indications de conseil génétique et de re-
cherche de mutations des deux gènes actuellement identifiés, BRCA1 et BRCA2, selon un prin-
cipe de score.
15
Chapitre 1. État de l’Art
On se place toujours dans le cas où le modèle génétique est connu. Plusieurs méthodes ont
été développées, selon le contexte, pour estimer la fonction de pénétrance en fonction de l’âge
et en utilisant l’information génotypique. On remarquera que toutes ces méthodes sont basées
sur une approche paramétrique.
La méthode "kin-cohort" (the kin-cohort design) [45] a été développée afin d’estimer la pé-
nétrance chez des individus volontaires, porteurs des mutations spécifiques BRCA1 et BRCA2
prédisposantes aux cancers du sein et de l’ovaire parmi la communauté Juifs Ashkenazes des
Etats-Unis. Cette méthode consiste à comparer la proportion d’apparentés atteints entre les por-
teurs et les non-porteurs de la mutation dans une population dans laquelle la mutation est rela-
tivement fréquente.
Dans leur article [45], Wacholder et al. constituent, à partir de leurs données, deux échantillons
distincts. Le premier échantillon, appelé les "Kin carriers", est constitué des apparentés du pre-
mier degré des volontaires qui sont porteurs de la mutation prédisposante. Le second échan-
tillon, appelé les "kin non-carriers" est constitué des apparentés des volontaires qui sont non-
porteurs. Une fois constitués ces deux sous-échantillons, le risque cumulé de développer la ma-
ladie avant t chez les "kin carriers" et les "kin non-carriers" s’écrit en fonction de la fréquence
de l’allèle muté en population (p) et des proportions d’individus atteints avant t respectivement
chez les "kin carriers" (R+ ) et chez les "kin non-carriers"(R− ). La pénétrance est donc une
fonction de (p, R+ , R− ).
Ce modèle est aussi appelé "genotype-proband design" (GPD) [23], qui insiste sur le fait
que seul le proposant est génotypé. Ce modèle a été étendu au modèle GPDR, pour "Genotype
Proband Design with supplemental genotype of Relatives", dans lequel un ou deux apparentés
sont génotypés dans chaque famille nucléaire.
L’un des intérêts de ce type de méthode est qu’il ne nécessite aucune correction.
16
1.3. Les méthodes d’estimation de la pénétrance
Cependant, ce type de méthode requiert de grands échantillons d’individus atteints et non at-
teints et il s’applique à des maladies fréquentes dans lesquelles la mutation prédisposante est
elle aussi fréquente. De plus, ces méthodes font appel à des volontaires et cela peut entraî-
ner un biais car les individus ayant une histoire familiale de la maladie étudiée peuvent être
plus fréquemment volontaires que les individus sans histoire familiale de la maladie. Cette sur-
représentation des individus avec une histoire familiale peut entraîner une surestimation de la
pénétrance.
Lorsque les maladies sont rares ou lorsque la mutation prédisposante est rare, les données
familiales doivent impérativement être sélectionnées sous d’autres critères. Dans ce cas, la mé-
thode "kin-cohort" ne s’applique plus puisque une correction pour la sélection doit être prise en
compte dans les méthodes.
Kraft et Thomas ont présenté quatre types de vraisemblance qui permettent d’estimer le
risque en tenant compte du recensement des familles : les vraisemblances prospective, rétros-
pective, jointe et conditionnelle [28].
Nous noterons P hen la variable aléatoire représentant le phénotype (atteint/non atteint) ; Gen
la variable aléatoire représentant le génotype (porteur de la mutation/ non porteur de la muta-
tion) et Sel représentant l’évènement "la famille est recensée". Les génotypes ne sont pas tous
connus mais l’information sur le génotype d’un individu apporte de l’information sur les géno-
types des membres de la famille.
Nous cherchons donc à estimer la fonction de pénétrance. Pour cela, nous modéliserons notre
fonction de pénétrance par une loi connue, de paramètre θ inconnu.
La vraisemblance jointe est la probabilité des phénotypes et des génotypes conditionnellement
au fait que la famille a été sélectionnée, P(P hen, Gen|Sel). Cette vraisemblance nécessite,
comme la vraisemblance prospective, la modélisation explicite des critères de sélection. Pour
l’estimation de la pénétrance, la vraisemblance jointe et la vraisemblance prospective sont équi-
valentes. Quant à la vraisemblance conditionnelle, d’après Kraft et Thomas, elle n’est pas adap-
tée à l’estimation du risque cumulé et ne permet d’estimer que le risque relatif. De plus, elle est
17
Chapitre 1. État de l’Art
Kraft et Thomas ont étudié l’efficacité de ces vraisemblances lors de l’estimation du risque
associé à une mutation à partir de données phénotypiques et génotypiques issues de fratries
sélectionnées sur l’existence d’au moins un atteint et un non atteint, sans imposer l’existence
d’un individu porteur. Le phénotype était donc binaire (atteint/non atteint) et le risque était in-
dépendant du temps. Il est donc difficile d’extrapoler à partir de cette étude sur l’intérêt de ces
vraisemblances sur des données issues de familles sélectionnées au moyen de critères phénoty-
piques et génotypiques dans le cas d’une maladie à âge de début variable. Carayol et Bonaïti-
Pellié [9] ont choisi de développer la vraisemblance rétrospective car elle permet d’estimer le
risque sans avoir à écrire explicitement les critères de sélection.
Outre la vraisemblance rétrospective, nous avons choisi de nous intéresser plus précisément à
la vraisemblance prospective plutôt qu’à la vraisemblance jointe car elle a déjà été utilisée pour
estimer la pénétrance sur des données de neuropathie amyloïde [38]. De plus, son efficacité
pour l’estimation de la pénétrance dans l’étude de Kraft et Thomas est très proche de celle de
la vraisemblance jointe, qui est la plus efficace.
18
1.3. Les méthodes d’estimation de la pénétrance
pitre.
La vraisemblance rétrospective s’applique dans le cas où les familles ont été recensées sur
des critères complexes et lorsque ces critères sont difficilement modélisables. Elle est basée sur
la modélisation de la distribution des génotypes conditionnellement aux phénotypes. Pour une
famille f donnée, la Vraisemblance Rétrospective (VR) s’écrit :
19
Chapitre 1. État de l’Art
tionnement que la vraisemblance rétrospective mais en corrigeant sur le fait que la sélection
n’est pas indépendant des génotypes observés. Ils ont appelé cette méthode la GRL pour "Ge-
notype Restricted Likelihood" [9].
1.3.6 Récapitulatif
Le tableau 1.1 donne un récapitulatif des avantages et des inconvénients des différentes
méthodes pour l’estimation de la pénétrance présentées dans ce chapitre.
20
TAB . 1.1 – Tableau récapitulatif des avantages et inconvénients de chacunes des méthodes
La vraisemblance conditionnelle Elle n’est pas adaptée à l’estimation du risque Elle ne nécessite pas la modélisation explicite des
cumulé. critères de recensement.
La vraisemblance prospective Elle nécessite la modélisation explicite du mode de Elle est efficace selon l’étude de Kraft et Thomas.
recensement des familles.
La GRL Elle est probablement peu efficace car basée sur la • Elle ne nécessite pas la modélisation explicite
vraisemblance rétrospective des critères de recensement.
• Elle tient compte du fait que le recensement
dépend des génotypes.
21
Chapitre 1. État de l’Art
22
Chapitre 2
Dans ce chapitre, nous allons mettre de côté le problème du recensement des familles pour
exposer la méthodologie commune adoptée dans les différentes vraisemblances qui seront étu-
diées et/ou développées dans les chapitres 3 et 4. Nous garderons tout de même à l’esprit que
les familles sont recensées au travers d’un individu atteint et génotypé que nous appelons "pro-
posant".
Nous décrirons également la façon dont nous avons simulé nos familles. En effet, dans ce travail
de thèse, nous avons étudié et comparé des méthodes d’estimation de la pénétrance en terme
de biais relatif. Afin de contrôler la "vraie" fonction de pénétrance, nous avons donc simulé des
familles sous différentes valeurs de la pénétrance, puis nous avons estimé la fonction de péné-
trance à partir de nos échantillons simulés.
Nous commencerons, dans ce chapitre, par décrire les paramètres communs qui interviennent
dans les vraisemblances ainsi que l’information utilisée à partir des données familiales. Nous
décrirons ensuite la modélisation de la fonction de pénétrance et les paramètres à estimer. Enfin,
nous exposerons le principe commun de nos simulations.
23
Chapitre 2. Approche méthodologique du problème
Y Y
Pω = P(Gen1,ω , ..., Gennf ,ω ) = P(Genj,ω ) P(Geni,ω |Genm,ω , Genn,ω ),
j {l,m,n}
où j représente le nombre d’individus fondateurs (i.e. les individus n’ayant pas de parents
présents dans la généalogie) et {l, m, n} représente le triplet d’un individu l et de ses deux pa-
rents m et n.
Pω est donc une fonction de la fréquence de l’allèle délétère dans la population générale (nous
faisons l’hypothèse de l’équilibre de Hardy-Weinberg chez les fondateurs), mais cette probabi-
lité dépend également des génotypes des parents (nous faisons l’hypothèse d’une transmission
mendelienne) ainsi que du taux de mutation de novo.
Pratiquement, Pω peut se calculer informatiquement en utilisant l’algorithme de Elston et Ste-
wart [21] à condition d’avoir au moins un génotype observé dans la famille (celui du proposant).
L’algorithme de Elston et Stewart permet en effet de calculer la probabilité des phénotypes ob-
servés pour une généalogie familliale en partant des descendants et en remontant vers l’ancêtre.
Pour ce faire, ils s’appuient sur une relation de récurrence entre la probabilité des parents et
24
2.2. Modélisation de la fonction de pénétrance et contribution des individus à la vraisemblance
Chez les porteurs de la mutation, nous avons modélisé la fonction de pénétrance par le
modèle de Weibull étendu par J. Carayol pour l’analyse des données de neuropathie amyloïde
héréditaire [38] :
25
Chapitre 2. Approche méthodologique du problème
Dans les deux chapitres suivants, nous avons donc utilisé une approche paramétrique qui
consiste à faire une hypothèse de distribution (ou loi de probabilité) sur F(t), c’est la partie mo-
délisation, puis dans un second temps à estimer les paramètres inconnus de cette distribution
(α, λ, κ) en maximisant notre vraisemblance.
Cependant, les vraisemblances L que nous décrirons dans les deux prochains chapitres ne
vérifient pas les conditions de régularité (c’est-à-dire qu’elles ne sont pas dérivables deux fois
en le paramètre). En pratique, l’estimation des paramètres (κ, λ, α) a donc été obtenue par la
maximisation de la log-vraisemblance globale grâce au programme GEMINI [29] qui utilise
l’algorithme de Davidon-Fletcher- Powell qui est une méthode dite de quasi-Newton.
Nous avons simulé nos familles sur trois générations de taille et de structure fixe. Pour simu-
ler l’âge des individus au sein des familles, nous avons utilisé des paramètres démographiques
obtenus auprès de l’INED (Institut National d’Études Démographiques) [37].
Dans nos simulations, nous avons supposé une transmission autosomique dominante du gène
muté avec un risque cumulé variant avec l’âge. Les génotypes ont été attribués de façon aléa-
toire aux individus fondateurs en fonction de la fréquence de l’allèle délétère en population (i.e.
pour les ancêtres et les conjoints). Pour les autres membres de la famille, les génotypes ont
été affectés aléatoirement en fonction des lois de Mendel. Nous avons supposé que le taux de
mutation de novo, pn, était nul. La fréquence de l’allèle délétère, f q, a été fixée à 0.1 ou 0.01
selon la méthode étudiée.
Les phénotypes ont été simulés selon une fonction de pénétrance basée sur le modèle de Weibull
étendu (présenté dans la section précédente). Pour plus de simplicité, le paramètre α a été fixé à
3 et les paramètres κ et δ, spécifiques au modèle étendu, ont été fixés à 0 dans nos simulations.
Chez les individus porteurs de l’allèle muté, nous avons considéré deux valeurs pour le λ du
modèle de Weibull. La première valeur correspond à une pénétrance que nous appellerons pé-
nétrance basse et la seconde correspond à une pénétrance que nous appellerons pénétrance
haute. Les valeurs de ces pénétrances varieront selon la vraisemblance étudiée.
26
2.3. Principe de simulation des familles
Pour les non porteurs de la mutation, nous avons considéré deux valeurs de risque selon le type
de maladie étudiée. Dans le cas de maladies mendéliennes pour lesquelles tous les individus
atteints sont porteurs, nous avons considéré logiquement un risque nul d’être atteint chez les
non mutés. En revanche, dans le cas de maladies complexes à sous entités monogéniques, pour
lesquelles seule une partie des individus atteints est porteur de la mutation prédisposante, nous
avons considéré un risque cumulé égal au risque cumulé en population générale.
Dans la suite du manuscrit, nous noterons MM, le modèle de Maladies Mendéliennes et MCSM,
le modèle de Maladies Complexes à Sous-entités Monogéniques.
Nous avons ensuite simulé le processus de sélection de nos familles en tentant de calquer la
réalité des processus de recensement. La sélection étant dépendante du protocole sous-jacent
ainsi que du modèle génétique de la maladie, nous décrirons donc la simulation de la sélection
précisément dans les chapitres suivants.
27
Chapitre 2. Approche méthodologique du problème
2.4 Conclusion
La méthodologie décrite ci-dessus suffirait à estimer la fonction de pénétrance si les familles
étaient recensées aléatoirement en population. Or, ce n’est pas le cas puisqu’elles sont recensées
au travers d’un proposant lui-même sélectionné selon des schémas de sélections dépendant
du modèle génétique et du protocole sous-jacent. Les vraisemblances utilisées pour estimer la
fonction de pénétrance doivent donc impérativement prendre en compte le mode de recensement
des familles pour s’affranchir du biais de recensement.
Dans les chapitres 3 et 4, nous avons donc comparé différentes vraisemblances tenant compte
du mode de recensement des familles, en terme de biais relatif et d’efficacité relative selon la
proportion de génotypes inconnus. Nous avons également développé une méthode d’estimation
de la pénétrance avantageuse dans le cas de familles recensées sur des critères indépendants de
l’histoire familiale.
28
Chapitre 3
Dans ce chapitre, nous nous intéressons à l’étude d’une méthode d’estimation dans le cas
de données familiales recensées sur des critères familiaux. Ces critères sont utilisés lorsqu’au-
cune autre caractéristique clinique ne permet de différencier les formes héréditaires des autres.
C’est le cas en particulier des données issues de familles dans lesquelles une mutation a été
recherchée et identifiée chez un individu atteint à la suite d’une consultation de génétique. Cet
individu est alors appelé le cas index, il s’agit du premier individu génotypé (il peut y avoir
plusieurs proposants mais il n’y a qu’un seul cas index). Si une mutation génétique est trouvée
chez le cas index, le test génétique est alors proposé aux membres de sa famille susceptibles de
porter cette mutation. Ceux qui sont porteurs font alors l’objet d’une surveillance particulière
pour dépister la maladie le plus tôt possible et améliorer le pronostic vital.
Dans la plupart des cas, les critères de recensement sont tels qu’il est impossible de les modéli-
ser formellement, comme c’est le cas, par exemple, dans les recommandations aux cancers du
sein que nous avons citées dans le premier chapitre.
29
Chapitre 3. Etude de la Genotype Restricted Likelihood (ou GRL)
puisqu’un test génétique est proposé aux apparentés du cas index, uniquement si ce dernier est
porteur de la mutation.
La Genotype Restricted Likelihood (ou GRL), proposée par Carayol et Bonaïti-Pellié [9], rem-
plit ces critères et permet donc d’estimer la pénétrance en s’affranchissant complètement du
biais de recensement.
Par ailleurs, l’information phénotypique sur une personne est plus facilement accessible que
l’information génotypique pour laquelle se pose le problème des génotypes manquants. En ef-
fet, un test génétique est proposé aux apparentés du cas index, par l’intermédiaire de ce dernier,
mais ceux-ci ne demandent pas toujours à en bénéficier.
Même si l’avantage de disposer d’individus apparentés est que la connaissance du génotype des
uns apporte une information sur le génotype des personnes non génotypées, le fait d’avoir un
grand nombre de génotypes inconnus peut diminuer significativement l’efficacité de la méthode
d’estimation.
Dans ce chapitre, nous décrirons précisément la GRL qui est une méthode d’estimation
paramétrique basée sur la modélisation des phénotypes conditionnellement aux génotypes. Puis
nous présenterons l’étude d’efficacité relative que nous avons mené sur la GRL. Enfin nous
discuterons les résultats.
30
3.1. La Genotype Restricted Likelihood (ou GRL)
Carayol et al. ont montré que, pour une famille donnée, la probabilité que la famille soit
recensée conditionnellement aux phénotypes et aux génotypes des apparentés était la même
quelle que soit la configuration génotypique ω [9] . Pour une famille f de s apparentés, la GRL
s’écrit donc :
31
Chapitre 3. Etude de la Genotype Restricted Likelihood (ou GRL)
P(P hen|Gen)P(Gen)
GRLf = X
P(P hen|Genω )P(Genω )
ω∈Ω
s
XY t
Y u
Y
P(P henk |Genk,z ) P(Genj,z ) P(Genh,z |Genp(h),z , Genm(h),z )
z∈Γ k=1 j=1 h=1
= s t u
,
XY Y Y
P(P henk |Genk,ω ) P(Genj,ω ) P(Genh,ω |Genp(h),ω , Genm(h),ω )
ω∈Ω k=1 j=1 h=1
s
XY t
Y u
Y
P(P henk |Genk,z ) P(Genj,z ) P(Genh,z |Genp(h),z , Genm(h),z )
z∈Γ k=1 j=1 h=1
= s ,
XY
P(P henk |Genk,ω ) Pω
ω∈Ω k=1
Comme nous l’avons décrit dans le chapitre 2, la modélisation de la pénétrance utilise une
approche d’analyse de survie basée sur le modèle de Weibull étendu. On rapelle que le risque
chez les non porteurs de la mutation est supposé connu et fixé en fonction de l’incidence de la
maladie en population générale.
32
3.2. Etude de la GRL et de son efficacité relative
pés. Cependant, le nombre d’individus non génotypés peut être assez conséquent du fait même
du protocole car les apparentés du cas index ne demandent pas toujours le test génétique.
Lorsque peu d’apparentés sont génotypés dans les familles, des problèmes d’efficacité peuvent
alors être rencontrés, c’est-à-dire que la variance des estimations obtenues peut croître de façon
importante avec la proportion de génotypes inconnus.
Nous avons donc entrepris d’étudier l’efficacité relative de la GRL, dans le cas où les gé-
notypes sont manquants, au travers d’une étude de simulations. Nous avons également étudié
la méthode ainsi que son efficacité relative en fonction des individus non génotypés introduits
dans les familles afin de mesurer l’information apportée par ces derniers.
3.2.1 Simulations
Afin d’étudier l’efficacité relative de la GRL dans le cas où de nombreux individus n’ont
pas été génotypés, nous avons simulé un grand nombre de familles sous différentes valeurs de
pénétrance pour les individus porteurs. Nous avons utilisé le principe de simulation décrit dans
le chapitre 2. La structure de nos familles était la suivante : un couple ancêtre ayant 4 enfants,
chacun ayant eux-mêmes quatre enfants.
Pour obtenir des échantillons de familles sélectionnées suffisamment grands sans avoir à simu-
ler un trop grand nombre de familles, la fréquence de l’allèle délétère a été fixée à 0.10 dans nos
simulations. Nous avons supposé que le taux de mutation de novo était nul.
Pour la simulation des phénotypes, nous avons considéré la cas d’une pénétrance haute, qui
correspond à un risque de 0.50 à 80 ans chez les porteurs ; et d’une pénétrance basse, qui
correspond à un risque de 0.2 à 80 ans chez les porteurs. Le risque chez les non porteurs de la
mutation ayant été fixé à 0.02 à 80 ans (correspondant au risque cumulé de cancer en population
générale dans le syndrome HNPCC (cf. Annexe F).
Nous avons ensuite simulé le processus de sélection des familles. Pour cela, nous avons
sélectionné les familles dans lesquelles au moins deux apparentés étaient atteints, dont l’index
qui porte nécessairement la mutation.
33
Chapitre 3. Etude de la Genotype Restricted Likelihood (ou GRL)
La condition nécessaire pour qu’une famille entre dans l’analyse est donc qu’une mutation
ait été identifiée chez le cas index. Cependant, pour que la famille soit informative, il faut
qu’au moins un apparenté du cas index soit génotypé. En effet, dans la GRL, la somme au
dénominateur s’effectue sur Ω qui est défini comme l’ensemble des configurations génotypiques
dans lesquelles le cas index est porteur d’une mutation. Au numérateur, la somme s’effectue
sur Γ qui définit l’ensemble des configurations génotypiques compatibles avec les génotypes
des apparentés testés. Si aucun autre individu que le cas index n’a pu être testé, alors Ω et Γ
sont identiques et la vraisemblance pour la famille vaut 1. Il est donc indispensable d’avoir un
individu génotypé en plus du cas index.
Nous avons imposé des échantillons de 10 000 familles après la sélection afin de se placer dans
les conditions asymptotiques.
La perte et le gain d’efficacité de la GRL ont été étudié en calculant l’Efficacité Relative
Asymptotique (ARE) des pénétrances estimées, qui est l’inverse du rapport de la variance esti-
mée dans une situation donnée, à la variance obtenue dans une situation de référence :
V ARSituation de référence
ARE =
V ARSituation étudiée
Pour estimer la variance de la pénétrance dans chacune des situations, nous avons simulé
1000 réplicats d’échantillons de 10 000 familles, puis nous avons considéré l’estimation de la
pénétrance à 70 ans, qui est le plus souvent utilisé comme référence dans la littérature, et avons
calculé la variance empirique en ce point.
Soit (p70 70
1 , ..., p1000 ), l’échantillon de taille 1000 des estimations de la pénétrance au point t = 70,
on a :
1000
1 X
V[
AR = (p70 70
i − p ),
1000 i=1
34
3.2. Etude de la GRL et de son efficacité relative
Nous nous attendons à ce que la distribution des génotypes observés dépende du nombre
d’apparentés testés. De par sa définition, la GRL est dépendante de cette distribution. Nous
avons donc étudié la GRL en fonction de cette variable. Nous avons constitué différents échan-
tillons en affectant le statut "génotype connu" ou "génotype inconnu" aux apparentés du cas
index à partir d’un même échantillon de familles sélectionnées où les génotypes étaient simu-
lés. Puis, nous avons comparé l’efficacité relative asymptotique de la GRL dans les différentes
situations considérées. Ainsi, si l’efficacité relative asymptotique (ARE) est supérieure à 1, cela
signifie que la GRL est plus efficace sur l’échantillon considéré que sur l’échantillon de réfé-
rence. Si l’ARE vaut 1, c’est que la GRL a la même efficacité sur les deux échantillons.
3.2.3 Résultats
Nous avons également entrepris d’étudier les estimations de la pénétrance obtenues avec
la GRL selon les individus inclus dans la famille. Pour cela, nous avons étudié différentes si-
tuations à partir du même échantillon sélectionné sur l’existence d’un individu atteint et muté
(l’index) ainsi qu’un autre individu au moins atteint dans la famille nucléaire de l’index. La
figure 3.1 représente la structure des familles simulées ainsi que les différentes situations d’ap-
35
Chapitre 3. Etude de la Genotype Restricted Likelihood (ou GRL)
parentés introduits dans les familles pour étudier la GRL selon les données incluses dans la
famille.
Les situations étudiées sont les suivantes : (A) Seule la famille nucléaire de l’index est incluse
et seul l’index et l’un de ces apparentés sont génotypés ; (B) La famille nucléaire de l’index et le
ou les autre(s) famille(s) nucléaire(s) avec au moins un atteint entrent dans l’analyse, mais sans
apporter d’information génotypique supplémentaire ; (C) La famille nucléaire de l’index et le ou
les autre(s) famille(s) nucléaire(s) avec au moins deux atteints sont incluses, mais n’apportent
pas d’information génotypique supplémentaire par rapport à (A) ; (E) Tous les individus de la
famille entrent dans l’analyse mais sans apporter d’information génotypique supplémentaire par
rapport à la situation (A).
Pour comparer les estimations de la pénétrance obtenues selon les individus inclus dans la
famille, nous avons calculé la moyenne de l’estimation obtenue à 80 ans pour 1000 réplicats
d’échantillons de 10000 familles. Le tableau 3.2 présente les résultats obtenus.
On constate que les estimations obtenues sont différentes. Ce résultat est plus évident dans
36
3.2. Etude de la GRL et de son efficacité relative
B C
F IG . 3.1 – Structure des familles avec : (1) La famille nucléaire de l’index et le couple ancêtre
(famille A) ; (2) famille A + les membres de la famille nucléaire secondaire avec un atteint et
pas de génotype connu (famille de type A+B+C ou A+B) ; (3) famille A + la famille nucléaire
secondaire avec deux apparentés atteints et pas de génotype connu (famille de type A+C) ; (4)
tous les membres de la famille. Le cas index est marqué par une flèche.
37
Chapitre 3. Etude de la Genotype Restricted Likelihood (ou GRL)
le cas d’une pénétrance haute. L’inclusion de l’ensemble des individus de la famille donne une
estimation proche de celle obtenue lorsque seule la famille nucléaire de l’index est incluse. Par
contre, l’estimation apparaît biaisée dans le sens d’une surestimation du risque quand on inclut
les familles nucléaires secondaires avec au moins un atteint (A+B+C dans la généalogie 3.1).
Lorsque l’on inclut les familles nucléaires secondaires avec au moins deux atteints (A+C dans
la généalogie 3.1), la moyenne obtenue est identique à celle obtenue dans le cas où tous les
individus de la généalogie sont inclus.
Nous avons ensuite étudié l’efficacité relative de la GRL uniquement dans le cas où toute l’infor-
mation des branches sans génotypes est inclus, en prenant comme référence la famille nucléaire
de l’index. Dans le cas d’une pénétrance basse, nous avons trouvé une ARE = 1, 04 et dans le
cas d’une pénétrance haute, l’ARE était de 1. Quelle que soit la valeur de la pénétrance, l’infor-
mation apportée par les branches de la famille sans génotype n’augmente donc pas l’efficacité
de la GRL (ARE proche ou égale à 1).
38
3.2. Etude de la GRL et de son efficacité relative
TAB . 3.2 – Moyenne des estimations de la pénétrance obtenue à 80 ans selon les données
incluses dans la famille
39
Chapitre 3. Etude de la Genotype Restricted Likelihood (ou GRL)
La GRL, développée par Carayol et Bonaïti-Pellié, est une méthode qui permet d’obtenir
des estimations asymptotiquement sans biais de la pénétrance quels que soient les critères ayant
permis le recensement des familles. Ceci est très utile, notamment dans le cas où les familles ont
été recensées à l’aide de critères complexes, particulièrement difficiles à modéliser. Cette mé-
thode a donc l’avantage de pouvoir être appliquée à l’estimation du risque de n’importe quelle
maladie, pour laquelle des mutations ont été identifiées et quels que soient les critères de recen-
sement, connus ou non.
Nous avons montré dans ce chapitre, à l’aide de simulations, que cette méthode était peu
efficace lorsqu’une proportion de génotypes était inconnue. Pourtant, il arrive très fréquemment
d’avoir un grand nombre de génotypes inconnus chez les apparentés du cas index. Par exemple,
le cas où seul l’index et l’un de ses apparentés sont génotypés n’est pas rare. Nous avons vu
dans ce cas que l’efficacité de la méthode était très faible (moins de 10%). Nous avons égale-
ment montré que l’utilisation de toute l’information phénotypique disponible ne permettait pas
d’augmenter l’efficacité de la GRL.
De plus, nous avons constaté que la pénétrance était surestimée dans le cas où les familles nu-
cléaires secondaires, possédant au moins un atteint, étaient ajoutées à la famille nucléaire de
l’index lors de l’estimation. En effet, dans ce cas, une sélection est opérée à l’intérieur des fa-
milles. Or, la GRL corrige sur une sélection des familles et non pas sur une sélection à l’intérieur
des familles. Ceci peut donc expliquer la "surestimation" obtenue dans ce cas.
Avec ce raisonnement, la pénétrance des données devrait aussi être augmentée lorsque l’on in-
clut à la famille nucléaire de l’index, les familles nucléaires secondaires avec au moins deux
atteints. Pourtant, les estimations sont proches de celles obtenues avec uniquement la famille
nucléaire de l’index. Ce résultat peut s’expliquer par le fait que, avec une pénétrance haute de
0.5 à 80 ans et une pénétrance basse de 0.2 à 80 ans, les familles possédant au moins deux
atteints dans une famille nucléaire secondaire de l’index sont assez rares. L’échantillon obtenu
dans ce cas est alors relativement semblable à l’échantillon obtenu lorsque seule la famille nu-
cléaire de l’index est pris en compte et ceci peut expliquer que les moyennes des estimations
40
3.3. Conclusion et discussion
La GRL est basée sur la vraisemblance rétrospective dont Kraft et Thomas ont montré
qu’elle était peu efficace. La GRL a été utilisée pour l’estimation de la fonction de pénétrance
dans le syndrome HNPCC. Les intervalles de confiance qui ont alors été calculés illustrent
également le manque d’efficacité de la méthode [2]. Par conséquent, lorsque les données sont
recensées à partir de critères indépendants de l’histoire familiale et que les critères de recen-
sement sont alors plus simples à modéliser, il est préférable de développer d’autres méthodes,
corrigeant également pour le biais de recensement, et qui seraient plus efficaces que la GRL.
Ceci a fait l’objet de la suite de notre travail dans les chapitres 3 et 4.
Le travail que nous venons de présenter dans ce chapitre a fait l’objet d’une publication
(Annexe F) dans European Journal of Human Genetics en 2007.
41
Chapitre 3. Etude de la Genotype Restricted Likelihood (ou GRL)
42
Chapitre 4
Dans ce chapitre, nous nous intéressons aux données recensées sur l’existence d’au moins un
individu atteint dans la famille. Dans le cas d’une maladie mendélienne, ce type de recensement
suffit à détecter la mutation prédisposante dans la famille. Dans le cas des maladies complexes
à sous-entités monogéniques, l’inclusion d’un critère d’âge au recensement peut suffire à détec-
ter la mutation prédisposante puisque les sous-entités monogéniques surviennent souvent à des
âges précoces.
Comme dans le cas du recensement sur critères familiaux, l’estimation de la pénétrance à partir
de familles recensées sur critères indépendants de l’histoire familiale nécessite l’utilisation de
méthodes prenant en compte ces critères afin d’obtenir des estimations sans biais. Toutefois, les
critères indépendants de l’histoire familiale sont moins complexes et plus faciles à modéliser et
il est, dans ce cas, préférable d’utiliser des méthodes plus efficaces que ne l’est la GRL et no-
tamment des méthodes dont l’efficacité ne diminue pas de manière drastique lorsque un grand
nombre de génotypes est inconnu.
43
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
pothèses qui ne sont pas toujours vérifiées, ce qui peut entraîner un biais. C’est pourquoi nous
avons développé une méthode d’estimation moins sensible à ces hypothèses, qui corrige égale-
ment pour le recensement : la Proband’s phenotype Exclusion Likelihood (ou PEL).
Nous commencerons, dans ce chapitre, par présenter ces deux vraisemblances : la Prospec-
tive et la PEL. Puis, nous présenterons les avantages de la PEL par rapport à la vraisemblance
prospective ainsi que les différentes études de sensibilité que nous avons menées. Nous appli-
querons ensuite les méthodes à deux jeux de données : l’un sur le cancer du sein associé aux
mutations BRCA1 et BRCA2 à partir de familles recensées sur l’existence d’une femme atteinte
avant 36 ans ; l’autre sur la neuropathie amyloïde héréditaire à partir de données françaises et
portugaises. Enfin, nous présenterons l’étude que nous avons menée sur la NAH (Neuropathie
Amyloïde Héréditaire) issue de la population suédoise.
44
4.1. La méthode prospective
où,
∗ P hen représente le vecteur phénotypique pour les nf individus de la famille f , P hen =
(P hen1 , ..., P hennf ).
∗ Genobs représente le vecteur des génotypes observés dans la famille f .
∗ Asc représente l’évènement "la famille vérifie les critères de sélection" (i.e. existence
d’au moins un individu atteint dans la famille).
Comme une famille est recensée si elle possède au moins un individu atteint, la probabilité
de recensement ne dépend que du phénotype des individus et non de leur génotype. On a donc :
où C est une constante qui ne dépend pas des paramètres à estimer. Nous pourrons donc
éliminer cette constante lors de la maximisation de la vraisemblance.
n n N
Y Y f
VP = V Pf = ,
f =1 f =1
Df
45
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
et Df = P(Asc|Genobs )
où :
∗ Pω représente la probabilité de la configuration génotypique ω, déjà décrite dans le cha-
pitre 2.
∗ Ω représente l’ensemble des configurations génotypiques possibles et dépend donc du
nombre de génotypes inconnus.
∗ Genω représente le vecteur génotypique dans la configuration ω.
Si on note pi,ω , la probabilité pour un individu i d’être atteint dans la configuration ω et
si on note π, la probabilité pour un individu atteint d’être sélectionné, la correction pour le
recensement au dénominateur peut s’écrire :
Df = P(Asc|Genobs )
Ω
X
= Pω .P(oneaf ),
ω=1
où, P(oneaf ) est la probabilité que, dans la configuration ω, au moins un individu atteint
soit recensé dans la famille :
On rappelle que la fonction de pénétrance utilise une approche de survie basée sur le modèle
de Weibull. On a donc
F (t) = (1 − κ)[1 − exp(−λ(t − δ)α )].
46
4.1. La méthode prospective
Le paramètre δ (i.e. l’âge en deçà duquel le risque d’être atteint est nul) est supposé connu. Les
paramètres à estimer sont donc (κ, λ, α).
Parfois, un critère d’âge est introduit dans le recensement afin d’augmenter la probabilité
d’observer la mutation dans la famille. Dans ce cas, la famille est recensée s’il y a au moins un
individu atteint avant un certain âge, noté agesel. Ce nouveau paramètre est alors pris en compte
au dénominateur de la vraisemblance de la manière suivante. Pour un individu i d’age agecourant :
• Si agecourant ≥ agesel, la probabilité pour i de ne pas être atteint avant agesel est :
1 − F (agesel)
47
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
• Si agecourant ≤ agesel, la probabilité pour i de ne pas être atteint avant agesel est :
1 − F (agecourant )
48
4.1. La méthode prospective
La méthode prospective repose sur l’hypothèse que tous les individus atteints ont la même
probabilité d’être recensé. Or, ce n’est pas le cas dans la pratique puisque le recensement a lieu
durant une période donnée et qu’un critère d’âge est parfois inclus pour la sélection. Nous avons
donc simulé des familles sous différents modèles de maladie avec différents modes de sélection,
"les plus réalistes possibles" et dans lesquels les individus peuvent avoir des probabilités dif-
férentes d’être sélectionnés. Puis, nous avons étudié la vraisemblance prospective en terme de
biais relatif et d’efficacité relative.
4.1.2.1 Simulations
Nous avons simulé des familles de taille et de structure fixes comme le montre la figure 4.1 :
un couple ancêtre avec quatre enfants, chacun ayant deux enfants.
L’âge et le génotype des individus ont été simulés comme nous l’avons décrit au chapitre 2.
Dans nos simulations, les paramètres f q et pn ont été fixé respectivement à 0.01 et 0.
Chez les individus mutés, les phénotypes ont été simulés selon deux valeurs de la pénétrance :
la pénétrance haute correspondant à une pénétrance de 0.8 à 80 ans et la pénétrance basse
correspondnt à une pénétrance de 0.5 à 80 ans. Pour les non porteurs de la mutation, nous avons
considéré deux valeurs de risque selon le type de maladie étudiée. Dans le cas de maladies men-
déliennes (MM) pour lesquelles tous les individus atteints sont porteurs, nous avons considéré
49
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
logiquement un risque nul d’être atteint chez les non mutés. En revanche, dans le cas de ma-
ladies complexes à sous-entités monogéniques (MCSM), pour lesquelles seule une partie des
individus atteints est porteur de la mutation prédisposante, nous avons considéré un risque cu-
mulé de 0.10 à 80 ans. Ce choix correspond à la valeur du risque cumulé de cancer du sein en
population générale, qui fera l’objet de notre application concernant les maladies complexes à
sous-entités monogéniques.
Afin de sélectionner les individus de la façon la plus réaliste possible, nous avons défini
des périodes de temps, que nous avons notées T , pour la sélection du proposant. Ainsi, nous
avons supposé que seuls les individus porteurs et atteints durant cette période T pouvaient être
proposant avec une probabilité ps . Ces périodes de temps traduisent le fait que les recueils de
données se font pendant des périodes de temps données. La probabilité ps traduit le fait que,
dans ces périodes, tous les individus atteints ne seront pas nécessairement sélectionnés.
Nous avons considéré deux périodes de temps distinctes : une période de 20 ans, qui correspond
donc à T = 20, pour laquelle un grand nombre d’individus atteints peuvent être proposants, et
une période de 1 an, qui correspond à T = 1, pour laquelle la probabilité d’avoir plus d’un
individu atteint qui soit proposant dans une famille est négligeable. Une famille sera donc sé-
lectionnée dans l’échantillon si elle contient au moins un proposant.
Dans le cas des maladies complexes à sous-entités monogéniques les cas dus à la mutation
prédisposante surviennent souvent beaucoup plus tôt que les cas sporadiques. C’est pourquoi
un critère d’âge est souvent introduit lors de la sélection, comme nous l’avons déjà mentionné
[5, 16]. Comme l’âge de 36 ans est le critère d’âge utilisé dans la sélection des familles de can-
cer du sein utilisées dans l’application qui suivra, nous avons pris le parti d’utiliser ce même
critère d’âge dans nos simulations. Ainsi, dans le modèle MCSM, un individu atteint avant 36
ans, durant la période T , sera proposant avec une probabilité ps et on sélectionne les familles
avec au moins un proposant.
50
4.1. La méthode prospective
1000
!
1 X R̂i − R0
B̂ = ,
1000 i=1 R0
où Ri est la pénétrance estimée à 70 ans pour le réplicat i et R0 est la vraie valeur de la
pénétrance à 70 ans.
V ARSituation de référence
ARE =
V ARSituation étudiée
Pour estimer la variance de la pénétrance dans chacune des situations, nous avons simulé
1000 réplicats d’échantillons de 10 000 familles, puis nous avons conservé l’estimation de la
pénétrance à 70 ans et nous avons calculé la variance empirique en ce point (cf. Section 3.2).
Le tableau 4.1 montre le biais relatif obtenu avec la vraisemblance prospective sous dif-
férents modèles génétiques, divers paramètres de sélection, avec une pénétrance haute et une
pénétrance basse et dans le cas où tous les individus sont de génotype connu. Nous avons véri-
fié que l’introduction de différentes proportions de génotypes inconnus, variant de 50% au cas
extrême où seul le proposant est génotypé, n’influait pas sur les estimations de la pénétrance et
ne modifiait donc pas le biais relatif. Dans le modèle MM, on constate que l’estimation de π
varie assez peu et est de l’ordre de 50%. On constate également, dans le modèle MM, que la
51
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
méthode est quasiment sans biais, quel que soit le modèle de recensement et quelle que soit la
valeur de la pénétrance. Par contre, dans le modèle MCSM, la méthode prospective a un biais
non négligeable, en particulier lorsque la pénétrance est basse et lorsque T = 1, c’est-à-dire
lorsque la probabilité de sélection est très faible.
La vraisemblance prospective, dans sa correction au dénominateur, fait l’hypothèse que tous
les individus ont la même probabilité d’être sélectionnés. Or, cette hypothèse n’est pas toujours
vérifiée, en particulier dans le modèle MCSM où la probabilité d’être sélectionné pour les indi-
vidus atteints en dehors de la période T est nulle. Cet écart aux hypothèses de la vraisemblance
prospective peut être une explication du biais de la méthode sous le modèle MCSM.
Lors de l’analyse avec la méthode prospective, la probabilité pour un individu atteint d’être
sélectionné π a été estimée grâce à la distribution des proposants parmi les atteints dans les fa-
milles multiplexes (familles avec plusieurs atteints), comme nous l’avions décrit précédemment.
Cependant dans le modèle MCSM, il n’y a qu’un unique proposant par famille et l’estimation
du π est alors impossible. Dans un tel cas, nous avons choisi de fixer π à 0.01. Le tableau 4.2
montre la sensibilité de la vraisemblance prospective à des valeurs arbitraires du paramètre π.
Nous avons étudié les mêmes modèles génétiques et les mêmes situations de sélections que lors
de l’étude du biais relatif mais au lieu d’estimer π, nous l’avons fixé arbitrairement, respective-
ment à 1%, 10%, et 50% dans l’analyse. Nous avons indiqué, entre parenthèses, la différence
obtenue entre le biais relatif calculé avec le π fixé et le biais relatif calculé avec le π estimé
(Bπ − Bπ̂ ). Dans le modèle MM, la méthode présente une sensibilité non négligeable à la valeur
de π. Dans ce modèle, nous avons vu que les estimations du π étaient proches de 0.5. Quand
π est fixé à 1%, le biais relatif obtenu quand ps = 1 et T = 20, dans le cas d’une pénétrance
basse, est de −13% alors qu’il était de −3% lorsque π était estimée. La sensibilité apparaît
moins importante pour une pénétrance haute et sous le modèle MM. Finalement, plus la valeur
du π fixée arbitrairement est proche de sa valeur estimée, moins les estimations sont biaisées.
52
4.1. La méthode prospective
vraisemblance prospective reste efficace dans le cas où une proportion de génotype est inconnu,
quelle que soit la valeur de la pénétrance. Le cas où seul le proposant est génotypé est un cas
que l’on rencontre couramment. Même dans ce cas extrême, la méthode prospective demeure
efficace avec une ARE variant de 59% à 95% selon les situations.
1 20 0.55 0 -3
MM 1 0.45 3 2
0.5 20 0.40 1 0
1 0.28 1 -2
1 20 (**) 5 14
MCSM 1 (**) 9 21
0.5 20 (**) 5 14
1 (**) 10 21
(*) MM : maladie mendélienne; MCSM : maladie complexe à sous-entités monogéniques ; p s : probabilité
d être sélectionné pour un individu atteint durant la période Τ (et avant 36 ans dans le cas de MCSM). Le
paramètre π (probabilité pour un atteint d être sélectionné) est estimé à partir d une loi binomiale tronquée.
(** ) π est fixé à 0.01.
TAB . 4.1 – Biais relatif de la vraisemblance prospective selon le modèle génétique et la sélection
53
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
π = 1%
Pénétrance haute Pénétrance basse
MM 1 20 -5 (-5) -13 (-10)
1 -2 (-5) -5 (-7)
0.5 20 -3 (-4) -6 (-6)
1 -2 (-3) -3 (-5)
MCSM 1 20 4 (-1) 12 (-2)
1 9 (0) 21 (0)
0.5 20 4 (-1) 12 (-2)
π = 10%
1 9 (-1) 20 (-1)
π = 50%
1 9 (-1) 21 (0)
54
4.1. La méthode prospective
Situation (*)
Periode ARE
Pénétrance basse Pénétrance haute
Proportion de génotypes 1 20
inconnus
! 50% 1,00 0,95
TAB . 4.3 – Efficacité relative de la vraisemblance prospective dans le cas du modèle MM se-
lon la proportion de génotypes manquants par rapport à la situation de référence où tous les
génotypes sont connus.
55
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
La vraisemblance prospective apparaît donc comme une méthode efficace lorsque de nom-
breux génotypes sont manquants et quasiment sans biais dans le cas d’un modèle MM. Cepen-
dant, elle présente un biais non négligeable dans le cas d’un modèle MCSM. Afin de réduire le
biais relatif, nous avons développé la Proband’s phenotype Exclusion Likelihood (ou PEL) que
nous présentons dans la section suivante.
56
4.2. La Proband’s phenotype Exclusion Likelihood (ou PEL)
La Proband’s phenotype Exclusion Likelihood est une méthode que nous avons développée
afin de réduire le biais relatif de la vraisemblance prospective, notamment dans les modèles
MCSM. Comme la vraisemblance prospective et comme la GRL, il s’agit d’une méthode d’es-
timation de la pénétrance basée sur le maximum de vraisemblance et qui utilise une approche
d’analyse de survie. La PEL corrige pour le biais de recensement mais a l’avantage de ne pas né-
cessiter la modélisation explicite des critères de sélection et donc, de ne pas faire d’hypothèses
sur la probabilité de sélection des individus. Après avoir décrit cette méthode, nous l’avons étu-
diée en termes de biais relatif, d’efficacité relative mais également de robustesse dans diverses
situations.
En introduisant les génotypes inconnus et en faisant l’hypothèse que les phénotypes des
apparentés sont indépendamment distribués conditionnellement à leur génotype, on a alors :
Ω
X
Lf = Pω .P(P hen∗ |Genω )
ω=1
57
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
Si on fait l’hypothèse que les n familles de l’échantillon sont indépendantes entre elles, la
vraisemblance totale s’écrit donc :
n
Y
L= Lf
f =1
Plusieurs situations peuvent avoir un effet sur l’estimation par la PEL et peuvent ainsi entraî-
ner un biais. Par exemple, on suppose que les proposants sont identifiés sans aucune ambiguïté.
Pourtant, ce n’est pas toujours le cas et des proposants peuvent parfois être omis. Dans ce cas,
les familles ne sont pas répliquées et cela peut entraîner un biais dans le processus d’estimation.
La plupart du temps, la fréquence de l’allèle délétère ou encore le taux de mutation de novo ne
sont pas connus dans la population et ces paramètres sont souvent fixés à des valeurs arbitraires.
Or, cela peut être une autre source de biais de la PEL lorsqu’une proportion d’individus n’a pas
été génotypé.
Dans un premier temps, nous avons étudié le biais relatif et l’efficacité relative de la PEL
dans les deux modèles génétiques et les divers modes de sélection que nous avons présentés
dans les sections précédentes. Puis, nous avons comparé notre méthode à la vraisemblance
Prospective en terme de biais et d’efficacité en utilisant, comme précédemment, la mesure du
biais relatif ainsi que la mesure de l’efficacité relative asymptotique (ARE). Pour étudier le
biais relatif de la méthode, nous avons considéré que tous les génotypes étaient connus.
Ensuite, nous avons évalué les propriétés de la PEL dans ces différentes situations à l’aide des
mêmes simulations que pour l’étude de la vraisemblance Prospective (cf. Section 4.1). Enfin,
nous avons étudié l’intérêt du modèle de Weibull étendu pour modéliser la fonction de péné-
58
4.2. La Proband’s phenotype Exclusion Likelihood (ou PEL)
trance.
Le tableau 4.4 présente le biais relatif de la pénétrance estimée avec la PEL et avec la mé-
thode Prospective au point t = 70 lorsque tous les individus sont génotypés. Nous avons vérifié
que nous obtenons les mêmes résultats en incluant différentes proportions de génotypes incon-
nus. Dans le modèle MM, nous avions vu que la méthode Prospective était très peu biaisée et on
remarque que la PEL a également un biais négligeable. En revanche, pour le modèle MCSM, la
PEL reste très peu biaisée tandis que la méthode Prospective devient biaisée. Cette différence
au niveau du biais entre les deux méthodes est davantage marquée lorsque la pénétrance est
basse. Par exemple, pour une pénétrance basse, une période de 1 an et une probabilité ps de 0.5,
le biais relatif avec la vraisemblance Prospective est de 21% alors qu’il n’est que de 3% avec la
PEL.
Le tableau 4.5 présente l’efficacité relative asymptotique (ARE) de la PEL dans le modèle
MM. Dans ce cas, contrairement au cas du modèle MCSM, la méthode Prospective comme la
PEL sont sans biais. Il est donc intéressant de comparer leur efficacité par l’efficacité relative
asymptotique.
En se reportant aux tableaux 4.3 et 4.5, on constate que la PEL apparaît légèrement moins ef-
ficace dans le cas de génotypes manquants que la vraisemblance Prospective, notamment dans
le cas d’une pénétrance haute et dans la situation où seul le proposant est génotypé. Cependant,
la PEL reste tout à fait efficace avec une ARE variant de 74% pour la plus faible (dans le cas
extrême où seul le proposant est génotypé) à 97% pour la plus élevée (dans le cas où la moitié
des génotypes sont inconnus).
Dans le cas du modèle MCSM, il ne semble pas judicieux de comparer l’efficacité rela-
tive des deux méthodes selon la proportion de génotypes manquants, puisque la vraisemblance
Prospective est biaisée. Dans ce cas, seul l’efficacité relative de la PEL a été étudiée. Le ta-
59
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
(*)
Modèle Période Biais relatif avec la PEL Bias relatif avec la vraisemblance
génétique(*) (en année) (en %) Prospective
(en %)
1 2 4 9 21
0.5 20 2 3 5 14
1 3 3 10 21
(*) MM : maladie mendélienne; MCSM : maladie complexe à sous-entités monogéniques ;
: probabilité d’être sélectionné pour les individus atteint durant la période (et avant 36 ans dans le cas de MCSM).
TAB . 4.4 – Etude du biais relatif pour la pénétrance estimée à 70 ans pour la PEL et pour la
vraisemblance Prospective
bleau 4.6 présente donc l’efficacité relative de la PEL dans le modèle des maladies complexes à
sous-entités monogéniques (MCSM). Nous avons étudié l’efficacité relative dans le cas le plus
défavorable où seul le génotype du proposant est connu, la situation de référence étant toujours
celle pour laquelle tous les individus sont génotypés. La PEL perd de l’efficacité et l’efficacité
relative calculée dans ce cas est inférieure à l’efficacité relative calculée dans le modèle MM
avec une ARE variant de 56% pour la plus faible à 69% pour la plus forte.
Le tableau 4.7 montre le biais relatif pour l’estimation de la pénétrance avec la PEL dans le
cas où un unique proposant à été identifié dans chaque famille. Ce proposant a été choisi aléa-
toirement, dans le processus de simulation, parmi les proposants "potentiels" dans les familles.
Ces familles n’ont donc pas été répliquées alors que, dans le cas de plusieurs proposants, elles
auraient dû l’être. Dans les modèles MCSM, la quasi-totalité des familles ne contient qu’un
unique proposant "potentiel" et les familles n’ont donc pas besoin d’être répliquées. Dans ce
60
4.2. La Proband’s phenotype Exclusion Likelihood (ou PEL)
TAB . 4.5 – Efficacité de la PEL sous le modèle génétique MM selon la proportion de génotypes
manquants par rapport à la situation de référence où tous les génotypes sont connus.
61
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
(*)
Période (en année) Efficacité Relative Asymptotique
(ARE)
Pénétrance basse Pénétrance haute
1 20 0,64 0,68
1 1 0.60 0,67
0.5 20 0,66 0,69
0.5 1 0,56 0,66
(*) : Probabilité d’être sélectionné pour les individus atteint durant la période (et avant 36 ans dans le cas de MCSM).
TAB . 4.6 – Efficacité de la PEL dans le cas du modèle génétique MCSM dans le cas extrême où
seul le proposant est génotypé par rapport à la situation de référence où tous les individus sont
génotypés
cas, il paraît logique que les résultats soient proches des résultats du tableau 4.4 pour la PEL.
Dans le modèle MM, le fait d’omettre la réplication peut être plus sensible car les familles avec
plusieurs proposants sont plus courantes, notamment lorsque ps = 1 et T = 20. Dans ce cas
précisément où ps = 1 et T = 20, on constate qu’un biais relatif est engendré avec la PEL
lorsque les proposants sont mal définis et que, par conséquent, un seul proposant par famille a
été identifié. Ce constat est davantage marqué dans le cas d’une pénétrance basse où le biais est
de −13% alors qu’il n’est que de 2% lorsque tous les proposants ont été identifiés et que les
familles sont répliquées autant de fois qu’il y a de proposants. Par contre, dans les autres cas de
sélection, et notamment quand T = 1, le fait d’omettre des proposants n’influence quasiment
pas l’estimation de la pénétrance et on obtient des résultats proches de ceux obtenus avec répli-
cation. En fait, plus la probabilité d’être sélectionné est faible (c’est-à-dire lorsque les critères
de sélection sont stringents) et moins le fait de répliquer les familles a une incidence sur les
estimations de la pénétrance avec la PEL.
62
4.2. La Proband’s phenotype Exclusion Likelihood (ou PEL)
TAB . 4.7 – Etude du biais relatif dans l’estimation de la pénétrance à 70 ans avec la PEL sans
réplication dans les familles comportant plusieurs proposants
Dans cette section, nous avons étudié la sensibilité des estimations de la pénétrance avec la
PEL à une mauvaise spécification de la fréquence de l’allèle délétère, f q et du taux de mutation
de novo, pn sous un modèle MM, pour ps = 1 et T = 20 et pour une vraie pénétrance basse. Afin
d’étudier la sensibilité de la PEL à ces paramètres, nous avons introduit un taux de génotypes
manquants de 80% (le génotype du proposant étant toujours connu). Le tableau 4.8 montre les
résultats de cette étude. On constate que la méthode n’est pas sensible à une erreur sur le taux de
mutation de novo, pn. Si pn est surestimé et fixé à 10−4 dans l’analyse alors que sa vraie valeur
est de 10−5 , le biais engendré est de 2%. A l’inverse, si le paramètre pn est "sous-estimé" et fixé
à 0 dans l’analyse alors que sa vraie valeur est de 10−5 , le biais engendré est de seulement 1%.
Quant à f q, lorsque ce paramètre est "sous-estimé" et fixé à 10−6 alors que sa vraie valeur est
0.01, cela entraîne un biais négligeable de −1%. Par contre, le biais est plus important (−8%)
quand le paramètre est surestimé (fixé à 0.1 quand sa vraie valeur est 0.01). Mais cette situation
n’est pas très réaliste puisque nous étudions des mutations rares.
63
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
pn = 0 fq = 0.01 fq = 10 −6
(en %)
fq -1
fq = 0.1 -8
fq = 0.01 pn pn = 10 −5
pn = 10 −4 2
pn = 0 1
La figure 4.2 montre l’estimation de la pénétrance dans le cas de familles simulées avec un
paramètre κ = 0.10 dans le modèle de Weibull étendu, et analysées d’une part en estimant le
paramètre κ conjointement aux autres paramètres (α et λ) du modèle de Weibull et d’autre part,
en ignorant ce paramètre et en le fixant à 0. L’existence d’un κ = 0.10 dans les données signifie
que, pour la maladie et la mutation étudiées, 10% des individus porteurs de la mutation ne se-
ront jamais atteints de la maladie. On remarque que le fait de ne pas inclure de paramètre κ dans
le modèle de Weibull, alors que les données ont été simulées avec un κ non nul, change l’allure
de la courbe et provoque un biais non négligeable par rapport à la vraie courbe de pénétrance.
Par contre, lorsque le paramètre κ est estimé, la figure 4.2 montre bien que la courbe estimée
et la vraie courbe sont très proches. Le fait d’étendre le modèle de Weibull en y ajoutant ce para-
mètre κ, permet donc un meilleur ajustement de la fonction de pénétrance aux données étudiées.
La figure 4.3 montre l’impact, sur l’estimation de la fonction de pénétrance par la PEL,
d’une omission du paramètre δ qui représente l’âge minimum en-deçà duquel le risque chez
les porteurs d’être atteints de la maladie étudiée est nul. La vraie fonction de pénétrance des
données simulées (courbe pleine) suit un modèle de Weibull dans lequel δ a été fixé à 25 ans
(nous avons posé κ = 0 dans les simulations). Avant 25 ans, la vraie fonction de pénétrance est
donc égale à zéro.
64
4.2. La Proband’s phenotype Exclusion Likelihood (ou PEL)
0,9
Vraie pénétrance
0,8 Estimation avec une proportion d'individu qui ne seront jamais atteint estimée
Estimation avec une proportion d'individu qui ne seront jamais atteint fixée à 0
0,7
0,6
pénétrance
0,5
0,4
0,3
0,2
0,1
0
0 10 20 30 40 50 60 70 80 90
âges
65
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
0,8
Estimation avec un age minimum de 25 ans dans le modèle de Weibull étendu
0,7
Estimation sans age minimum dans le modèle de Weibull étendu
0,6
Vraie pénétrance
0,5
0,4
0,3
0,2
0,1
0
0 10 20 30 40 50 60 70 80 90
66
4.3. Application à la NAH et au cancer du sein
Afin d’illustrer les deux modèles considérés dans ce chapitre, le modèle MM et le modèle
MCSM, nous avons appliqué la vraisemblance Prospective ainsi que la PEL à deux maladies
représentatives de ces deux modèles génétiques. Le modèle MM a été illustré par un jeu de
données familiales sélectionnées sur l’existence d’individus atteints d’une maladie génétique :
la neuropathie amyloïde héréditaire, que nous noterons NAH. Le modèle MCSM a été illus-
tré par un échantillon de familles atteintes de cancers du sein et de l’ovaire avec les mutations
BRCA1 et/ou BRCA2. Ces dernières familles ont été sélectionnées sur l’existence d’au moins
un cas de cancer du sein diagnostiqué avant 36 ans.
Après avoir présenté le calcul des intervalles de confiance dans les deux applications, nous dé-
crirons les deux échantillons de familles et le mode de sélection associée. Nous présenterons
ensuite les estimations obtenues avec nos deux vraisemblances : la Prospective et la PEL.
Dans les deux applications qui suivent, nous présentons les intervalles de confiance à 95%
aux points t = 50, t = 60 et t = 70 avec la PEL. Ces intervalles de confiance (IC) ont été
estimés en utilisant une méthode basée sur le bootstrap [18].
Les échantillons de familles étudiés ont été reéchantillonés 10 000 fois et, pour chaque nouvel
échantillon, nous avons estimé le risque à différents âges T ′ . Les intervalles de confiance aux
âges T ′ ont été obtenus en utilisant la méthode des percentiles simple [19]. Les bornes infé-
α
rieures et supérieures du risque estimé à l’âge T ′ sont donc données par les percentiles et
2
1−α
de la distribution des 10 000 valeurs de risques estimés à l’âge T ′ avec α = 5%.
2
Les neuropathies amyloïdes héréditaires sont des maladies génétiques à transmission auto-
somique dominante. Les NAH sont les plus graves des neuropathies héréditaires de l’adulte et
67
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
sont mortelles en 10 ans sans traitement après les premières manifestations. Elles sont caractéri-
sées par des dépôts endoneuraux de substances amyloïdes constituées de variants de transthyré-
tine (TTR) et elles résultent d’une mutation ponctuelle du gène de la TTR. Ces caractéristiques
concernent principalement le système nerveux périphérique et le coeur. Elles ont d’abord été
décrites au Portugal et, bien que la maladie soit présente dans le monde entier, on la retrouve
particulièrement dans des zones limitées comme le Portugal, le Japon ou encore la Suède, avec
différentes variations génotypiques, phénotypiques et différents âges de début de la maladie.
En France, les patients d’origine portugaise représentent une part non négligeable des cas de
NAH, et présentent certaines caractéristiques par rapport aux Français. De nombreux variants
de la transthyrétine pathogène ont été découverts dans la population française, mais un seul va-
riant a été détecté dans la population portugaise, le Val30Met.
Depuis 1993, la transplantation hépatique (TH) est proposée comme traitement pour supprimer
la principale source de synthèse de la protéine amyloïdogène. La TH a permis une réduction
de 98% du taux de TTR mutée circulante. La TH, pour être efficace, doit être proposée tôt,
dès l’apparition des premières manifestations de la neuropathie et justifie un dépistage familial
présymptomatique.
Dans la pratique, toutes les familles sont adressées au département de Neurologie de l’hôpital
de Bicêtre.
Pour notre application, nous avons repris l’échantillon utilisé dans l’article de Planté-Bordeneuve
et al. [38] provenant du département de neurologie de l’hôpital de Bicêtre qui est centre de réfé-
rence pour la NAH. Une étude familiale systématique a été menée et une recherche de mutation
était proposée aux apparentés du proposant. Par souci d’homogénéité, nous avons restreint cet
échantillon aux porteurs de la mutation Val30Met. Finalement, nous avons donc un échantillon
de 20 familles françaises et 33 familles portugaises.
Le génotype TTR était disponible pour 108 apparentés des familles françaises dont 47 porteurs
de la mutation Val30Met, et pour 139 apparentés des familles portugaises dont 50 porteurs de
la mutation Val30Met. Les proportions de génotypes inconnus parmi les apparentés étaient de
72% pour les Français et de 68% pour les Portugais.
Dans l’analyse, nous avons fixé la fréquence de l’allèle délétère à 0.001 (i.e. f q = 0.001) et le
68
4.3. Application à la NAH et au cancer du sein
La figure 4.4 montre la fonction de pénétrance estimée d’une part avec la PEL (courbe avec
des points et courbe avec des étoiles) et d’autre part avec la méthode Prospective (courbe pleine
et courbe en tirets) pour les familles françaises et portugaises. Les IC sont donnés aux âges 50,
60 et 70 ans.
0,7
0,6
pénétrance
0,5
0,4
0,3
0,2
0,1
0
0 10 20 30 âge 40 50 60 70
Dans l’échantillon portugais, le plateau montre l’existence d’une proportion d’individus por-
teurs qui ne seront jamais atteints. Le paramètre κ dans le modèle de Weibull a été estimé à 0.09
(κ̂ = 0.09) et a été trouvé significativement différent de zéro avec une pvalue < 0.001. Ce plateau
69
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
L’implication de facteurs génétiques dans le cancer du sein est aujourd’hui confirmée à tra-
vers un modèle monogénique expliquant une petite proportion de cas à forte pénétrance, au sein
d’une majorité de cas sporadiques, et deux gènes de prédisposition ont été mis en évidence :
BRCA1, sur le chromosome 17 et BRCA2, sur le chromosome 13, qui confèrent un risque très
élevé de tumeur, survenant souvent à des âges précoces.
Les familles de cancer du sein que nous avons étudiées ici ont été sélectionnées parmi 317
femmes atteintes de cancer du sein, diagnostiquées avant 36 ans entre janvier 1990 et janvier
1998, et qui étaient suivies à l’Institut Curie. Un conseil génétique a été proposé à toutes les
femmes et 153 d’entres elles sont venues en consultation à l’Institut Curie.
Un dépistage génétique des mutations BRCA1, BRCA2 et TP53 a été systématiquement pro-
posé quelle que soit l’histoire familiale. Parmi ces femmes atteintes, 145 ont subi un test géné-
tique [11].
L’ensemble de la séquence des deux gènes a été analysé par une combinaison de DGGE,
DHP LC et P T T [42, 46]. 16 patients avec une mutation BRCA1 et 14 patients avec une
mutation BRCA2 ont été identifiés. Dans ces 30 familles, un test génétique a été proposé à tous
les apparentés. Parmi les 30 familles, le génotype était disponible pour 33 apparentés parmi
lesquels 17 étaient des individus porteurs. Dans 16 familles, le proposant était donc le seul indi-
vidu de la famille ayant été génotypé et la proportion globale de génotypes inconnus parmi les
apparentés était de 91%.
70
4.3. Application à la NAH et au cancer du sein
Pour l’analyse, nous avons fixé la fréquence de l’allèle délétère à 0.001 (i.e. f q = 0.001) et le
taux de mutation de novo à zéro (i.e. pn = 0). Le risque cumulé chez les non-porteurs a été fixé
égal au risque rencontré dans la population générale, c’est-à-dire à 0.10 à 70 ans [3].
La figure 4.5 montre l’estimation de la fonction de pénétrance pour les données de cancer du
sein avec la PEL d’une part (courbe en tirets) et avec la vraisemblance Prospective d’autre part
(courbe en pointillés). Comme l’échantillon était relativement petit, nous avons mis en commun
les familles avec la mutation BRCA1 (16 familles) et les familles avec la mutation BRCA2 (14
familles). Nous avons donc analysé un échantillon de 30 familles avec les mutations BRCA1/2.
Les intervalles de confiance ont été calculés par bootstraps, comme dans les données NAH, aux
points t = 50, t = 60 et t = 70.
Les deux méthodes fournissent des courbes de pénétrance différentes. Cette différence était
attendue au vu des résultats théoriques obtenus par simulations (cf. Section 4.2). En effet, l’ap-
plication aux données de cancer du sein correspond au modèle MCSM que nous avons étudié.
Or, dans ce modèle, la PEL donnait des estimations non biaisées, contrairement à la vraisem-
blance Prospective. Dans cette application, la PEL fournit donc probablement une courbe de
pénétrance non biaisée tandis que la méthode Prospective est certainement biaisée. Toutefois,
la différence entre les deux estimations n’est probablement pas significative car les intervalles
de confiance contiennent les deux estimations. Ceci est probablement dû à la faible taille de
l’échantillon.
71
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
0,9
0,8
Pénétrance pour le cancer du sein estimée avec la PEL
0,7
Pénétrance pour le cancer du sein estimée avec la vraisemblance Prospective
0,6
pénétrance
0,5
0,4
0,3
0,2
0,1
0
0 10 20 30 40 50 60 70
âge
72
4.4. Étude de l’hétérogénéité de la pénétrance de la NAH dans la population suédoise
La PEL nous a permis d’étudier des données de NAH pour une population suédoise. La
neuropathie amyloïde héréditaire (NAH), déjà décrite dans la section précédente, ne semble pas
également répartie selon les zones géographiques. En Europe, elle se retrouve plus souvent au
Portugal et en Suède qu’en France. En Suède, des foyers ont été décrits dans les villes de Pitea et
de Skelleftea. Comme pour les familles portugaises, la mutation Val30Met est, dans les familles
suédoises, de loin le variant le plus courant du gène TTR [40]. Nous nous sommes intéressés
plus particulièrement à cette mutation Val30Met et avons donc analysé un échantillon suédois
pour la NAH.
Selon l’origine géographique, des âges de début de la maladie différents ont été décrits. En effet,
alors que la moyenne d’âge du premier symptôme est de 33 ans au Portugal, elle est de 56 ans
en Suède [41, 27].
Une analyse préalable des données suédoises avait suggéré que les âges de début étaient plus
tardifs que dans la population portugaise et même française. De plus, les auteurs avaient démon-
tré [15] que l’âge de début de la maladie était significativement plus élevé lorsque la mutation
était transmise par le père que lorsqu’elle était transmise par la mère.
Après avoir décrit les données et leur mode de recueil, nous estimerons la fonction de péné-
trance avec la PEL. Nous étudierons ensuite si les risques varient selon les différentes régions.
Enfin, nous étudierons l’hypothèse selon laquelle la pénétrance dépendrait du sexe du parent
transmetteur de la mutation.
Parmi les 401 patients porteurs de la mutation Val30Met identifiés au département de gé-
nétique clinique de l’université de Umea en Suède depuis 1986, une recherche généalogique
complète était disponible pour 122 patients. Comme certains de ces 122 individus étaient appa-
rentés entre eux, ils ont été regroupés et l’échantillon final était donc constitué de 85 familles.
73
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
Le diagnostic de neuropathie amyloïde TTR était basé sur la recherche de dépôts amyloïde dans
le prélèvement par biopsie ainsi que sur l’identification d’un variant TTR (la mutation Val30Met
chez tous les patients).
Parmi les familles, 8 familles contenaient 9 patients homozygotes pour la mutation Val30Met.
Ces patients homozygotes ont été retirés de l’analyse car ils étaient trop peu nombreux pour
permettre une estimation fiable du risque associé à ce génotype.
Finalement, nous avons mené notre étude sur un échantillon de 77 familles.
4.4.2 Résultats
Nous avons utilisé la proportion d’homozygotes pour la mutation Val30Met parmi les at-
teints pour estimer la fréquence de la mutation à 0.04 (voir Annexe B). Dans nos analyses, nous
avons donc fixé la fréquence de l’allèle délétère, f q, à cette valeur.
La prise en compte de l’effet du sexe du parent transmetteur n’étant pas prévu dans le pro-
gramme, nous avons procédé à une manipulation de fichier.
L’hypothèse nulle que nous voulons tester est donc : H0 : {La pénétrance est la même lorsque
la mutation vient du père ou lorsque la mutation vient de la mère.} Pour ce faire, nous avons
calculé les vraisemblance LP , LM , LC te, et LT à partir de la méthode PEL, telles que :
– LP est la vraisemblance du modèle pour l’échantillon dans lequel les phénotypes ont été
notés comme inconnus lorsque la mutation venait de la mère, ou lorsque l’origine de la
mutation était inconnue.
– LM est la vraisemblance du modèle pour l’échantillon dans lequel les phénotypes ont
été notés comme inconnus lorsque la mutation venait du père, ou lorsque l’origine de la
mutation était inconnue.
– LCte est la vraisemblance du modèle pour l’échantillon dans lequel tous les phénotypes
ont été notés comme inconnus (pour avoir la constante).
– LT est la vraisemblance du modèle pour l’échantillon dans lequel les phénotypes ont été
notés comme inconnus lorsque l’origine de la mutation était inconnue (échantillon de
référence).
74
4.4. Étude de l’hétérogénéité de la pénétrance de la NAH dans la population suédoise
LT
Puis nous avons fait le rapport de vraisemblance : ,où LST est la vraisemblance du
LST
modèle pour l’échantillon dans lequel le sexe du parent transmetteur a été pris en compte. Afin
que les individus dont l’origine de la mutation est inconnue ne soient pas pris en compte deux
fois, nous avons calculé la constante LCte . Nous avons donc :
LST = LP ∗ LM ∗ LCte
La figure 4.6 montre la courbe de pénétrance estimée avec la PEL pour tout l’échantillon
mais aussi pour les hommes et les femmes séparément. Nous n’avons pas trouvé d’effet signi-
ficatif du sexe (χ2 = 2, 44, 2ddl, pvalue ∼
= 0.3). Dans chacune des estimations que nous avons
menées dans les différents "sous-échantillons", le paramètre κ était toujours estimé à 0, ce qui
explique l’absence de plateau dans l’ensemble des courbes que nous présentons. Les valeurs du
risque ainsi que les intervalles de confiance (obtenus par bootstraps) de 30 à 90 ans sont donnés
dans le tableau 4.9.
L’échantillon global contenait des familles provenant de trois régions de Suède : Lycksele,
Pitea et Skelleftea. Pour la région de Lycksele, seulement 10 familles étaient disponibles, ce qui
est trop faible. Nous avons donc comparé uniquement les deux autres régions entre elles. La
figure 4.7 montre les courbes de pénétrance estimées dans les deux régions. On constate que la
pénétrance est plus basse dans la région de Pitea que dans celle de Skelleftea avec des péné-
trances respectives de 32% et 65% à 80 ans avec un test d’homogénéité significatif (χ2 = 26.60,
2ddl, p < 0.001).
Parmi les 77 familles, nous connaissions le sexe du parent transmetteur de la mutation pour
762 individus : pour 435 individus, le parent transmetteur était la mère et pour 327, le parent
transmetteur était le père. La figure 4.8 montre la courbe de pénétrance estimée selon le sexe du
75
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
0,8
0,7
0,6 Males
Females
0,5
All
0,4
0,3
0,2
0,1
0 10 20 30 40 50 60 70 80 90
TAB . 4.9 – Estimation de la pénétrance par la PEL dans les familles suèdoises
76
4.4. Étude de l’hétérogénéité de la pénétrance de la NAH dans la population suédoise
!
F IG . 4.7 – Estimation de la courbe de pénétrance selon la région Skelleftea et Pitea
parent transmetteur. On remarque une différence nette entre les deux courbes et la pénétrance
est significativement plus élevée lorsque la mutation est héritée de la mère plutôt que du père
(χ2 = 7.84, 2ddl, p < 0.02).
77
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
78
4.4. Étude de l’hétérogénéité de la pénétrance de la NAH dans la population suédoise
Le père La mère
cative du risque a été trouvée selon le sexe du parent transmetteur. Par contre, dans l’échantillon
français, la différence n’était pas significative.
79
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
80
4.5. Conclusion et Discussion
Dans ce chapitre, nous nous sommes intéressés au cas de familles sélectionnées sur l’exis-
tence d’au moins un individu atteint dans la famille, en contraste à la sélection sur critères
familiaux vue au chapitre 3.
Nous avons d’abord présenté la vraisemblance Prospective qui nécessite la modélisation ma-
thématique des critères de sélection et qui fournit des estimations de la fonction de pénétrance.
Nous avons montré que la vraisemblance Prospective était une méthode efficace dans le cas de
génotypes manquants, sans biais dans le cadre d’un modèle MM, mais qu’elle pouvait conduire
à des estimations fortement biaisées dans le cadre d’un modèle MCSM.
Le but de notre travail était donc de proposer une méthode simple qui estime la fonction de
pénétrance à partir de familles sélectionnées sur l’existence d’un atteint, qui tienne compte du
fait qu’un nombre variable d’individus pouvait ne pas être génotypés dans les familles et qui ne
soit pas biaisée pour la sélection.
A l’aide de simulations sous différents modèles génétiques et avec des schémas de sélection
différents, nous avons montré que la PEL fournissait des résultats très satisfaisants. Cette mé-
thode a l’avantage d’être simple, de faire peu d’hypothèses sur le processus de recensement et
de fournir des estimations non biaisées de la fonction de pénétrance, à condition que les familles
avec plusieurs proposants soient comptées autant de fois qu’il y a de proposants. Lorsque les
proposants ne sont pas bien identifiés et que les familles ne sont pas répliquées, nous avons
montré que la fonction de pénétrance pouvait être sous-estimée avec néanmoins un faible biais
relatif.
Nous avons montré également une faible sensibilité de la méthode à une mauvaise spécification
des paramètres du modèle génétique et avons constaté que l’extension du modèle de Weibull
permettait, en général, un meilleur ajustement aux données. Nous avons constaté que la PEL
perdait de l’efficacité lorsqu’un grand nombre de génotypes était inconnu mais beaucoup moins
que la GRL dans le même cas.
Dans le cas d’une sélection sur critères indépendants de l’histoire familiale, nous recom-
manderons donc d’utiliser la PEL préférentiellement à la vraisemblance Prospective, qui est
81
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
biaisée dans certains cas, et préférentiellement à la GRL, qui manque d’efficacité dans le cas
de génotypes inconnus et dont l’utilisation doit être restreinte au cas de sélection sur critères
familiaux pour lesquels l’utilisation d’une méthode simple telle que la PEL n’est pas adaptée.
Nous avons appliqué notre méthode ainsi que la vraisemblance Prospective à des données
de NAH et de cancer du sein afin d’illustrer nos résultats théoriques. De plus, nous avons mené
une étude sur la NAH avec des données suédoises.
Dans l’application à la NAH chez les Portugais et les Français, les fonctions de pénétrance es-
timées avec les deux méthodes étaient proches, comme nous l’attendions au vu des études de
simulations. L’importance du paramètre κ dans le modèle de Weibull étendu était parfaitement
illustré par l’estimation de la pénétrance dans l’échantillon portugais. Nous avons trouvé une
pénétrance estimée à 70 ans chez les porteurs de Val30Met de 50% chez les Français, de 91%
chez les Portugais et de 36% chez les Suédois.
Dans l’étude suédoise, nous avons montré une différence significative entre les pénétrances se-
lon les régions. Cette différence de risque peut s’expliquer d’un point de vue environnemental :
Skelleftea étant une région où les industries sont assez différentes de celles de Pitea ou de Lyck-
sele.
Il existe à Skelleftea une grande industie métallurgique et il existait anciennement des usines
de textile. Une étude entre ces activités et la maladie dans le nord de la Suède a révélé que ces
industries semblaient être un facteur de risque de la maladie [26].
Un autre résultat intéressant a été révélé par notre analyse : la différence significative de risque
selon que la mutation ait été héritée de la mère ou du père. Nos résultats vont dans le même sens
que ceux d’une précédente analyse généalogique qui soulignait que l’âge de début de la mala-
die était significativement plus élevé lorsque la mutation était héritée du père [15]. De plus,
une différence selon le sexe du parent transmetteur a été trouvée significative dans l’échan-
tillon de familles portugaises atteinte de NAH. Cependant, la différence n’était pas significative
pour l’échantillon de familles françaises atteinte de NAH. Ce résultat provient probablement du
manque de puissance pour détecter un effet dans le cas de pénétrances faibles ainsi que de la
petite taille de l’échantillon. Une hypothèse à ces résultats serait que l’hétérogénéité des péné-
trances soit due à un polymorphisme d’un gène modificateur dans l’ADN mitochondrial, qui est
82
4.5. Conclusion et Discussion
Dans l’application aux familles atteintes de cancer du sein, la probabilité de sélection était
très petite, due à l’inclusion d’un critère d’âge pour la sélection. Nous nous attendions à des ré-
sultats différents selon la méthode d’estimation utilisée puisque, dans ce cas, la vraisemblance
Prospective fournit des estimations biaisées tandis que les résultats que nous avons obtenus avec
la PEL sont vraisemblablement corrects. Toutefois, toutes les familles remplissant les critères
de sélection n’ont pas été sélectionnées et les patients ayant subi un test génétique ont pu être
motivés par une forte histoire familiale de cancer. Ce biais potentiel est extrêmement difficile à
corriger mais nous devons en tenir compte dans l’interprétation de nos résultats.
Cependant, les estimations que nous avons obtenues avec la PEL sont assez proches de celles
obtenues par Bonadona et al. [5] qui estimaient un risque cumulé à 70 ans de 57% pour les
porteurs de BRCA1 et de 31% pour les porteurs de BRCA2 (notre estimation à 70 ans était de
40% après avoir rassemblé les porteurs BRCA1 et BRCA2).
Les intervalles de confiance étaient obtenus par bootstraps, ce qui suppose une indépen-
dance entre les familles. Or, ce n’est pas forcément le cas lorsque les familles sont répliquées,
notamment dans l’application à la NAH pour laquelle certaines familles avaient plusieurs pro-
posants et ont donc été répliquées. Cependant, nous avons vérifié, à l’aide de simulations (nous
avons simulé 1000 réplicats d’échantillon de taille 100 et avons calculé la variance empirique
dans les diverses situations), que la variance n’était pas modifiée selon que les familles avec
plusieurs proposants étaient répliquées ou non.
Dans ce chapitre, nous avons développé une méthode d’estimation paramétrique utilisant
un modèle de Weibull. Dans les études de simulations, les phénotypes étaient donc simulés
sous une loi de Weibull. Cependant, même si le modèle de Weibull peut être caractérisé par sa
flexibilité, on peut se demander si l’hypothèse d’une loi de Weibull est toujours validée par les
données et si l’approche paramétrique que nous avons eue jusqu’à présent est toujours justifiée.
Ces questions font l’objet du dernier chapitre dans lequel nous présentons une méthode d’esti-
mation de la pénétrance que nous avons développée, basée sur une approche non-paramétrique.
83
Chapitre 4. Recensement sur critères indépendants de l’histoire familiale
Le travail sur l’étude des données suédoises pour la NAH a donné lieu à une publication
(Annexe F) dans Amyloid en 2008.
Une lettre a été soumise dans le Journal Amyloid concernant l’étude du sexe du parent
transmetteur dans les données françaises et portugaises (Annexe F).
84
Chapitre 5
Dans ce chapitre, nous nous plaçons à nouveau dans le cas d’échantillons recensés sur
l’existence d’au moins un atteint dans la famille (i.e. recensés indépendamment de l’histoire
familiale). Dans ce cas, nous avons développé une méthode, que nous avons présentée dans
le chapitre précédent, la méthode PEL, et nous avons montré, par des études de simulation,
qu’elle était sans biais dans de nombreuses situations. Dans nos simulations, nous avions si-
mulé les phénotypes des familles à partir d’une loi de Weibull. Mais que se passe-t-il lorsque
l’échantillon ne suit pas une loi de Weibull ? La PEL parvient-elle encore à estimer sans biais
la fonction de pénétrance pour n’importe quel échantillon, même lorsque la distribution de ce
dernier est très éloignée d’une loi de Weibull ?
La PEL utilise effectivement une approche d’analyse de survie basée sur la modélisation de la
fonction de pénétrance par une loi de Weibull. Ce modèle a été étendu par l’ajout de paramètres
pour le rendre plus robuste à une erreur de modélisation. Cependant, l’ajout de paramètres peut
dégrader considérablement les performances de l’estimation.
Nous avons donc développé une méthode non-paramétrique d’estimation de la fonction de pé-
nétrance à l’aide de la méthode de vraisemblance empirique. Nous l’avons appelée IDEAL
pour Index Discarding EuclideAn Likelihood.
Afin de bien comprendre cette méthode, nous commencerons par présenter la méthode de la
vraisemblance empirique. Nous décrirons ensuite notre méthode, IDEAL, à partir de la mé-
85
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
Dans cette section, nous présentons la méthode de la vraisemblance empirique (que nous
noterons EL pour Empirical Likelihood), sur laquelle est basée notre méthode IDEAL, et qui a
été pensée par Owen [36] dans le but de se libérer des hypothèses sur le modèle de distribution.
La EL est une méthode d’estimation non paramétrique, c’est-à-dire qu’aucune hypothèse de loi
n’est faite sur les données. La EL repose sur la méthode des moments au travers d’une équa-
tion de moments qui relie le paramètre (ou la fonction) à estimer et les données. La méthode
des moments est aussi une méthode d’estimation non paramétrique qui se justifie asymptoti-
quement. La EL fait intervenir les lois multinomiales pour palier au manque de précision de la
méthode des moments qui est efficace pour un nombre de données suffisamment grand. Ceci
permet d’obtenir l’estimateur du maximum de la vraisemblance empirique (noté MEL) comme
étant l’argument minimum d’un critère (cf. équation 5.11).
Ensuite, pour faire le lien avec les résultats connus de la théorie de la vraisemblance classique
(comme la distribution asymptotique de l’estimateur du maximum de vraisemblance, la distri-
bution asymptotique du rapport de vraisemblance, etc.), le critère obtenu avec la méthode des
moments est redémontré par la théorie de la vraisemblance classique (théorème 5.1.2.1), qui
donne à nouveau l’estimateur du maximum de vraisemblance empirique (équation 5.13).
Enfin, les propriétés asymptotiques de cet estimateur sont rappelées dans le théorème 5.1.2.2.
La méthode des moments est une méthode classique pour les problèmes d’estimation dans
lesquels le paramètre d’intérêt, θ, est défini comme la solution d’une équation faisant intervenir
les moments de la distribution. Cette équation peut s’écrire de la manière suivante :
86
5.1. Introduction générale à la méthode de Vraisemblance Empirique
Rp × Rd → Rq
m: (5.1)
X, θ → m(X, θ),
où
∗ X est une variable aléatoire
∗ m est une fonction
∗ P0 représente la "vraie" distribution de X
∗ E[.] définit l’espérance sous P0
∗ 0 désigne le vecteur nul de dimension q (q ≥ d)
∗ p représente la dimension des observations X
∗ d est la dimension du paramètre d’intérêt θ.
L’équation qui suit illustre le cas d’un moment d’ordre 1 et d’un moment d’ordre 2 avec le
paramètre inconnu µ et/ou la matrice de covariance Σ respectivement :
n
1X
m(Xi , θ) = 0, (5.4)
n i=1
87
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
où
n
1X
Pn (x) = δxi (x), (5.6)
n i=1
Cette approche très classique donne de bons résultats quand le nombre n de données est
assez grand car elle repose essentiellement sur des conditions asymptotiques. Mais, lorsque le
nombre de données est trop petit, la probabilité Pn peut devenir une approximation très mé-
diocre de la vraie probabilité P0 . L’estimateur des moments sera alors très éloigné de la vraie
valeur θ0 du paramètre.
Pour combler cette lacune, on introduit la famille des distributions multinomiales Q de la façon
suivante :
qi si ∃i, x = xi
Q(x) = (5.7)
0 sinon
n
X
où 0 < qi < 1 et qi = 1.
i=1
On remarque qu’il s’agit du choix de dimension maximale que l’on peut prendre pour une
famille de distribution puisque la dimension de la loi multinomiale est égale au nombre d’ob-
servations (en fait, qi représente la probabilité d’avoir xi ). En remplaçant Pn par Q, l’équation
des moments s’écrit :
88
5.1. Introduction générale à la méthode de Vraisemblance Empirique
n
X
qi [m(Xi , θ)] = 0. (5.9)
i=1
Dans l’estimation du paramètre d’intérêt θ, les poids (q1 , . . . , qn ) introduits dans l’équa-
tion 5.7 (qui sont les paramètres de la multinomiale) sont considérés comme des paramètres
de nuisance. Pour obtenir un critère "seulement en θ", on va optimiser par rapport aux autres
paramètres. On va donc optimiser en Q en utilisant la distance de Kullback K (voir Annexe C).
On obtient alors le critère suivant :
En fait, C(θ) est le rapport de vraisemblance empirique (ELR). C’est ce que nous allons
voir dans la section qui suit en faisant ressortir le lien qui existe entre cette approche (que nous
venons de décrire) et la méthode classique du maximum de vraisemblance.
Notons que, dans cette section, nous n’avons à aucun moment supposé de modèle de loi sur les
données. Nous n’avons donc fait aucune modélisation et avons utilisé Q comme une estimation
de la vraie loi des données.
Dans cette section, nous allons montrer comment la procédure décrite dans la section précé-
dente peut être interprétée dans un contexte de vraisemblance classique, et comment le critère
C peut être interprété comme un rapport de vraisemblance.
On va considérer la multinomiale Q comme un modèle paramétrique des données. Cette hy-
pothèse de modèle paramétrique est considérée ici uniquement dans le but d’introduire for-
mellement la méthode de la Vraisemblance Empirique (EL) comme une méthode de vrai-
89
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
semblance classique. Pour cela on définit, pour Q et θ vérifiant l’équation des moments (5.8)
(EQ [m(X, θ)] = 0), la densité de probabilité correspondant à Q de la manière suivante :
qi si ∃i, x = xi
g(θ,q1 ,...,qn ) (x) = (5.12)
0 sinon
( n
)
Y
EL(θ) = sup g(θ,q1 ,...,qi ) (Xi ) EQ [m(X, θ)] = 0
(q1 ,...,qn )
( i=1
n n n
)
Y X X
= sup qi qi m(Xi , θ) = 0, qi = 1 .
(q1 ,...,qn ) i=1 i=1 i=1
EL(θ)
ELR(θ) = −2 log (5.13)
maxθ {EL(θ)}
C(θ) = ELR(θ)
90
5.1. Introduction générale à la méthode de Vraisemblance Empirique
Théorème 5.1.2.2
Soit (X1 , . . . , Xn ) un échantillon indépendant et identiquement distribué sous P0 tel que E[m(Xi , θ0 )] =
0. Sous certaines conditions de régularités (cf. [39]), l’estimateur du M EL donné par
√ loi
N (θ̂M EL − θ0 ) −−−→ N (0, σ 2 ). (5.16)
n→∞
91
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
Dans la section précédente, nous avons donné une description de la vraisemblance empi-
rique. Dans son livre [36], Owen décrit très précisément la vraisemblance empirique et expose
ses multiples applications.
La méthode que nous avons développée, IDEAL, est basée sur la théorie de la vraisemblance
empirique.
IDEAL est une méthode non paramétrique qui estime la fonction de pénétrance. Cette mé-
thode s’applique à tous les modèles de maladies lorsque les familles ont été sélectionnées sur
au moins un atteint.
Comme la PEL, IDEAL corrige pour les critères de sélection en s’inspirant de la méthode
décrite par Weinberg [14, 47]. De plus, IDEAL fournit des bandes de confiance, c’est-à-dire
deux fonctions qui bornent la pénétrance à chaque âge t.
Nous commencerons, dans cette section, par présenter la vraisemblance empirique appli-
quée à une fonction de répartition, puis nous présenterons sa version Euclidienne. Nous pré-
senterons ensuite les modifications apportées afin de tenir compte de la sélection. Enfin, nous
décrirons les bandes de confiance pour la fonction de pénétrance.
92
5.2. Présentation de IDEAL (Index Discarding EuclideAn Likelihood)
ici que la vraisemblance empirique (EL) peut être appliquée dès que le paramètre d’intérêt θ0
est défini comme la solution de l’équation :
EP0 [m(X, θ0 )] = 0
où
∗ X est une variable aléatoire
∗ m est une fonction
∗ P0 représente la "vraie" distribution de X
∗ E[.] définit l’espérance sous P0
Donc, selon les observations X1 , ..., Xn , pour estimer θ0 , on considère les valeurs de θ tel
que m(Xi , θ) soit de moyenne nulle :
n
1X
m(Xi , θ) = 0.
n i=1
où
∗ θ0 correspond à F (t)
∗ A = l’âge de début de la maladie. Par la suite, on notera X = (Y, G, P, P b) où X résume
l’information pour un individu avec : , Y = l’âge de l’individu, G = le génotype, P = le
phénotype et P b = 1 si l’individu est un proposant et P b = 0 sinon.
∗ m(x, y) = 1lx≤t − y (où 1lx≤t est la fonction indicatrice de l’évènement x ≤ t).
93
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
qi si ∃i, x = xi ,
Q(x) =
0 sinon
P
avec 0 < qi < 1 et qi = 1.
On a la EL :
( n
)
Y
EL(θ, t) = sup Q(Xi ) EQ [11A≤t − θ] = 0
Q
i=1
( n n n
)
Y X X
= sup qi qi (11A≤t − θ) = 0, qi = 1 ,
(q1 ,...,qn ) i=1 i=1 i=1
et l’estimateur M EL est donné par : θ̂ = arg maxθ {EL(θ, t)} qui est un estimateur asymp-
totiquement gaussien de θ0 quelle que soit la distribution des données.
EL(θ, t) EL(θ, t)
−2 log = −2 log
EL(θ̂, t) sup θ {EL(θ, t)}
supQ { ni=1 Q(Xi )| EQ [11Ai ≤t − θ] = 0}
Q
= −2 log
sup(Q,θ) { ni=1 Q(Xi )| EQ [11Ai ≤t − θ] = 0}
Q
Z dQ
où K(Q, Pn ) = − log dPn , où Q est la multinomiale et Pn est la probabilité
dPn
empirique (qui est la meilleure multinomiale qui maximise la vraisemblance sans contrainte) :
1
si ∃i, x = xi ,
Pn (x) = n
0 sinon.
94
5.2. Présentation de IDEAL (Index Discarding EuclideAn Likelihood)
1
si ∃i, x = Xi , Gi = 1 et Yi ≥ t,
W (x) = n
0 sinon.
95
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
Pour un individu i non atteint, l’âge de début de la maladie, Ai , n’existe pas. Formellement,
l’information que nous allons utiliser est que, pour un tel individu i, Ai est plus grand que son
âge Yi . Dans ce cas, nous noterons donc que Ai = +∞.
Les familles sélectionnées représentent un échantillon biaisé, dans lequel les individus at-
teints sont sur-représentés. Dans ce cas, θ0 = F (t) ne vérifie pas l’équation d’estimation, et on
a:
EP0 (11A≤t − θ0 ) 6= 0,
où P0 est la loi de probabilité sous laquelle les données (biaisées) sont distribuées.
Nous proposons donc ici de corriger pour le biais de sélection en pondérant les proposants avec
un poids plus faible que les autres individus : si une famille possède k proposants potentiels,
1
chacun sera pondéré par 1 − . Cette méthode est fortement inspiré de la méthode de Weinberg,
k
comme dans le cas de la PEL [14, 47].
Avec cette nouvelle distribution, l’équation d’estimation E[11A≤t −θ0 ] fournit une estimation
non biaisée de θ0 . La mesure de référence W s’écrit alors :
1
si ∃i, x = Xi , P bi = 0, Gi = 1 et Yi ≥ t,
n
1 1
W (x) = ∗ 1 − si ∃i, x = Xi , P bi = 1, Gi = 1 et Yi ≥ t, (5.18)
n k
0 sinon.
Nous avons alors une nouvelle vraisemblance avec une nouvelle mesure de référence. Nous
l’avons appelée IDEAL pour Index Discarding EuclideAn Likelihood. On rappelle que k est le
nombre de proposants dans la famille ; P bi = 1 si l’individu i est proposant et P bi = 0 sinon ;
Gi = 1 si i est porteur de la mutation, 0 sinon et Yi représente l’âge de l’individu i.
La démonstration de la correction pour la sélection est mise en annexe E.
96
5.2. Présentation de IDEAL (Index Discarding EuclideAn Likelihood)
Une des propriétés importantes de la vraisemblance empirique mais aussi des vraisem-
blances qui s’y apparentent telle que la vraisemblance euclidienne, est qu’elle fournit des bandes
de confiance pour la fonction de répartition F (cf. Chapitre 7 de [36]). Cela signifie que, quel
que soit le niveau de confiance, par exemple 95%, on peut avoir deux fonctions de répartitions
J et H telles que, avec une probabilité de 95% et pour tout t, on ait :
La différence fondamentale avec l’intervalle de confiance, qui est donné t par t est que la
bande de confiance est globale et s’applique à tout t : avec un probabilité de 95%, la fonction F
se situe entre J et H pour tout t.
J(t) = min{θ|IDEAL(θ, t) ≤ cn },
H(t) = max{θ|IDEAL(θ, t) ≤ cn },
97
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
Dans un premier temps, nous avons étudié la méthode IDEAL en terme de biais relatif à
l’aide de familles simulées sous une loi de Weibull, comme nous l’avions fait avec notre mé-
thode paramétrique (la PEL) dans le chapitre précédent. Nous avons ensuite comparé les deux
méthodes en terme de biais relatif dans le cas où les familles étaient simulées sous différentes
lois, autre que la loi de Weibull. On reprendra la définition du biais relatif donné au chapitre 4.
5.3.1 Simulations
Les familles ont été simulées avec le même processus que dans le chapitre 4. Pour être
dans les conditions asymptotiques, la taille des échantillons a été fixée à 5 000 familles après
sélection, et donc à 90 000 individus puisque chaque famille contient un couple ancêtre avec 4
enfants, chacun d’eux ayant 4 enfants avec leur conjoint ou conjointe respectif. Afin de limiter
le temps de calcul, nous avons fixé la fréquence de l’allèle délétère (noté f q) à 0.1. Nous avons
fixé le taux de mutation de novo (noté pn) à 0 et nous avons considéré dans nos simulations que
tous les génotypes étaient connus.
Comme dans le chapitre précédent, nous avons supposé deux types de modèle :
∗ Le modèle MM correspondant à la simulation d’une maladie mendélienne et dans lequel
nous avons simulé un risque nul d’être atteint chez les non porteurs.
∗ Le modèle MCSM correspondant à la simulation d’une maladie complexe à sous-entités
monogéniques et pour laquelle le risque d’être atteint chez les porteurs de la mutation a
été fixé à 0.1 à 80 ans. Pour cette maladie, un critère d’âge de 36 ans pour la sélection a
été introduit.
Afin d’étudier le comportement de la méthode IDEAL, nous avons simulé les phénotypes
avec une fonction âge-dépendante basée sur le modèle de Weibull étendu (cf. Chapitre 2) cor-
respondant à une valeur de risque cumulé de 0.5 à 80 ans.
Ensuite, pour comparer IDEAL à la méthode PEL, nous avons simulé les phénotypes avec une
fonction âge-dépendante basée sur d’autres modèles que celui de Weibull : Une loi uniforme
(composée de lois uniformes) puis une loi de Cauchy. Nous avons choisi ces lois car elles sont
98
5.3. Étude de IDEAL et comparaison avec la PEL
très différentes d’une loi de Weibull et peuvent être difficilement "approchables" par une telle
loi.
Comme dans les chapitres précédents, nous avons introduit deux longueurs de périodes (T = 20
ans et T = 1 an) et deux probabilités (ps = 1 et ps = 0.5) pour la sélection des familles et nous
avons fait l’hypothèse d’une transmission dominante.
Afin de réduire le nombre de cas étudiés, nous avons réduit le nombre de situations à deux
schémas de simulation et de sélection opposés :
∗ SF aible : Simulation d’un modèle MCSM avec un critère d’âge de 36 ans et d’une proba-
bilité de sélection faible (T = 1 et ps = 0.5).
∗ SF orte : Simulation d’un modèle MM et d’une probabilité de sélection forte (T = 20 et
ps = 1).
Nous avons donc simulé des familles sous le schéma SF aible et la figure 5.1 montre la courbe
de pénétrance estimée avec IDEAL. On constate que la méthode est sans biais et que la vraie
courbe de pénétrance (courbe avec ∗) et la courbe de pénétrance estimée par IDEAL (courbe
en pointillés) sont pratiquement superposées. Les courbes en rouges représentent les bandes de
confiance à 95% et on constate qu’elles sont très proches de la pénétrance estimée.
On rappelle que, dans ce même cas, la PEL donne également des estimations non biaisées de la
pénétrance.
La figure 5.2 montre la courbe de pénétrance estimée avec IDEAL sous le schéma SF orte .
Comme dans la figure 5.1, IDEAL est sans biais et la courbe estimée et la vraie courbe sont
superposées.
Dans les deux schémas de simulation SF aible et SF orte , IDEAL donne donc des estima-
tions sans biais. On peut donc logiquement supposer que la méthode est sans biais dans tous les
autres shémas "intermédiaires" de simulations que nous avions décrit dans le chapitre 4. Nous
pouvons conclure que, comme la PEL, IDEAL est sans biais lorsque les familles sont simu-
99
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
0,8
0,7
0,6
Vraie pénétrance
Bandes de confiance
0,4
0,3
0,2
0,1
0
0 10 20 30 40 50 60 70 80 90
0,9
0,8
0,7
Vraie pénétrance
0,4
0,3
0,2
0,1
0
0 10 20 30 40 50 60 70 80 90
100
5.3. Étude de IDEAL et comparaison avec la PEL
lées sous une loi de Weibull. Nous allons maintenant comparer les deux méthodes dans le cas
de familles simulées sous des lois très différentes de la loi de Weibull.
Nous avons choisi de montrer les résultats dans le cas de simulations sous un modèle MCSM
avec un critère d’âge de 36 ans. Pour la sélection, nous avons étudié le cas où T = 20 ans et
ps = 0.5.
Les données ont été simulées sous une loi de Cauchy puis sous une loi uniforme.
La loi de Cauchy de paramètres (α, a > 0), définit sur R, s’écrit :
1
fα,a (x) = 2 ,
x−α
πa 1 +
a
La figure 5.3 montre l’estimation de la fonction de pénétrance avec IDEAL et avec la PEL
lorsque les phénotypes sont simulés sous un modèle âge-dépendant basé sur une loi uniforme.
On constate que la PEL ne s’ajuste pas bien à la vraie courbe tandis que la pénétrance estimée
par la méthode IDEAL est parfaitement sans biais.
La figure 5.4 montre l’estimation de la fonction de pénétrance avec IDEAL et avec la PEL
lorsque les phénotypes sont simulés sous un modèle âge-dépendant basé sur une loi de Cauchy.
Ici encore, l’estimation de la fonction de pénétrance avec IDEAL est sans biais tandis que la
courbe estimée avec la PEL est très biaisée.
101
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
1
Vraie pénétrance
0,6
0,4
0,2
0
0 10 20 30 40 50 60 70
0,9
0,8
0,7
0,6
Vraie pénétrance
0,5
Estimation de la pénétrance avec IDEAL
Estimation de la pénétrance avec la PEL
0,4
0,3
0,2
0,1
0
0 10 20 30 40 50 60 70 80 90
102
5.3. Étude de IDEAL et comparaison avec la PEL
0,9
0,5
0,4
0,3
0,2
0,1
0
0 10 20 30 40 50 60 70
On constate que dans ce cas, la PEL a un biais négligeable tandis que la méthode IDEAL
est sans biais dans les premiers âges, jusqu’à 60 ans puis, elle est biaisée à partir de 60 ans. De
plus, les intervalles de confiance de la PEL sont beaucoup plus petits que les bandes de confiance
obtenues avec IDEAL. Dans le cas du schéma SF aible , la bande de confiance inférieure est
même supérieure à la vraie pénétrance, mais ceci uniquement pour les âges au-delà de 65 ans.
Les figures 5.7 et 5.8 présentent les estimations de la pénétrance avec IDEAL et la PEL
103
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
0,9
0,8
Vraie pénétrance
0,7
Estimation de la pénétrance avec IDEAL
0,6
Estimation avec la PEL et avec les intervalles de confiance
0,4
0,3
0,2
0,1
0
0 10 20 30 40 50 60 70
pour un échantillon simulé respectivement sous une loi uniforme et sous une loi de Cauchy.
Pour chacune des figures, nous avons donné les intervalles de confiance pour la PEL aux points
30, 40 et 50 ans pour la loi uniforme et aux points 50, 60 et 70 ans pour la loi de Cauchy. Les
bandes de confiance calculées par IDEAL ont été données dans les deux figures. Dans les deux
cas, on constate que IDEAL donne une estimation meilleure que la PEL et que les bandes de
confiance sont plus "étroites" que les intervalles de confiance.
104
5.3. Étude de IDEAL et comparaison avec la PEL
1
Vraie pénétrance
0,6
0,4
0,2
0
0 10 20 30 40 50 60 70
F IG . 5.7 – Estimation de la fonction de pénétrance un échantillon de 200 familles sous une loi
uniforme
105
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
1,00E+00
9,00E-01
8,00E-01
7,00E-01
6,00E-01
5,00E-01
Vraie pénétrance
4,00E-01 Estimation de la pénétrance avec IDEAL
Bandes de confiance avec IDEAL
3,00E-01 Estimation de la pénétrance avec la PEL
2,00E-01
1,00E-01
0,00E+00
0 10 20 30 40 50 60 70 80 90
F IG . 5.8 – Estimation de la fonction de pénétrance dans un échantillon de 200 familles sous une
loi de Cauchy
106
5.4. Conclusion et discussion
Dans ce chapitre, nous avons proposé une méthode d’estimation non paramétrique, IDEAL,
adaptée pour la fonction de pénétrance et qui corrige pour le biais de sélection dans le cas où les
familles sont sélectionnées par l’intermédiaire d’un atteint. Nous avons comparé cette méthode
à la méthode PEL, décrite dans le chapitre 3, qui est une méthode paramétrique qui prend égale-
ment en compte la sélection des familles. La différence fondamentale entre ces deux méthodes
est que la PEL utilise une approche d’analyse de survie basée sur un modèle de Weibull pour
modéliser la pénétrance alors que IDEAL ne fait aucune hypothèse sur la loi de la pénétrance.
Nous avons d’abord démontré formellement dans l’annexe E que la correction pour la sé-
lection utilisée dans IDEAL fournissait des estimations sans biais. Puis, à partir de grands
échantillons de données simulées sous une loi de Weibull, nous avons montré que IDEAL
fournissait des estimations non biaisées de la pénétrance. Nous avions montré dans le chapitre
4 que la PEL fournissait également des estimations sans biais dans ce cas.
En revanche, lorsque la loi des données s’écarte d’une loi de Weibull, nous avons montré que la
PEL était biaisée et pouvait même être fortement biaisée (par exemple, lorsque les données sont
simulées sous une loi de Cauchy) tandis que IDEAL fournissait des courbes de pénétrance non
biaisées.
Dans cette étude faite à partir de données simulées, nous avons considéré que l’ensemble
des génotypes des individus était connu. Cependant, les génotypes inconnus peuvent être pris en
compte dans la méthode IDEAL par des pondérations. En effet, à partir des génotypes connus,
on peut estimer la probabilité pi de recevoir la mutation pour chaque individu i non génotypé.
Dans la mesure de référence, on utilisera donc la valeur de pi /n plutôt que 1/n.
Nous avons aussi étudié le comportement de notre méthode dans le cas d’échantillons de
taille non asymptotique. Dans ce cas, l’approche paramétrique (i.e. utilisation du modèle de
Weibull étendu) est très utile pour "parer" au manque d’information en "forçant" la forme de la
courbe. Dans ce cas, la PEL donne donc, logiquement, de meilleures estimations que IDEAL,
107
Chapitre 5. Estimation de la pénétrance par une méthode non paramétrique
lorsque les données sont simulées sous une loi de Weibull. Cependant, lorsque la loi des don-
nées est éloignée d’une loi de Weibull, IDEAL fournit alors de meilleures estimations que la
PEL.
Une autre caractéristique de IDEAL est le fait que la méthode fournisse des bandes de
confiance plutôt que des intervalles de confiance. Notre étude a montré que la largeur de ces
bandes de confiance augmente avec l’âge t. On peut expliquer cela par le fait que seuls les
individus dont l’âge est supérieur à t sont considérés pour estimer la pénétrance en t. La popu-
lation considérée diminue donc avec t et cela entraîne un élargissement des bandes de confiance
puisque ces dernières fournissent l’information sur la précision de l’estimation de la fonction
de pénétrance en t.
Enfin, nous avons remarqué dans la littérature que la fonction de pénétrance était souvent
modélisée en utilisant une approche d’analyse de survie basée sur un modèle des données sans
que cette approche soit formellement validée. Il peut donc être utile d’utiliser notre méthode
non paramétrique, IDEAL, au préalable afin de valider ou non une approche paramétrique. Si
l’estimation donnée par IDEAL est proche de celle fournie par la PEL, l’utilisation de la se-
conde méthode sera préférentiellement utilisée. Dans le cas contraire, on préférera l’utilisation
de la méthode non paramétrique.
Ce travail a donné lieu à une publication (Annexe F) dans Genetic Epidemiology en 2008.
108
Conclusion et Perspectives
L’estimation de risque de maladies dues à des mutations génétiques est indispensable non
seulement à la prise en charge des individus porteurs de la mutation mais également à une
meilleure compréhension de la maladie et de ses mécanismes sous-jacents. Les données qui
permettent d’estimer ce risque sont des données familiales. Les familles ont pu être recensées
dans un cadre de recherche (il s’agit de recenser des familles à travers un protocole établi au
préalable) ou elles peuvent être recensées dans un but de prise en charge (il s’agit alors de dé-
tecter les individus porteurs de la mutation le plus tôt possible afin de les prendre en charge
médicalement). Dans tous les cas, les maladies étudiées étant des maladies pour lesquelles la
forme génétique est rare, les familles ne sont jamais recensées aléatoirement dans la population
mais à partir de certains critères.
Lors de l’estimation des risques associés aux mutations, le fait de ne pas tenir compte du mode
de recensement biaise fortement les résultats.
109
. Conclusion et Perspectives
était très peu efficace lorsqu’un grand nombre d’individus n’était pas génotypés.
Lorsque les familles sont recensées sur des critères indépendants de l’histoire familiale, nous
avons développé une méthode permettant d’estimer la fonction de pénétrance, que nous avons
appelée PEL, et nous avons montré qu’elle restait efficace lorsqu’un grand nombre de géno-
types était inconnu. La PEL est une méthode d’estimation paramétrique qui modélise la fonc-
tion de pénétrance par un modèle de Weibull. Nous avons choisi d’utiliser un modèle de Weibull
étendu dans lequel des paramètres ont été ajoutés afin que le modèle s’adapte plus facilement
aux données. L’avantage de cette approche paramétrique est, qu’en faisant une hypothèse de loi
sur les données, nous réduisons la dimension du problème à l’estimation d’un nombre fini de
paramètres. Si la loi des données est effectivement proche de la loi supposée, même un petit
échantillon pourra conduire à de bonnes estimations. En revanche, si la loi des données est très
éloignée de la loi supposée a priori, les estimations pourront être fortement biaisées.
De plus, dans les différentes études que nous avons pu trouver dans la littérature, la loi des
données n’est jamais testée. Nous avons donc développé une autre méthode d’estimation de la
fonction de pénétrance que nous avons appelée IDEAL. La particularité de cette autre méthode
est qu’elle est non-paramétrique et ne fait, par conséquent, aucune hypothèse sur la loi des don-
nées. Cette approche non-paramétrique est par nature robuste aux erreurs de modèle (model
mismatch) mais beaucoup plus "coûteuse" en termes de données (nécessaires à la procédure
d’estimation pour garantir une bonne précision) et de temps de calcul.
Afin d’illustrer notre méthode PEL, nous l’avons appliquée à différents échantillons : un
échantillon de données de cancer du sein ainsi qu’un échantillon de données NAH provenant de
familles françaises et portugaises. Nous avons également analysé des données NAH provenant
de familles suédoises.
On peut raisonnablement supposer que la distribution de ces données peut être approchée par
une loi de Weibull. Cependant, il serait intéressant d’estimer les différentes fonctions de pé-
nétrance pour ces applications, avec notre méthode IDEAL afin de valider ou de réfuter cette
hypothèse.
Dans ce travail, nous nous sommes intéressées uniquement au risque associé à la muta-
110
tion prédisposante. Mais, outre la mutation prédisposante, le risque peut aussi être modifié par
d’autres facteurs, génétiques ou environnementaux. Il serait donc intéressant de pouvoir inclure,
notamment dans la GRL ainsi que dans la PEL des covariables environnementales et/ou géné-
tiques afin de mettre en évidence l’effet de ces covariables individuelles sur le risque. Il serait
également intéressant de prendre en compte une corrélation familiale qui ne soit due ni à la
mutation, ni aux covariables.
111
. Conclusion et Perspectives
112
Annexe A
Crow [14] a montré que la réplication des familles autant de fois qu’il y a de proposants
lorsque la familles contient plusieurs proposants, fournit un estimateur consistant, θs , du rapport
de ségrégation p (c’est-à-dire que θs tend en probabilité vers p). Soit une fratrie de taille s, soit
x, la probabilité qu’une famille avec r atteints soit recensée au moins une fois, on a :
x = 1 − (1 − π)r ,
πr πr
E(a) = = .
1 − (1 − π)r x
En notant p, la probabilité pour un individu de la fratrie d’être atteint (i.e. p est la rapport
de ségrégation) , l’estimation θs de p est donnée par le rapport de l’espérance du nombre d’in-
dividus atteints dans une fratrie sélectionnée et répliquée autant de fois qu’il y a de proposant,
sur l’espérance du nombre d’individus dans une fratrie sélectionnée et répliquée autant de fois
qu’il y a de proposants. θs s’écrit donc :
113
Annexe A. La méthode du proposant de Weinberg
s
X s
a(r − 1)x pr q s−r
r=1 r
θs =
s
X s
a(s − 1)x pr q s−r
r=1 r
En remplaçant a par son espérance, E(a) = πr/x, on a :
s
X s
π r(r − 1)x pr q s−r
r=1 r
θs =
s
X s
π(s − 1) pr q s−r
r=1 r
s
X (s − 2)!
s(s − 1)p 2
pr−2 q s−r
r=2
(r − 2)!(s − r)!
=
s
X (s − 1)!
s(s − 1)p pr−1 q s−r
r=1
(r − 1)!(s − r)!
114
Annexe B
Considérons une maladie dans laquelle l’allèle délétère A est strictement dominant sur l’al-
lèle normal a. Les individus atteints peuvent donc être homozygotes AA ou hétérozygotes Aa.
Soit q la fréquence de l’allèle A et soit P , la proportion d’homozygotes parmi tous les indi-
vidus atteints dans la population. En supposant Hardy-Weinberg, la fréquence théorique des
homozygotes et des hétérozygotes dans la population est respectivement q 2 et 2q(1 − q). Donc :
q2
P = ,
q 2 + 2q(1 − q)
et finalement, on obtient :
2P
q= .
1+P
Comme il y a 9 homozygotes parmi les 401 porteurs de la mutation, on a : P = 9/401 et
2(9/401)
q= = 0.04.
1 + (9/401)
115
Annexe B. Calcul de la fréquence allélique à partir de la proportion d’homozygotes
116
Annexe C
La divergence de Kullback
Pour pouvoir classer les densités de probabilité des données, nous avons besoin d’une me-
sure sur ces densités de probabilité. Le choix le plus naturel est d’utiliser la divergence de
Kullback qui permet de comparer un candidat Q avec la probabilité des données générée P0
[43]. Pour Q et P , deux densités de probabilité distinctes, la divergence de Kullback est définie
de la façon suivante :
R dQ
− log( ) dP si Q est absolument continue par rapport à P
K(Q, P ) = dP (C.1)
+∞ sinon
Ceci donne une mesure plausible K(Q, Pn ). On remarque donc que si Q n’est pas absolu-
ment continue par rapport à Pn (Q << Pn ), la divergence diverge. Donc, les seules densités de
probabilité qui conviennent sont celles qui sont absolument continues par rapport à Pn
117
Annexe C. La divergence de Kullback
118
Annexe D
La difficulté principale dans le calcul de EL(θ) pour tout θ se situe dans le problème d’op-
timisation, qui est résolue ici par la méthode du Lagrangien.
Lemme D.0.0.1
Si les hypothèses du théorème 5.1.2.1 sont vérifiées, le supremum qui apparaît dans la définition
de EL(θ) est atteint et, il existe λ∗ tel que les poids optimaux sont donnés par :
1
qi∗ = (1 + λ∗ m(xi , θ))−1 ,
n
et EL(θ) s’écrit donc :
( n )
Y
EL(θ) = max (n(1 + λ m(xi , θ)))−1
λ
i=1
Preuve D.0.0.1
Comme −log est une fonction décroissante, on a :
( n n n
)
Y X X
−log(EL(θ)) = −log sup qi | qi m(xi , θ) = 0, (qi − 1/n) = 0
(q1 ,...,qn ) i=1 i=1 i=1
( n
! n n
)
Y X X
= min −log qi | qi m(xi , θ) = 0, (qi − 1/n) = 0
(q1 ,...,qn )
i=1 i=1 i=1
( n n n
)
X X X
= min − log(qi ) + nλ qi m(xi , θ) − γ (qi − 1/n) .
(q1 ,...,qn ,λ,γ)
i=1 i=1 i=1
119
Annexe D. Preuve du théorème 5.1.2.1
En dérivant, on a :
1
qi∗ = (1 + λ∗ m(xi , θ))−1
n
Finalement,
( n
)
X
EL(θ) = min 2 log (n(1 + λ m(xi , θ)))
λ
i=1
1 −1 1
qˆi∗ = 1 + 0 m(xi , θ̂M EL ) = (D.1)
n n
et donc :
120
EL(θ)
ELR(θ) = −2log
supθ EL(θ)
( n )!
Y
n
= −2log n sup g(θ, q1 , . . . , qi )(xi )|EG [m(x, θ)] = 0
(q1 ,...,qn ) i=1
( n
)
X
= 2 min − log(nqi )|E[m(x, θ)] = 0
(q1 ,...,qn )
i=1
1X n qi
= 2n min − log |E[m(x, θ)] = 0
(q1 ,...,qn ) n 1/n
i=1
Z dG
= 2n min − log dPn |E[m(x, θ)] = 0
(q1 ,...,qn ) dPn
= C(θ),
121
Annexe D. Preuve du théorème 5.1.2.1
122
Annexe E
Weinberg propose une méthode corrigeant pour la sélection en "se débarrassant" du propo-
sant : Pour une famille de k proposants, la famille est répliquée k fois et à chaque réplication, un
proposant différent est retiré. Par exemple, s’il y a 3 proposants p1 , p2 , p3 dans une famille fe ,
cette famille sera répliquée 3 fois en 3 familles f(e,1) , f(e,2) , f(e,3) . Dans f(e,1) , c’est le proposant
p1 qui sera retiré, les autres seront comptés comme le reste des membres de la famille ; dans la
famille f(e,2) , c’est le proposant p2 qui sera retiré et enfin, dans la famille f(e,3) , le proposant p3
sera retiré et les autres (p1 et p2 ) seront comptés comme le reste des membres de la famille.
La validité de cette méthode a été montrée par Crow dans [14] pour estimer le rapport de ségré-
gation A. Mais elle peut être transposée dans notre contexte d’estimation de pénétrance à partir
de données familiales.
Le paramètre θ, qui représente la pénétrance au temps t, est donné par le rapport de l’espérance
du nombre d’individus atteints dans une famille sélectionnée et répliquée, sur l’espérance du
nombre d’individus porteurs de la mutation dans une famille sélectionnée et répliquée.
Dans ce qui suit, on note Gi et Pi respectivement le génotype et le phénotype de l’individu i.
On a :
123
Annexe E. Prise en compte de la sélection dans IDEAL
" r
#
X
E (11Pi =1 − θ11Gi =1 )(k11P bi =0 + (k − 1)11P bi =1 ) = 0 (E.2)
i=1
X r 1
E (11Pi =1 − θ11Gi =1 ) 11P bi =0 + 1 − 11P bi =1 = 0 (E.3)
i=1
k
1 si i n’est pas un proposant et x = Xi ,
W0 (x) = 1 (E.4)
1 − si i est un proposant et x = Xi ,
k
0 sinon.
" r
#
X
EW0 (11Pi =1 − θ11Gi =1 ) = 0. (E.5)
i=1
L’intégrale de W0 ne vaut pas 1. Pour avoir une mesure de probabilité, W0 est donc norma-
lisée. Notre mesure de référence :
1
si ∃i, x = Xi , P bi = 0, Gi = 1 et Yi ≥ t,
n
W (x) = 1 1 (E.6)
(1 − ) si ∃i, x = Xi , P bi = 1, Gi = 1 et Yi ≥ t,
n k
0 sinon,
θ. C’est pourquoi nous avons utilisé cette procédure de prise en compte de la sélection dans
IDEAL.
124
Montrons maintenant que nous pouvons réécrire l’équation d’estimation comme nous l’avons
présentée dans le corps du manuscrit.
Premièrement, sous W , Gi est constant et égal à 1. On peut donc s’en affranchir. Ensuite, pour
t fixé, dire qu’un individu i est tombé malade (i.e. Pi = 1) est équivalent au fait de dire qu’il est
tombé malade avant t (i.e. Ai ≤ t). Finalement, on obtient donc :
" r
# " r
#
X X
EW (11Pi =1 − θ11Gi =1 ) = EW (11Ai ≤t − θ) . (E.7)
i=1 i=1
125
Annexe E. Prise en compte de la sélection dans IDEAL
126
Annexe F
Articles
127
Annexe F. Articles
128
European Journal of Human Genetics (2007), 1–6
& 2007 Nature Publishing Group All rights reserved 1018-4813/07 $30.00
www.nature.com/ejhg
ARTICLE
1
INSERM, U535, Villejuif, France; 2Univ Paris-Sud, IFR 69, UMR-S535, Villejuif, France; 3Centre Léon Bérard, Lyon,
France; 4Univ Lyon 1; CNRS, UMR5558, Lyon, France
b c
Figure 1 Pedigree structure with (a) index case’s ancestors and nuclear family and (b,c) secondary nuclear families (index case marked with
an arrow).
Mendel’s laws for subjects whose parents were in the extreme situation, where only two genotypes are known
pedigree, ignoring the possibility of de novo mutation and (the index case and one relative). Note that if only the
according to the frequency of the mutated allele for index case is genotyped, G and Oc are identical, and the
founders. To obtain samples of sufficient size with at least likelihood is a constant.
one carrier individual (the index case), without simulating To study the information provided by family branches
too many families, this frequency was set at 0.10. with no genotypic data, we selected families in which the
Phenotypes were simulated according to the age-depen- index case’s nuclear family included an affected relative
dent penetrance function, with the Weibull model. tested for the mutation, and members of the secondary
For noncarriers (Gen ¼ g), the parameter kg was set at 0 nuclear families of the third generation were not tested. We
and parameters lg and ag at values corresponding to a then compared the variance of the cumulative hazard
cumulative risk of 0.02 by age 80. For carriers (Gen ¼ G), we function in four different situations, according to whether
considered two different risk values, the first one corre- the sample included for each family (Figure 1): (1) only the
sponding to a cumulative risk of 0.2 (called ‘low true ancestors and members of the index case’s nuclear family
penetrance’) by age 80 and the second one to 0.5 (called (pedigree A); (2) pedigree A þ members of secondary
‘high true penetrance’) by the same age. We did not nuclear families with at least one affected (ie, family types
consider any gender differences in risks. B and C); (3) pedigree A þ members of secondary nuclear
The families were selected if at least two members were families with at least two affected (family type C); and (4)
affected. To keep sample fluctuations to a minimum, all family members.
sample size was fixed to 10 000 families after selection. Parameters of the penetrance function were estimated by
The loss (or gain) of efficiency was investigated by maximising the likelihood of simulated samples. We wrote
computing asymptotic relative efficiencies (AREs) of pene- a program that includes the maximisation procedure
trance estimates, that is, the inverse of the ratio of the GEMINI as a subroutine18 and provides maximum like-
variance estimate in a given situation to the variance lihood estimates of the parameters lG and aG for carriers.
obtained in a reference situation. To evaluate the variance Because kG was set at 0 in the simulation process, we
of the penetrance, we simulated, in each situation, 1000 did not estimate this parameter. We assumed that the
replicates of the family sample and computed the variance penetrance was known for noncarriers and the three
of the estimate by age 70. parameters were set at the same values as in the family
The efficiency of the GRL according to the proportion of simulation process.
genotyped individuals in families was studied by compar-
ing the variance of the cumulative hazard functions HNPCC families
calculated with varying proportions of genotyped indivi- The index cases investigated in this study are patients
duals (25, 50 and 75%) to the variance computed when all referred by their physicians or self-referred for genetic
genotypes are known. We also considered the most counselling at the Centre Leon Bérard in Lyon (France)
Providing valid risk estimates of a genetic disease with variable age of onset is a major challenge for prevention strategies.
When data are obtained from pedigrees ascertained through affected individuals, an adjustment for ascertainment bias is
necessary. This article focuses on ascertainment through at least one affected and presents an estimation method based on
maximum likelihood, called the Proband’s phenotype exclusion likelihood or PEL for estimating age-dependent penetrance
using disease status and genotypic information of family members in pedigrees unselected for family history. We
studied the properties of the PEL and compared with another method, the prospective likelihood, in terms of bias and
efficiency in risk estimate. For that purpose, family samples were simulated under various disease risk models and under
various ascertainment patterns. We showed that, whatever the genetic model and the ascertainment scheme, the PEL
provided unbiased estimates, whereas the prospective likelihood exhibited some bias in a number of situations.
As an illustration, we estimated the disease risk for transthyretin amyloid neuropathy from a French sample and a
Portuguese sample and for BRCA1/2 associated breast cancer from a sample ascertained on early-onset breast cancer cases.
Genet. Epidemiol. 2008. r 2008 Wiley-Liss, Inc.
Key words: ascertainment bias; risk estimation; penetrance function; maximum likelihood method
Correspondence to: F. Alarcon, INSERM U535, BP 1000, F-94817 Villejuif, France. E-mail: [email protected]
PEL, Proband’s phenotype Exclusion Likelihood; MD, monogenic diseases.
Received 20 October 2008; Accepted 21 October 2008
Published online in Wiley InterScience (www.interscience.wiley.com).
DOI: 10.1002/gepi.20390
The genotype restricted likelihood (GRL) has been To include nongenotyped individuals in the likelihood, we
proposed for analyzing pedigrees ascertained through denote O the number of all possible genotypic configurations
familial criteria and for which a formal correction for (which is a function of the number of unknown genotypes)
ascertainment bias cannot easily be performed. and Geno , the vector of observed and unobserved genotypes
In this article, we present a simple and intuitive corresponding to configuration o.
approach, based on the Weinberg Proband Method in The PEL uses the probability of the phenotypes of the
segregation analysis [Weinberg, 1912], referred to as the family members other than the proband, denoted Phen ,
Proband’s phenotype Exclusion Likelihood (PEL), for computed conditionally on all observed genotypes. For
estimating age-dependent penetrance using disease status family f, the likelihood Lf is
and genotypic information of family members in pedi-
grees ascertained through affected individuals but un- Lf ¼ PðPhen =Genobs Þ:
selected for family history. Using simulations, we studied
the properties of the PEL and compared its properties to Let Po be the probability of the genotypic configuration
those of the prospective likelihood which explicitly models o, i.e. the joint probability of genotypes of the family f in
the probability that a family is ascertained, in various configuration o:
situations likely to be encountered in the analysis of family Y
data. Po ¼ PðGen1;o ; . . . ; Gennf;o Þ ¼ PðGenj;o Þ
Finally, both methods were applied to a monogenic j
disease and a complex disease with monogenic sub-
Y
PðGenl;o =Genm;o ; Genn;o Þ;
entities: a sample of 27 French and 33 Portuguese families fl;m;ng
diagnosed with Transthyretin (TTR) amyloid neuropathy
and a sample of 30 families with BRCA1 or BRCA2 where the product on j is taken over all founders of the
associated breast and ovarian cancer ascertained on early- family and the product on fl; m; ng is taken over all parent-
onset breast cancer cases. offspring triplets.
Po is a function of both the frequency of the mutated
allele (denoted fq) in the general population using Hardy-
METHODS Weinberg proportions in the founders (parents’ status
unknown) and Mendelian transmission rates in the
THE PEL triplets, and the de novo mutation rate (denoted pn).
The PEL is a maximum likelihood (ML) method that Practically, Lf is computed using the algorithm of Elston
corrects for ascertainment bias when families, in which a and Stewart [1971] and the conditioning on observed
deleterious mutation has been found, have been ascer- genotypes is obtained by restricting the summation in the
tained through at least one affected individual, i.e. likelihood to the set O of genotypes compatible with the
regardless of family history. The penetrance function is observed ones. Under the assumption that phenotypes of
estimated using the phenotypic information, conditioned relatives are independently distributed conditionally to
on genotype, from all family members, including those their genotype:
with unknown genotype. Correction for ascertainment is O
X
performed by removing the phenotypic information of the Lf ¼ Po PðPhen =Geno Þ;
individual who allowed the family to be detected (the o¼1
proband) and by duplicating families when there are
where PðPhen =Geno Þ is the product over all family
several probands in a family.
members i of the probability of phenotypes PðPheni =Geni;o Þ
This principle was introduced by Weinberg [1912] for
given his/her genotype in the configuration o, the proband’s
estimating the segregation ratio in the offspring of two
phenotype being set as unknown.
heterozygous parents under recessive inheritance. The
Finally, as the N families of the sample are assumed to
argument for discarding the proband is a simple, intuitive
be independent, the total likelihood may be written as
one: each ascertained affected individual (proband) is
regarded as providing the information that his(her) N
Y
parents are capable of producing affected children; then L¼ Lf :
the remaining members of the sibship provides an f¼1
unbiased estimate of the ratio of affected to normal
individuals. In case of single ascertainment (only one
proband per family), the method has been shown by PENETRANCE FUNCTION AND CONTRIBU-
Fisher [1934] to be fully efficient for sibships, and Crow TION OF FAMILY MEMBERS TO THE LIKE-
[1965] showed that, in case of multiple ascertainment, the LIHOOD
method yielded a consistent estimate of the segregation Let us denote F(ti), the penetrance function for a carrier
frequency provided that sibships were replicated as many i at age ti.
times as there were probands. If the individual i is still unaffected at age ti, his contri-
We consider the case of a dominant disease where bution to the likelihood at age ti is
almost all carrier individuals are heterozygotes for the
deleterious allele. Let us denote Phen the vector containing PðPheni =Geni Þ ¼ 1 Fðti Þ:
the nf individuals’ phenotypes and Genobs the vector of the
observed genotypes for the family f: If i is affected at an age of onset included between ti and
Phen ¼ ðPhen1 ; ::::; Phennf Þ with Pheni ¼ 1 if i is affected ðti þ 1Þ, his contribution to the likelihood is
and Pheni ¼ 0 if i is unaffected, Geni ¼ 0 if i is not a carrier
and Geni ¼ 1 otherwise. PðPheni =Geni Þ ¼ Fðti þ 1Þ Fðti Þ:
Genet. Epidemiol.
Proband’s Phenotype Exclusion Likelihood 3
For the age-dependent penetrance function Fðti Þ, we chose Ascertainment process. To model a realistic ascer-
the Weibull model with parameters l (scale parameter) and tainment process, we defined time periods (denoted T) for
a (shape parameter) for the parametric function. The Weibull ascertainment of probands. We assumed that only indivi-
model is widely used in parametric risk estimation because duals affected during this period might be ascertained
of its flexibility to adjust to observed data. with a probability Ps. We considered two different periods
We introduced two additional parameters into the of time: a period of 20 years (T 5 20) in which essentially
model in order to improve its capacity of adjustment to all affected individuals may be probands, and a period of
the data. The possibility that some carriers will never 1 year (T 5 1) in which the probability that more than one
develop the disease was accounted for by a parameter k, affected individual be a proband is negligible. The family
the fraction of individuals that would never be affected. was included in the sample if there was at least one
We also introduced a parameter d, which sets an age before proband.
which the probability of being affected is equal to zero. In Under the CDMS model, we introduced an age criterion
order to avoid an overparametrization of the model, d was for ascertainment to increase the probability of detecting
not estimated, but fixed on the basis of previous knowl- mutation carriers. As 36 years is the criterion used in the
edge on the age distribution of the disease. breast and ovarian cancer families analyzed in this article,
Finally, the penetrance function for carriers, using this we used the same age criterion in our simulations. Then, in
extended Weibull model, can be written as follows: the CDMS model, probands are all carriers affected before
36 years during the period T and ascertained with a
FðtÞ ¼ ð1 kÞ½1 expðlðt dÞa Þ: probability Ps.
Bias and efficiency. To study the behavior of the
The penetrance is assumed to be known for noncarriers PEL according to the ascertainment scheme and the model
and taken as the risk in the general population. considered, we first evaluated, in each case, the average
In our computations, ðk; l; aÞ were estimated by ML relative bias B estimated by the average on 1,000 replicates
using the program GEMINI [Lalouel, 1979]. of 100 pedigrees of the relative bias of risk estimate at age
70 years usually taken as the lifetime risk [Alarcon et al.,
PROPERTIES OF THE PEL 2007; Easton et al., 1995; Ford et al., 1998; Gong and
Whittemore, 2003]:
The properties of the PEL were assessed by simulating
family samples under various disease-risk models and !
ascertainment patterns with at least one affected member. 1 1;000
X R^ i R0
B¼ ;
Genetic models. Two genetic disease models were 1; 000 i¼1 R0
considered: (1) monogenic diseases (MD) in which all
affected individuals are carriers of a predisposing mutation where R ^ i is the penetrance estimated at 70 years for the
and the presence of at least one affected family member is replicate i and R0 is the true one at the same age.
sufficient to detect the presence of a mutation in the family; To study the loss in efficiency due to unknown
(2) complex diseases with monogenic sub-entities (CDMS) genotypes, and therefore, the interest of genotyping
in which only a minority of cases is due to rare mutations, probands’ relatives, we evaluated the asymptotic relative
such as breast or colorectal cancer, and the detection of efficiencies (AREs) of penetrance estimates, that is, the
genetic cases usually requires familial criteria to increase inverse of the ratio of the variance estimated with various
the probability that the affected individuals are mutation values of the proportion of unknown genotypes to the
carriers. In such diseases, cases due to rare mutations variance estimated when all genotypes are known. In each
usually occur at a substantially lower age than sporadic situation, the variance by age 70 was evaluated by
cases, and the inclusion of an age criterion is an alternative simulating 1,000 replicates of 100 families.
to familial criteria to identify families with carrier Comparison with the prospective likeli-
individuals [Bonadona et al., 2005; Dunlop et al., 1997]. hood. The prospective likelihood [Kraft and Thomas,
Simulation of pedigree samples. The simulated 2000; Plante-Bordeneuve et al., 2003] is the probability of
pedigrees had a fixed size and structure: a couple of ancestors phenotypes given observed genotypes, conditioned on the
with four offspring, each with two offspring. Ages were ascertainment process that is explicitly modelled, as done
simulated to fit French demographic data [Pennec, 1996]. in segregation analysis, by the probability that at least one
A genotype was randomly assigned to the pedigree individual is ascertained in the family, a function of the
founders and spouses using a mutated allele frequency of probability p that an individual is ascertained [Morton,
0.01 and assuming the absence of de novo mutations. For 1959]. This method implements the same age-dependent
the other family members, genotypes were randomly penetrance function as in the PEL.
assigned using Mendel’s laws. Phenotypes were simulated We compared the properties of the PEL with those of the
with an age-dependent function, based on the Weibull prospective likelihood in terms of bias and efficiency in
model in which a was fixed at 3. For the sake of simplicity, various situations.
we simulated phenotypes with a Weibull model in which k
and d were set to null. For carriers, we considered two RESULTS
different values for the parameter l. The first one
corresponding to a cumulative risk of 0.5 by age 80 (called BEHAVIOR OF THE PEL ACCORDING TO THE
‘‘low true penetrance’’) and the second one to a cumulative
ASCERTAINMENT SCHEME AND THE GENET-
risk of 0.8 by age 80 (called ‘‘high true penetrance’’). For
noncarriers, the cumulative risk by age 80 was set to null IC MODEL
for MD, and to 0.10 for complex diseases with monogenic Table I presents the relative bias obtained with the PEL
sub-entities (CDMS). and, for comparison, the relative bias obtained with the
Genet. Epidemiol.
4 Alarcon et al.
TABLE I. Relative bias in penetrance estimate at 70 years using the PEL and the prospective likelihood
Genetic modela Relative bias (%)
Method used Psa Time period T (in years) PEL Prospective likelihood PEL Prospective likelihood
MD 1 20 2 0 2 3
1 2 3 3 2
0.5 20 2 1 3 0
1 2 1 3 2
CDMS 1 20 2 5 3 14
1 2 9 4 21
0.5 20 2 5 3 14
1 3 10 3 21
a
MD, Monogenic disease; CDMS, complex disease with monogenic sub-entities.
Ps, probability of being ascertained for individuals affected during the period T. PEL, Proband’s phenotype Exclusion Likelihood.
TABLE II. Relative efficiency of the PEL according to proband’s genotype is known. Therefore, genotyping the
the proportion of unknown genotypes under the MD relatives brings some additional information on the risk
model estimate, compared to the situation where only their
phenotype is known, but the gain in efficiency is expected
Asymptotic relative
to be modest.
efficiency (reference:
Regarding the prospective likelihood efficiency, we
all relatives tested)
evaluated AREs only under the MD model where the
Proportion of prospective likelihood provided unbiased estimated. The
Ascertainment unknown genotypes High true Low true
prospective method provided similar efficiency as the PEL
probability among relatives (%) penetrance penetrance
in a wide range of situations, varying from 0.5 to 1.9
High 50 0.97 0.92 according to the ascertainment probability, with the
75 0.92 0.88 highest relative efficiency when ascertainment probability
100a 0.82 0.74 was high (the reference here is the estimation with the
PEL). This method appeared as robust as the PEL to a high
Low 50 0.98 0.95 proportion of unknown genotypes, with AREs varying
75 0.97 0.91 from 59 to 100% according to the ascertainment model and
100a 0.87 0.84 the proportion of unknown genotypes (results not shown).
a
Situation in which only the proband’s genotype is known.
PEL, Proband’s phenotype Exclusion Likelihood; MD, APPLICATION
monogenic diseases. The PEL was applied to data illustrating the MD and
CDMS models considered in this article: (1) families
prospective likelihood when all genotypes are known, ascertained from patients affected by a genetic disease
under the two different models considered MD and CDMS with variable age of onset, the transthyretin amyloid
with an age criterion of 36 years as described above, and neuropathy; (2) a sample of breast and ovarian cancer
the two time periods considered. We have checked that families with BRCA1 or BRCA2 mutations, ascertained
results were similar when various proportions of un- through early-onset breast cancer cases.
known genotypes were introduced (results not shown). TTR amyloid neuropathy. TTR amyloid neuropa-
Under both models, the PEL provided unbiased or thy is an autosomal dominant condition characterized by
nearly so estimates in all the situations considered. deposition of amyloid substance made up of mutated TTR.
The prospective likelihood provided less satisfactory This severe condition, firstly described in Portugal,
results, particularly under the CDMS model. involves mainly the peripheral nervous system and the
Table II shows the relative efficiencies (AREs) under the heart. Although distributed worldwide, the disease is
MD model obtained when the proportion of unknown often clustered in limited areas like in Portugal, Japan and
genotypes among relatives varies from 50 to 100%, Sweden with different genotypic and phenotypic variation
compared to the case where all genotypes are known, in including the age of first symptoms. In France, we are
the two extreme situations of ascertainment, i.e. high dealing with two populations, i.e. of Portuguese and of
(Ps 5 1, T 5 20), and low (Ps 5 0.5, T 5 1) ascertainment French origins. Virtually all the families are referred to the
probability. In all situations, the loss in efficiency is quite department of Neurology of Bicêtre Hospital which is the
small, whatever the true penetrance value. Under the national center of reference for this rare disease. Many
CDMS model, the effect is quite similar, although slightly pathogenic TTR variants have been detected among the
more important, with AREs varying from 56 to 69% French population, but only one variant, the Val30Met,
according to the ascertainment probability and the true was detected in the Portuguese population. In a previous
penetrance value, in the extreme situation where only the article, we had analyzed a sample of 79 families (46 French
Genet. Epidemiol.
Proband’s Phenotype Exclusion Likelihood 5
1 0,9
penetrance
0,5
0,5
0,4
0,4
0,3
0,3
0,2 0,2
0,1 0,1
0 0
0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70
age age
Fig. 1. Penetrance of the TTR mutation involved in the Fig. 2. Penetrance of BRCA1/2 carriers in the French breast
transthyretin amyloid neuropathy estimated using the PEL cancer families.
and the prospective likelihood in the French and in the
Portuguese family sample. as no relative asked for genetic testing, and the overall
proportion of unknown genotypes among relatives
and 33 Portuguese) investigated in the neurology depart- was 91%.
ment of Bicêtre Hospital and found a strong difference in The frequency of the mutated allele, fq, was set to 0.001
penetrance function between these two populations and the de novo mutation was set to 0.
[Plante-Bordeneuve et al., 2003]. In the present article, The cumulative risk for noncarriers was taken as the risk
we restricted the analysis to Val30Met carriers (20 French in the general population.
and 33 Portuguese kindreds). TTR genotype was available Figure 2 shows the estimations of the penetrance
for 108 and 139 relatives in French and Portuguese families function using the PEL and the prospective likelihood.
of whom, respectively, 47 and 50 were carriers. The The sample being relatively small, families with BRCA1
proportions of unknown genotypes among relatives were (16 families) and BRCA2 (14 families) mutations were
respectively 72 and 68%. The deleterious allele frequency pooled. Confidence intervals were estimated for ages 50,
was arbitrarily set to 0.001, and the de novo mutation was 60 and 70 years. The two methods provide different
set to 0 in both analyses. penetrance curves, with smaller risks using the PEL, which
Figure 1 shows the penetrance functions estimated with illustrates that the two methods are not equivalent under
the PEL in the French and Portuguese families. Confidence such a model. However, the difference is not statistically
intervals (obtained by bootstraps) are given for ages 50, 60 significant, probably because of the small sample size.
and 70. The plateau in Portuguese estimation shows the
existence of a proportion of carriers which will never be
affected (i.e. k ¼ 0:09, significantly different from zero DISCUSSION
with a Pvalue o0:001) which illustrates the importance of
implementing k in the Weibull model. In both samples, the As underlined by Vieland and Hodge [1995], the
penetrance curve estimated by the prospective likelihood problem of correction for ascertainment is, in most
was very close the one obtained with the PEL, which situations, literally intractable. These authors recom-
illustrates that the choice of the method is not crucial in mended that future efforts focus on the development of
such a situation. robust approximate approaches to the problem. The aim of
Breast cancer due to BRCA1 or BRCA2 our study was to propose a simple method to estimate the
mutations. Families had been selected through 317 penetrance function from pedigrees ascertained on one
women suffering from invasive breast cancer, diagnosed affected case, and where a variable number of relatives
before 36 years between January 1990 and January 1998, have been genotyped, and to determine whether this
and followed up at the Institut Curie. Genetic counselling method fulfilled such requirements.
was proposed to all women and 153 of them came to Using simulations under various genetic models and
the appointment to the Institut Curie cancer clinic. various ascertainment schemes, the PEL, based on a
A BRCA1 and BRCA2 and TP53 genetic screening was principle of a classical method proposed in segregation
systematically proposed whatever the family history, and analysis [Weinberg, 1912], turned out to generally provide
145 of them underwent genetic testing [Chompret et al., very satisfactory results. This method has the advantage of
2001]. The entire coding sequence of both genes was being very simple and of leading to unbiased penetrance
analyzed by a combination of DGGE, DHPLC and PTT estimations in all the situations considered, and in
[Stoppa-Lyonnet et al., 1997; Wagner et al., 2000]. Sixteen particularly in situations where the prospective likelihood
and 14 patients with, respectively, a germline BRCA1 provided biased estimates.
or BRCA2 mutation were identified. In these families, We showed that efficiency of the PEL was moderately
genetic testing was proposed to relatives as recommended affected when a substantial proportion of genotypes was
by the French guidelines [Eisinger et al., 1998]. Among the unknown under both models, and performed well even
30 families, genotype was available for 33 relatives of when a limited number of relatives have been genotyped.
whom 17 were found to be carriers. In 16 families, the Various situations may affect the estimation of pene-
proband was the only one individual tested in the family trance by the PEL. The method assumes that probands are
Genet. Epidemiol.
6 Alarcon et al.
always unambiguously identified, but this may not be the studies are not strictly comparable to our estimations
case under multiple ascertainment. However, we could because we pooled BRCA1 and BRCA2 mutations.
check (results non shown) that method was robust to a Confidence intervals were obtained by bootstraps. The
misspecification of probands in a wide range of situations. use of bootstraps implicitly assumes that families are
Another possible source of bias, when some genotypes independent, which is not the case when families are
are missing among relatives, may be a misspecification of replicated, and in particular for TTR amyloid neuropathy
the de novo mutation rate or of the deleterious allele families. However, we have checked, by simulations, that
frequency that are commonly fixed to arbitrary low values. estimated variance were similar whether families are
We have checked that the PEL was quite robust to an error replicated or not in case of multiple probands.
on these two parameters.
The other methods that have been mentioned in the ACKNOWLEDGMENTS
introduction for estimating penetrance apply to a comple-
tely different context. The kin-cohort design [Wacholder We thank Muriel Belotti for the management of families
et al., 1998], and more generally the GPD and the GPDR with BRCA1 and BRCA2 mutations.
[Gail et al., 1999] cannot be applied to the same samples as
the PEL. Indeed, the GPD and GPDR are population-based
designs which require very large samples of affected and
unaffected individuals and do not need any correction for REFERENCES
ascertainment. Moreover, these methods have been de- Abel L, Bonney G. 1990. A time-dependent logistic hazard function for
signed for common mutations in common diseases, and modeling variable age of onset in analysis of familial diseases.
can be applied neither to the MD model nor to the general Genet Epidemiol 7:391–407.
situations of mutations predisposing to common cancers in Alarcon F, Lasset C, Carayol J, Bonadona V, Perdry H, Desseigne F,
which each mutation is very rare and carriers are difficult Wang Q, Bonaiti-Pellie C. 2007. Estimating cancer risk in HNPCC
to identify at the population level. by the GRL method. Eur J Hum Genet 15:831–836.
The GRL has been developed for estimating penetrance Antoniou A, Pharoah PD, Narod S, Risch HA, Eyfjord JE, Hopper JL,
from pedigrees ascertained on familial criteria, and Loman N, Olsson H, Johannsson O, Borg A, et al. 2003. Average
corrects for ascertainment by conditioning the likelihood risks of breast and ovarian cancer associated with
on all phenotypes of pedigree members [Carayol and BRCA1 or BRCA2 mutations detected in case Series unselected
Bonaiti-Pellie, 2004]. This method has the advantage of for family history: a combined analysis of 22 studies. Am J Hum
being unbiased, whatever the selection criteria, but as the Genet 72:1117–1130.
retrospective likelihood [Kraft and Thomas, 2000] has the Bonadona V, Sinilnikova OM, Chopin S, Antoniou AC, Mignotte H,
drawback of lacking efficiency, particularly when there are Mathevet P, Bremond A, Martin A, Bobin JY, Romestaing P,
numerous unknown genotypes in the family [Alarcon Randrant D, Rudigoz RC, Léone M, Chauvin F, Easton DF, Lenoir
GM., Lasset C. 2005. Contribution of BRCA1 and BRCA2 germ-
et al., 2007]. Therefore, the GRL should be restricted to
line mutations to the incidence of breast cancer in young women:
samples of families ascertained on multiple affected
results from a prospective population-based study in France.
individuals in which ascertainment correction cannot Genes Chromosomes Cancer 43:404–413.
easily be performed. Cannings C, Thompson E. 1977. Ascertainment in the sequential
As an illustration, we estimated the penetrance function sampling of pedigrees. Clin Genet 12:208–212.
for TTR amyloid neuropathy from a French sample and a Carayol J, Bonaiti-Pellie C. 2004. Estimating penetrance from family
Portuguese sample and for breast cancer from a sample data using a retrospective likelihood when ascertainment depends
ascertained on early-onset breast cancer cases. For TTR on genotype and age of onset. Genet Epidemiol 27:109–117.
amyloid neuropathy in the Portuguese sample and in the Carayol J, Khlat M, Maccario J, Bonaiti-Pellie C. 2002. Hereditary non-
French sample, penetrance curves estimated with the two polyposis colorectal cancer: current risks of colorectal cancer
methods were quite similar, as expected according to the largely overestimated. J Med Genet 39:335–339.
simulation study. Interestingly, the importance of introdu- Chompret A, Abel A, Stoppa-Lyonnet D, Brugieres L, Pages S, Feunteun
cing a k parameter in the Weibull model is well illustrated J, Bonaiti-Pellie C. 2001. Sensitivity and predictive value of criteria
in the Portuguese sample. for p53 germline mutation screening. J Med Genet 38:43–47.
For breast cancer families, the inclusion of an age Crow J. 1965. Problems of ascertainment in the analysis of family data.
criterion implies a very low ascertainment probability, in In: Neel JV, Shaw MW, Schull WJ, editors. Genetics and the
which case the PEL is expected to provide a lower relative Epidemiology of Chronic Disease. Washington DC: Public Health
bias than the prospective likelihood. Thus, the results Source Publication.
obtained by the PEL are more likely to be the correct Dunlop MG, Farrington SM, Carothers AD, Wyllie AH, Sharp L,
Burn J, Liu B, Kinzler KW, Vogelstein B. 1997. Cancer risk
estimates. We must however, keep in mind that not all
associated with germline DNA mismatch repair gene mutations.
families fulfilling the inclusion criterion were investigated
Hum Mol Genet 6:105–110.
and that the patients who underwent genetic testing might Easton DF, Ford D, Bishop DT. 1995. Breast and ovarian cancer
have been motivated by a stronger family history. Such a incidence in BRCA1-mutation carriers. Breast Cancer Linkage
potential bias is difficult to correct but should be Consortium. Am J Hum Genet 56:265–271.
considered in the interpretation of results. Note that the Eisinger F, Alby N, Bremond A, Dauplat J, Espie M, Janiaud P,
risks obtained by the PEL are close to those obtained by Kuttenn F, Lebrun J, Lefranc J, Pierret J et al. 1998. Recommendations
Bonadona et al. [2005] from a population-based series of for medical management of hereditary breast and ovarian cancer: the
early-onset breast cancer cases (age at diagnosis less than French National Ad Hoc Committee. Ann Oncol 9:939–950.
45), and slightly smaller than those obtained by Antoniou Elston RC, Stewart J. 1971. A general model for the genetic analysis of
et al. [2003] from 22 studies unselected for family history, pedigree data. Hum Hered 21:523–542.
10 of which were ascertained on early-onset breast cancer Fisher R. 1934. The effects of methods ascertainment upon the
cases (limit 36–50 years), although risks estimated in these estimation of frequencies. Ann Eugen 6:13–25.
Genet. Epidemiol.
Proband’s Phenotype Exclusion Likelihood 7
Ford D, Easton DF, Stratton M, Narod S, Goldgar D, Devilee P, Pennec S. 1996. La place des familles à quatre générations en France.
Bishop DT, Weber B, Lenoir G, Chang-Claude J et al. 1998. Genetic Population 1:31–60.
heterogeneity and penetrance analysis of the BRCA1 and BRCA2 Plante-Bordeneuve V, Carayol J, Ferreira A, Adams D, Clerget-
genes in breast cancer families. The Breast Cancer Linkage Darpoux F, Misrahi M, Said G, Bonaiti-Pellie C. 2003. Genetic
Consortium. Am J Hum Genet 62:676–689. study of transthyretin amyloid neuropathies: carrier risks among
Gail MH, Pee D, Benichou J, Carroll R. 1999. Designing studies to French and Portuguese families. J Med Genet 40:e120.
estimate the penetrance of an identified autosomal dominant Stoppa-Lyonnet D, Laurent-Puig P, Essioux L, Pages S, Ithier G,
mutation: cohort, case–control, and genotyped-proband designs. Ligot L, Fourquet A, Salmon RJ, Clough KB, Pouillart P et al. 1997.
Genet Epidemiol 16:15–39. BRCA1 sequence variations in 160 individuals referred to a breast/
Gong G, Whittemore AS. 2003. Optimal designs for estimating ovarian family cancer clinic. Institut Curie Breast Cancer Group.
penetrance of rare mutations of a disease-susceptibility gene. Am J Hum Genet 60:1021–1030.
Genet Epidemiol 24:173–180. Vieland VJ, Hodge SE. 1995. Inherent intractability of the ascertain-
Kraft P, Thomas DC. 2000. Bias and efficiency in family-based ment problem for pedigree data: a general likelihood framework.
gene-characterization studies: conditional, prospective, retrospec- Am J Hum Genet 56:33–43.
tive, and joint likelihoods. Am J Hum Genet 66:1119–1131. Wacholder S, Hartge P, Struewing JP, Pee D, McAdams M, Brody L,
Lalouel J. 1979. GEMINI: a computer program for optimization of general Tucker M. 1998. The kin-cohort study for estimating penetrance.
non linear function. Technical report no 14. Salt Lake City: University Am J Epidemiol 148:623–630.
of Utah, Department of Medical Biophysics and Computing. Wagner T, Stoppa-Lyonnet D, Fleischmann E, Muhr D, Pages S,
Le Bihan C, Moutou C, Brugieres L, Feunteun J, Bonaiti-Pellie C. 1995. Sandberg T, Caux V, Moeslinger R, Laugbauer G, Borg A, Oefner P.
ARCAD: a method for estimating age-dependent disease risk 2000. Denaturing high performance liquid chromatography
associated with mutation carrier status from family data. Genet (DHPLC) detects BRCA1 and BRCA2 mutations with high
Epidemiol 12:13–25. sensitivity. Genomics 62:369–376.
Morton NE. 1959. Genetic tests under incomplete ascertainment. Am J Weinberg W. 1912. Method und Fehlerquellen der Untersuchung auf
Hum Genet 11:1–16. Mendleschen Zahlen Beim Menschen. Arch Rass u Ges Biol 9:165–174.
Genet. Epidemiol.
Annexe F. Articles
142
This article was downloaded by: [Umea University Library]
On: 17 October 2008
Access details: Access Details: [subscription number 781079123]
Publisher Informa Healthcare
Informa Ltd Registered in England and Wales Registered Number: 1072954 Registered office: Mortimer House,
37-41 Mortimer Street, London W1T 3JH, UK
Amyloid
Publication details, including instructions for authors and subscription information:
http://www.informaworld.com/smpp/title~content=t713668970
To cite this Article Hellman, Urban, Alarcon, Flora, Lundgren, Hans-Erik, Suhr, Ole B., Bonaiti-PelliÉ, Catherine and Planté-
Bordeneuve, Violaine(2008)'Heterogeneity of penetrance in familial amyloid polyneuropathy, ATTR Val30Met, in the Swedish
population',Amyloid,15:3,181 — 186
To link to this Article: DOI: 10.1080/13506120802193720
URL: http://dx.doi.org/10.1080/13506120802193720
This article may be used for research, teaching and private study purposes. Any substantial or
systematic reproduction, re-distribution, re-selling, loan or sub-licensing, systematic supply or
distribution in any form to anyone is expressly forbidden.
The publisher does not give any warranty express or implied or make any representation that the contents
will be complete or accurate or up to date. The accuracy of any instructions, formulae and drug doses
should be independently verified with primary sources. The publisher shall not be liable for any loss,
actions, claims, proceedings, demand or costs or damages whatsoever or howsoever caused arising directly
or indirectly in connection with or arising out of the use of this material.
Amyloid, September 2008; 15(3): 181–186
Abstract
Transthyretin (TTR) familial amyloid polyneuropathies (FAP) are autosomal dominant devastating afflictions. They were
first described in Portugal, later in Japan and Sweden and are now recognized worldwide. The TTR Val30Met mutation is
the most common, and depending on the geographic origin, a wide variation in age at onset of the disease is observed. In
Europe, northern Sweden is the second most prevalent area of the disease, and a late age of onset of 56 years has been
reported. The present study aims to estimate the penetrance in TTR Val30Met Swedish families. Genealogical
investigations, clinical data and genotyping were obtained in 77 TTR-Val30Met Swedish families. The penetrance in
Val30Met carriers and variation within the endemic area, according to gender and transmitting parents were calculated by a
newly developed bias-free method. The penetrance estimates were low, i.e. 1.7% and 22% at age 30 and 60 years,
respectively, and far from complete (69%) by age 90 years. Differences between Piteå and Skellefteå regions were observed.
Moreover, penetrance was significantly higher when the mutation was inherited from the mother than from the father. The
low penetrance observed in TTR FAP kindreds and its variations is important information for the genetic counseling and
treatment of Swedish FAP patients and their families.
Correspondence: Urban Hellman, Department of Medicine, Umeå University, 901 87 Umeå, Sweden. Tel: þ 46 (0) 90 785 1621. Fax: þ 46 (0) 90 130760.
E-mail: [email protected]
ISSN 1350-6129 print/ISSN 1744-2818 online Ó 2008 Informa UK Ltd.
DOI: 10.1080/13506120802193720
182 U. Hellman et al.
In Sweden, a population study suggested that addition, 35 asymptomatic individuals were found to
disease risk in carrier individuals could be rather low be obligate carriers.
[11]. The age of onset is variable among pedigrees
and is significantly higher with paternal inheritance
Genetic analysis
compared with that of maternal inheritance [12].
This finding needs to be confirmed by estimating the Over time different methods have been used to
penetrance (cumulative risk of being affected by a detect the TTR Val30Met mutation. Southern blots
given age) in mutation carriers, i.e. the risk that a were first used to analyze the patients, but later
carrier individual be affected given he/she has patients were diagnosed by polymerase chain reac-
reached a given age. tion (PCR)-based methods as previously described
Using a method to estimate penetrance that [11,14].
corrects for ascertainment bias toward affected
individuals, significant differences in Portuguese
and French families were noted [13]. Estimation of penetrance
The aim of the study was to assess the pene- Statistical method. We used the same method as
trance of Swedish TTR Val30Met, using a bias-free Planté-Bordeneuve et al. [13] which allows a correc-
method, and to disclose differences in penetrance tion for ascertainment bias when using family data.
within the endemic area. We also estimated the im- The method is based on the maximum likelihood
Downloaded By: [Umea University Library] At: 07:51 17 October 2008
pact of transmitting parents’ gender on age at onset principle, using a survival analysis approach. In
of the disease. addition to the correction for ascertainment, its main
interest is to use phenotypic information on indivi-
duals whose genotype is unknown but whose
Patients and methods probability of being a carrier is not negligible.
Briefly, the age-dependent penetrance function for
Patients
mutation carriers was modeled by a Weibull dis-
Among the 401 patients treated at the Department of tribution, defined by three parameters: l (scale
Clinical Genetics at Umeå University Hospital since parameter), a (shape parameter) and k (the fraction
1986 and identified with a Val30Met mutation, a of individuals that would never be affected) [16].
complete genealogical investigation was available for The penetrance function can be expressed:
122 families. As some families were related to each
other pedigrees were merged, thus resulting in 85 Fðt m Þ ¼ ð1 kÞ:ð1 exp ½ðltma ÞÞ
pedigrees that could enter the analysis. Eight
pedigrees contained nine homozygous patients for Following survival analysis principles, the contribu-
the Val30Met mutation, and were excluded from the tion of pedigree members to the likelihood depends
analysis as these patients were too few to allow a on, respectively, the age at diagnosis for affected and
reliable estimation of risk associated with this the age of unaffected relatives or their age at death.
genotype. Finally, 77 pedigrees were available for The probability of unknown genotypes of untested
penetrance analysis. individuals given observed genotypes in the families
In patients, the diagnosis of TTR amyloid neuro- was computed from the frequency of the mutated
pathy was based on the finding of amyloid deposits in allele in the general population assuming Hardy–
biopsy specimens; however the deposits were not Weinberg equilibrium for a founder (parents’ status
always immunohistochemically diagnosed as TTR unknown). Otherwise, this probability depends on
amyloid. The pathogenic TTR variant Val30Met parental genotypes assuming Mendelian transmis-
mutation was identified by molecular genetic testing sion. In this analysis, disease allele frequency was
in all cases. Genealogical investigation was carried estimated using the proportion of homozygotes
out for all patients since 1999, when possible, and among all affected individuals in the population, as
data were entered using Cyrillic software (version explained in the Appendix.
2.0). A detailed history of the disease was taken from For the sake of simplicity, the probability of being
the patient and/or from medical records. The date of homozygous was neglected for the reasons given
first symptoms was determined as accurately as above.
possible. To test for a difference according to gender,
For the present study, a total of 1353 subjects were geographic origin (Skellefteå, Piteå and Lycksele) or
recorded and clinical information was obtained on to the sex of the transmitting parent, we used a
235 affected individuals, including the probands. likelihood ratio test.
Overall, DNA analysis was performed in 215
individuals of the families. Among them 49 were Family data used. All family data providing infor-
asymptomatic carriers and 19 were non-carriers. In mation on the risk of being affected for a relative
Penetrance of ATTR Val30Met mutation in Sweden 183
were retained. Thus, at-risk individuals or patients tively. Even by age 90 years, penetrance was found to
with reliable information on their date of birth, their be far from complete (69%).
age of onset or their date or age of death, if adapted, When subdividing the sample according to the
were included. In a minority of affected cases, the three regions, Lycksele was too small to allow a valid
age of onset was extrapolated from the age of death, estimate (10 families), thus, only Piteå and Skellefteå
using the mean duration of the disease of 13 years in were compared. As shown in Figure 2, the pene-
the Swedish population [2]. The branches of the trance was significantly lower for the Piteå region
families without information on the individual’s than for the Skellefteå region, with penetrance by age
phenotype or date of birth or on the age at first 80 of 32% and 65%, respectively. The homogeneity
manifestations were excluded. test was highly significant (w2 ¼ 26.60, 2 df,
On the basis of the known age of onset in previous p 5 0.001).
reports of TTR amyloid neuropathy in Sweden, A clear difference according to the sex of the
individuals younger than 18 years were not con- transmitting parent was found (Figure 3). Among the
sidered in the present study [8,11,12]. 77 families, the gender of the transmitting parent was
known for 762 individuals; for 435 the transmitting
parent was the mother, and for 327 the transmitting
Ethics
parent was the father. The penetrance was signifi-
The project was approved by the Ethics Committee cantly higher when the mutation was inherited from
Downloaded By: [Umea University Library] At: 07:51 17 October 2008
at Umea University. the mother than from the father (w2 ¼ 7.84, 2 df,
p 5 0.02). Table II shows the penetrance estimates
and confidence intervals according to the sex of the
Results
transmitting parent.
Using the proportion of homozygotes for the
Val30Met mutation among affected patients, the
Discussion
frequency of this mutation was estimated to be 0.04
(9/401) in the population and was fixed at this value The ATTR Val30Met mutation is by far the most
in all subsequent analyses. frequent neuropathic form worldwide, and virtually
Figure 1 shows the penetrance curves for the the only one identified in endemic areas in Portugal,
whole sample and for males and females separately. Japan, Sweden and Brazil. However, important
Gender effect was not significant (w2 ¼ 2.44, 2 df). In differences in the disease expression, particularly
all of the analyses performed on the different regarding the age of onset and the penetrance seem
samples, there was no evidence for a plateau; the to exist between countries. Significant differences
parameter k converged to its bound 0, so that only between Portuguese and French populations have
the two parameters a and l were estimated. The risks been noted [13], thus, cumulative disease risk in
and confidence intervals from age 30 to 90 years are French carriers of the Val30Met mutation was
shown in Table I. At age 30 and 60 years, the estimated at 14% by age 50 and 50% by age 70
penetrance estimates were 1.7% and 22%, respec- years, whereas the risk in Portuguese carriers was
80% by age 50 and 91% by age 70 years. Swedish increases with age in Sweden and does not display
carriers appear to be more similar (although lower) any plateau; a similar finding was noted in the
to French than Portuguese carriers with a risk of 11% French population, whereas a plateau was noted for
by age 50 and 36% by age 70 years. The penetrance the Portuguese. These results are consistent with the
late age at onset averaging 56 years as previously
reported in the Swedish population [11]. The
reasons for the increase of penetrance with age can
Table I. Estimation of penetrance in the 77 Swedish families (235
only be speculated on. The aging process involves a
affected among 1353 family members).
decreased ability to handle oxidative stress and also
Age (years) Penetrance estimate 95% Confidence interval increases in the deposition of advanced glycation end
products, of which both factors have been implicated
30 0.017 0.008–0.032
40 0.05 0.029–0.082 in amyloid formation [17,18].
50 0.11 0.08–0.16 The patients were all recruited from the Depart-
60 0.22 0.16–0.29 ment of Medicine, Umeå University Hospital. This is
70 0.36 0.28–0.45 a referral center for familial amyloid polyneuropathy
80 0.52 0.42–0.63
(FAP) in Sweden. However, patients with the onset
90 0.69 0.55–0.79
at an older age are generally not submitted for
Downloaded By: [Umea University Library] At: 07:51 17 October 2008
Table II. Penetrance estimates according to the sex of the genes in the 18q11.2-12 region, to date (www.ge-
transmitting parent. neimprint.com). Another clue could be a possible
Penetrance (95% confidence interval), when role of the mitochondrial genome interacting with
transmission by the expression or the pathogenesis of the TTR
Age (years) Father (327) Mother (435)
Val30Met mutation.
The penetrance estimates we found are higher than
30 0.008 (0.003–0.016) 0.035 (0.013–0.059) those previously reported. However, the previously
40 0.028 (0.016–0.041) 0.089 (0.043–0.14) reported frequency of symptomatic carriers at 2% was
50 0.075 (0.052–0.11) 0.18 (0.10–0.27)
60 0.16 (0.13–0.25) 0.30 (0.21–0.44)
estimated from a study of healthy volunteers and the
70 0.30 (0.21–0.44) 0.45 (0.34–0.61) known number of affected individuals from the
80 0.48 (0.30–0.66) 0.61 (0.47–0.76) endemic area [11]. The difference between the
90 0.67 (0.40–0.85) 0.75 (0.57–0.89) penetrance estimates cannot be due to an ascertain-
ment bias, since our method takes into account that
families without any affected individuals will not be
ascertained. Neither can it be attributed to the high
evaluation, especially not from hospitals with long gene frequency in the Swedish population, in
experience in the disease (such as Skellefteå Hospi- comparison to other populations such as the Portu-
tal). It is therefore clear that the patient material has a guese [10], as the method has been shown to be
Downloaded By: [Umea University Library] At: 07:51 17 October 2008
bias against younger patients, and to some degree robust to a variation in this parameter [13]. Differ-
patients with rapidly progressing disease. Moreover, ences in reported prevalence could in part be due to
marked differences in penetrance of the trait were an underestimation of affected individuals as prob-
noted within the endemic area. Such differences ably is the case in the previous Swedish study [11],
might be due to genetic factors (other than the TTR as it did not adjust for age. Indeed, the affected
mutation) but also to environmental factors. In individuals were mostly older than 60 years,
particular, it is noteworthy that Skellefteå is an area whereas those in the reference population were much
with different industries from those of Piteå and younger.
Lycksele. In Skellefteå, a large metallurgic industry In summary, different values of penetrance ac-
and previously also textile manufactures are located, cording to the geographic origin of the families
and the latter turned out to be a risk factor for within the endemic area were noted and substan-
developing the disease in a study of occupation and tiated the occurrence of anticipation related to
disease in northern Sweden [19]. Discordant pene- female gender of the transmitting parent. The rather
trance of FAP in two pairs of monozygotic twins have low penetrance observed in Swedish TTR FAP
been reported [20]. These observations along with kindreds and its variations is important information
the observed variation of penetrance could support for the genetic counseling and treatment of Swedish
the role of environmental factors to explain differ- FAP patients and their families.
ences in expression of the mutation.
The other remarkable finding is the marked Declaration of interest: The authors report no
differences of penetrance according to the gender conflicts of interest. The authors alone are respon-
of the transmitting parent. Indeed, the penetrance of sible for the content and writing of the paper.
the trait was significantly higher when inherited from
the mother than from the father. These data are in
line with a previous genealogical analysis of Swedish References
pedigrees underlying that the age of onset was
significantly higher when the mutation was inherited 1. Plante-Bordeneuve V, Said G. Transthyretin related familial
amyloid polyneuropathy. Curr Opin Neurol 2000;13:569–
from the father and that anticipation (higher pene- 573.
trance in younger generations) was more marked in 2. Suhr O, Danielsson A, Holmgren G, Steen L. Malnutrition
descendants of affected mothers [12]. Differences of and gastrointestinal dysfunction as prognostic factors for
age of onset according to the gender of the survival in familial amyloidotic polyneuropathy. J Intern
transmitting parent were also mentioned in Japanese Med 1994;235:479–485.
3. Suhr OB, Holmgren G, Steen L, Wikstrom L, Norden G,
and Portuguese families but such variation of Friman S, Duraj FF, Groth CG, Ericzon BG. Liver
penetrance has not been precisely analyzed in other transplantation in familial amyloidotic polyneuropathy.
populations [10,21]. It is tempting to link these Follow-up of the first 20 Swedish patients. Transplantation
differences to a parental imprinting phenomenon. In 1995;60:933–938.
this setting, the occurrence of regions containing 4. Adams D, Samuel D, Goulon-Goeau C, Nakazato M,
Costa PM, Feray C, Plante V, Ducot B, Ichai P, Lacroix C,
differential allele specific DNA methylation localized Metral S, Bismuth H, Said G. The course and prognostic
near the TTR gene might be interesting to explore. factors of familial amyloid polyneuropathy after liver trans-
However, there is no evidence of other imprinted plantation. Brain 2000;123:1495–1504.
186 U. Hellman et al.
5. Andrade C. A peculiar form of peripheral neuropathy. 17. Ando Y, Nyhlin N, Suhr O, Holmgren G, Uchida K, El
Familiar atypical generalized amyloidosis with special involve- Sahly M, Yamashita T, Terasaki H, Nakamura M, Uchino M,
ment of the peripheral nerves. Brain 1952;75:408–427. Ando M. Oxidative stress is found in amyloid deposits in
6. Reilly MM, Adams D, Booth DR, Davis MB, Said G, systemic amyloidosis. Biochem Biophys Res Commun
Laubriat-Bianchin M, Pepys MB, Thomas PK, Harding AE. 1997;232:497–502.
Transthyretin gene analysis in European patients with 18. Nyhlin N, Ando Y, Nagai R, Suhr O, El Sahly M, Terazaki H,
suspected familial amyloid polyneuropathy. Brain 1995;118: Yamashita T, Ando M, Horiuchi S. Advanced glycation end
849–856. product in familial amyloidotic polyneuropathy (FAP). J
7. Ikeda S, Nakazato M, Ando Y, Sobue G. Familial transthyretin- Intern Med 2000;247:485–492.
type amyloid polyneuropathy in Japan: clinical and genetic 19. Hardell L, Holmgren G, Steen L, Fredrikson M, Axelson O.
heterogeneity. Neurology 2002;58:1001–1007. Occupational and other risk factors for clinically overt familial
8. Sousa A, Andersson R, Drugge U, Holmgren G, Sandgren O. amyloid polyneuropathy. Epidemiology 1995;6:598–601.
Familial amyloidotic polyneuropathy in Sweden: geographical 20. Holmgren G, Wikstrom L, Lundgren HE, Suhr OB.
distribution, age of onset, and prevalence. Hum Hered Discordant penetrance of the trait for familial amyloidotic
1993;43:288–294. polyneuropathy in two pairs of monozygotic twins. J Intern
9. Saraiva MJ. Transthyretin mutations in hyperthyroxinemia Med 2004;256:453–456.
and amyloid diseases. Hum Mutat 2001;17:493–503. 21. Yamamoto K, Ikeda S, Hanyu N, Takeda S, Yanagisawa N. A
10. Sousa A, Coelho T, Barros J, Sequeiros J. Genetic epidemiol- pedigree analysis with minimised ascertainment bias shows
ogy of familial amyloidotic polyneuropathy (FAP)-type I in anticipation in Met30-transthyretin related familial amyloid
Povoa do Varzim and Vila do Conde (north of Portugal). Am J polyneuropathy. J Med Genet 1998;35:23–30.
Med Genet 1995;60:512–521.
11. Holmgren G, Costa PM, Andersson C, Asplund K, Steen L,
Downloaded By: [Umea University Library] At: 07:51 17 October 2008
150
1
1
INRA-SGQA, Jouy-en-Josas, France, 2Univ Paris-Sud, IFR 69, Villejuif, France;
3
INSERM, U535, Villejuif, France; 4Department of Neurology, CHU Henri Mondor,
Créteil, France.
Corresponding author
Dr V. Planté-Bordeneuve
Department of Neurology
CHU Henri Mondor
46 Av du Mal Delattre de Tassigny
94000 Créteil
France
Tel : +00 33 (0)1 49 81 43 12
[email protected] / [email protected]
2
with autosomal dominant transmission [1]. Liver transplantation is the only therapeutic
approach available, which can stabilize the disease when performed early in the course.
Important differences in the disease expression, particularly regarding the age of onset and
the penetrance, exist among countries. In a previous work [2], we found significant
differences between Portuguese and French populations with cumulative risks of 18% by age
50 and 64% by age 70 years in French carriers, whereas this risk in Portuguese carriers was
80% by age 50 and 91% by age 70 years. Recently, Hellman and colleagues found that
Swedish carriers seemed to be closer to French than to Portuguese carriers with an even
lower risk of 11% by age 50 and 36% by age 70 years [3]. These results are consistent with
the late age at onset, previously reported in the Swedish population [4].
The other remarkable finding of the study of Hellman et al. [3] is the marked
differences of penetrance according to gender of the transmitting parent. Indeed, the risk of
disease in carriers was significantly higher when the mutation was inherited from the mother
than from the father. Differences of age of onset according to gender of the transmitting
parent have also been mentioned in Portuguese families but such variation of penetrance
We investigated this effect in our samples of French and Portuguese families, using a
modified version of the maximum likelihood method PEL [6], that takes into account the
gender of the transmitting parent. In this aim, the genotype of heterozygous carrier
individuals was ordered according to the parent (father or mother) who transmitted the
mutation. In the 33 Portuguese families, the gender of the transmitting parent was known for
291 individuals: the mother in 153 and the father in 138 cases. Figure 1 shows the
penetrance curves for French and Portuguese mutation carriers according to gender of the
parent who transmitted the mutation. As in the Swedish families, the penetrance was found
to be higher when the mutation was inherited from the mother (98% by age 50 and 99% by
age 70) than from the father (60% by age 50 and 80% by age 70) and the difference was
3
highly significant (χ2 = 37.6, 3 df, p<0.001). Among the 48 French families, there were 435
individuals for whom the gender of the transmitting parent was known: for 216 individuals the
transmitting parent was the mother, and for 219 individuals the transmitting parent was the
father.
samples despite the heterogeneity of penetrance among these populations. Indeed, this
result was highly significant in the Portuguese families alike those recently found in the
Swedish kindred [3]. The reason why the French sample does not reach significance is
probably due to the lack of power for detecting an effect when penetrance is low and to
sample size. Indeed, penetrance estimates are much lower in the French sample than in the
Portuguese sample, and the number of families is substantially smaller than in the Swedish
phenomenon. Interestingly, the human homologue IMPACT of the mouse Impact gene,
which is an imprinted gene of unknown function, is located within the TTR region in 18q11.2-
12. However, the human IMPACT is not imprinted probably because of different CpG islands
distribution with differentially methylated region between both species [7]. On the other hand,
given the maternal inheritance of the mitochondrial DNA, our results might fit with the recent
finding of different mitochondrial haplogroup distribution in early and late onset Swedish and
French cases of TTR-FAP. This work suggested that a genetic component affecting
mitochondrial function could be one underlying mechanism of the phenotypic variation in the
Finally, these results are of importance in clinical practice. They should be taken in
account to perform the diagnosis in patients at the earliest stage of the affection and also for
the management of asymptomatic carriers. In addition they will contribute to refine genetic
References
[4] Holmgren G, Costa PM, Andersson C, Asplund K, Steen L, Beckman L, Nylander PO,
Teixeira A, Saraiva MJ, Costa PP. Geographical distribution of TTR met30 carriers in
northern Sweden: discrepancy between carrier frequency and prevalence rate. J Med
Genet 1994;31:351-354.
Bonaïti-Pellié C. PEL: An unbiased method for estimating age dependent genetic disease
risk from pedigree data unselected for family history. Genet Epidemiol (in press).
AR, Ito T. Comparative genome analysis of the mouse imprinted gene Impact and its
nonimprinted human homolog IMPACT: toward the structural basis for species-specific
1,00
0,75
Penetrance
0,50
0,25
0,00
0 10 20 30 40 50 60 70 80
Age in years
156
Genetic Epidemiology (2008)
In diseases caused by a deleterious gene mutation, knowledge of age-specific cumulative risks is necessary for medical
management of mutation carriers. When pedigrees are ascertained through at least one affected individual, ascertainment
bias can be corrected by using a parametric method such as the Proband’s phenotype Exclusion Likelihood, or PEL, that
uses a survival analysis approach based on the Weibull model. This paper proposes a nonparametric method for penetrance
function estimation that corrects for ascertainment on at least one affected: the Index Discarding EuclideAn Likelihood or
IDEAL. IDEAL is compared with PEL, using family samples simulated from a Weibull distribution and under alternative
models. We show that, under Weibull assumption and asymptotic conditions, IDEAL and PEL both provide unbiased risk
estimates. However, when the true risk function deviates from a Weibull distribution, we show that the PEL might provide
biased estimates while IDEAL remains unbiased. Genet. Epidemiol. 2008. r 2008 Wiley-Liss, Inc.
Key words: risk estimation; ascertainment bias; nonparametric method
Genet. Epidemiol.
Nonparametric Method for Penetrance Function Estimation 3
The estimator is given by y^ ¼ argmaxy fELðy; tÞg and is information is that Ai is bigger than the current age Yi.
an asymptotically normal estimator of y0 whatever the Therefore, it is technically convenient to set Ai ¼ þ1. For
distribution of the data. This is the main property of this large values of t, the proportion of such Ai corresponds to
nonparametric method: it is not necessary to suppose that the k of the extended Weibull model [Alarcon et al., 2008],
the distribution belongs to a given parametric family (not i.e. the proportion of individuals that will never be
even the multinomial family). affected.
It is interesting to note that the Kullback discrepancy K Ascertainment correction. Because of the ascer-
appears in the expression of the log-likelihood ratio tainment scheme, the sample is currently biased with an
corresponding to EL: excess of affected individuals and y0 ¼ FðtÞ does not verify
! the estimating equation: EP0 ½1At y0 6¼ 0, where P0 is the
ELðy; tÞ distribution generating the observed (biased) data. We
2 log
^ tÞ
ELðy; propose a method related to Weinberg’s that consists in
! correcting for the ascertainment bias by underweighting
ELðy; tÞ the probands: if a family contains k potential probands,
¼ 2 log
they should be weighted by 1 1=k, see Appendix. Under
supy ELðy; tÞ
Qn ! this modified distribution the estimating equation E½1At
supQ i¼1 QðXi Þ EQ ½1Ai t y ¼ 0 y0 ¼ 0 can be used and leads to a nonbiased estimate of y0 .
¼ 2 log Qn
Therefore, we apply this modification to our reference
supy; Q i¼1 QðXi Þ EQ ½1Ai t y ¼ 0
measure W:
¼ 2n inf KðQ; Pn Þ EQ ½1At y ¼ 0 :
Q
8
< n1 if 9i x ¼ Xi ; Pbi ¼ 0; Gi ¼ 1 and Yi t;
where KðQ; Pn Þ ¼ logðdQ=dPn ÞdPn , and Pn is the multi- WðxÞ¼ n1 1 1k if 9i; x ¼ Xi ; Pbi ¼ 1; Gi ¼ 1 and Yi t;
nomial maximizing the likelihood: 0 otherwise:
:
1
if 9i; x ¼ Xi ;
Pn ðxÞ ¼ n Confidence bands. A very strong property of
0 otherwise:
Empirical Likelihood and related methods is that it
Thus, the Empirical Likelihood method consist in provides confidence bands for the CDF [see Owen, 2001,
minimizing the Kullback discrepancy between Q and Pn . Chapter 7]. This means that for any given level, for
Nevertheless, other choices of discrepancy can be used: the example, 95%, we can give two CDF G and H such as with
Hellinger distance, the Relative Entropy and the Euclidean probability 95% and for all t40,
distance are the more common, but the method can be
generalized way beyond [see Bertail et al., 2007]. We GðtÞ FðtÞ HðtÞ:
propose here to use the Euclidean distance (denoted by w2 ) This is stronger than a sequence of confidence intervals
instead of the Kullback discrepancy in the expression of the (CIs) given t by t: with probability 95% the function F
log-likelihood ratio because it leads to a closed form for the remains between G and H for all t. The sequence of CIs is
likelihood that strongly reduces the computational time. local (given t by t), whereas the confidence band is global
Euclidean likelihood. The statistic corresponding (valid for all t):
to the Euclidean distance, that we refer to as the EAL, is
then sequence of CIs 8t40; PðGðtÞ FðtÞ HðtÞÞ ¼ 95%;
EALðy; tÞ ¼ 2n inf w2 ðQ; Pn Þ EQ ½1At y ¼ 0
confidence band Pð8t40; GðtÞ FðtÞ HðtÞÞ ¼ 95%:
Q
(Z 2 )
dQ An additional enjoyable property is that the confidence
¼ 2n inf 1 dPn EQ ½1At y ¼ 0 :
Q dPn band is not asymptotic: it is actually reached at the current
value of the sample sizen n. G and H are defined as
As for ELðy; tÞ, maximizing EALðy; tÞ in y gives an follows:
asymptotically normal estimator of y0.
Estimation of penetrance. In the context of pene- GðtÞ ¼ minfyjIDEALðy; tÞ cn g;
trance estimation, specific modifications of the Euclidian HðtÞ¼ maxfyjIDEALðy; tÞ cn g;
Likelihood in the reference probability measure Pn are
necessary. Hereafter, W stands for the modified versions of where critical values of cn are tabulated [see Owen, 2001, p
the reference measure. 159]. For a confidence level of 95% and n 1; 000, cn writes
In order to estimate the value of the penetrance at an age n 100; cn ¼ 3:0123 þ 0:4835 logðnÞ
t, one should consider only the population of carriers aged
t or more years. Therefore, at any fixed t, the individual i is 0:00957 logðnÞ2 0:001488 logðnÞ3 ;
considered only if Gi ¼ 1 (i.e. if i is affected) and if the 100on 1; 000; cn ¼ 3:0806 þ 0:4894 logðnÞ 0:02086 logðnÞ2 :
current age Yi of i is bigger than t. The technical effect of
this remark is that the reference measure varies as a
function of t:
1 SIMULATION
if 9i; x ¼ Xi ; Gi ¼ 1 and Yi t;
WðxÞ ¼ n IDEAL was compared to PEL by simulating family
0 otherwise:
samples under various situations. We chose a simulation
For unaffected individuals i, the age at onset Ai does not process in which the family size and structure are fixed
exists. From a mathematical point of view, the available (see Fig. 1). To ensure asymptotic conditions, the sample
Genet. Epidemiol.
4 Alarcon et al.
size was fixed to 5,000 families and therefore to 90,000 a CDMS model with an age criterion of 35 years for the
individuals. selection as described above, a probability ps ¼ 0:5 and a
A genotype was randomly assigned to the pedigree period T ¼ 1 in the selection process. Then, we considered
founders with a frequency of 10% for the mutated allele. the case of a high ascertainment probability for the
This value was chosen in order to limit the computational affected by simulating an MD model with a probability
time. For the other family members, genotypes are ps ¼ 1 and a period T ¼ 20 in the selection process. To
randomly assigned using Mendel’s laws. The frequency ensure asymptotic conditions, the sample sizes were fixed
of de novo mutation was set to 0 and we restricted to the to 5,000 families after selection and we considered the case
case where all genotypes are known. We used French where all genotypes are known. It has already been shown
demographic data to simulate the ages of the individuals. in Alarcon et al. [2008] that PEL is practically unbiased in
For noncarriers, we considered either a risk of 0% for MD these two situations when the penetrance function belongs
or a cumulative risk of 10% at 80 years for complex to the Weibull family. Then, we compared IDEAL with
diseases with monogenic sub-entities (CDMS) where only PEL when the Weibull assumption fails. Finally, we study
a fraction of cases are due to a mutation. the robustness of the two methods to sample size by
First, to compare IDEAL with PEL under a Weibull analyzing a Weibull-distributed sample of 200 families
model, phenotypes were simulated with an age-dependent after selection.
function, based on the Weibull model corresponding to a
cumulative risk of 50% by age 80 for carriers. Secondly, to
enlighten the difference between the parametric method BEHAVIOR OF IDEAL UNDER A WEIBULL
(PEL) and our nonparametric method (IDEAL), pheno- MODEL
types were simulated with an age-dependent function not Figure 2 shows estimation by IDEAL in the case of a low
based on the Weibull model but, respectively, on a ascertainment probability. IDEAL is unbiased, the true
Uniform distribution and on a Cauchy distribution. These penetrance (curve with stars) and the estimated pene-
distributions have been chosen for their substantial trance by IDEAL (dotted curve) are superposed. The plain
difference with the Weibull model. curves represent the confidence band.
As in Alarcon et al. [2008], in order to model a realistic The case of high ascertainment probability is shown in
selection process, we defined a period length T to select Figure 3. As in Figure 2, IDEAL is unbiased and the
the probands: only individuals affected during the last T estimated penetrance is indistinguishable from the true
years could be selected, and this with a probability ps. We penetrance. The PEL estimator also being superposed with
considered two different period lengths: a period of 20 the true penetrance is not represented in Figures 2 and 3.
years (T ¼ 20) and a period of 1 year (T ¼ 1). The For both figures, the confidence bands are quite thin and
probability ps was introduced to simulate the fact that, in contain the true penetrance at all t, as expected.
real situations, some individuals affected during the study
are not detected and therefore do not become probands. A
family was included in the sample as soon as one of its COMPARISON OF IDEAL AND PEL UNDER
member was a proband. Under the CDMS model, we UNIFORM AND CAUCHY MODELS
introduced an age criterion for selection (35 years) to Results are only presented in the case of a CDMS model,
increase the probability of detecting families with muta- with an age criterion of 35 for the selection, with ps ¼ 0:5
tion carriers [Claus et al., 1990]. and T ¼ 20 for the selection. All other cases we considered
in preliminary investigations led to similar results
Figure 4 shows that PEL does not fit the curve while
RESULTS IDEAL is perfectly unbiased (the estimate with IDEAL is
indistinguishable from the true penetrance). Figure 5
We studied the behavior of IDEAL in two extreme shows estimations with the same previous parameters
situations. First, we considered the case of a low for the selection, when penetrance is simulated under a
ascertainment probability for the affected by simulating Cauchy distribution (with parameter 5). We can see again
Genet. Epidemiol.
Nonparametric Method for Penetrance Function Estimation 5
Fig. 2. Simulation in case of a low ascertainment probability. Fig. 5. Comparison of PEL and IDEAL under a Cauchy distribu-
tion with parameter 5, in case of a CDMS model with an age
criterion of 35 for the selection, ps ¼ 0:5 and T ¼ 20 for the
selection. PEL, Proband’s Phenotype Exclusion Likelihood;
IDEAL, Index Discarding EuclideAn Likelihood; CDMS, com-
plex diseases with monogenic sub-entities.
Genet. Epidemiol.
6 Alarcon et al.
better when this assumption fails. This adaptability of Bonadona V, Sinilnikova OM, Chopin S, Antoniou AC, Mignotte H,
IDEAL allows to estimate penetrance functions in new Mathevet P, Bremond A, Martin A, Bobin JY, Romestaing P et al.
contexts without risking a bias due to a model misspeci- 2005. Contribution of BRCA1 and BRCA2 germ-line mutations to
fication. the incidence of breast cancer in young women: results from a
In the simulation part, we have only reported results for prospective population-based study in France. Genes Chromo-
the theoretical situations where all genotypes are known. somes Cancer 43:404–413.
Unknown genotypes can easily be taken into account in an Carayol J, Bonaı̈ti-Pellié C. 2004. Estimating penetrance from
IDEAL method by means of weighting. For example, we family data using a retrospective likelihood when ascertain-
ment depends on genotype and age of onset. Gen Epidemiol
can estimate a probability pi of mutation for each
27:109–117.
individual from the known genotypes of the family and
Claus EB, Risch NJ, Thompson WD. 1990. Age of onset as an
use pi =n as a reference instead of 1=n. indicator of familial risk of breast cancer. Am J Epidemiol
Another important situation considered in this paper is 131:961–972.
the behavior for a small number of families. In this case, Crow J. 1965. Problems of ascertainment in the analysis of family data.
the parametric framework (i.e. the extended Weibull In: Neel JV, Shaw MW, Schull WJ, editors). Genetics and the
model) is useful to complete the lack of information by Epidemiology of Chronic Disease. Washington, DC: Public Health
forcing the shape of the distribution and PEL provides ‘Source’ Publication.
better results than IDEAL, particularly for high ages. But Dunlop MG, Farrington SM, Carothers AD, Wyllie AH, Sharp L, Burn
this means that the assumption that the penetrance belong J, Liu B, Kinzler KW, Vogelstein B. 1997. Cancer risk associated
to a given model is then overriding, when the model with germline DNA mismatch repair gene mutations. Hum Mol
holds. The performances of the estimators are then even Genet 6:105–110.
more dependent on the validity of the model. Kraft P, Thomas D. 2000. Bias and efficiency in family-based gene-
An additional feature of IDEAL is that it gives characterization studies: conditional, prospective, retrospective,
confidence bands directly on the penetrance function and joint likelihoods. Am J Hum Genet 66:1119–1131.
FðtÞ, instead of a CI for a parameter derivated from a Lalouel JM. 1979. GEMINI: a computer program for optimization of
model. Simulation results show that the width of this general nonlinear functions. Technical Report No. 14, Department
confidence band increases with t. This can be explained by of Medical Biophysics and Computing, University of Utah, Salt
the fact that only individuals of age larger than t are Lake City.
Le Bihan C, Moutou C, Brugieres L, Feunteun J, Bonaı̈ti-Pellié C. 1995.
considered to estimate the penetrance at t. The population
ARCAD: a method for estimating age-dependent disease risk
considered is therefore decreasing with t. Thus, the
associated with mutation carrier status from family data. Genet
confidence band informs on the precision of the estimator Epidemiol 12:13–25.
of the penetrance in function of t. Owen AB. 2001. Empirical likelihood. Boca Raton: Chapman & Hall,
As a last point, it can be remarked that in the literature, CRC.
the penetrance function is usually modeled using a Plante-Bordeneuve V, Carayol J, Ferreira A, Adams D,
parametric survival analysis approach. But in practice, Clerget-Darpoux F, Misrahi M, Said G, Bonaiti-Pellie C.
the real distribution is not known and, to the best of our 2003. Genetic study of transthyretin amyloid neuropathies:
knowledge, the used models have never been validated. carriers risks among French and Portuguese families. J Med Genet
Thus, it would be interesting to use IDEAL as a validation 40:793–796.
method for parametric models; first estimate the pene- Weinberg. 1912. Methode und Fehlerquellen der Untersuchung auf
trance curve both with IDEAL and with a parametric Mendleschen Zahlen beim Menschen. Arch Rass u Ges Biol
method and then confront the two estimators. If the 9:165–174.
difference is too important, the parametric model can be
questioned. Moreover, when considering a new disease,
information on the penetrance structure is unlikely APPENDIX: INDEX DISCARDING
available. The most natural approach is then to consider
directly a nonparametric method like IDEAL. The result- Weinberg proposes in Weinberg [1912] a method to
ing estimations can be used to motivate the use of a correct for the ascertainment based on discarding the
parametric family like the Weibull. probands: for a family with k probands, the family is
replicated k times and each time a different proband is
discarded. The validity of this method has been shown by
ACKNOWLEDGMENTS Crow [1965]. This procedure has been designed to estimate
the segregation ratio and can straightforwardly transpose
We would particularly like to acknowledge the com- in our context of penetrance estimation. The important
ments and corrections of Catherine Bourgain. We also result is that y, the penetrance at time t, is given by the
acknowledge the reviewers for their comments. ratio of the statistical mean of the number of affected
individuals in an ascertained and replicated family by the
statistical mean of the number of carrier individuals in an
ascertained and replicated family. In the following Pi and
REFERENCES Gi are, respectively, the phenotype and the genotype of the
Alarcon F, Bourgain C, Gautier-Villars M, Planté-Bordeneuve V, individual i:
Stoppa-Lyonnet D, Bonaı̈ti-Pellié C. 2008. PEL: an unbiased
E½ ri¼1 k1Pi ¼1 1Pbi ¼0 þ ri¼1 ðk 1Þ1Pi ¼1 1Pbi ¼1
P P
method for estimating genetic disease risk from pedigree data
y ¼ Pr ;
E½ i¼1 k1Gi ¼1 1Pbi ¼0 þ ri¼1 ðk 1Þ1Gi ¼1 1Pbi ¼1
P
unselected for family history, submitted.
Bertail P, Harari-Kermadec H, Ravaille D. 2007. u-Divergence
empirique et vraisemblance empirique généralisée. Ann Econ Stat where r is the length of the family, k the number of
85:131–157. probands and Pbi ¼ 1 if i is a proband. This can be
Genet. Epidemiol.
Nonparametric Method for Penetrance Function Estimation 7
Genet. Epidemiol.
Annexe F. Articles
164
Publications
165
Publications
166
Communications orales
167
Publications
Communications affichées
HASSID S, NOGUÈS C, CARAYOL J, ALARCON F, MOHAMDI H, LABBÉ M, REZ-
VANI A, STOPPA-LYONNET D, BERTHET P, FRICKER JP, ANDRIEU N, BONAÏTI-PELLIÉ
C. BRCA penetrance for breast and ovarian cancers : a heterogeneity study. Annual meeting of
the International Genetic Epidemiology Society, Tampa (USA), 16-17 novembre 2006. Genet
Epidemiol 2007, 31 : 450-507 (abstract 86).
168
Bibliographie
[1] A BEL , L., AND B ONNEY, G. A Time-Dependent Logistic Hazard Function for Modeling
Variable Age of Onset in Analysis of Familial Diseases. Genetic Epidemiology 7 (1990),
391–407.
[2] A LARCON , F., L ASSET, C., C ARAYOL , J., B ONADONA , V., P ERDRY, H., D ESSEIGNE ,
F., WANG , Q., AND B ONAÏTI -P ELLIÉ , C. Estimating cancer risk in HNPCC by the GRL
method. European Journal of Human Genetics 15 (2007), 831–836.
[3] B ELOT, A., G ROSCLAUDE , P., B OSSARD , N., J OUGLA , E., B ENHAMOU , E., D ELA -
FOSSE , P., G UIZARD , A., M OLINIÉ , F., DANZON , A., BARA , S., ET AL . Cancer inci-
dence and mortality in France over the period 1980-2005. Rev Epidemiol Sante Publique
(2008).
[4] B ERTAIL , P., H ARARI -K ERMADEC , H., AND R AVAILLE , D. φ-Divergence empirique et
vraisemblance empirique generalisee. In Ann Econ Stat (2007), vol. 85, pp. 131–157.
[5] B ONADONA , V., S INILNIKOVA , O., C HOPIN , S., A NTONIOU , A., M IGNOTTE , H., M A -
THEVET, P., B RÉMOND , A., M ARTIN , A., B OBIN , J., ROMESTAING , P., ET AL . Contri-
bution of BRCA1 and BRCA2 germ-line mutations to the incidence of breast cancer in
young women : results from a prospective population-based study in France. Genes Chro-
mosomes Cancer 43, 4 (2005), 404–13.
[6] B ONAÏTI , B., A LARCON , F., B ONAÏTI -P ELLIÉ , C., AND P LANTÉ -B ORDENEUVE , V.
Parent-of-origin effetc in Transthyretin related amyloid polyneuropathy. Soumis à Amy-
loid (2008).
[7] B ONNEY, G. Regressive logistic models for familial disease and other binary traits. Bio-
metrics 42, 3 (1986), 611–25.
169
Bibliographie
[8] C ANNINGS , C., AND T HOMPSON , E. Ascertainment in the sequential sampling of pedi-
grees. Clinical Genetics 12, 4 (1977), 208–212.
[9] C ARAYOL , J., AND B ONAITI -P ELLIE , C. Estimating penetrance from family data using
a retrospective likelihood when ascertainment depends on genotype and age of onset. Ge-
netic Epidemiology 27, 2 (2004), 109–117.
[10] C ARAYOL , J., K HLAT, M., M ACCARIO , J., AND B ONAITI -P ELLIE , C. Hereditary non-
polyposis colorectal cancer : current risks of colorectal cancer largely overestimated, 2002.
[11] C HOMPRET, A., A BEL , A., S TOPPA -LYONNET, D., B RUGIERE , L., PAGES , S., F EUN -
TEUN , J., AND B ONAÏTI -P ELLIE , C. Sensitivity and predictive value of criteria for p53
germline mutation screening. J Med Genet 38, 1 (2001), 43–7.
[12] C HOMPRET, A., B RUGIERE , L., G ARDES , M., D ESSARPS -F REICHEY, F., A BEL , A.,
H UA , D., L IGOT, L., D ONDON , MG. B RESSAC - DE PAILLERETS , B., F RÈBOURG , T.,
L EMERLE , J., B ONAÏTI -P ELLIE , C., AND F EUNTEUN , J. P53 germline mutations in
childhood cancers and cancer risk for carrier individuals. Br J Cancer 82, 1 (2000), 1932–
1937.
[13] C LERGET-DARPOUX , F., B ONAITI -P ELLIE , C., AND H OCHEZ , J. Effects of misspeci-
fying genetic parameters in lod score analysis. Biometrics 42, 2 (1986), 393–9.
[14] C ROW, J. Problems of ascertainment in the analysis of family data. Genetics and the
Epidemiology of Chronic Diseases (1965), 23–44.
[15] D RUGGE , U., A NDERSSON , R., C HIZARI , F., DANIELSSON , M., H OLMGREN , G.,
S ANDGREN , O., AND S OUSA , A. Familial amyloidotic polyneuropathy in Sweden : a
pedigree analysis. Journal of Medical Genetics 30, 5 (1993), 388–392.
[16] D UNLOP, M., FARRINGTON , S., C AROTHERS , A., W YLLIE , A., S HARP, L., B URN ,
J., K INZLER , K., AND VOGELSTEIN , B. Cancer risk associated with germline DNA
mismatch repair gene mutations. Hum Mol Genet 6, 1 (1997), 105–110.
[17] E ASTON , D., F ORD , D., AND B ISHOP, T. Breast and ovarian cancer incidence in
BRCA1-mutation carriers. Breast Cancer Linkage Consortium. American Journal of Hu-
man Genetics 56, 1 (1995), 265.
170
[18] E FRON , B. The bootstrap, jacknife and other resampling plans. Philadelphia : SIAM
(1982).
[19] E FRON , B. Better Bootstrap Confidence Intervals. Journal of the American Statistical
Association 82, 397 (1987), 171–185.
[20] E ISINGER , F., AND AL . Identification et prise en charge des prédispositions héréditaires
aux cancers du sein et de l’ovaire. Bull Cancer 91 (2004), 219–237.
[21] E LSTON , R., AND S TEWART, J. A general model for the genetic analysis of pedigree
data. Hum Hered 21, 6 (1971), 523–42.
[22] F ORD , D., E ASTON , D., S TRATTON , M., NAROD , S., G OLDGAR , D., D EVILEE , P.,
B ISHOP, D., W EBER , B., L ENOIR , G., C HANG -C LAUDE , J., ET AL . Genetic Hete-
rogeneity and Penetrance Analysis of the BRCA1 and BRCA2 Genes in Breast Cancer
Families. The American Journal of Human Genetics 62, 3 (1998), 676–689.
[23] G AIL , M., P EE , D., B ENICHOU , J., AND C ARROLL , R. Designing studies to estimate
the penetrance of an identified autosomal dominant mutation : cohort, case-control, and
genotyped-proband designs. Genetic epidemiology 16, 1 (1999), 15.
[24] G ONG , G., AND W HITTEMORE , A. Optimal designs for estimating penetrance of rare
mutations of a disease-susceptibility gene. Genetic Epidemiology 24, 3 (2003), 173–180.
[25] G REEN , J., D RISCOLL , M., BARNES , A., M AHER , E., B RIDGE , P., S HIELDS , K., AND
PARFREY, P. Impact of Gender and Parent of Origin on the Phenotypic Expression of
Hereditary Nonpolyposis Colorectal Cancer in a Large Newfoundland Kindred With a
Common MSH2 Mutation . Colon and Rectum 45, 9 (2002), 1223–1232.
[26] H ARDELL , L., H OLMGREN , G., S TEEN , L., F REDRIKSON , M., AND A XELSON , O.
Occupational and other risk factors for clinically overt familial amyloid polyneuropathy .
Epidemiology 6, 6 (1995), 598–601.
[27] H OLMGREN , G., C OSTA , P., A NDERSSON , C., A SPLUND , K., S TEEN , L., B ECKMAN ,
L., N YLANDER , P., T EIXEIRA , A., S ARAIVA , M., AND C OSTA , P. Geographical distri-
bution of TTR met 30 carriers in northern Sweden . J Med Genetic 31 (1994), 351–354.
171
Bibliographie
[28] K RAFT, P., AND T HOMAS , D. Bias and Efficiency in Family-Based Gene-
Characterization Studies : Conditional, Prospective, Retrospective, and Joint Likelihoods.
The American Journal of Human Genetics 66, 3 (2000), 1119–1131.
[30] L ALOUEL , J., R AO , D., M ORTON , N., AND E LSTON , R. A unified model for complex
segregation analysis. American Journal of Human Genetics 35, 5 (1983), 816.
[31] L E B IHAN , C., M OUTOU , C., B RUGIERES , L., F EUNTEUN , J., AND B ONAITI -P ELLIE ,
C. ARCAD : a method for estimating age-dependent disease risk associated with mutation
carrier status from family data. Genet Epidemiol 12, 1 (1995), 13–25.
[32] M ORTON , N. Sequential tests for the detection of linkage. American Journal of Human
Genetics 7, 3 (1955), 277.
[33] M ORTON , N. Genetic Tests Under Incomplete Ascertainment. American Journal of Hu-
man Genetics 11, 1 (1959), 1.
[34] M ORTON , N., AND M AC L EAN , C. Analysis of family resemblance. 3. Complex segre-
gation of quantitative traits. American Journal of Human Genetics 26, 4 (1974), 489.
[35] O LSSON , M., H ELLMAN , U., P LANTÉ -B ORDENEUVE , V., J ONASSON , J., L ANG , K.,
AND S UHR , O. Mitochondrial haplogroup is associated with the phenotype of familial
amyloidosis with polyneuropathy in swedish and french patients. Clinical Genetics Sous
presse (2008).
[37] P ENNEC , S. La place des familles à quatre générations en France. Population 51, 1
(1996), 31–59.
[38] P LANTE -B ORDENEUVE , V., C ARAYOL , J., F ERREIRA , A., A DAMS , D., C LERGET-
DARPOUX , F., M ISRAHI , M., S AID , G., AND B ONAITI -P ELLIE , C. Genetic study of
transthyretin amyloid neuropathies : carrier risks among French and Portuguese families.
J Med Genet 40, 11 (2003), e120.
[39] Q IN , J., AND L AWLESS , J. Empirical likelihood and general estimating equations. Annals
of Statistics 22 (1994), 300–300.
172
[40] S ARAIVA , M. Transthyretin mutations in hyperthroxinemia and amyloid diseases. Hum
Mut 17 (2001), 493–503.
[41] S OUSA , A., C OELHO , T., BARROS , J., AND S EQUEIROS , J. Genetic epidemiology of
familial amyloidotic polyneuropathy (FAP)-Type I in Povoa do Varzim and Vila do Conde
(North of Portugal) . Am J Med Genet (Neuropsych Genet) 60 (1995), 512–521.
[42] S TOPPA -LYONNET, D., L AURENT-P UIG , P., E SSIOUX , L., PAGÈS , S., I THIER , G., L I -
GOT, L., F OURQUET, A., S ALMON , R., C LOUGH , K., P OUILLART, P., ET AL . BRCA1
sequence variations in 160 individuals referred to a breast/ovarian family cancer clinic.
Institut Curie Breast Cancer Group. American Journal of Human Genetics 60, 5 (1997),
1021.
[43] VAN DER VAART, A. Asymptotic statistics Cambridge Series in Statistical and Probabi-
listic Mathematics. Cambridge University Press, 1998.
[44] VASEN , H., M ECKLIN , J., M EERA K HAN , P., AND LYNCH , H. The International Colla-
borative Group on Hereditary Non-Polyposis Colorectal Cancer (ICG-HNPCC). Diseases
of the Colon & Rectum 34, 5 (1991), 424–425.
[45] WACHOLDER , S., H ARTGE , P., S TRUEWING , J., P EE , D., M C A DAMS , M., B RODY, L.,
AND T UCKER , M. The Kin-Cohort Study for Estimating Penetrance. American Journal
of Epidemiology 148, 7 (1998), 623–630.
[46] WAGNER , T., S TOPPA -LYONNET, D., F LEISCHMANN , E., M UHR , D., PAGÈS , S.,
S ANDBERG , T., C AUX , V., M OESLINGER , R., L ANGBAUER , G., B ORG , A., ET AL .
[47] W EINBERG. Method und Fehlerquellen der Untersuchung auf Mendleschen Zahlen Beim
Menschen. Arch. Rass.u.Ges.Biol 9 (1912), 165–174.
173
Bibliographie
174
Résumé
Certaines maladies à âge de début variable sont dues à la présence de mutation(s) d’un gène.
Pour ces maladies, l’estimation précise du risque cumulé d’être atteint à un certain âge chez les
porteurs de la mutation (appelé fonction de pénétrance) permet une meilleure compréhension
des mécanismes sous-jacents de la maladie et permet également de développer et d’améliorer
des stratégies de prévention. L’estimation de la pénétrance se fait à partir de données fami-
liales recensées sur certains critères plus ou moins complexes. Cependant, la plupart des études
utilisent des méthodes d’estimation qui ne tiennent pas compte du biais que représente ce re-
censement, ce qui implique des fonctions de pénétrance fortement surestimées.
Au cours de cette thèse, nous nous sommes intéressés au développement de méthodes d’estima-
tion de la fonction de pénétrance corrigeant pour le recensement des familles. Dans un premier
temps, nous avons étudié une méthode permettant d’estimer la pénétrance quel que soit le mode
de recensement des familles. Nous nous sommes ensuite intéressés plus particulièrement au cas
de familles recensées sur l’existence d’au moins un atteint par famille. Dans ce cadre, nous
avons développé une méthode d’estimation, que nous avons appelée la PEL, et l’avons compa-
rée à une méthode déjà existante, la méthode prospective. Nous avons montré que la PEL était
moins biaisée que la méthode prospective. Nous avons ensuite appliqué ces méthodes à deux
jeux de données, l’un portant sur des familles françaises et portugaises, atteintes de neuropathie
amyloide héréditaire ; l’autre portant sur des familles atteintes de cancer du sein. Nous avons
également mené une étude sur des familles suédoises atteintes de neuropathie amyloide hérédi-
taire.
La PEL est une méthode paramétrique basée sur un modèle de Weibull et nous avons mon-
tré qu’elle n’était pas adaptée lorsque la distribution des données s’éloignait fortement de ce
modèle. Nous avons donc développé une méthode non-paramétrique, que nous avons appelée
IDEAL, permettant l’estimation de la pénétrance en tenant compte du recensement des familles
et l’avons comparée à la PEL. Nous avons montré que IDEAL était moins biaisée lorsque la loi
des données était éloignée d’une loi de Weibul.