Gestion des données manquantes en recherche
Gestion des données manquantes en recherche
ANNEE 2021 N°
THESE POUR LE
DOCTORAT EN MEDECINE
Par
BLAVIER Pierre
NE LE 20/12/1994 A Mont Saint Aignan
1
ANNEE UNIVERSITAIRE 2020 - 2021
U.F.R. SANTÉ DE ROUEN
-------------------------
I - MEDECINE
2
Mr Frédéric DI FIORE CHB Cancérologie
Mr Fabien DOGUET HCN Chirurgie Cardio Vasculaire
Mr Jean DOUCET SJ Thérapeutique - Médecine interne et gériatrie
Mr Bernard DUBRAY CHB Radiothérapie
Mr Frank DUJARDIN HCN Chirurgie orthopédique - Traumatologique
Mr Fabrice DUPARC HCN Anatomie - Chirurgie orthopédique et traumatologique
Mr Eric DURAND HCN Cardiologie
Mr Bertrand DUREUIL HCN Anesthésiologie et réanimation chirurgicale
Mme Hélène ELTCHANINOFF HCN Cardiologie
Mr Manuel ETIENNE HCN Maladies infectieuses et tropicales
Mr Thierry FREBOURG UFR Génétique
Mr Pierre FREGER (surnombre) HCN Anatomie - Neurochirurgie
Mr Jean François GEHANNO HCN Médecine et santé au travail
Mr Emmanuel GERARDIN HCN Imagerie médicale
Mme Priscille GERARDIN HCN Pédopsychiatrie
M. Guillaume GOURCEROL HCN Physiologie
Mr Dominique GUERROT HCN Néphrologie
Mme Julie GUEUDRY HCN Ophtalmologie
Mr Olivier GUILLIN HCN Psychiatrie Adultes
Mr Claude HOUDAYER HCN Génétique
Mr Fabrice JARDIN CHB Hématologie
Mr Luc-Marie JOLY HCN Médecine d’urgence
Mr Pascal JOLY HCN Dermato – Vénéréologie
Mme Bouchra LAMIA Havre Pneumologie
Mme Annie LAQUERRIERE HCN Anatomie et cytologie pathologiques
Mr Vincent LAUDENBACH HCN Anesthésie et réanimation chirurgicale
Mr Hervé LEFEBVRE HB Endocrinologie et maladies métaboliques
Mr Thierry LEQUERRE HCN Rhumatologie
Mme Anne-Marie LEROI HCN Physiologie
Mr Hervé LEVESQUE HCN Médecine interne
Mme Agnès LIARD-ZMUDA HCN Chirurgie Infantile
Mr Pierre Yves LITZLER HCN Chirurgie cardiaque
M. David MALTETE HCN Neurologie
Mr Christophe MARGUET HCN Pédiatrie
Mme Isabelle MARIE HCN Médecine interne
Mr Jean-Paul MARIE HCN Oto-rhino-laryngologie
Mr Loïc MARPEAU HCN Gynécologie - Obstétrique
Mr Stéphane MARRET HCN Pédiatrie
3
Mme Véronique MERLE HCN Epidémiologie
Mr Pierre MICHEL HCN Hépato-gastro-entérologie
M. Benoit MISSET (détachement) HCN Réanimation Médicale
Mr Marc MURAINE HCN Ophtalmologie
Mr Christian PFISTER HCN Urologie
Mr Jean-Christophe PLANTIER HCN Bactériologie - Virologie
Mr Didier PLISSONNIER HCN Chirurgie vasculaire
Mr Gaëtan PREVOST HCN Endocrinologie
Mr Jean-Christophe RICHARD (détachement) HCN Réanimation médicale - Médecine d’urgence
Mr Vincent RICHARD UFR Pharmacologie
Mme Nathalie RIVES HCN Biologie du développement et de la reproduction
Mr Horace ROMAN (détachement) HCN Gynécologie - Obstétrique
Mr Jean-Christophe SABOURIN HCN Anatomie – Pathologie
Mr Mathieu SALAUN HCN Pneumologie
Mr Guillaume SAVOYE HCN Hépato-gastrologie
Mme Céline SAVOYE–COLLET HCN Imagerie médicale
Mme Pascale SCHNEIDER HCN Pédiatrie
Mr Lilian SCHWARZ HCN Chirurgie Viscérale et Digestive
Mr Michel SCOTTE HCN Chirurgie digestive
Mme Fabienne TAMION HCN Thérapeutique
Mr Luc THIBERVILLE HCN Pneumologie
Mr Hervé TILLY (surnombre) CHB Hématologie et transfusion
M. Gilles TOURNEL HCN Médecine Légale
Mr Olivier TROST HCN Anatomie -Chirurgie Maxillo-Faciale
Mr Jean-Jacques TUECH HCN Chirurgie digestive
Mr Benoît VEBER HCN Anesthésiologie - Réanimation chirurgicale
Mr Pierre VERA CHB Biophysique et traitement de l’image
Mr Eric VERIN Les Herbiers Médecine Physique et de Réadaptation
Mr Eric VERSPYCK HCN Gynécologie obstétrique
Mr Olivier VITTECOQ HC Rhumatologie
Mr David WALLON HCN Neurologie
Mme Marie-Laure WELTER HCN Physiologie
4
MAITRES DE CONFERENCES DES UNIVERSITES – PRATICIENS HOSPITALIERS
5
II - PHARMACIE
6
Mme Maryline LECOINTRE Physiologie
Mme Hong LU Biologie
Mme Marine MALLETER Toxicologie
M. Jérémie MARTINET (MCU-PH) Immunologie
M. Romy RAZAKANDRAINIBÉ Parasitologie
Mme Tiphaine ROGEZ-FLORENT Chimie analytique
Mr Mohamed SKIBA Pharmacie galénique
Mme Malika SKIBA Pharmacie galénique
Mme Christine THARASSE Chimie thérapeutique
Mr Frédéric ZIEGLER Biochimie
PROFESSEURS ASSOCIES
Mme Cécile GUERARD-DETUNCQ Pharmacie officinale
Mme Caroline BERTOUX Pharmacie
PAU-PH
M. Mikaël DAOUPHARS
PROFESSEUR CERTIFIE
Mme Mathilde GUERIN Anglais
ASSISTANTS HOSPITALO-UNIVERSITAIRES
Mme Alice MOISAN Virologie
M. Henri GONDÉ Pharmacie
7
LISTE DES RESPONSABLES DES DISCIPLINES PHARMACEUTIQUES
8
III – MEDECINE GENERALE
9
ENSEIGNANTS MONO-APPARTENANTS
PROFESSEURS
MAITRES DE CONFERENCES
10
Par délibération en date du 3 mars 1967, la faculté a arrêté que
les opinions émises dans les dissertations qui lui seront présentées
doivent être considérées comme propres à leurs auteurs et qu’elle
n’entend leur donner aucune approbation ni improbations.
11
Sommaire
Introduction générale
Avant-propos 15
B – Données manquantes 16
1 – Méthodes de délétion 20
2 – Méthodes d’imputation 21
3 – Méthodes de pondération 22
F – Introduction du sujet 24
Article de la thèse
Introduction 26
Méthode 28
Variables recueillies 29
Analyses statistiques 30
Résultats 31
Discussion 37
Conclusion 40
Bibliographie 41
Résumé 44
14
La gestion des données manquantes dans les études observationnelles publiées dans cinq
journaux de renom : pratique et manière de rapporter les résultats
Introduction
Avant-Propos
La forme d'un article scientifique est standardisée (Introduction, Methods, Results, and
Discussion, ou plan IMRAD). L'introduction donne les éléments de contexte aboutissant à la
question de recherche. Vient ensuite une partie matériel & méthodes, qui explique d'où
viennent les données, quelles données sont recueillies, de quelle manière, la temporalité du
recueil, quelles données seront analysées et de quelle manière. Ensuite vient la partie dédiée
aux résultats, mettant en avant les résultats les plus importants (résultats de l'analyse
principale) tout en expliquant leur sens. S'en suit une partie dite de discussion, où les résultats
sont nuancés, les forces, faiblesses limites de l'étude sont expliquées et où les perspectives de
recherche future sont présentées. Une brève conclusion, rappelant les principaux résultats et
nuances principales de l'étude apparait parfois. Des appendices de l'étude existent parfois,
détaillant certains points de l'étude (détails des analyses statistiques, résultats secondaires,
autres). Les articles sont soumis à des revues scientifiques, qui font relire ces articles par des
chercheurs du même domaine (revue par les pairs), avant de les approuver et de les publier,
permettant leur diffusion.
Cette thèse s'intéresse à la manière de rapporter les méthodes et les résultats en lien
15
avec les données manquantes ainsi qu'aux pratiques relatives à leur gestion. Tout d'abord les
concepts de données et de données manquantes seront définis. Ensuite, les différents
mécanismes de production des données manquantes, l'impact et les méthodes de gestion
seront rappelés. Enfin, la problématique de notre étude sera introduite.
Une variable correspond à chaque paramètre mesuré d'une observation (e.g. sexe, âge,
présence de pathologie, valeur biologique). Chacune de ces variables peut prendre plusieurs
valeurs (e.g. homme ou femme pour la variable sexe, tout nombre entier supérieur à 0 pour la
variable âge). Chaque observation (patient, séjour, visite) est décrite avec une valeur par
variable. Une donnée est donc la valeur d'une variable, pour une observation. La somme des
données constitue un jeu de données.
Dans le tableau ci-dessus, 4 variables sont recueillies (sexe, âge, poids, statut tabagique). Ces
4 variables sont recueillies pour 4 patients (il y a donc 4 observations). Une valeur est
attribuée à chaque variable observée.
B – Données manquantes
16
exemple de répartition possible des données manquantes (classiquement représentées par
l'acronyme NA pour Not Available, non disponible).
Patient 1 Femme NA NA NA
Patient 2 Homme 78 50 NA
Chaque étude étant différente, la proportion de données manquantes est donc très
variable d'un jeu de données à l'autre. La situation idéale est celle où il n'y a aucune donnée
manquante, cependant, cette situation est rare en réalité [1].
Selon Rubin, les mécanismes de production de données manquantes peuvent être classés en 3
catégories [2].
Ce sont les variables pour lesquelles la donnée manquante est indépendante de toute autre
variable (observable ou non), et apparaissant de façon aléatoire. Ces données manquantes
n'entrainent donc pas de biais. C'est par exemple un patient dont l'information sur la
consommation de drogue intraveineuse est manquante du simple fait que son questionnaire ait
17
été égaré.
Ce sont les variables pour lesquelles la valeur de la donnée manquante est liée à sa vraie
valeur. Par exemple, dans une étude s’intéressant à la consommation de drogues
intraveineuses, il est envisageable que les personnes consommatrices de ces produits soient
moins susceptibles de délivrer cette information du fait qu'un certain tabou existe concernant
ces consommations.
Ces données manquantes exposent au risque de biais de sélection.
Cet intitulé est trompeur. En effet, ce sont des données manquantes de façon non aléatoire,
mais où leur absence peut être attribuée à une variable pour laquelle on a une information
complète. Poursuivons avec l'exemple des drogues intraveineuses : il est possible que les
femmes soient moins susceptibles de délivrer cette information.
Ce type de données manquantes peut engendrer un léger biais, relativement contrôlable dans
la mesure où l'on a une information sur la donnée manquante grâce à une autre variable.
Ces différents types de données manquantes peuvent être représentés graphiquement [3].
18
Graphiques schématisant les mécanismes de production de données manquantes
Tout cela peut aboutir à des résultats biaisés. Pour pallier les potentiels biais,
différentes méthodes ont été développées pour gérer ces données manquantes.
Un grand nombre de méthodes ont donc été développées pour gérer ces données manquantes
dans les analyses. Se pose alors la question de quelle méthode adopter.
1 - Méthodes de délétion
Avec ces méthodes, les patients présentant des données manquantes sont retirés de l'analyse.
20
Une des méthodes les plus courantes [6] est la méthode dite de délétion de cas (ou exclusion
de cas). Cette méthode consiste simplement à retirer de l'analyse les patients ayant une donnée
manquante. On parle alors d'analyse en cas complets. Cette méthode ne biaise pas
l'estimation du paramètre si l'on a des données MCAR [7]. On a cependant une perte de
puissance d'autant plus importante qu'il y a de patients avec des données manquantes.
Une méthode proche est la méthode de délétion par paire où l'on va retirer le patient des
analyses uniquement s'il présente une donnée manquante pour la variable étudiée. Le patient
sera analysé si l'on s'intéresse aux variables pour lesquelles les données sont observées. Cette
méthode reste généralement moins pénalisante que l'analyse en cas complets. Elle implique
par contre d'avoir des analyses avec des échantillons de différentes tailles et avec une erreur
standard variable.
Par défaut les modèles et logiciels statistiques appliquent des analyses en cas complets.
2 - Méthodes d'imputation
On parle d'imputation simple lorsque la donnée manquante va être remplacée une seule fois,
par une unique valeur.
Catégorie "donnée manquante" : En appliquant cette méthode, le fait qu'une donnée soit
manquante sera considéré comme une variable de réponse catégorielle. Ainsi, lors de l'emploi
de modèles multivariés (modèles de régression multiples par exemple), la variable de réponse
sera analysée en fonction du fait que des données soient manquantes dans les variables
d'ajustement.
Imputation par la moyenne : Lorsque l'on applique cette méthode, la moyenne des valeurs
de la variable va remplacer les données manquantes de cette même variable. Cette méthode
s'appuie sur le fait qu'il est raisonnable, dans le cadre d'une distribution normale, de supposer
qu'une observation de la variable prise aléatoirement soit proche de la moyenne. Cependant, si
les données manquantes ne le sont pas de façon complètement aléatoire, cela peut renforcer
un biais déjà existant. Cette méthode n'apporte donc aucune information supplémentaire et a
pour effet de maximiser l'effectif à analyser, tout en diminuant l'erreur standard [8]. Des
variantes de cette méthode sont l'imputation par le mode ou la médiane.
Dernière observation reportée [9] : Cette méthode est aisément applicable dans le cas
21
d'études longitudinales, où les mêmes variables sont recueillies à différents moments d'une
prise en charge, par exemple à 1 mois, 3 mois, 6 mois. Elle consiste simplement à remplacer
la donnée manquante par la dernière valeur observée de cette variable chez le patient. Elle
suppose donc qu'on considère qu'entre un instant t et l'instant t+1, la valeur n'a pas été
modifiée, ce qui n'est pas toujours vrai. Cela produit donc un biais dans l'estimation du
paramètre et sous-estime la variabilité du résultat.
Des variantes de cette méthode existent, où l'on va remplacer les données manquantes par la
valeur recueillie à des instants autres. Une de ces variantes est celle de la prochaine
observation reportée, où la valeur manquante à un instant t sera remplacée par la valeur à un
instant t+1.
Hot deck imputation [10] : Pour appliquer cette méthode, pour chaque patient présentant une
donnée manquante pour la variable d'intérêt, un sous-échantillon de patients similaires est
utilisé (en fonction de la correspondance présentée par certaines variables entre le patient
ayant la donnée manquante et les autres). Ensuite, une valeur présentée parmi un patient
sélectionné aléatoirement dans ce sous-échantillon sera imputée à la donnée manquante.
On parle d'imputation multiple lorsque la donnée manquante va être remplacée par plusieurs
valeurs possibles. Ce qui offre l'avantage de conserver la variabilité et l'incertitude des
valeurs.
22
Schéma d'une chaîne de Markov
On voit dans ce schéma que la probabilité qu'il y ait de la pluie le lendemain d'un jour j ne
dépend que de l'état de la météo du jour j, et non de la météo des jours antérieurs.
Une méthode s'appuyant sur les algorithmes de MCMC est la Multiple imputation by
chained equation (MICE) ou imputation multiple par équations chaînées [13].
Dans le premier temps de cette méthode, on va imputer les données manquantes d'une
première variable avec des valeurs aléatoirement sélectionnées parmi les observations avec
des valeurs disponibles pour cette variable.
Ensuite, la 2ème variable sera imputée en utilisant un modèle de régression s'appuyant sur
cette première variable imputée. Puis la 3ème sera imputée en utilisant un modèle de
régression s'appuyant sur ces 2 variables imputées. Une fois toutes les variables imputées
(échantillon Xi), il est possible de réitérer l'opération, en s'appuyant sur les données
précédemment imputées. L'échantillon Xi+1 ne dépend donc que de l'échantillon Xi (Chaines
de Markov).
Les variables utilisées pour effectuer ces imputations itératives peuvent être sélectionnées, ou
bien représenter l'ensemble des variables disponibles. Ces variables composent la matrice de
23
prédiction.
Le processus est répété sur plusieurs jeux de données distincts. Les imputations de chaque jeu
de données sont alors totalement indépendantes les unes des autres (Monte Carlo).
Les analyses sont ensuite effectuées sur les jeux de données simulés puis le résultat moyen de
ces analyses est utilisé.
3 – Méthode de pondération
D'autres méthodes existent, certaines faisant appel à des algorithmes utilisés en intelligence
artificielle (apprentissage automatique) comme la méthode des k plus proches voisins [16].
F – Introduction du sujet
Dans les études interventionnelles, la gestion des données manquantes est dans le
meilleur des cas prévue et décrite dans le protocole de recherche. Le plus souvent il y a un
protocole avec un recueil prospectif actif qui est censé minimiser la quantité de données
manquantes. De plus, la tendance actuelle concernant les analyses d'essai clinique consiste à
faire une analyse en intention de traiter, qui nécessite la complétude des données de suivi des
patients [17].
Dans les études observationnelles, il n'y a pas forcément de protocole produit en amont
de l'étude, donc on ne sait pas nécessairement quelles analyses sont prévues et comment est
anticipée la gestion des données. Ainsi, la méthode décrite dans les articles est le seul moyen
de savoir ce qui a été fait. Cela nécessite donc une manière exigeante de rapporter les
24
méthodes et les résultats afin de pouvoir comprendre au mieux les analyses.
Le guide de bonnes pratiques STROBE [18] précise les éléments essentiels devant
figurer dans les articles. Concernant les données manquantes, il est spécifié que la manière de
gérer les données manquantes doit apparaître dans la partie méthode : "Statistical methods 12
(c) : Explain how missing data were adressed" et que le nombre de patients présentant des
données manquantes pour chaque variable d’intérêt doit figurer dans la partie résultats :
"Descriptive data 14 (b) : Indicate number of participants with missing data for each variable
of interest.". Ces recommandations étant peu précises, d'autres auteurs ont proposé des
recommandations supplémentaires spécifiques aux données manquantes [19] : "how many
individuals were excluded because of missing data", "Describe the type of analysis used to
account for missing data (eg, multiple imputation), and the assumptions that were made (eg,
missing at random)".
Les articles étudiant la production scientifique et s'intéressant aux données manquantes
retrouvent que les articles mentionnent insuffisamment la présence de données manquantes
[20] ainsi que leur mode de gestion. Cependant, ces études s’appuient sur des articles anciens
ou sur des études non observationnelles.
25
La gestion des données manquantes dans les études observationnelles publiées dans cinq
journaux de renom : pratique et manière de rapporter les résultats
Introduction
Cependant, il n'existe pas une méthode de référence pour choisir la manière de gérer
les données manquantes. La diversité des méthodes existantes laisse autant de possibilités
d'adapter les analyses pour obtenir un résultat souhaité (pratiques de p-hacking). A plus forte
raison lors de l'utilisation de modèles multivariés, en modifiant le nombre de sujets analysés
en fonction des covariables sélectionnées. De plus, lors de l'utilisation de méthodes
d'imputation multiple pour gérer les données manquantes, les variables sélectionnées pour
imputer les données manquantes ont leur importance et influencent les résultats de
l'imputation [19].
Il est donc crucial d'être complet et précis lors de la rédaction afin de rapporter toutes
les informations concernant la proportion de données manquantes ainsi que la méthode de
gestion de celles-ci. Le guide des bonnes pratiques Strengthening the Reporting of
Observational Studies in Epidemiology (STROBE) [18] précise bien que la gestion des
27
données manquantes est un des éléments importants devant figurer dans la partie méthode des
articles scientifiques "12(c) explain how missing data were addressed", ainsi que la proportion
de données manquantes par variable doit être précisée dans la partie résultats "Descriptive
data 14 (b): Indicate number of participants with missing data for each variable of interest.".
Ces recommandations ont par la suite été enrichies par d'autres auteurs [19].
Méthode
La sélection des articles a été réalisée à partir des sommaires en ligne de cinq journaux
médicaux majeurs. Ces cinq journaux correspondent aux journaux ayant le plus grand facteur
d'impact dans la catégorie "medecine, general & internal" selon le Journal Citation Reports de
2016 [27] : New England Journal of Medicine (N Engl J Med), The British Medical Journal
(BMJ), The Lancet (LANCET), The Journal of the American Medical Association (JAMA) et
Annals of Internal Medicine (Ann Intern Med), aussi nommés les 'big five'.
Des articles originaux publiés entre janvier 2017 et décembre 2019 inclus, comprenant
des études observationnelles avec des modèles statistiques multivariés ont été sélectionnés par
un des auteurs de cette étude (T.PL). Seules des études de santé observationnelles sur les
sujets humains ont été considérées. Il s'agit d'études incluant des humains (patients,
volontaires sains, praticiens), chez qui des données de santé ont été mesurées, mais sans
intervention. Cela inclut les études transversales, cas-témoin, cohortes prospectives et
28
rétrospectives, études quasi-expérimentales, avec ou sans groupe contrôle. Seules les études
utilisant au moins un modèle nécessitant la sélection de covariables ont été incluses. Les
études sur l'économie, la génétique, ainsi que les méta-analyses, revues systématiques et
études épidémiologiques descriptives ont été exclues. Seules les études publiées en 2018 et
2019 seront considérées dans cet article afin de dresser un état de l'art le plus récent possible.
Variables recueillies
Les parties méthodes et résultats ont été lues afin de recueillir les différentes variables.
Les appendices ont également été lus à la recherche d'informations complémentaires.
Le nom du journal et l'année de publication ont été recueillis. La présence de données
manquantes a été catégorisée comme suit : (i) Présence : l'article ou l'appendice mentionne la
présence de données manquantes; (ii) Non concerné : l'article ou l'appendice précise l'absence
de données manquantes; (iii) Non mentionné : il n'y a pas mention de données manquantes ni
dans l'article ni dans les appendices.
Le choix des variables a été fait en se basant sur les critères du STROBE [18] ainsi que la
recommandation proposée par Sterne et al. [19].
Auteur biostatisticien :
Les problèmes relatifs aux données manquantes étant plus particulièrement connus des
biostatisticiens, la présence d'un biostatisticien parmi les auteurs a été recherchée. Seuls les
auteurs mentionnés clairement comme statisticien de l'étude ou affiliés à une structure
mentionnant clairement "statistics", "biostatistics" ou "data science" ont été considérés comme
effectivement statisticiens.
Analyses statistiques :
Les résultats sont présentés avec des pourcentages. Les proportions sont présentées
séparément pour l'analyse principale et l'analyse de sensibilité. La comparaison de variables
qualitatives a été réalisée par un test du Chi² ou par un test exact de Fisher. Etant donné le
nombre important d'absence de mention des données manquantes, une analyse post hoc a été
réalisée à la recherche du type de jeux de données utilisé (e.g. : bases médico-administratives,
registres, cohorte) dans ce sous-groupe. En effet, ce type de base de données présente des
données manquantes qui sont parfois imputées nativement (l'absence de notification d'un
événement ne signifie pas nécessairement que cet événement n'a pas eu lieu) ou par traitement
avant la mise à disposition (gestion des données manquantes par l'organisme responsable du
registre).
La gestion des données et les analyses statistiques ont été réalisées avec le logiciel R (version
30
4.0.2 (2020-06-22) -- "Taking Off Again" Copyright (C) 2020 The R Foundation for
Statistical Computing).
Résultats
Diagramme de flux
Au total, 312 articles répondaient aux critères d'inclusion, 2 ont été rétractés et 1 était
indisponible. Les 309 articles restants et leurs appendices (dans la mesure où l'article
mentionne la présence d'un appendice) ont été lus. Parmi les 309 articles, 15 (4,9%) ont été
publiés dans le N Engl J Med, 26 (8,4%) dans le Lancet, 55 (17,8%) dans le Ann Intern Med,
84 (27,2%) dans le JAMA et 129 (41,7%) dans le BMJ.
32
Tableau 1 : Méthodes de gestion des données manquantes (pourcentages)* dans l'analyse
principale
Régression 1 (0,4%)
MICE** 24 (10,2%)
IPW† 3 (1,3%)
* La somme des pourcentages peut excéder 100% du fait que certains articles utilisent différentes
méthodes pour la gestion des données manquantes. Par exemple exclusion si la variable présente
moins de 1% de données manquantes, méthode d'imputation multiple sinon.
** Multiple imputation by chained equation
*** MCMC : Markov Chain Monte Carlo
† Pondération par la probabilité inverse
L'information sur l'existence de données manquantes ainsi que leur méthode de gestion
33
étaient retrouvées dans 210 articles (97,2% des cas), dans le corps de l'article. Pour 6 articles
(2,8%), une de ces informations n'était retrouvée que dans l'appendice. L'appendice a permis
d'éclaircir la méthode d'imputation multiple utilisée dans deux articles.
Exclusion 4 (11,1%)
MICE ** 12 (33,3%)
MCMC*** 4 (11,1%)
IPW† 3 (8,3%)
SPM° 1 (2,8%)
*La somme des pourcentages peut excéder 100% du fait que certains articles conduisent plusieurs
méthodes de gestion de données manquantes dans les différentes analyses de sensibilité.
** Multiple imputation by chained equation
*** MCMC : Markov Chain Monte Carlo
† Pondération par la probabilité inverse
° SPM : Shared Parameters Model
Lors d'analyses en cas complets, que ce soit dans l'analyse principale (116 articles) ou
dans l'analyse de sensibilité (4 articles), la proportion de patients exclus des modèles
multivariés a été recherchée. Dans 19,2% des articles avec une analyse en cas complet la
proportion de patients perdus dans l'analyse multivariée n'était pas précisée (Tableau 3).
La proportion (ou nombre) de données manquantes était clairement indiquée par les
auteurs dans le corps de l'article pour 72 (60%) articles et dans l'appendice pour 15 (12,5%)
34
articles. Cette information a été calculée à partir d'informations recueillies en différents points
de l'article (appendice compris) pour 10 (8,3%) articles. Pour 3 études, la proportion de
patients exclus était supérieure à 50% (avec un maximum de 59% de patients exclus).
Tableau 3 : Proportion de patients exclus parmi les articles avec une analyse en cas complet
< 1% 27 (22,5%)
Le recours à des méthodes d'imputation multiple, que ce soit dans l’analyse principale
ou dans l’analyse de sensibilité, a été rapporté par les auteurs de 82 articles. La MICE a été
utilisée dans 36 (43,9 %) études, 10 (12,2 %) utilisent une méthode MCMC non précisée et 36
(43,9 %) une méthode d'imputation multiple non précisée. Quelle que soit la méthode
d'imputation multiple indiquée par les auteurs, les variables inclues pour la procédure
d'imputation sont précisées dans moins d'un tiers des cas (Tableau 3).
35
Tableau 3 : Précisions des modèles d'imputation multiple
Précision du 10 0 2
mécanisme de données (27,8%) (0%) (5,6%)
manquantes (MAR)
Précision du nombre 8 1 0
d'itération (22,2%) (10%) (0%)
Précision du nombre de 30 7 15
jeu de données simulés (83,3%) (70%) (41,7%)
Précision de la matrice 9 3 10
de prédiction (25%) (30%) (27,8%)
36
de biostatisticien parmi les auteurs (IC95% = [-0,09 ; 0.12], valeur p = 0,84).
Parmi les articles présentant des données manquantes la différence de proportion
d'articles précisant la gestion des données manquantes et ceux ne le faisant pas, en fonction de
la présence d'un biostatisticien est de 0,3%, p-valeur = 0,9 (différence en faveur de ceux ayant
un biostatisticien).
Parmi les articles précisant la méthode de gestion des données manquantes, la différence de
proportion d'articles utilisant une méthode d'exclusion et une imputation simple en fonction de
la présence d'un biostatisticien sont de 5,6% et 2% (en faveur de ceux n'ayant pas de
biostatisticien), p-valeurs = 0,41 et 0,77 respectivement. En revanche, concernant l'utilisation
d'une méthode d'imputation multiple et la mention d'une gestion imprécise (imputation simple
sans précision ou imputation multiple sans précision), ces différences sont de 5,8% et 3% (en
faveur de ceux ayant un biostatisticien), p-valeurs = 0,32 et 0,53 respectivement.
Tableau 5 : Méthodes de gestion des données manquantes selon la présence ou l'absence d'un
biostatisticien
Discussion
La présence ou l'absence de données manquantes n'est par retrouvée dans près de 20%
des articles de notre étude. Ce chiffre s'élève à 35% dans la revue de la littérature de Fielding
et al. [38] et à 55% dans celle de Hayat et al. [20]. Dans d'autres études traitant de la manière
de rapporter l'information concernant les données manquantes, cette information n'est pas
présente [24, 25].
Lorsqu'il y a présence de données manquantes, la méthode de gestion de celles-ci est
mentionnée de façon très variable selon les articles, allant de 38% [39] à 84% [4], jusqu'à
38
91,5% dans notre étude.
La recours à une analyse en cas complets est majoritaire dans les articles de notre
étude (49,2%). Karahalios et al.[24] retrouvent que cela concerne 66% des études de cohortes
entre 2000 et 2009, Hussain et al. [26] retrouvent que cela concerne 60% des essais contrôlés
randomisés entre 2009 et 2014. Parmi les articles de santé publique publiés en 2014, 68% de
ceux précisant la méthode de gestion des données manquantes ont recours à une analyse en
cas complets [20].
L'utilisation d'imputation multiple comme méthode de gestion des données
manquantes était employée dans moins de 1% des articles d'essai clinique randomisé en 2005-
2006 (publiés dans le Lancet, le BMJ, le N Eng J Med ou le JAMA) contre 7,8% en 2013-
2014 [38].
Sur les journaux de santé publique, cela représente 12% des articles en 2014. Dans notre
étude, cela concerne 23,3% des articles.
Ces différences peuvent être expliquées par plusieurs facteurs. Tout d'abord,
l'ancienneté des articles a probablement un impact sur la qualité de la manière de rapporter les
résultats et les pratiques. Notre étude s'intéresse aux études publiées en 2018 et 2019. Or les
revues de la littérature retrouvées concernent des articles publiés entre 2000 et 2014. Les
journaux desquels sont tirés les articles étudiés dans ces revues sont d'une qualité hétérogène
et ont un facteur d'impact généralement moins important que les 'big five'. De plus, dans ces
revues, il n'est pas précisé si les informations ont également été cherchées dans les
appendices. Or dans notre étude, tous les appendices ont été lus à la recherche d'informations
complémentaires. Enfin, les logiciels statistiques proposent avec le temps de plus en plus de
fonctionnalités complexes telles que la possibilité de faire une imputation multiple par
équations chaînées. En effet, la popularisation de ces méthodes ne peut se faire que par
l'intermédiaire des outils statistiques.
Cette étude ne s'intéresse qu'à cinq journaux ayant un facteur d'impact important et une
qualité de publication reconnue. Cela n'est pas forcément représentatif de la majorité des
études observationnelles publiées. Ces journaux restent cependant des exemples et sont
mondialement connus pour la qualité de leur production scientifique.
De plus, il n'a été recueilli que ce qui était explicité par les auteurs. Certaines
suppositions et interprétations auraient pu être faites pour compléter certaines imprécisions
39
(non spécifiées, inconnues ou non mentionnées). C'est le cas par exemple des imputations
multiples non spécifiées et MCMC pour lesquelles il est probable que la méthode précise
ayant été employée puisse être déduite à partir des informations de l'article. Cependant, toutes
les informations relatives aux données manquantes délivrées par les auteurs ont été
recherchées et recueillies à partir des articles et également de leurs appendices.
La présence d'un biostatisticien parmi les auteurs ne semble pas avoir d'impact majeur,
ni sur la rigueur de la manière de rapporter les informations sur les données manquantes, ni
sur la méthode de gestion des données manquantes. Cependant, seuls les auteurs affiliés à un
service mentionnant spécifiquement "biostatistics" ont été considérés comme biostatisticiens.
Il est possible que certains auteurs affiliés à des services portant la mention "epidemiology"
ou "public health" aient des compétences biostatistiques et aient participé à l'étude en tant que
biostatisticien, sans que cela ait été rapporté. De plus, les remerciements n'ont pas été
analysés.
Parmi les articles qui ne mentionnent pas de données manquantes, la plupart (63,5%)
sont des études utilisant des bases de données médico-administratives ou registres. Dans ces
bases de données, l'absence de mention d'une pathologie (donnée manquante) est imputée
comme équivalent à l'absence de cette pathologie. Cela conduit donc à créer des bases
exemptes de données manquantes apparentes. Cela peut expliquer que les auteurs ne
mentionnent pas la présence ou l'absence de données manquantes.
Enfin, il y a eu une double lecture ouverte du corps de chaque article pour établir le
recueil de la méthode de gestion des données manquantes et la décision était basée sur un
consensus.
Conclusion
Dans la plupart des études observationnelles de notre étude, les auteurs rapportent la
présence de données manquantes ainsi que leur gestion. Cependant, la précision du nombre de
données manquantes et les détails relatifs à leur gestion, notamment lors du recours à des
méthodes d'imputation multiple qui se développent de plus en plus, nécessitent d'être
améliorés. Divers guides de bonnes pratiques existent déjà [18, 19, 32]. Il convient donc de
les appliquer de façon plus systématique. Cela permettrait une meilleure analyse et
compréhension des résultats, ainsi qu'une meilleure reproductibilité de ceux-ci. Expliciter
clairement que l'article est concerné par les données manquantes est un élément fondamental
et devrait être ajouté aux recommandations existantes.
40
Bibliographie
1. Pedersen AB, Mikkelsen EM, Cronin-Fenton D, et al. Missing data and multiple imputation
in clinical epidemiological research. Clin Epidemiol. 2017;9:157-166. Published 2017 Mar
15. doi:10.2147/CLEP.S129785
2. Rubin DB. Inference and missind data. Biometrika 1976; 63: 581-92.
3. Mohan, K., & Pearl, J. (2021). Graphical models for processing missing data. Journal of the
American Statistical Association, 1-16.
4. Karahalios A, Baglietto L, Carlin JB, English DR, Simpson JA. A review of the reporting
and handling of missing data in cohort studies with repeated assessment of exposure
measures. BMC Med Res Methodol. 2012;12:96. Published 2012 Jul 11. doi:10.1186/1471-
2288-12-96
5. Little RJ, Cohen ML, Dickersin K, et al. The design and conduct of clinical trials to limit
missing data. Stat Med. 2012;31(28):3433-3443. doi:10.1002/sim.5519
6. Peugh, J. L., & Enders, C. K. (2004). Missing data in educational research: A review of
reporting practices and suggestions for improvement. Review of educational research, 74(4),
525-556
7. Perkins NJ, Cole SR, Harel O, et al. Principled Approaches to Missing Data in
Epidemiologic Studies. Am J Epidemiol. 2018;187(3):568-575. doi:10.1093/aje/kwx348
8. Malhotra N. Analyzing marketing research data with incomplete information on the
dependent variable. J Mark Res. 1987;24:74–84.
9. Mavridis D, Salanti G, Furukawa TA, Cipriani A, Chaimani A, White IR. Allowing for
uncertainty due to missing and LOCF imputed outcomes in meta-analysis. Stat Med.
2019;38(5):720-737. doi:10.1002/sim.8009
10. Andridge RR, Little RJA. A Review of Hot Deck Imputation for Survey Non-response. Int
Stat Rev. 2010 Apr;78(1):40–64.
11. Schunk D. A Markov chain Monte Carlo algorithm for multiple imputation in large
surveys. AStA Adv Stat Anal. 2008 Feb;92(1):101–14. 46
12. METROPOLIS N, ULAM S. The Monte Carlo method. J Am Stat Assoc. 1949
Sep;44(247):335-41. doi: 10.1080/01621459.1949.10483310. PMID: 18139350.
13. Azur MJ, Stuart EA, Frangakis C, Leaf PJ. Multiple imputation by chained equations:
what is it and how does it work?. Int J Methods Psychiatr Res. 2011;20(1):40-49.
doi:10.1002/mpr.329
14. Rubin D.B. Wiley; 1987. Multiple imputation for nonresponse in
surveys.https://onlinelibrary.wiley.com/doi/pdf/10.1002/9780470316696.fmatter
41
15. Seaman SR, White IR.. Review of inverse probability weighting for dealing with missing
data. Stat Methods Med Res 2013;22: 278-95. 21220355
16. Malarvizhi, R., & Thanamani, A. S. (2012). K-nearest neighbor in missing data
imputation. International Journal of Engineering Research and Development, 5(1), 5-7
17. Elkins MR, Moseley AM. Intention-to-treat analysis. J Physiother. 2015 Jul;61(3):165-7.
doi: 10.1016/j.jphys.2015.05.013. Epub 2015 Jun 19. PMID: 26096012.
18. von Elm E, Altman DG, Egger M, Pocock SJ, Gøtzsche PC, Vandenbroucke JP; STROBE
Initiative. The Strengthening the Reporting of Observational Studies in Epidemiology
(STROBE) statement: guidelines for reporting observational studies. J Clin Epidemiol. 2008
Apr;61(4):344-9. doi: 10.1016/j.jclinepi.2007.11.008. PMID: 18313558.
19. Sterne JA, White IR, Carlin JB, et al. Multiple imputation for missing data in
epidemiological and clinical research: potential and pitfalls. BMJ. 2009;338:b2393. Published
2009 Jun 29. doi:10.1136/bmj.b2393
20. Hayat MJ, Powell A, Johnson T, Cadwell BL. Statistical methods used in the public health
literature and implications for training of public health professionals. PLoS One.
2017;12(6):e0179032. Published 2017 Jun 7. doi:10.1371/journal.pone.0179032
21. Kang H. The prevention and handling of the missing data. Korean J Anesthesiol.
2013;64(5):402-406. doi:10.4097/kjae.2013.64.5.402 47
22. White, I. R., & Carlin, J. B. (2010). Bias and efficiency of multiple imputation compared
with complete-case analysis for missing covariate values. Statistics in Medicine, 29(28),
2920–2931. doi:10.1002/sim.3944
23. Carpenter JR, Kenward MG, White IR. Sensitivity analysis after multiple imputation
under missing at random: a weighting approach.Statistical Methods in Medical
Research2007;16(3):259--275.
24. Karahalios, A., Baglietto, L., Carlin, J. B., English, D. R., & Simpson, J. A. (2012). A
review of the reporting and handling of missing data in cohort studies with repeated
assessment of exposure measures. BMC medical research methodology, 12(1), 1-10
25. Akl, E. A., Carrasco-Labra, A., Brignardello-Petersen, R., Neumann, I., Johnston, B. C.,
Sun, X., ... & Alonso-Coello, P. (2015). Reporting, handling and assessing the risk of bias
associated with missing participant data in systematic reviews: a methodological survey. BMJ
open, 5(9), e009368.
26. Hussain, J. A., Bland, M., Langan, D., Johnson, M. J., Currow, D. C., & White, I. R.
(2017). Quality of missing data reporting and handling in palliative care trials demonstrates
that further development of the CONSORT statement is required: a systematic review. Journal
of clinical epidemiology, 88, 81-91.
42
27. 2016 Journal Impact Factor. Sci Ed.
28. How to handle missing data, towards data science, A.Swalin, Jan 31,2018
29. Budhiraja P, Kaplan B, Mustafa RA. Handling of Missing Data. Transplantation. 2020
Jan;104(1):24-26. doi: 10.1097/TP.0000000000002865. PMID: 31365474.
30. Griswold ME, Talluri R, Zhu X, Su D, Tingle J, Gottesman RF, Deal J, Rawlings AM,
Mosley TH, Windham BG, Bandeen-Roche K. Reflection on modern methods:
sharedparameter models for longitudinal studies with missing data. Int J Epidemiol. 2021 Aug
30;50(4):1384-1393. doi: 10.1093/ije/dyab086. PMID: 34113988; PMCID: PMC8407871.
31. Enders CK. The Performance of the Full Information Maximum Likelihood Estimator in
Multiple Regression Models with Missing Data. Educ Psychol Meas. 2001 Oct;61(5):713–40.
48
32. Lee KJ, Tilling KM, Cornish RP, et al. Framework for the treatment and reporting of
missing data in observational studies: The Treatment And Reporting of Missing data in
Observational Studies framework. J Clin Epidemiol. 2021;134:79-88.
doi:10.1016/j.jclinepi.2021.01.008
33. Madley-Dowd P, Hughes R, Tilling K, Heron J. The proportion of missing data should not
be used to guide decisions on multiple imputation. J Clin Epidemiol. 2019;110:63-73.
doi:10.1016/j.jclinepi.2019.02.016
34. Hughes R.A., Heron J., Sterne J.A.C., Tilling K. Accounting for missing data in statistical
analyses: multiple imputation is not always the answer. Int J Epidemiol. 2019:dyz032
35. Hayati Rezvan P, Lee KJ, Simpson JA. The rise of multiple imputation: a review of the
reporting and implementation of the method in medical research. BMC Med Res Methodol.
2015;15:30. Published 2015 Apr 7. doi:10.1186/s12874-015-0022-1
36. Mackinnon A. The use and reporting of multiple imputation in medical research - a
review. J Intern Med. 2010;268(6):586–93. doi: 10.1111/j.1365-2796.2010.02274.x.
37. Ware JH, Harrington D, Hunter DJ, D’Agostino RB. Missing Data. N Engl J Med.
2012;367(14):1353–4. doi: 10.1056/NEJMsm1210043
38. Fielding S, Ogbuagu A, Sivasubramaniam S, MacLennan G, Ramsay CR. Reporting and
dealing with missing quality of life data in RCTs: has the picture changed in the last decade?.
Qual Life Res. 2016;25(12):2977-2983. doi:10.1007/s11136-016-1411-6
39. Burton A, Altman DG. Missing covariate data within cancer prognostic studies: a review
of current reporting and proposed guidelines. Br J Cancer. 2004 Jul 5;91(1):4-8. doi:
10.1038/sj.bjc.6601907. PMID: 15188004; PMCID: PMC2364743.
43
Résumé
Introduction
Les études observationnelles comportent un nombre très variable de données
manquantes, impactant la qualité des analyses. Parmi les nombreuses méthodes de gestion des
données manquantes, aucune ne fait référence. L’indication de la proportion de données
manquantes ainsi que leur mode de gestion sont importants. Cette étude a donc pour objectif
d’évaluer les pratiques et la manière de rapporter les informations relatives aux données
manquantes dans les études publiées récemment et dans des journaux à haut facteur d’impact.
Méthode
Les articles originaux publiés dans les ‘big five’ entre 2018 et 2019 comprenant des
études observationnelles avec des modèles statistiques multivariés ont été sélectionnés. Les
informations relatives aux données manquantes ainsi qu’à la méthode de gestion de celles-ci,
en se basant sur les critères du STROBE ainsi que la recommandation proposée par Sterne et
al. ont été recueillies à partir du corps et appendices des articles.
Résultats
La majorité des articles (79,6%) mentionnent la présence ou absence de données
manquantes. En cas de présence de données manquantes, la méthode de gestion est précisée
dans 91,5% des cas. La méthode la plus employée (49,2%) est la méthode de délétion
(analyse en cas complet). Lors de l’utilisation de méthodes d’imputation multiples, les détails
relatifs à la modélisation de l’imputation ne sont retrouvés que dans 5,6% des cas.
Conclusion
La plupart des études observationnelles mentionnent la présence ou non de données
manquantes. Cependant, la précision de la proportion de données manquantes et les détails
relatifs à leur gestion nécessitent d’être améliorés. Le suivi systématique des guides de bonnes
pratiques permettrait ces améliorations.
44