2003 Dpguide FR
2003 Dpguide FR
Les publications du Bureau international du Travail jouissent de la protection du droit d’auteur en vertu du protocole no 2, annexe
à la Convention universelle pour la protection du droit d’auteur. Toutefois, de courts passages pourront être reproduits sans auto-
risation, à la condition que leur source soit dûment mentionnée. Toute demande d’autorisation de reproduction ou de traduction
devra être adressée au Bureau des publications (Droits et licences), Bureau international du Travail, CH-1211 Genève 22, Suisse.
Ces demandes seront toujours les bienvenues.
ISBN 92-2-213629-2
Les désignations utilisées dans les publications du BIT, qui sont conformes à la pratique des Nations Unies, et la présentation des
données qui y figurent n’impliquent de la part du Bureau international du Travail aucune prise de position quant au statut juridique
de tel ou tel pays, zone ou territoire, ou de ses autorités, ni quant au trace de ses frontières.
Les articles, études et autres textes signés n’ engagent que leurs auteurs et leur publication ne signifie pas que le Bureau interna-
tional du Travail souscrit aux opinions qui y sont exprimées.
La mention ou la non-mention de telle ou telle entreprise ou de tel ou tel produit ou procédé commercial n’implique de la part du
Bureau international du Travail aucune appréciation favorable ou défavorable.
Les publications du Bureau international du Travail peuvent être obtenues dans les principales librairies ou auprès des bureaux
locaux du BIT. On peut aussi se les procurer directement a l’adresse suivante: Publications du BIT, Bureau international du Travail,
CH-1211 Genève 22, Suisse. Des catalogues et listes des nouvelles publications peuvent être obtenus gratuitement a la même
adresse.
La production des résultats d’enquête dans une forme présentable est souvent retardée
pour différentes raisons. L’une des raisons les plus importantes est que les questions relati-
ves au traitement des données ne sont abordées ni de manière adéquate ni suffisamment tôt.
Tout en mettant l’accent sur l’importance d’un traitement des données sérieux et bien docu-
menté, ce guide fournit des lignes directrices détaillées à l’attention des planificateurs d’en-
quêtes, des personnes chargées de l’exploitation des données et des administrateurs de systè-
mes informatiques au sujet de la planification et des activités concrètes en matière de
traitement des données et de stockage des fichiers créés. Le guide présente aussi les condi-
tions et les procédures liées au transfert des fichiers électroniques au BIT, au terme des enquê-
tes sur le travail des enfants, un processus qui doit contribuer au développement d’un réper-
toire global des données. L’objectif principal est de faciliter la création de micro-données
de grande qualité à partir des enquêtes sur le travail des enfants.
Il est prévu que ce guide soit révisé et reproduit de manière régulière. Pour cela, les
suggestions et commentaires seront toujours les bienvenus. Les utilisateurs pourraient
envoyer directement leurs commentaires à simpoc@[Link]
iii
Table des matières
1. Introduction
1.1 Présentation .............................................................................................................. 1
1.2 Collecte des données sur le terrain: une vue d’ensemble .......................................... 2
1.3 Importance du traitement des données .................................................................... 3
2. Planification
2.1 Introduction .............................................................................................................. 5
2.2 Planification de la politique du traitement des données ............................................ 5
2.3 Définition des aspects pertinents d’un ensemble de données.................................... 5
2.4 Choix du matériel informatique et des logiciels........................................................ 15
2.5 Identification du personnel ........................................................................................ 19
2.6 Calendrier du traitement des données........................................................................ 20
2.7 Stratégie de conservation des données et procédures d’accès .................................. 20
v
Glossaire ...................................................................................................................................... 61
Annexes
Annexe I Comparaison des logiciels de statistique........................................................ 65
Annexe II Noms des pays en Français et éléments de codes .......................................... 67
Annexe III Questionnaire sur le travail des enfants en Zambie en fin de décennie
(module éducation) ........................................................................................ 74
Annexe IV Un modèle de codebook pour des données ASCII créées avec SAS ............ 75
Annexe V Structure de l’ensemble de données .............................................................. 85
vi
1. Introduction
1.1 Présentation
Ces informations fourniront au BIT la base d’un répertoire global de données sur le
travail des enfants accessible à différentes personnes dans de nombreux pays et dans divers
environnements informatiques. Les données devront donc être nettoyées, sans incohéren-
ces, bien documentées et facilement accessibles de manière à être utilisées à tout moment
dans les activités de recherche et l’élaboration des décisions. L’ensemble des données reçu
par le BIT devra aussi être complet – englobant notamment des codebooks et des question-
naires – et être prêt à être utilisé de manière simple par tout analyste dans tout environne-
ment informatique.
Les enquêtes sur le travail des enfants comprennent trois étapes. Tout d’abord, les
données sont collectées dans le cadre d’entretiens avec les enfants et d’autres membres de
la famille. La collecte de données est suivie du traitement de données après contrôle des
informations collectées permettant d’y déceler les erreurs éventuelles et de créer les micro-
données et les fichiers de documentation pertinents. Enfin, l’analyse des données est accom-
plie en considérant certaines exigences ou politiques supplémentaires.
Le traitement des données est un processus difficile et complexe, mais dans beaucoup
de cas, il s’agit de l’étape qui reçoit le moins d’attention. Les activités liées au traitement
des données telles que l’élaboration de plans destinés à l’équipement, aux logiciels et à la
formation du personnel peuvent être menées de manière parallèle à celles portant sur la
conception de l’enquête et la collecte de données sur le terrain. Etant donné que toutes les
enquêtes sur le travail des enfants sont soumises à des contraintes strictes en matière de
temps, il est recommandé que les procédures concernant la planification, la formation et les
tests soient achevées avant que la collecte des données sur le terrain ne soit entamée.
L’étape de traitement des données comporte plusieurs stades différents, chacun d’eux
englobant de multiples échelons où des erreurs peuvent survenir. Les enquêtes sur le travail
des enfants sont des opérations plus limitées que les recensements, mais vu que la plupart
d’entre elles sont des enquêtes effectuées pour la première fois et qu’elles recueillent beau-
coup plus d’informations que d’autres enquêtes générales sur les ménages, elles ont tendance
à être plus complexes. Alors que les activités globales de traitement des données sont à beau-
coup d’égards similaires à celles d’autres enquêtes générales (de type enquêtes auprès des
ménages), les enquêtes sur le travail des enfants exigent parfois plus de temps et de ressour-
ces en raison de la taille plus importante de leurs échantillons et de leurs questionnaires.
1
l’achèvement d’une enquête sur le travail des enfants, la création de fichiers, y compris un
ensemble de données bien documenté accessible au public. L’un des objectifs principaux de
ce guide est d’aider les personnes chargées du traitement des données au niveau national à
produire des ensembles de données propres et fiables ainsi que la documentation nécessaire
que les analystes secondaires pourront utiliser, au terme des enquêtes, en vue de la produc-
tion de données globales fiables. Le chapitre 4 fournit des informations sur la manière de
conserver les ensembles de données, permettant ainsi un accès aisé continu sur une période
indéterminée.
Les questions sur l’élaboration des enquêtes, l’analyse des données et la diffusion des
données ne sont pas du ressort du présent guide.
Les informations présentées dans les chapitres suivants devraient être considérées
comme de simples lignes directrices- les procédures exposées ici peuvent bien entendu être
adaptées en fonction des ressources et de l’expérience nationale disponibles.
Le présent guide, dans son ensemble, est destiné aux planificateurs et aux experts qui
contrôlent les activités de traitement des données. Le chapitre 3, cependant, est destiné de
manière spécifique aux personnes qui s’occupent effectivement du traitement des données,
alors que le chapitre 4 est adressé aux administrateurs de système informatique responsa-
bles du stockage des données des enquêtes sur le travail des enfants. Ce guide fournit égale-
ment une vue d’ensemble des activités de traitement des données qui peuvent être menées
au cours de l’étape d’élaboration de l’enquête.
PAPI. Se basant sur les entretiens avec papier et crayon, les enquêteurs remplissent le
questionnaire sur le papier en enregistrant les données au crayon. Les opérateurs de
saisie font la saisie des données sur ordinateur ou les convertissent dans une forme
lisible par ordinateur par l’intermédiaire d’une technique de numérisation doublée d’une
technologie de reconnaissance des caractères. Quelle que soit la méthode choisie lors
de la saisie des données, les informations devront être contrôlées. Différents moyens
sont utilisés pour s’assurer que les données sont convenablement saisies. Des détails
supplémentaires à ce sujet seront fournis dans les prochains chapitres.
CAPI. Pour des interviews assistées par ordinateurs, les enquêteurs sont munis de dispo-
sitifs électroniques portatifs (par exemple, des ordinateurs de poche et des ordinateurs
portables) permettant l’enregistrement numérique direct des données. Cette méthode
offre des avantages par rapport à PAPI en ce sens que les erreurs majeures se produi-
sent seulement au moment de la saisie des données. Ce qui peut être contrôlé immé-
diatement après la collecte des données. Les données sont alors transférées aux ordi-
nateurs, sans qu’il soit nécessaire de perdre davantage de temps pour la saisie
supplémentaire, et le nettoyage des données peut commencer immédiatement.
Le présent guide traite de PAPI qui est la méthode de collecte des données appliquée
dans la plupart des enquêtes sur le travail des enfants.
2
1.3 Importance du traitement des données
De par sa nature, le travail des enfants reste une question obscure à beaucoup d’égards;
et les enquêtes recherchent des données quantitatives fiables au sujet des différents problè-
mes qui s’y rattachent. Les enquêtes nationales exigent d’importantes sommes d’argent et
d’énormes efforts d’organisation de la part des ministères, des bureaux nationaux de statis-
tiques ainsi que d’autres organismes. Les données qui en résultent sont alors fournies aux
décideurs, aux chercheurs, aux spécialistes chargés de l’élaboration des estimations globa-
les et aux responsables des campagnes de publication des effets défavorables du travail des
enfants. Toutes ces personnes ont besoin de données facilement accessibles et fiables sur les
différents aspects du travail des enfants.
Des erreurs liées ou non à l’échantillonnage apparaissent dans les données d’enquête.
Les erreurs d’échantillonnage surviennent durant la phase d’élaboration des échantillons et
ne sont pas traitées dans ce guide. Les erreurs n’ayant pas trait à l’échantillonnage peuvent
émaner des personnes interrogées, des enquêteurs, du personnel de saisie des données ou
des programmeurs. L’un des objectifs principaux du traitement des données est de décou-
vrir ces erreurs et de les éliminer dans les meilleurs délais. Lorsque des erreurs irréparables
sont découvertes, elles devraient être balisées avec les explications nécessaires. Les erreurs
non identifiées et non balisées peuvent fausser l’interprétation des données et, en définitive,
provoquer l’adoption de politiques inappropriées.
L’une des clés d’un traitement réussi des données réside dans une planification minu-
tieuse. Les différentes activités qui y sont rattachées doivent être détaillées le plus tôt possi-
ble, et devraient inclure des plans de rechange.
Le traitement des données est très important pour le résultat d’une enquête, et le
nettoyage et la vérification des données sont essentiels.
3
2. Planification
2.1 Introduction
La préparation des données de grande qualité exige une planification adéquate, et néces-
site deux éléments essentiels:
• la méthode statistique. Il est conseillé de recourir à de bons outils pour la collecte
des données ainsi qu’à une méthodologie développée en matière d’enquête.
• le traitement et le stockage de l’ensemble de données. Un second élément essentiel
exige une utilisation avisée des outils de traitement des données en place, une métho-
dologie du traitement et, si possible, un matériel informatique et des logiciels à jour.
Dans la plupart des cas, les enquêtes sur le travail des enfants sont menées soit en tant
que processus indépendants, soit comme opérations rattachées en tant que module à une
enquête nationale auprès des ménages. Dans les enquêtes indépendantes, les enfants et leurs
parents sont d’habitude interrogés. Sur la base des investigations initiales, ce manuel suppose
que toutes les enquêtes sur le travail des enfants ont recours à des entretiens sur la base de
papier et de crayon (PAPI) en vue de la collecte de données. La planification de l’enquête
et le nettoyage des données sont discutés à la lumière de cette hypothèse.
A la fin des interviews, les données collectées sont saisies à l’aide d’un ordinateur. La
saisie des données sur le terrain peut avoir lieu sous le contrôle des superviseurs de l’équipe
technique de terrain ou au siège de l’enquête, qui est normalement le bureau national de
statistique. Si les données sont saisies sur le terrain, un fichier au moins sera créé pour chaque
emplacement sur le terrain. Etant donné que c’est le même questionnaire d’enquête qui est
utilisé, tous les fichiers créés sur différents emplacements sur le terrain seront identiques
quant au nombre de variables. Peu importe la manière dont les données sont saisies, les diffé-
rents fichiers sont soit ajoutés avant leur nettoyage, soit corrigés et ensuite ajoutés. Ces acti-
vités sont normalement effectuées au siège central de l’enquête.
Lorsqu’une enquête est effectuée sous forme de module rattaché à toute autre enquête
auprès des ménages (par exemple, un module sur la santé et l’éducation des membres du
ménage), les données sur le travail des enfants peuvent être collectées en même temps que
d’autres modules (tout comme pour les enquêtes indépendantes) ou en tant que module
complet sans les informations sur le ménage (qui sont collectées en tant que partie d’un autre
module). Les données peuvent également être collectées à différentes périodes (par exemple,
s’il est rattaché à une enquête trimestrielle sur la main-d’oeuvre, l’échantillon total sera
couvert sur une période d’une année). Dans de tels cas, les informations sur le ménage
doivent être tirées des autres fichiers de données et ensuite rattachées aux données sur le
travail des enfants. Ces cas entraînent à la fois l’ajout et la fusion de données. (L’ajout et la
fusion sont décrits plus loin de manière plus détaillée dans ce guide.) Une fois achevée la
préparation du fichier de données, un nettoyage des données est nécessaire (un nettoyage
partiel peut également avoir lieu dans chaque fichier de module).
Il faudrait noter que le travail des enfants est difficile à définir à moins que toutes les
informations pertinentes sur les enfants ne soient examinées à fond – comprendre les causes
et les conséquences du travail des enfants exige une analyse des informations sur le ménage
et des autres membres de la famille.
Un autre scénario 1 peut se présenter lorsque l’enquête est menée par étapes, avec une
série de questionnaires se référant à différentes entités ou différant de par leurs couvertures
1
Un exemple de ceci serait le rapport national supervisé par SIMPOC sur l’enquête des acti-
vités des jeunes en Afrique du Sud en 1999, http//[Link]/childlabour/simpoc/southafrica/
report/[Link].
5
respectives. Dans cette situation, les données devraient être présentées dans des fichiers
séparés, sans fusion ni ajout de cas.
Toutes les situations décrites précédemment nous font prendre conscience du fait qu’une
planification minutieuse est nécessaire avant de procéder au traitement des informations
collectées et de les rendre prêtes à l’analyse. Toutes les questions relatives à la planification
peuvent être abordées pendant que l’élaboration de l’enquête est en cours. Si les contrain-
tes financières et temporelles ne posent pas problème, toutes les activités de traitement des
données devraient être testées au cours de l’enquête pilote. (Si la méthode de collecte des
données CAPI est utilisée, cela est essentiel.). Il faudrait noter qu’une planification minu-
tieuse effectuée au préalable réduit considérablement le temps réel consacré au traitement.
Les sections suivantes traitent des questions de planification qui doivent être prises en
considération avant le traitement effectif des données.
Deux aspects de la planification sont importants pour le traitement des données. D’un
côté, nous devons décider comment le traitement effectif des données doit être accompli, et
cela est traité en détail au chapitre 3. Mais nous devons d’abord nous demander quelles sont
les ressources et les définitions qui sont nécessaires pour un traitement des données effectif
et efficace. Nous pouvons appeler cette étape initiale «planification de la politique».
• l’identification du personnel;
Pour que les analystes puissent utiliser l’ensemble de données de manière efficace, il
faut que les micro-données soient d’abord traitées convenablement. Cela implique un certain
nombre d’étapes. La planification préliminaire est essentielle et inclut l’identification et la
définition de tels aspects de l’ensemble des données conformément à ce qui suit.
6
entre l’ensemble de données original comportant toutes les variables et un ensemble de
données accessible au public (où beaucoup de variables d’identification peuvent avoir été
supprimées pour des raisons de confidentialité) ou lorsque les données se trouvent dans diffé-
rents fichiers, auquel cas une comparaison des informations est nécessaire.
Structure du fichier
Dans les enquêtes sur le travail des enfants, l’unité d’analyse est «l’enfant» ou «la
personne», alors que le milieu est le ménage, étant donné que les informations au sujet de
l’enfant ou de la personne sont collectées en identifiant en premier lieu un logement. Ainsi,
il est important de déterminer comment devraient être les fichiers de données définitifs.
Les données peuvent être organisées dans un fichier de telle sorte que les enregistre-
ments du ménage soient suivis des enregistrements de la personne (avec différents types
d’enregistrements dans un fichier hiérarchisé ASCII). Il peut y avoir également deux fichiers
séparés: l’un pour le logement et l’autre pour les personnes vivant dans ce logement, avec
des variables de liaison bien définies communes aux deux fichiers dans le format spécifique
au logiciel. De même, il peut y avoir un fichier unique fusionné avec de longs enregistre-
ments. Les valeurs des nombreuses variables seront répétées pour les membres d’un seul
logement dans de tels fichiers, occupant ainsi plus d’espace de stockage. Chaque système a
ses avantages et ses inconvénients, et toute décision de planification doit examiner la ques-
tion de savoir combien de fichiers de données doivent être inclus dans l’ensemble de données
et quelle devrait être la structure de chacun d’eux.
Attendu la manière dont chaque logiciel manipule dans une certaine mesure les fichiers
de données, le fait de traiter de grands fichiers de données dans un environnement Windows
peut représenter un problème. Un fichier de données d’enquête sur le travail des enfants
7
pourrait devenir large lorsqu’il est associé à une enquête de main-d’oeuvre. Dans ce cas, il
peut y avoir le besoin de le subdiviser avant toute analyse.
Aussitôt qu’un fichier est créé, il doit porter un nom, et il est important de décider à
l’avance comment tous les fichiers doivent être nommés. Cela signifie tout au moins l’adop-
tion d’une convention sur l’affectation des noms.
Il est toujours recommandé que les noms reflètent le contenu des fichiers. Le numéro
de version du fichier peut également y être inclus. (Dans le chapitre trois, nous verrons
comment différentes versions peuvent être créées.). Pour les enquêtes sur le travail des
enfants, en particulier, il est recommandé que les informations suivantes soient incluses dans
le nom des fichiers:
• Le numéro de la version;
• Le pays concerné; et
Une telle convention type sur l’affectation des noms aide considérablement les utilisa-
teurs à choisir le fichier correct à partir de l’ensemble de données. En général, cela facilite
le traitement du contenu, souvent beaucoup plus tard, des systèmes de stockage à l’aide des
ordinateurs qui peuvent contenir des milliers de fichiers. D’autres informations, telles que
l’année ou le cycle de l’enquête, peuvent également être incluses dans le nom du fichier.
Cependant, il y a généralement des restrictions quant au nombre de caractères utilisés pour
l’affectation d’un nom à un fichier, avec la plupart des systèmes informatiques autorisant
des structures de 8.3 – c’est-à-dire huit caractères pour le nom exact du fichier et trois carac-
tères pour l’extension du fichier (par exemple, MY_FILE.DOC). L’extension est générale-
ment prévue dans le logiciel qui a été utilisé pour créér le fichier. (MSWord, par exemple,
utilisera DOC comme extension). En d’autres termes, huit caractères seulement peuvent être
manipulés pour exprimer le plus d’informations possibles à propos de la nature du fichier.
Du fait de ces restrictions, la convention suivante d’affectation des noms est recommandée.
Tous les noms de fichiers devraient commencer par un code de pays (l’Annexe II
énumère les codes de deux caractères) suivi des abréviations C pour enfant, P pour parent
ou F pour famille (les parents et les enfants) et H pour logement. Le numéro de la version
vient après et, vu que plus de neuf versions peuvent facilement être élaborées avec le temps,
deux caractères devraient être utilisés. G indique que le fichier est d’usage général et R qu’il
est d’usage restreint. Finalement, le huitième caractère – D, Q, ou C, représentant respecti-
vement les données, le questionnaire ou le codebook – indique le contenu du fichier. Si un
champ dans le nom du fichier n’est pas applicable, un tiret devrait le remplacer (_), simpli-
fiant ainsi les manipulations au cours du traitement informatique. En résumé, lorsque l’af-
fectation d’un nom à un fichier se fait selon une structure de 8.3, il est recommandé d’utili-
ser la convention suivante.
8
Les premiers huit caractères
• FH – un fichier unique contenant des informations aussi bien sur l’enfant, le parent
et le logement (habitations)
Note: un tiret (_) est utilisé pour remplir l’espace vierge laissé par le quatrième
caractère
Les trois derniers caractères, après le point, indique le type de fichier (propriétaire
ou autre).
BDC_01RD.DOC/SAV/POR
Un fichier contenant des données sur les enfants au Bangladesh, et qui représente la
version originale, pourrait être nommé BDC_01RD, où BD désigne Bangladesh;
C représente enfant; _ indique qu’il n’y a pas d’informations concernant le logement
(ou l’habitation); 01 signale que ce fichier représente une première version; R montre
que ce fichier est d’usage restreint; et D signifie donnée. Le fichier de données
correspondant accessible au public dérivé du fichier susvisé pourrait s’appeler
9
BDC_01GD. Les questionnaires associés pourraient être nommés BDC_01GQ. (Vu
que les questionnaires sont destinés à l’usage général, ils devraient toujours inclure le
code «G»). L’extension pourrait indiquer s’il s’agit d’un fichier de données ou d’une
documentation spécifique au logiciel. Par exemple, un fichier de données SPSS a une
extension SAV ou POR, alors que la documentation dans le MSWord prend une exten-
sion DOC.
UAFHO4RD. [xxx]
De façon similaire, un fichier contenant des données sur les parents, les enfants et leur
logement en Ukraine, et qui représente la quatrième version, peut être nommé
UAFHO4RD. La version accessible au public pourrait alors être désignée par
UAFHO4GD. Les questionnaires associés sont appelés UAFHO4GQ, alors qu’un
fichier de description de variables est nommé UAFHO4GV. Un fichier sommaire de
classification des emplois serait nommé UAFHO4GS. Tous les noms de fichiers inclu-
raient des extensions appropriées de trois caractères.
[Link]
Un fichier de données ASCII qui contient des données sur les parents, les enfants et les
ménages au Panama, et qui représente la seconde version, peut être nommé
[Link], et la version accessible au public serait [Link]. Le fichier du
codebook associé devrait être désigné par PAFHO2GC avec une extension TXT ou
DOC, selon le type du fichier.
Une fois l’enquête achevée, un ensemble de variables est créé à partir du questionnaire
(variables primaires). A une étape ultérieure, des variables dérivées peuvent être générées
en manipulant les variables primaires. A moins de suivre les conventions, l’affectation d’un
nom à ces variables peut paraître difficile. Voici quelques règles générales à suivre:
• Les noms des variables devraient traduire le sens du contenu des données qu’elles
représentent. Tout analyste potentiel devrait être sûr que le nom de la même varia-
ble s’applique à la même donnée. Par exemple, si deux questions sont utilisées pour
déterminer la situation professionnelle de la personne interrogée – par exemple, en
se renseignant au sujet du travail actuel et du travail habituel- les variables repré-
sentant ces questions ne devraient jamais être nommées «travail 1» et «travail 2»,
car on ne saurait plus alors à quelle question se réfère chaque variable.
• En principe, les questionnaires devraient être élaborés de telle sorte que chaque ques-
tion soit accompagnée d’un nom de variable désigné à l’avance. Par exemple: «Quel
âge avez-vous?» devrait être annoté du nom de la variable AGE. Ce type de ques-
tionnaire est souvent désigné comme étant un questionnaire annoté.
• Comme pour les fichiers, l’affectation d’un nom aux variables dépend souvent des
logiciels de statistique qui limitent le nombre de caractères de code à huit ou même
moins (par exemple SPSS) 2. L’environnement informatique qui prévaut dans un pays
déterminé influencera aussi les conventions d’affectation de noms.
2
Voir annexe I pour le nombre maximum de caractères autorisés pour l’affectation d’un nom
à une variable dans certains logiciels de statistique.
10
• Chaque réponse à une question à choix multiple devrait aussi se voir attribuer un
nom de variable. Par exemple: si la question numéro 9 possède 2 réponses à choix
multiple, les variables peuvent alors être nommées Q9A et Q9B.
Plusieurs méthodes différentes peuvent être appliquées à l’affectation d’un nom aux
variables 3.
Numéros croissants. Dans cette approche, les variables sont numérotées de façon
séquentielle. Ainsi, s’il y a 100 variables dans un fichier de données, elles peuvent être
numérotées de 1 à 100. Cependant, de nombreux logiciels statistique ne permettent pas
de choisir un chiffre comme premier caractère du nom d’une variable (par exemple avec
SPSS); auquel cas une lettre peut être ajoutée comme premier caractère du nom (par
exemple, en utilisant SPSS, les noms de variable seront automatiquement désignés soit
par V1....V100, soit par Var0001 ... V00100). Par la suite, les noms de variable peuvent
être changés manuellement. Toutefois, l’inconvénient de cette méthode est qu’il est
souvent impossible de comprendre le sens de la variable avec les questions correspon-
dantes sans les étiquettes supplémentaires. Dans ce sens, si l’on attribue manuellement
les noms aux variables, il peut se produire facilement des erreurs.
Les noms mnémoniques. Dans cette méthode, les variables sont nommées avec des
mots représentant le concept de la variable. Toutefois, le même mot peut donner lieu à
différentes significations selon les utilisateurs. Aussi, la limite de huit caractères pour
chaque nom de variable est susceptible d’imposer des restrictions strictes à la trans-
mission du sens réel. Il est également difficile d’attribuer manuellement le même mot
à diverses variables traduisant le même type de signification.
Systèmes des préfixes, des racines et des suffixes. Une alternative possible à la
méthode précédente de construction des noms de variable est d’utiliser des mots abrégés
prédéfinis et de les joindre comme des préfixes, des racines et des suffixes. Ainsi, pour
toutes les variables liées aux enfants, on pourra employer CH comme préfixe; WW et
WY en qualité de racine pour décrire respectivement le travail de la semaine dernière
et le travail de l’année dernière; et GRP en termes de suffixe pour les cas de groupe.
Variables dérivées. Comme mentionné plus haut, des variables dérivées sont créées à
partir des variables primaires ou en combinant plusieurs variables primaires. Par
exemple, l’âge peut être une variable primaire, mais les analystes peuvent avoir besoin
d’informations portant sur les enfants appartenant au groupe d’âge 5 – 9 ans. Les infor-
mations concernant l’âge de chaque enfant sont alors regroupées pour former la varia-
ble dérivée «groupe d’âge». Il est toujours recommandé que les variables primaires et
dérivées soient distinguables. Pour différentes raisons, il est également recommandé
que les ensembles de données accessibles au public ne contiennent pas de grands
nombres de variables dérivées: celles-ci sont coûteuses en terme de temps de traitement
des données; pour être utilisées de manière convenable, elles ont besoin d’explications
3
Ceci suit les approches décrites dans: Le consortium inter universitaire pour la recherche en
sciences politiques et sociales (ICPSR), Guide pour l’élaboration et l’archivage de données de
sciences sociales. Se référer à http//[Link]/access/[Link]
11
adéquates; et les ensembles de données risquent de devenir trop longs et peu mania-
bles. De plus, les analystes de données peuvent ne pas avoir l’occasion d’utiliser plus
tard ces variables dérivées, et préfèrent adapter les variables dérivées à leurs propres
exigences.
Les différents pays sont bien sûr libres de choisir la convention d’affectation des noms
appropriée à leurs variables. Cependant, dans le but d’établir une cohérence au niveau inter-
national par rapport aux données sur le travail des enfants, les règles suivantes sont recom-
mandées:
• utiliser la méthode du numéro de question dans l’affection d’un nom aux variables,
avec le caractère représentant la section comme premier caractère dans le nom de la
variable;
• utiliser la méthode du préfixe dans l’affectation d’un nom aux variables dérivées;
• utiliser les lettres majuscules pour les variables primaires dans la mesure du possible;
• utiliser les lettres minuscules pour les variables dérivées; et
• le coefficient de pondération devrait être nommé selon les règles appliquées aux
variables primaires, mais devrait en même temps être distinguable d’une variable
primaire.
Il est plus difficile de comprendre un ensemble de données si les attributs associés aux
variables – par exemple le libellé de la question posée – ne sont pas convenablement décrits
dans cet ensemble de données. Les personnes qui veulent accomplir des analyses secondai-
res des enquêtes sur le travail des enfants préfèrent que toutes les informations soient conte-
nues dans l’ensemble de données. Une méthode de codification consiste à fournir une
étiquette adéquate à chaque variable.
Etant donné que de nos jours la plupart des logiciels de traitement de données (par
exemple SPSS) fournissent la possibilité d’ajouter des étiquettes, cette option devrait être
utilisée dans la description de chacune des variables. Si l’on retrouve des étiquettes inadap-
tées, le libellé de la question avec le numéro approprié pourrait faire office d’étiquette. Dans
le cas où il s’agit d’une variable dérivée, une étiquette peut être ajoutée pour montrer la ou
les variables utilisées en vue de la créer et si possible indiquer la raison sous-jacente à la
construction d’une telle variable.
Codage
Un logiciel de statistique est utilisé pour analyser les informations recueillies grâce à
la collecte de données sur le terrain. Ainsi, les informations ont besoin d’être transformées
en données que le logiciel peut manipuler. A cette fin, chaque réponse est codée, et le proces-
sus selon lequel chaque sujet est représenté par un symbole est connu sous le nom de codage.
Le codage devrait être entrepris durant le processus d’élaboration de l’enquête et il est impor-
tant que les personnes chargées du traitement des données soient eux-mêmes associés à cette
opération.
12
Les enquêtes sur le travail des enfants devraient être préalablement codées avant la
saisie des données. Toutes les valeurs possibles, notamment les valeurs telles que «non dispo-
nible», «non applicable», «a refusé de répondre» – devraient être incluses dans le question-
naire, et les enquêteurs devraient recevoir une formation adéquate. Ces mesures réduiront
de manière importante le temps nécessaire au personnel chargé de la saisie et du traitement
des données pour procéder au codage. Quelques lignes directrices ci-dessous sont tirées du
«Guide ICPSR pour la préparation et le stockage des données des sciences sociales» 4 et de
«L’analyse des enquêtes basées sur le dialogue en public» 5.
• Spécifier toutes les valeurs manquantes possibles (telles que «non réponse» ou «non
applicable»). Accorder la même valeur (99, par exemple) à chaque type (par exemple
«non applicable») dans le même ensemble de données. L’un des facteurs suivants
est généralement responsable des valeurs manquantes dans les données d’enquêtes
sur le travail des enfants, et un code différent devrait être accordé à chaque cas.
4
ibid.
5
Dialogue en public: Analyse des enquêtes. Se référer à [Link]
org/[Link]
13
Il est souvent difficile de coder des sujets tels que les emplois et les professions. Quand
des codes sont établis, certaines classifications (emplois par exemple) peuvent manquer,
rendant encore plus difficile le travail des enquêteurs et des personnes chargées du traite-
ment des données. Pour cela, les pays sont encouragés à consulter les documents suivants
de l’OIT:
Cette liste, qui n’est pas exhaustive, peut être accessible sur la page Web du Bureau de
Statistique 10. Les classifications sur le travail des enfants, les catégories concernées variant
d’un pays à un autre, ne sont pas encore définitives, et des systèmes additionnels de codage
peuvent encore avoir besoin d’être développés.
Il est important d’élaborer autant de règles de contrôle logique que possible en exami-
nant à fond le questionnaire. Cela exige une compréhension détaillée du questionnaire et de
son déroulement, et aidera beaucoup les programmeurs au cours des étapes ultérieures. Tout
d’abord, des règles de contrôle de cohérence doivent être créées en étudiant le parcours de
chaque question (par exemple, si la réponse à la question 20 est «oui», ignorer les questions
21 et 22). Voici quelques échantillons de réponses du questionnaire qui justifient d’autres
règles de contrôle de cohérence:
• Un enfant âgé de moins de six ans est signalé comme ayant achevé l’école secon-
daire.
• Un enfant est signalé comme ne travaillant pas mais ramenant pourtant de l’argent
au ménage.
• Un enfant ne travaillant pas, mais signalé comme victime d’un accident du travail.
Un autre type de règle de contrôle logique doit être élaboré lorsque les données possè-
dent une valeur dans les normes mais ne semblent néanmoins pas justes. Par exemple, un
parent est signalé comme ayant 11 enfants. Cela peut être vrai, mais ne semble pas juste, et
peut bien constituer une erreur typographique. La valeur correcte peut être plutôt 1 enfant.
La règle correspondante pourrait être: «Marquer les cas où les parents déclarent avoir plus
de 10 enfants». Ces cas marqués ont alors besoin d’être contrôlés manuellement.
Imputations
6
Se référer à [Link]
7
Se référer à [Link]
8
Se référer à [Link]
9
Se référer à [Link]
10
Des détails peuvent être obtenus à partir de [Link]
14
personne peut être imputé en créant une formule comprenant l’âge, le type de travail, le taux
de salaire et le nombre de jours de travail effectué dans une région géographique détermi-
née. De telles formules devraient être élaborées autant que possible grâce à l’examen du
questionnaire.
Il doit être décidé comment les variables imputées doivent être incorporées dans l’en-
semble de données et, lorsque c’est nécessaire, des programmes informatiques adéquats
peuvent être élaborés et testés. Plus simplement, une variable complètement nouvelle peut
être créée, une variable qui inclut les valeurs imputées pour les codes manquants ou lorsque
les codes manquants sont remplacés par les valeurs imputées en même temps qu’une varia-
ble marquée de la valeur de 1 pour « imputée » et de 0 pour « non imputée ».
Coefficients de pondération
Les enquêtes sur le travail des enfants étant des enquêtes basées sur l’échantillonnage,
des coefficients de pondération doivent être calculés en vue de produire des estimations
nationales. En choisissant une procédure d’échantillonnage, nous devrions demander si les
erreurs courantes dues à l’échantillonnage aléatoire simple sont appropriées ou si des métho-
des plus complexes ne sont pas nécessaires. Si des coefficients de pondération sont requis,
ils devraient être décrits. Une indication claire du taux de réponse devrait être fournie dans
la documentation, indiquant la proportion de la population retenue dans l’échantillon qui a
effectivement participé à l’enquête. Le taux d’abstention, s’il est applicable, devrait aussi
être noté. Les coefficients de pondération sont généralement élaborés par des spécialistes,
et il est primordial qu’une formule de pondération comportant la description de tous ses
éléments soit obtenue bien avant le début du traitement des données.
Documentation
Le choix des ressources pour une enquête sur le travail des enfants dépend largement
du matériel informatique, des logiciels et du personnel du bureau national de statistique
disponibles. Du fait de ces exigences, les aspects suivants doivent être pris en considération
au moment de choisir le matériel informatique et les logiciels destinés au traitement des
données:
• les ordinateurs et les imprimantes
• la saisie et le nettoyage des données
• le traitement statistique et les tabulations
• les documentations et autres tabulations
• les outils de logiciels utilitaires
• les outils d’automatisation (pour accomplir des tâches répétitives)
• les utilitaires destinés à transférer les fichiers entre différents ordinateurs
• les logiciels anti-virus
15
• les accessoires du matériel informatique
• câbles, disques, CD, UPS, etc.
Ordinateurs et imprimantes
Compte tenu du fait que les données seront saisies en temps différé (par lots) et proba-
blement de façon parallèle, un ordinateur est nécessaire pour chaque opérateur chargé de la
saisie des données. Cependant, plusieurs opérateurs chargés de la saisie des données peuvent
partager le même ordinateur à des heures différentes. Des imprimantes capables d’imprimer
le format «Paysage» sont également nécessaires. Si des imprimantes matricielles sont utili-
sées, elles devraient avoir une capacité de 120 caractères par lignes.
Un ordinateur Pentium comportant un disque dur de 1 Go est plus que suffisant pour
le traitement des données et le stockage provisoire des données d’enquête sur le travail des
enfants. Un ordinateur permanent est aussi nécessaire lorsque l’ensemble de données final
sera archivé. Il est fortement recommandé que l’ordinateur utilisé pour le stockage perma-
nent des données ne soit pas le même que celui utilisé pour le travail quotidien, même si cet
ordinateur est un ordinateur central que se partagent différentes sections des bureaux de
statistique nationaux pour stocker leurs données sur une base permanente.
L’élaboration des logiciels personnalisés destinés au contrôle des erreurs liées à la saisie
des données nécessite parfois un nombre important d’heures de travail. Une meilleure solu-
tion serait d’utiliser un logiciel de saisie automatique des données. La plupart de ces logi-
ciels disposent d’une certaine forme d’équipement de contrôle automatique. Au cours des
années, plusieurs organisations ont élaboré des logiciels de saisie des données, et de nomb-
reux de bureaux nationaux de statistiques utilisent un ou tous les programmes suivants pour
la saisie et les validations initiales de données (cette liste n’est pas exhaustive):
Blaise. 11 Un système flexible et relativement puissant a été mis au point par les Statis-
tiques des Pays-Bas pour les entretiens assistés par ordinateur, la saisie et la modifica-
tion des données. Blaise est un système de logiciel pour le traitement d’enquêtes sur
micro-ordinateurs. Il simplifie le traitement ultérieur des données collectées. Ce logi-
ciel est utilisé essentiellement dans les pays de l’Union européenne.
ISSA. 13 Integrated Systems for Survey Analysis. Systèmes intégrés pour l’analyse d’en-
quêtes, Issa est produit conjointement par SerPro Ltda de Chili et Macro International
des Etats-Unis. Plusieurs pays en développement utilisent ce logiciel de saisie des
données. Les témoignages suggèrent que ISSA ne possède pas de large base d’utilisa-
tion dans les pays du programme SIMPOC et qu’il fournit un appui limité en matière
de cours de formation et de documentation.
11
Des détails peuvent être obtenus de la Statistique des Pays-Bas [Link]
12
Des détails peuvent être obtenus du Bureau de recensement des Etats Unis
[Link]
13
Des informations supplémentaires sont disponibles à SERPRO [Link]
[Link].
16
EpiInfo. 14 Ce programme de traitement de texte, de gestion de bases de données et de
statistiques pour la santé publique sur les micro-ordinateurs IBM compatibles est
produit par le Centre de Contrôle et de Prévention des maladies aux USA. Un grand
nombre de pays en développement utilisent ce logiciel pour la saisie des données.
CSPro. 15 Le système de traitement des enquêtes et des recensements a aussi été mis au
point par le Bureau américain du Recensement. Incorporant des caractéristiques de
IMPS, ISSA et EpiInfo, CSPro est destiné, en définitive, à remplacer aussi bien IMPS
que ISSA.
Une évaluation détaillée des logiciels présentés ci-dessus n’est pas du domaine du
présent manuel. En général, cependant, la disponibilité des ressources financières, de person-
nel formé et de micro-ordinateurs constitue un certain nombre de considérations importan-
tes pour le choix de tout logiciel dans le cadre d’une enquête sur le travail des enfants.
Là où aucun autre logiciel de saisie des données n’est disponible et où le bureau natio-
nal de statistique manque de personnel formé, CSPro (voir plus haut), le logiciel du domaine
public en provenance du Bureau américain du Recensement, peut être utilisé pour saisir,
mettre en forme des tableaux et «mapper» les données d’enquête. Ce logiciel, ainsi que sa
documentation, est gratuit en ligne, quoiqu’une inscription en ligne puisse être exigée. Le
Bureau américain du recensement peut organiser des programmes de formation payants.
Selon la documentation du logiciel, il est possible de manipuler des données d’enquête sur
le travail des enfants avec ce logiciel. Néanmoins, bien que plusieurs bureaux nationaux de
statistique aient déclaré utiliser des versions de ce logiciel, celles-ci doivent encore être
testées de manière spécifique en matière d’enquêtes sur le travail des enfants et il serait utile
d’engager des dépenses pour bénéficier d’une telle formation.
Une autre possibilité est Blaise (voir ci-dessus), un logiciel de saisie et de manipula-
tion des données d’une grande rapidité, convivial et possédant une fonction de modification
interactive et des capacités de gestion d’enquête. Ce logiciel n’est pas gratuit mais il est
proposé à un prix plus bas pour les pays en développement. Cependant, il possède un certain
nombre de caractéristiques qui rendent son utilisation plus difficile à apprendre pour les non
programmeurs. L’une de ces caractéristiques est l’utilisation de concepts avancés de program-
mation tels que la frappe de données et les paramètres de procédure. Une autre caractéris-
tique est l’absence de formes structurées pour aider à l’élaboration des formulaires de ques-
tionnaires et des variables. Blaise n’est pas très utilisé en dehors de l’Europe. De plus, il
n’existe pas encore dans les pays en développement de support d’utilisateur.
De toute manière, le logiciel devrait être testé au préalable, et les opérateurs de saisie
des données devraient recevoir une formation pour son utilisation et avoir une expérience
en matière d’enquêtes sur le travail des enfants avant de s’occuper de la saisie effective des
données.
Traitement et tabulations
Il est évident qu’en pratique tous les bureaux nationaux de statistique ont accès soit à
SAS, soit à SPSS, soit aux deux logiciels de statistique. Lorsque cela ne peut pas être le cas,
les bureaux nationaux de statistique devraient essayer d’adopter un logiciel de statistique
standard (par exemple, SPSS, SAS ou Stata). Là où ce n’est pas possible, le logiciel de saisie
des données peut aussi être utilisé à des fins de traitement des données d’une enquête sur le
14
Des détails peuvent être obtenus du Centre de contrôle et de Prévention des maladies
[Link]
15
Des détails peuvent être obtenus du Bureau de recensement des Etats Unis [Link]
[Link]/ipc/www/cspro/[Link].
17
travail des enfants. (Par exemple, l’analyse des données peut être accomplie en utilisant
EpiInfo). Voir l’Annexe I pour une comparaison entre SAS, SPSS et les logiciels de statis-
tique de Stata.
Microsoft Office Suite, comprenant Word, Excel et Access est utilisé par beaucoup de
bureaux de statistique et il est approprié pour la création de la documentation adéquate, y
compris la création de questionnaires. Aussi bien MSExcel, un tableur, que Access, un
gestionnaire de bases de données, sont des moyens conviviaux pour l’élaboration de tables.
TPL, un logiciel de création de tables créé par QQQsoftware 16, peut aussi être utilisé. A ce
niveau également, on peut dire que la disponibilité de ressources et la présence d’un person-
nel qualifié devraient être le critère principal dans le choix d’un logiciel particulier.
Logiciels utilitaires
La liste suivante de logiciels utilitaires n’est pas exhaustive car d’autres logiciels utili-
taires peuvent être actuellement utilisés dans différents pays.
Base de données. Les utilisateurs généraux n’ont souvent pas l’habitude des logiciels
de statistique et ils préfèreraient avoir un sous-ensemble de données (ou même la totalité
des données) dans un format de base de données. De nombreux logiciels de statistique
permettent de sauvegarder les données dans un format de base de données et les
programmes de bases de données tels que Microsoft Access sont parfois tout à fait utiles.
Logiciel de compression des fichiers (par exemple WinZip, PKZIP, gzip). Ce logi-
ciel est utilisé pour comprimer les fichiers. Il est parfois possible de réduire de 80 pour
cent ou plus la dimension des fichiers en utilisant ces types de logiciel. La compres-
sion est utile quand un disque dur ne comporte plus d’espace de stockage ou quand il
faut utiliser les disquettes pour transférer des fichiers d’un ordinateur à un autre.
Logiciel de compilation (par exemple Visual Basic, FoxPro, C++). Il s’agit d’un
logiciel de programmation autre que celui incorporé au logiciel de statistique. Les
compilateurs peuvent être utilisés pour mettre au point un environnement convivial pour
la saisie des données ou pour produire des logiciels d’automatisation intérieure person-
nalisés pour l’accomplissement de tâches répétitives.
Logiciels de conversion. Les logiciels utilitaires tels que STAT Transfer et DBMScopy
convertissent les fichiers d’un logiciel spécifique à un autre. SAS proc convert state-
ments peut facilement convertir les fichiers portables SPSS en ensembles de données
SAS.
Logiciels de transfert des fichiers. Il s’agit d’un logiciel qui permet de transférer les
fichiers d’un ordinateur à un autre, qu’ils soient ou non en réseau. Ces services incluent
une connexion directe de câble, qui est comprise dans le système d’exploitation
Windows, ou LL3 pour les transferts non basés sur Windows. Les programmes FTP
sont aussi utiles pour transférer les fichiers entre les ordinateurs en réseau.
Logiciels anti-virus. Des programmes tels que Norton Utilities, McAfee Virus Shield
et Scan Disk (qui peuvent ou non être prévus dans le système d’exploitation), non seule-
ment fournissent une protection contre les attaques de virus mais peuvent aussi parfois
être utiles pour récupérer des fichiers endommagés.
16
Des détails supplémentaires sont disponibles à QQQ Software, Inc [Link]
18
Les accessoires de matériel informatique
Mis à part les ordinateurs, les ressources nécessaires incluent les accessoires de maté-
riel informatique tels que les câbles, les disquettes, les CDs, l’UPS, les systèmes d’air
conditionné et les déshumidificateurs. Les problèmes qui y sont associés varient d’un pays
à un autre.
Le personnel de saisie des données. Ces personnes sont responsables de tâches telles
que la saisie des données et les validations initiales.
Bien que certains pays essayent d’utiliser la technologie de numérisation associée aux
systèmes de reconnaissance optique des caractères (OCR) pour la saisie des données,
la plupart des données d’enquête sur le travail des enfants continuent à être saisies
manuellement. Le personnel chargé de saisie des données doit bien connaître les logi-
ciels de saisie ainsi que la structure du questionnaire. En principe, il est conseillé de
prendre une personne ayant déjà une expérience préalable en la matière. Les opérateurs
de saisie des données doivent au minimum bien connaître le clavier et avoir des compé-
tences en dactylographie.
19
l’ensemble des opérations. Il ou elle devrait avoir une expérience antérieure dans la
gestion du traitement des données d’une enquête ou d’un recensement et bien connaî-
tre les logiciels utilisés dans le domaine du travail des enfants.
Il est possible qu’une seule et même personne puisse accomplir plusieurs des activités
décrites ci-dessus. Si tel est le cas, le superviseur devrait décider lesquelles de ces activités
la même personne pourrait accomplir et déterminer la façon dont le temps de cette personne
serait réparti.
Le temps est toujours un facteur déterminant dans les enquêtes sur le travail des enfants.
Les procédures administratives, la non-soumission aux organismes donateurs de rapports
sur les progrès réalisés, la non-disponibilité des ressources et la formation du personnel sont
parmi les facteurs qui peuvent retarder la saisie et le traitement des données. Les plans
devraient prévoir que toutes les activités de traitement des données soient achevées dans un
délai de trois mois à partir de la date de début de saisie des données, ou même plus tôt. Parmi
les autres questions importantes à prendre en considération en ce moment figurent celles
d’identifier les tâches qui peuvent être menées de manière concomitante et de vérifier la
disponibilité des ressources humaines et informatiques.
Nous allons présenter ci-dessous des lignes directrices pour le traitement de 8000 enre-
gistrements de ménages avec environ 50 questions. Un nombre plus élevé d’enregistrements
ou de questions au sujet des ménages entraînerait la nécessité d’engager des ressources
supplémentaires et exigerait davantage de temps en vue de la saisie et du nettoyage des
données ainsi que de la correction des erreurs. Par contre, moins d’enregistrements ou de
questions en exigeraient moins. En règle générale, le chronogramme suivant pourrait être
consacré aux enquêtes indépendantes sur le travail des enfants:
• environ un mois pour la saisie de données, y compris le codage supplémentaire; et
• environ un mois pour les validations des données.
Les enquêtes se terminent souvent par la préparation des tableaux. Si les micro-données
ne sont pas archivées de manière adéquate, elles risquent en définitive de devenir obsolètes
si, par exemple, les données sont conservées dans un format spécifique et que le logiciel
utilisé pour créer les données est remplacé par une nouvelle version. La planification doit
prendre en considération le stockage des données ainsi que les stratégies destinées à établir
les modalités nécessaires pour permettre un accès ultérieur à ces informations.
Matériel informatique. Parfois, c’est une machine partagée qui est utilisée, dans
laquelle d’autres ensembles de données sont stockés par le bureau national de statis-
tique. Il peut s’agir d’un poste de travail avec une capacité de stockage autonome ou
de tout serveur dans lequel des données sont stockées. Le minimum requis est un PC
Pentium qui n’est pas utilisé pour le travail quotidien.
Logiciel d’automatisation. Il peut s’agir d’un logiciel local et personnalisé qui peut
varier selon la catégorie de matériel informatique disponible dans le pays considéré.
20
Ce logiciel est utilisé pour accomplir des tâches répétitives, par exemple pour vérifier
que tous les fichiers sont transférés et catalogués.
Politique d’accès. Décider qui est autorisé à accéder aux données. Une demande
d’accès peut émaner d’une personne à l’intérieur du service, d’un autre ministère ou
organisation ou d’une personne complètement étrangère. Une politique d’accès devrait
permettre, en général, l’accès des données à tous les utilisateurs. Néanmoins, l’accès à
certaines données peut être limité à un groupe particulier d’utilisateurs.
Toutes les activités d’élaboration des politiques de planification peuvent être accom-
plies parallèlement à l’élaboration d’enquêtes et la collecte de données sur le terrain. L’éla-
boration de la politique de planification devrait être achevée avant la collecte des données
sur le terrain de sorte que les données puissent immédiatement être saisies après la collecte.
21
3. Traitement des données
3. 1 Introduction
Le traitement des données d’enquête est resté, à plusieurs égards, inchangé au cours
des dernières décennies. Cependant, avec la mise au point d’une technologie plus sophisti-
quée, il est devenu plus rapide et plus fiable.
Les données sont d’abord collectées sur la base de questionnaires remplis à la main.
Ensuite, un comptage manuel des questionnaires remplis est confronté avec le nombre de
personnes interrogées. Les données sont alors codées et transmises en vue de leur saisie.
Celle-ci est accomplie le plus rapidement possible par des opérateurs qui saisissent machi-
nalement tout ce qu’ils voient. Certains pays peuvent utiliser la technique de numérisation
suivie des procédures de reconnaissance optique des caractères (OCR), où les réponses aux
questionnaires sont explorées en vue de la saisie des données et sont ensuite soumises à
l’OCR pour identifier les codes de sorte que le logiciel de statistique puisse les manipuler.
Si c’est la méthode CAPI qui est utilisée pour la collecte des données, cette forme de saisie
des données n’est pas nécessaire. Mais la plupart des enquêtes sur le travail des enfants sont
accomplies sur la base de la méthode PAPI, et les données doivent ainsi être saisies le plus
rapidement possible afin d’établir un comptage préliminaire destiné à l’enquête.
Les données peuvent être collectées sur papier ou en tant qu’information numérique.
De même, le traitement des données peut être soit électronique, soit non-numérique. Les
investigations initiales réalisées au niveau national révèlent que les activités de traitement
des données pour les enquêtes sur le travail des enfants sont accomplies de manière électro-
nique en utilisant dans la plupart des cas les ordinateurs personnels. Dans ce contexte, le
présent guide traite seulement du traitement électronique des données.
Quelle que soit la méthode avec laquelle les données sont saisies, une attention parti-
culière est nécessaire au cours des étapes suivantes du traitement des données:
• la saisie des données et les validations préliminaires;
• l’ajout, la fusion et la division de fichiers;
• la validation de données (plus de contrôles, de modifications et d’imputations);
• les décisions finales sur les erreurs;
• l’achèvement du traitement des données et la création de fichier(s) de données;
• l’élaboration d’ensembles de données accessibles au public;
• les documentations finales;
• les tabulations finales;
• la conversion des fichiers de données à d’autres formats comme requis; et
• le stockage de tous les fichiers.
Les données d’enquête sur le travail des enfants devraient passer au minimum par ces
étapes et il ne devrait pas y avoir de raccourci. Les «raccourcis» sont rarement efficaces car
ils augmentent le risque de production d’ensembles de données peu sérieux et donc moins
fiables qui exigent en définitive plus de temps en raison de la nécessité de corriger les erreurs.
23
Les sections suivantes de ce chapitre donnent des détails sur ces étapes. Il est recom-
mandé que toutes les personnes associées au traitement des données lisent attentivement ce
chapitre avant d’entreprendre toute action liée à cette activité. Se rappeler qu’il est aussi
important d’inclure dans les données des facteurs de pondération adéquats.
Selon la situation qui prévaut dans un pays donné, la saisie des données peut avoir lieu
soit sur le terrain, sous le contrôle d’un superviseur sur le terrain, soit au siège du bureau
dont relève l’enquête.
Lorsque les données sont saisies par lots, chaque lot devrait apparaître dans un fichier
séparé plutôt que plusieurs dans un seul grand fichier. Ce qui est plus important à cette étape
est la saisie des données juste après leur collecte et contrôlées pour vérifier que toutes les
informations ont été saisies correctement. Des procédures de détection des erreurs devraient
être mises en place afin de les corriger sans délai.
Les opérateurs de saisie ne devraient pas quitter leur ordinateur pendant la saisie des
données relatives à un enregistrement de ménage. Une absence, même de courte durée, risque
de provoquer des erreurs.
Une fois un lot de données saisi, le questionnaire devrait être compilé, nommé et stocké
pour servir ultérieurement de référence.
Voici présentés ci-après plusieurs erreurs communes de saisie des données avec les
mesures de précaution ou de correction nécessaires:
Données d’un ancien questionnaire saisi (par exemple, à partir d’une enquête-
pilote). Cela peut être vérifié en se référant aux dates des entretiens ou à la couleur du
papier utilisé pour le questionnaire (lorsque différentes couleurs devraient être utilisées
pour les enquêtes-pilotes et les enquêtes proprement dites). Le logiciel de saisie des
données devrait être programmé pour reconnaître ce problème.
Données incorrectes mais dans la fourchette. Une petite fille est enregistrée comme
étant un petit garçon. Les deux enregistrements «fille» ou «garçon» étant dans les
normes, ce type d’erreur échappe donc à un contrôle statistique classique. Des program-
mes personnalisés touchant différentes questions doivent être élaborés à cette fin et
testés à l’avance.
Fausse logique (cohérence). Un enfant de six ans est signalé comme ayant achevé
l’école secondaire. L’enfant a pu avoir répondu de manière appropriée, mais la réponse
a été tapée de manière incorrecte. Ce type d’erreurs peut aussi être détecté par les
programmes personnalisés touchant différentes questions. Une fois l’erreur découverte,
comparer l’enregistrement erroné avec d’autres réponses afin de la corriger.
Données non tapées (données manquantes). Les codes de données manquantes pour
des questions telles que «non applicable» ou «a refusé de répondre» peuvent ne pas
avoir été préalablement codés dans le questionnaire, même s’ils auraient dû l’être. Ou
bien, au cours de la saisie des données, de telles valeurs ont pu être laissées en blanc
24
pour être remplies plus tard. Tous ces cas devraient, à chaque fois, être découverts et
remplacés par le code approprié des données.
Duplication (les mêmes enregistrements ou cas ont été saisis plus d’une fois). Etant
donné que les données sont saisies par lots, les mêmes cas ou enregistrements peuvent
être saisis deux fois. Des contrôles peuvent être effectués pour détecter ce genre d’er-
reurs (par exemple en se référant aux numéros uniques d’identification). Une fois ces
cas identifiés, des actions appropriées sont prises, y compris la suppression (cela peut
ne pas être possible avec certains types de logiciels de saisie de données), le balisage
ou le signalement au responsable.
Cas négligés (interviewés mais non saisis). Parfois, les données ne sont pas saisies
dans l’ordinateur. Lorsque des cas/enregistrements ont été négligés, il est nécessaire de
faire des vérifications à ce sujet.
Erreurs dans l’ajout (données saisies mais non jointes de manière adéquate).
Lorsque des données sont saisies par lots, des programmes doivent être élaborés pour
joindre / fusionner tous les fichiers. Le nombre de cas doit correspondre à la taille de
l’échantillon ou au nombre de personnes interviewées (ou aux enregistrements collec-
tés), selon que l’une ou l’autre des situations est applicable.
Le logiciel de saisie des données décrit plus haut est capable de détecter un certain
nombre de ces erreurs. La saisie des données sur la base d’un logiciel interactif est souvent
désignée comme «la saisie intelligente des données». La méthode de «double saisie» –
lorsque deux personnes différentes saisissent la même donnée, et que les deux fichiers sont
alors comparés pour y déceler les différences – est également utilisée pour valider le proces-
sus de saisie des données.
Il est recommandé qu’aussi bien la méthode de «double saisie» que celle de «saisie
intelligente des données» soient appliquées aux enquêtes sur le travail des enfants.
Les fichiers électroniques créés après la saisie des données peuvent être formatés en
tant que modules. Dans ce cas, il faut contrôler chaque module séparément en réexaminant
les questionnaires, si nécessaire. Une fois la saisie des données achevée, les variables d’iden-
tification des enregistrements devraient être contrôlées pour s’assurer que chacune est unique
pour chaque enregistrement ou cas comme prévu. Si non, pour aider les personnes en charge
du traitement des données à éviter les problèmes liés à la fusion des fichiers, ces cas compor-
tant des erreurs devraient être corrigés en réexaminant les questionnaires.
L’ajout est la méthode de combinaison de plusieurs fichiers avec des observations diffé-
rentes (se composant de variables) dans un seul fichier. Les propriétés de chaque variable
sont habituellement les mêmes dans chaque fichier. D’un point de vue conceptuelle, on peut
dire que l’ajout a pour effet d’augmenter verticalement la taille des données.
25
La fusion est la méthode de combinaison des variables de plusieurs fichiers dans un
seul fichier. Les variables dans chaque fichier décrivent la même observation, habituelle-
ment avec des unités différentes telles que le ménage ou l’individu. Pour mieux expliquer la
fusion, on peut dire qu’elle permet d’augmenter horizontalement la taille des données.
La fusion de fichiers devrait faire l’objet de beaucoup d’attention. Elle est souvent à
l’origine des valeurs manquantes, même si les fichiers qui doivent être fusionnés sont corrects
et parfaitement nettoyés. Différents types de fusion, d’ajout et de subdivision des fichiers
sont décrits plus loin dans ce guide. Ils sont basés sur les notes de classe des «Services de
Technologie Académique de UCLA» 17 et du «Centre de Population de l’Université du Nord
de Caroline» 18.
La fusion «un par un» est le processus d’association de fichiers lorsqu’un enregistre-
ment dans chaque fichier constitue un cas et que chaque enregistrement dans chaque fichier
doit avoir au moins une variable d’identification unique. Il pourrait y avoir plus d’une varia-
ble commune.
Au cours de la fusion un par un, plusieurs logiciels de statistique posent des limites au
nombre de variables (Par exemple, Stata a une limite de 2,047 variables. Les limites impo-
sées par certains logiciels de statistique sont incluses dans l’annexe I). Dans les enquêtes sur
le travail des enfants, bien qu’il soit peu probable que le nombre total de variables excède
le nombre autorisé par un logiciel de statistique particulier, les personnes ayant en charge le
traitement des données devraient être conscients de l’existence de cette possibilité au cours
de la fusion un par un.
17
SPSS Learning Module Match merging data files [Link]
[Link]
18
Stata Programming: Data Management http//: [Link]/services/computer/presen-
tations/statatutorial#combining
26
Tableau 1: Exemple de fusion un par un
Fusionner «un à plusieurs» est le processus de fusion des fichiers dans lequel plusieurs
enregistrements constituent une observation et que les enregistrements d’une même obser-
vation sont situés dans différents fichiers. Chaque enregistrement dans chaque fichier doit
avoir au moins une unique variable d’identification. Il pourrait ou non y avoir plus d’une
variable commune. Par exemple, il peut y avoir un logement habité par trois personnes. Les
informations à propos du logement (par exemple, le type de bâtiment, le statut d’occupa-
tion, le loyer) figurent dans le fichier 1, alors que les informations concernant chaque
personne (par exemple, âge, sexe, situation socio-économique) se trouvent dans le fichier 2.
Les informations sur le logement relatives à chaque membre habitant le logement seront les
mêmes. Un exemple de fusion de «un à plusieurs» est présenté au tableau 2, où un enregis-
trement de ménage peut être associé à plus d’un enregistrement de personne selon le nombre
de personnes vivant dans le logement. Chaque enregistrement dans chaque fichier doit avoir
27
la même «variable unique d’identification» pour la fusion et celle-ci est accomplie sur la
base de cette variable unique.
Il est à noter que si l’option /FILE est utilisée au lieu de /TABLE dans la syntaxe de la
commande MATCH FILES, des systèmes de valeurs manquantes vont apparaître dans le
fichier fusionné (New).
28
Fusion de «plusieurs à plusieurs»
En un mot, la fusion de «plusieurs à plusieurs» est une combinaison des processus «un
par un» et «un à plusieurs». Dans le tableau 3, deux fichiers sont fusionnés. Les deux fichiers
1 et 2 contiennent des variables décrivant le logement et les personnes qui y vivent, mais les
informations ont été collectées à des périodes différentes. Dans la première enquête, deux
personnes vivaient dans le même logement (fichier 1), et il y avait deux enregistrements.
Cependant, dans le cas 1 de la seconde enquête, l’une des personnes ne vivait plus là. Après
la fusion, il y avait donc des variables vides pour la seconde personne. Dans le cas 2, aucun
habitant de ce logement n’a été interrogé dans la première enquête et le logement n’y avait
pas été répertorié. Mais dans la seconde enquête, il était inclus. De même dans le cas 3, des
habitants d’un logement étaient interviewés alors que dans la seconde enquête le logement
n’avait pas été répertorié parce que cette maison n’existait peut-être plus. Dans les fichiers
fusionnés «plusieurs à plusieurs», il y a généralement des valeurs manquantes de type «non
applicable».
L’ajout est utilisé lorsque tous les fichiers de données contiennent les mêmes variables
avec chacun d’eux enregistrant différentes observations. Cela est habituellement essentiel
au cours de la saisie des données, et le processus se poursuit jusqu’à ce que tous les lots de
fichiers soient ajoutés.
Par exemple, l’ajout est nécessaire si les données sont saisies dans divers endroits et
transmises aux bureaux du siège de l’enquête à des périodes différentes, ou lorsque les
données sont saisies par lots (modules) et que chaque lot (module) constitue un fichier. Dans
le tableau 4, les données ont été saisies par lots. Chaque fichier avait le même nombre de
variables, mais chaque cas /enregistrement concerne un logement/ une personne différents.
Ainsi, les cas /enregistrements sont simplement ajoutés à la fin. Après avoir ajouté des cas,
le nombre de cas/enregistrements dans le fichier final devrait être égal au nombre total de
cas / enregistrements de chaque fichier. Il peut y avoir des exceptions quand les enregistre-
ments ont des variables différentes.
29
Tableau 4: Exemple d’ajout de fichiers de données
Avant ajout
Fichier 1 Fichier 2
1 a1 a2 a3 1 x1 x2 x3
2 b1 b2 b3 2 y1 y2 y3
3 c1 c2 c3 3 z1 z2 z3
Après ajout
1 a1 a2 a3
2 b1 b2 b3
3 c1 c2 c3
4 x1 x2 x3
5 y1 y2 y3
6 z1 z2 z3
• Des noms différents de variable peuvent avoir été utilisés pour représenter la même
chose dans deux fichiers de données (par exemple age dans un fichier et c_age dans
un autre).
• Le même nom de variable peut avoir été utilisé pour représenter différentes choses
dans deux fichiers de données (par exemple la variable «salaire» représente le revenu
par semaine dans un fichier et le revenu par mois dans un autre). Cela ne pose pas
de problème pour les fichiers «à fusionner», mais il peut constituer un problème pour
les fichiers fusionnés.
• Les noms de variables dans deux fichiers peuvent être les mêmes mais de type diffé-
rent (par exemple numérique ou chaîne de caractères).
• Les variables en chaînes de caractères dans deux fichiers différents peuvent être de
longueur différente (par exemple 8 et 16 caractères).
• Les deux fichiers de données ont des variables avec le même nom mais des codes
différents (par exemple les valeurs de «oui» et «non» sont inversées).
Il est essentiel que quelques uns des problèmes examinés ci-dessus, s’ils sont présents
dans les données, soient résolus avant de tenter une fusion ou un ajout. Les différents logi-
ciels de statistique manipulent de manière différente la fusion et l’ajout. Il faut être attentif
sur la manière dont certaines cellules vides seront remplies et consulter les manuels en cas
de besoin.
30
Division des fichiers de données
Le processus de division d’un fichier, aussi désigné par subdivision, est souvent néces-
saire au cours du nettoyage et de l’analyse de données. Les fichiers de données peuvent être
divisés selon le nombre de cas ou d’enregistrements ou suivant le nombre de variables. Au
cours des opérations de division, la plupart des logiciels de statistique offrent des options de
suppression ou de filtrage des cas / variables non désirés. Il faut être prudent en matière de
sauvegarde des fichiers divisés, car toute négligence à ce propos pourrait surcharger le fichier
original d’un sous-ensemble de fichier.
A l’aide des procédures de saisie efficaces, les données sont pratiquement nettoyées
aussitôt qu’elles sont saisies. Les modifications secondaires impliquent des contrôles
complexes de cohérence interne et de structure qui exigent l’examen des différentes parties
du questionnaire et doivent suivre des recommandations détaillées dans le cas où des correc-
tions sont nécessaires. Des experts en traitement de données peuvent effectuer ceci de
manière interactive. Certaines personnes préfèrent accomplir toutes les validations de
données avant de procéder à la fusion des fichiers. Chaque pays décidera de l’approche qu’il
trouvera parfaitement appropriée à sa situation particulière.
Même lorsque les premières opérations statistiques sont accomplies avec les précau-
tions adéquates sur des données parfaitement corrigées, il n’est pas rare de trouver des situa-
tions telles que des cas d’enfants de six ans ayant achevé leurs études secondaires. Des
contrôles de validation sont nécessaires pour détecter ces erreurs et les corriger. Bien qu’au-
cun système ne soit parfait, le nombre d’erreurs peut sûrement être réduit si les mesures
minimums suivantes sont prises 19.
19
Des développements plus détaillés des procédures sont décrits dans « Consortium inter
universitaire pour la recherche en sciences politiques et sociales » (ICPSR), Guide pour l’élabo-
ration et l’archivage de données de sciences sociales, op. cit., et Dialogue en public : Analyse des
enquêtes, op. cit.
31
Codes aberrants et valeurs hors de l’intervalle. Les codes aberrants sont des codes
qui ne sont pas définis comme étant dans les normes, tandis que les valeurs hors de l’in-
tervalle sont des valeurs auxquelles sont affectés des codes acceptables selon les normes
mais qui peuvent ne pas être justes. Par exemple, si 1 signifie «mâle» et 2 «femelle»,
3 sera un code aberrant, tandis que le revenu par semaine d’un enfant a une valeur hors
des fourchettes s’il est de 1000 lorsque réellement il devrait être 100. La répartition des
fréquences aussi bien que les graphiques exposent ces types d’erreur. Ainsi, les
distributions des fréquences de toutes les variables devraient être examinées pour
d’éventuelles anomalies. Revoir le questionnaire si nécessaire afin de corriger tous
ces problèmes.
Les valeurs manquantes. Signaler toutes les valeurs qui sont manquantes en spéci-
fiant dans chaque cas la raison pour laquelle la valeur est manquante. Les réponses
telles que «ne sais pas», «non applicable», «non disponible» et «a refusé de répondre»
devraient être marquées de manière claire. Leurs valeurs devraient aussi, dans la mesure
du possible, être uniformes partout dans l’ensemble des données. Aucune cellule dans
l’ensemble de données ne devrait comporter d’espace vierge.
L’un des moyens les plus faciles de réaliser les contrôles de cohérence est de contrôler
le «parcours de la question». Par exemple, lorsqu’il est signalé dans le questionnaire
«Lorsque la réponse à la question numéro 10 est 2 (non), passer directement à la question
numéro 14», une règle logique peut être élaborée:
Si les données indiquent un résultat différent, il est alors possible que Q10 soit en réalité
1, mais qu’au cours de la saisie, elle ait été saisie en tant que 2. Cela est probablement le cas
si Q11, Q12 et Q13 ont des codes valides. Ainsi, la réponse à Q10 peut facilement être
changée pour passer à 1 (oui). Si elles avaient été codées mais que les codes ne sont pas tous
valides, il est nécessaire de se référer au questionnaire original pour découvrir laquelle a
besoin d’être changé. La comparaison des fréquences ou des tableaux croisés entre toutes
les variables ayant des liens possibles pourrait révéler plusieurs incohérences. Revoir le ques-
tionnaire afin de corriger ces problèmes.
Un exemple utile (voir aussi l’annexe 3) sur la manière dont les règles de contrôle
logique peuvent être élaborées est présenté dans les règles suivantes de contrôle de la cohé-
rence tirées de l’enquête zambienne de fin de décennie sur le travail des enfants (module
d’éducation) 20 dans laquelle des informations sur les enfants âgés de 5-17 ans ont été
collectées:
20
Bureau central de statistique, questionnaire ménage de l’enquête sur le travail des enfants
(1999) en Zambie en fin de décennie [Link]
zambia/document/[Link]
32
un Oui devrait remplacer le non dans sa réponse à la question»avez-vous jamais
fréquenté l’école».
Si un enfant répond NON à «fréquente l’école», ignorer alors la question (non appli-
cable) «niveau suivi actuellement».
Quand un enfant répond NON à la question «a fréquenté l’école l’année dernière», mais
OUI à la question «type d’école fréquentée l’année dernière» et OUI à la question sur
«le niveau suivi l’année dernière», la première réponse devrait passer de NON à OUI.
Le raisonnement est le suivant: les deux réponses OUI dans ce cas suggèrent que OUI
est une réponse plus probable que le non.
Au cours des contrôles de cohérence, des efforts importants doivent être déployés pour
éviter d’exécuter des scénarios basés sur une fausse logique (règles de cohérence). Si, de
plus, plusieurs opérations de contrôle de cohérence impliquant la même variable doivent être
menées, veiller à choisir l’ordre approprié dans l’exécution des opérations de contrôle et le
changement de valeurs.
Certains programmeurs estiment qu’il est plus efficace de diviser les fichiers avant d’en-
treprendre les contrôles de cohérence et de les fusionner à nouveau dès que les contrôles
sont achevés.
Les erreurs sont inévitables durant les contrôles complexes de cohérence. Il est recom-
mandé de conserver les anciens fichiers de manière à pouvoir toujours se référer à une copie
des données originales.
Les contrôles de cohérence devraient être effectués pour vérifier, tout au moins, qu’au-
cune rubrique n’a été laissée en blanc et que chacune d’elles contient une valeur valide.
Finalement, les premiers trois à cinq pour cent des enregistrements devraient être minu-
tieusement contrôlés pour vérifier qu’ils sont exempts d’erreurs. Par la suite, des contrôles
devraient être menés au hasard pour vérifier la cohérence de l’ensemble des données.
33
• les raisons pour lesquelles ces erreurs ne pourraient pas être corrigées;
• quelques tables pour montrer leur impact sur l’ensemble des données;
• le nombre de situations où les cas et les enregistrements applicables dans un cas ne
correspondent pas; et
• le manque de correspondance entre le nombre de cas et la collecte de données et les
raisons possibles des erreurs.
De plus, une liste de toutes les variables avec leurs noms doit être créée. Ces tableaux
avec le fichier du rapport sur les erreurs et la liste des variables devraient ensuite être trans-
mis pour examen au superviseur des données.
Une fois une liste de contrôle des erreurs établie, en même temps que des tables indi-
quant l’impact global de ces erreurs sur les données, le responsable, en consultation avec les
personnes associées à l’enquête, devrait décider des mesures à prendre au sujet de ces
questions.
Selon le type d’erreur, les décisions nécessaires peuvent comprendre ce qui suit:
• la manière dont les erreurs dans les données devrait être marquée;
• les cas / enregistrements/variables qui peuvent être imputés et sous quelles condi-
tions et comment ces informations seront incorporées dans l’ensemble des données
une fois qu’une décision est prise;
• les enregistrements/ cas pour lesquels il est nécessaire de se référer aux question-
naires de l’enquête pour avoir des informations supplémentaires et comment ces
informations seront incorporées dans l’ensemble des données ;
• les cas/ enregistrements/variables qui peuvent être négligés ; les raisons de leur
abandon et comment cela affectera les données dans leur ensemble ; et
• le libellé de la documentation pour tous les cas ci-dessus.
Aussitôt que les mesures nécessaires sont prises, elles devraient être communiquées
aux personnes traitant les données. Celles-ci auront en charge de les incorporer le plus rapi-
dement possible dans l’ensemble des données.
La plupart des personnes traitant les données trouvent que leur travail est un processus
sans fin. Même lorsque les données ont été préalablement nettoyées, elles continuent leur
activité, souvent en subdivisant les données, en créant des variables supplémentaires et ainsi
de suite. Cela conduit fréquemment à un problème important – de nombreuses personnes
traitant les données se retrouvent en train de travailler sur différentes versions de l’ensem-
ble des données.
34
Les superviseurs devraient à ce moment charger quelqu’un de compiler toutes les infor-
mations qui ont été collectées par le personnel chargé du traitement des données dans un
document unique (fichier).
Gestion du traitement
35
3.7 Elaboration de l’ensemble des données accessibles au public
Questions de confidentialité
La plupart des enquêtes sur le travail des enfants nécessitent beaucoup d’argent et sont
d’une grande importance au niveau national. Elles fournissent des données statistiques qui
contribueront à améliorer la scolarité, éliminer la pauvreté et accroître les ressources desti-
nées à la santé et aux autres services publics ou privés. Chaque réponse individuelle donnée
dans le cadre de l’enquête est significative et il est important de partager les informations de
l’enquête avec le maximum de personnes possible. Les concepts ci-après ont été tirés de
deux documents de référence 21, 22.
Caractère anonyme des données. En même temps, les personnes qui participent à une
enquête devraient être sûres que leur identité personnelle ne sera pas révélée. Ainsi, d’un
côté, les données d’enquête sur le travail des enfants devraient être accessibles au public en
vue d’une analyse secondaire en profondeur; d’un autre côté, il est primordial que des procé-
dures particulières soient suivies pour assurer le caractère anonyme des données de sorte
que ni les enfants, ni leurs familles, ni les personnes ou organisations pour lesquelles ils
travaillent ne puissent être identifiés à partir des données brutes. A moins d’être anonyme,
un ensemble de données ne peut être diffusé.
Altération des fichiers. Les informations qui risquent de porter atteinte à la confiden-
tialité des données sur les enfants, les parents, les ménages ou les organisations, particuliè-
rement ceux qui sont engagés dans des travaux dangereux ou qui sont concernés par de tels
travaux, ne devraient pas être diffusées. Il peut ainsi être nécessaire d’altérer des fichiers
relatifs au travail des enfants accessibles au public.
Deux sortes de variables peuvent révéler l’identité d’un individu ou d’une organisation:
Les identificateurs indirects. Ce sont des variables qui ne sont pas traitées comme des
identificateurs directs mais elles peuvent être utilisées avec d’autres variables ou infor-
mations publiques pour identifier une personne, une entité, etc. Par exemple, lorsqu’un
nombre insignifiant de personnes est engagé dans un emploi particulier dans une région
donnée, l’information peut être couplée avec des données de recensement récent à la
disposition du public pour identifier une personne.
Les analystes de données, de concert avec d’autres membres des bureaux nationaux de
statistique et les experts techniques de l’OIT, devraient, si nécessaire, examiner et traiter des
identificateurs potentiels. Pourtant, jusqu’à présent, avec toutes les enquêtes nationales de
SIMPOC, les identificateurs indirects ne constituent pas une source majeure de problème.
21
«Consortium inter universitaire pour la recherche en sciences politiques et sociales»
(ICPSR), Guide pour l’élaboration et l’archivage de données de sciences sociales, op. cit.
22
Association américaine de statistique, Rasinski, K. et al; Producing a public use file – A
case study, se référer à [Link]
(1997)
36
Sans être exhaustives, les méthodes destinées à assurer le caractère anonyme des
données d’enquête sur le travail des enfants sont les suivantes:
La classification. Une fourchette de valeurs d’une variable peut être incluse dans une
seule variable. Par exemple, un enfant de 7 ans peut être placé dans la tranche d’âge
des 5 à 9 ans.
Troc entre données. On peut échanger des enregistrements relatifs aux individus d’un
ménage contre ceux d’un autre ménage dans les données de manière à ce que l’en-
semble du résultat ne soit pas altéré. Les identificateurs du ménage ne peuvent pas être
utilisés pour identifier les personnes vivant dans ce ménage.
L’ensemble des données accessibles au public devrait toujours être copié à partir de
celui des données originales. De même, il est nommé selon une convention appropriée (voir
section 2.3). La copie originale peut rester d’accès limité et devrait être toujours gardée
comme référence sans modification.
En outre, les personnes associées à l’enquête et au traitement initial des données sont
parfois si proches du projet qu’elles ont tendance à penser que certaines informations n’ont
pas besoin d’être documentées. Cependant, les données sont destinées à être utilisées par
diverses personnes, et une documentation approfondie, claire et précise améliore grande-
ment son utilisation.
37
de documentation finale. Le premier est un court fichier décrivant la structure de l’ensem-
ble des données en même temps que des informations concernant les variables et les valeurs,
les systèmes de codage et de classification et la pondération. Une brève description de
l’enquête devrait également y être incluse. Le second est plus détaillé et peut se décrire
comme suit.
Les lignes qui suivent sont des extraits relatifs aux enquêtes sur le travail des enfants
tirés du codebook de Data Document Initiative (DDI), version finale 1.0 DTD 23.
Il est à noter que les informations regroupées sous les titres suivants ne remplacent pas
le codebook ou le dictionnaire pour l’ensemble des données ASCII qui définit les disposi-
tions des micro-données.
Titre. Le titre complet et officiel de l’enquête sera utilisé pour toutes les données et la
documentation, et devrait indiquer la portée géographique de la collecte de données
ainsi que la période couverte.
Par exemple: Travail des enfants au Portugal: caractérisation sociale des familles et
des enfants en âge scolaire, 1998.
Sous-titre. Un titre secondaire peut être utilisé pour mettre en relief ou délimiter le titre
principal. Par exemple: Travail des enfants au Portugal, 1998.
Titre alternatif. Le titre alternatif peut être celui généralement utilisé pour désigner la
collecte de données ou il peut être une abréviation du titre. Par exemple: Enquête
SIMPOC du Portugal, 1998.
Titre parallèle. Un titre peut être traduit dans une autre langue. Par exemple: Trabalho
Infantil em Portugal: Caracterizaçao social dos menores emidade escolar e suas fami-
lias, 1998.
Les mots clés. Les mots ou les phrases devraient être définis comme décrivant les prin-
cipaux aspects de l’enquête pouvant être utilisés pour construire des index de mots clés
à des fins de classification et de recherche documentaire.
Résumé. Il s’agit d’un résumé décrivant le but, la nature et la portée d’une collecte de
données sur le travail des enfants. Des caractéristiques spéciales du contenu et une liste
des variables principales dans les données peuvent être ajoutées ici.
Elle devrait présenter brièvement l’enquête sur le travail des enfants en ce qui concerne
sa durée, les dates de collecte des données, la couverture géographique et l’unité d’analyse.
23
Le DTD du codebook de l’initiative de la documentation des données, [Link]
[Link]/DDI/users/dtd/[Link] (Les extraits ont été modifiés étant donné que le
document avait été préparé comme un guide pour différents types d’enquêtes conduites dans une
variété de situations et que certaines réalités ne devraient pas s’appliquer à tous les pays. En outre,
la même information est parfois présentée dans différentes sections du codebook en raison du fait
que lors de la diffusion en ligne le logiciel devrait chercher les mêmes données parmi plusieurs
titres. Une version complète est disponible à partir du site web du DTD du codebook.
38
La période couverte. Il s’agit de la période à laquelle se réfèrent les données- la période
couverte par les données, et non des dates de codage ou de l’élaboration de documents
lisibles par ordinateur ou des dates auxquelles les données ont été collectées. Par
exemple, si les données ont été collectées en 1999 et qu’une des questions était «Avez-
vous travaillé l’année dernière?», la période devrait être 1998-99.
Date de la collecte. Il s’agit de la / des date(s) à laquelle/ auxquelles les données ont
été collectées.
Unité d’analyse. Pour la plupart des enquêtes sur le travail des enfants, l’unité de base
de l’analyse ou de l’observation est l’individu.
Nature des données. Il s’agit de la nature des données comprises dans le fichier. Par
exemple, données d’enquête, agrégées, cliniques ou portant sur des évènements/ opéra-
tions; code de la source des programmes; texte lisible sur ordinateur; données sur les
enregistrements administratifs; donnée textuelle; donnée textuelle codée; documents
codés; agendas du budget temps; données/ indices d’observation; ou donnée traitée.
Tous les types de données applicables devraient être inclus.
Notes. Les notes devraient être utilisées pour fournir des informations supplémentai-
res en clarifiant et en commentant les informations du codebook sur la portée de la
collecte des données.
39
Fréquence de la collecte des données. Si les données ont été collectées à différentes
périodes, indiquer la fréquence de la collecte. Par exemple, dans les enquêtes sur le
travail des enfants effectuées pour la première fois, «première fois» devrait suffire.
Modalités de collecte des données. Il s’agit de la méthode utilisée pour collecter les
données (par exemple interviews face à face).
Mesures pour réduire les pertes. Le résumé devrait inclure les mesures prises pour
réduire les pertes de données telles que les visites de suivi, les contrôles des supervi-
seurs, l’adaptation historique et l’estimation.
Opérations de contrôle. Décrire les méthodes utilisées pour faciliter le contrôle des
données au cours de l’enquête et ensuite le traitement des données.
Opérations de nettoyage. Les méthodes utilisées pour nettoyer les données collectées
peuvent inclure par exemple des contrôles de cohérence et de codes aberrants.
Notes sur les erreurs au niveau de l’étude. Inclure toutes informations annotant ou
clarifiant la méthodologie et les procédures en matière de traitement des données.
40
Autres formes d’évaluation des données. Inclure des éléments tels que la variance
des réponses, le taux de non- réponse, les tests sur les biais liés aux questions ainsi
qu’aux enquêteurs et aux réponses, et les niveaux de confiance.
Cette partie décrit les conditions d’accès et d’utilisation et fournit d’autres informa-
tions concernant la disponibilité et le stockage des données collectées.
Lieu. Indiquer où sont actuellement stockées les données (par exemple, bureau natio-
nal de statistique).
Statut de disponibilité. Fournir une déclaration sur la disponibilité des données. Par
exemple, les données peuvent ne pas être disponibles parce qu’elles ont été interdites
d’accès avant la diffusion officielle du rapport final.
Etendue des données. Présenter le nombre de fichiers physiques qui existent dans un
ensemble de données en indiquant le nombre de fichiers de données et en spécifiant si
la «collection» contient une documentation ou tous autres fichiers supplémentaires lisi-
bles sur ordinateur ainsi que des informations telles que le dictionnaire, la déclaration
de définition et les instruments de collecte des données.
Etat complet de l’étude stockée. Décrire la relation entre les données collectées et la
quantité des données codées et stockées lors de la collecte de données. Indiquer au
besoin pourquoi certains éléments des informations collectées n’ont pas été inclus dans
le fichier de données.
Notes sur les collectes. Fournir toutes les informations supplémentaires concernant la
disponibilité des données.
Exigence de mention. Spécifier tout texte qui devrait être mentionné dans des publi-
cations basées sur l’analyse des données.
Notes. Inclure dans la partie sur l’accès aux données une sous-section sur les «notes»
générales afin de faciliter les annotations/ clarifications des informations concernant
l’accès aux données.
41
Descriptions fichier par fichier
Tous les fichiers, y compris les fichiers sur les données et la documentation, devraient
être décrits de manière individuelle.
Nom du fichier. Utiliser un titre court pour distinguer un fichier particulier / une partie
d’autres fichiers/ parties de la collecte de données.
Etiquette (de l’enregistrement). Fournir des informations plus détaillées pour chaque
groupe d’enregistrements.
Comptage global des cas. Pour les fichiers rectangulaires, indiquer le nombre de cas
ou d’observations dans le fichier entier.
Comptage global des variables. Pour les fichiers rectangulaires, indiquer le nombre
de variables dans le fichier entier.
Type de fichier. Si les fichiers de données sont de type mixte (par exemple, à la fois
ASCII et dépendant d’un logiciel) indiquer à quel type ils appartiennent.
Etendue des contrôles du traitement. Indiquer ici, au niveau du fichier, les types de
contrôles et d’opérations accomplis sur le fichier de données.
42
Les données manquantes. Fournir les informations qui peuvent être utilisées pour
calculer les données manquantes. Montrer que les données manquantes ont été stan-
dardisées dans toute la collecte et qu’elles sont le résultat de la fusion, etc.
Logiciel. Indiquer le logiciel qui a été utilisé pour créer le fichier, y compris son numéro
de version.
Groupe de variables
Il s’agit d’un groupe de variables qui peut porter sur le même sujet, dériver de l’inter-
prétation d’une question particulière ou qui est lié par tout autre facteur. Indiquer lequel de
ces cas suivants s’applique:
Var. Indiquer l’ensemble des variables constituant les IDs dans le groupe.
Texte sur le groupe de variables. Il s’agit d’une description plus longue du groupe de
variables.
43
Variable
Chaque variable a besoin d’un nom pour lui servir d’unique ID. Pour chaque variable,
fournir les informations suivantes:
• si la variable est un coefficient de pondération;
• référence à la variable du coefficient de pondération pour cette variable;
• une identification de la question pour la variable;
• référence au fichier auquel appartient la variable;
• quel format a été utilisé (par exemple SAS, SPSS);
• le nombre de points décimaux dans la variable;
• si les options sont discrètes ou continues;
• le type d’enregistrement auquel appartient cette variable;
• références à la description sommaire des données enregistrant les valeurs ID pour
tous les éléments qui s’appliquent à cette variable; et
• références à la méthodologie et au traitement enregistrant la valeur ID de tous les
éléments qui s’appliquent à cette variable.
• Etiquette de la variable. Il s’agit d’une phrase descriptive qui définit la variable.
La longueur de la phrase peut dépendre du système d’analyse statistique utilisé.
• Imputation. L’imputation est le processus par lequel les valeurs manquantes pour
les questions auxquelles un participant à une enquête n’a pas répondues sont esti-
mées. Si cela est appliqué dans ce contexte, indiquer la procédure utilisée.
• Interdiction. Cela fournit des informations sur les variables qui peuvent ne pas
être actuellement disponibles à cause des politiques établies par les bureaux natio-
naux de statistique ou les ministères.
• Unité de réponse. Indiquer qui a fourni les informations figurant dans la variable
(par exemple, la personne interrogée, la procuration, l’enquêteur).
• Unité d’analyse. Elle fournit des détails sur les personnes ou les objets décrits par
la variable.
• Libellé de la question. Il s’agit du libellé de la question effectivement posée.
• Texte postérieur à la question. Ce texte décrit éventuellement ce qui arrive
lorsque la question a été posée.
• Instructions aux interviewers. Il s’agit des instructions spécifiques adressées à
la personne qui réalise l’interview.
• Fourchette des valeurs de données valides. Il s’agit des valeurs d’une variable
particulière qui représentent les réponses valables.
• Fourchette des valeurs de données non valides. Il s’agit des valeurs d’une varia-
ble particulière qui représentent les données manquantes, les réponses «non appli-
cables», etc.
• Liste des codes non documentés. Il s’agit de valeurs dont le sens n’est pas connu.
• Résumé des statistiques. Il s’agit d’une ou de plusieurs mesures statistiques qui
décrivent les réponses à une variable particulière et qui peuvent inclure un ou
plusieurs résumés types, par exemple des valeurs minimales et maximales.
• Texte de la variable. Il s’agit d’une description détaillée de la variable, quelque
chose qui va au-delà de ce qui est prévu dans «nom de la variable» et «étiquette
de la variable»
44
• Instructions relatives au codeur. Il s’agit là de toutes instructions particulières
destinées à ceux qui ont converti les informations d’une forme à une autre pour
une variable particulière. Cela pourrait inclure la réorganisation des informations
numériques dans une autre forme ou la conversion des informations textuelles en
informations numériques.
• Déclaration de la version. Lorsqu’une variable a subi des changements, une
déclaration de version est nécessaire.
• Dérivation. Utilisé seulement dans le cas de variables dérivées, cet élément fournit
aussi bien une description de la manière dont la dérivation a été accomplie et de
la commande employée pour construire la variable dérivée qu’une présentation
des autres variables de l’étude utilisées pour créer la dérivation.
• Description de la dérivation. Il s’agit d’un texte décrivant la façon dont la varia-
ble a été dérivée en vue d’une présentation aux utilisateurs.
• Commande de dérivation. Il s’agit de la commande réellement utilisée pour créer
la variable dérivée. L’attribut de syntaxe est utilisé pour indiquer le langage de
commande employé (par exemple SPSS, SAS, Fortran).
• Format de la variable. Il s’agit du format de la variable en question et comprend
le type (caractères ou numériques), le nom du format particulier (en cas de schéma
applicable: groupe du distributeur ou principes définissant le format, l’un des
éléments ci-après, SAS, SPSS, IBM, ANSI, ISO ou XML- DATA), la catégorie
(la date, le temps, la monnaie, autres) et l’identificateur du réseau pour la défini-
tion du format.
Cette section traite des aspects de la tabulation, notamment ceux qui concernent les
personnes en charge du traitement de données. Les tabulations finales sont généralement
élaborées au tout début du processus de l’enquête et ne sont pas nécessairement vues comme
faisant partie du traitement des données. Cependant, habituellement, ce seront les person-
nes chargées du traitement des données qui prépareront les tables pour les analystes.
Toutes les enquêtes supposent une sorte de plan de tabulation. Dans les enquêtes sur le
travail des enfants, un tel plan est généralement formulé dans le cadre de discussions entre
les partenaires principaux. Une fois les données traitées, on devrait élaborer un ensemble
complet de tables basées sur les variables spécifiées par les analystes de données.
Il est à noter que toutes les variables dérivées supplémentaires créées et incorporées
dans l’ensemble des données pour y être conservées doivent aussi suivre une convention
d’affectation de nom adéquate et être étiquetées selon la manière décrite plus haut. Ces varia-
bles dérivées devraient aussi être soumises à des procédures standard de contrôle des erreurs
telles que le codage aberrant et les valeurs manquantes. Des explications sur les raisons et
la méthode de leur création devraient figurer dans le codebook ou dans les métadonnées.
45
Finalement, tous les fichiers devraient recevoir des noms différents indiquant leur propre
numéro de version.
Il faudrait veiller à ce que seulement des fichiers à jour et complets (non des sous-
ensembles) soient utilisés pour les tabulations.
Les fichiers de données sont généralement créés dans le format spécifique au logiciel
tel que SPSS ou SAS et ne peuvent être lus convenablement que dans ce logiciel. Un analyste
secondaire peut ne pas avoir accès au logiciel dans lequel les données ont été originellement
créées. La lecture des données dans tout autre logiciel (par exemple quand un fichier est créé
en SAS pour Windows et lu ensuite en SPSS pour Windows) ou dans un environnement
informatique différent (par exemple créé sur un PC avec Windows et lu sur un poste de travail
avec Unix) n’est généralement pas une opération facile. Parfois, cette opération n’est pas
possible du tout.
Ainsi, il est toujours recommandé d’enregistrer les données dans d’autres formats. La
meilleure option est de créer l’ensemble des données dans un format ASCII (fichier texte).
• Le format ASCII a l’avantage de pouvoir être importé par n’importe quel logiciel,
pourvu que la documentation nécessaire soit disponible.
• Le format ASCII est aussi mieux adapté à la conservation à long terme. Un ensem-
ble de données, créé et conservé aujourd’hui, peut ne pas pouvoir être utilisé pendant
des années. Au moment où quelqu’un voudrait utiliser les données, cette version
spécifique du logiciel peut ne plus être disponible et les versions nouvelles disponi-
bles peuvent être incompatibles avec l’ancienne. Dans de tels cas, des ensembles de
données deviennent obsolètes dans leur intégralité. Du point de vue de l’archivage,
il est donc souhaitable que les données soient enregistrées dans un format ASCII
aussi bien que dans celui du fabricant.
Les données SPSS peuvent être converties dans un format ASCII de la manière suivante:
2. Donner une étiquette à toutes les variables comportant les termes adéquats (voir
la documentation finale, section 3.8, ci-dessus). Si des mots appropriés ne sont
pas trouvés, «le texte exact de la question» peut être utilisé en dernier recours.
5. Sauvegarder le fichier de données en tant que fichier ASCII de largeur fixe avec
la commande «enregistrer sous» et sélectionner l’option fixe ASCII lorsqu’un
fichier de données avec extension DAT doit être créé.
6. Les noms des variables et les nombres requis de colonnes seront indiqués dans la
fenêtre de sortie.
7. Dans la fenêtre de sortie, sélectionner «file and then display Data Info», et toutes
les variables avec leur étiquette et leurs valeurs seront affichées.
46
8. Prendre une réponse de fréquence de toutes les variables (option «Without Table»).
9. Exporter tous les objets de la fenêtre de sortie dans un fichier texte en sélection-
nant «fichier», ensuite «exporter» et enfin «enregistrer sous» lorsqu’un fichier
avec une extension TXT doit être créé.
11. Ce fichier texte est maintenant le dictionnaire des données et le codebook pour un
fichier de données ASCII (avec extension DAT) créés au cours de l’étape 5 ci-
dessus.
12. Prendre les tables de fréquence pour toutes les variables et les sauvegarder en tant
que fichier de sortie. Vu certaines tables, telles que celles concernant les identifi-
cateurs uniques, seront très grandes et peuvent prendre un espace de mémoire
important, elles peuvent être rejetées, même si cela n’est pas recommandé. Ces
tables seront utiles pour ceux qui lisent les données ASCII dans un logiciel en tant
que vérification pour s’assurer que les données ont été correctement lues.
Quel que soit le logiciel de statistique utilisé pour le traitement des données, il est forte-
ment recommandé de créer un ensemble de données ASCII avec le dictionnaire de données
et la documentation nécessaires.
Différentes personnes accèderont aux données provenant des enquêtes sur le travail des
enfants. A l’origine, les données et la documentation qui y est rattachée sont généralement
préparées dans le format spécifique au logiciel. Le choix du logiciel pour le traitement des
données de l’enquête dépend à la fois de la disponibilité d’un tel logiciel et des ressources
humaines et financières au niveau du pays. Cependant, différentes personnes dans différents
pays utilisant une diversité de logiciels voudront accéder à ces données. Ainsi, l’accessibi-
lité aux fichiers de données et de documentation requis est d’une très grande importance.
Cela signifie que différents types de fichiers ont besoin d’être créés et stockés de manière
efficace.
Une fois tous les fichiers prêts, ils devraient être transférés dans un nouveau répertoire.
La liste suivante des types de fichiers concernés est typique; le nombre réel de fichiers listés
variera d’un pays à un autre.
1. Les données dans le format spécifique au logiciel (par exemple SAS pour
Windows, le logiciel utilisé pour le nettoyage et l’analyse les données).
47
4. Un ensemble de données accessible au public sans variables qui pourraient être
utilisées pour identifier une personne / institution, dans un format délimité ASCII
avec le dictionnaire nécessaire de données (modifié à partir du point 1 ou converti
à partir du point 3 ci-dessus).
6. Questionnaire avec réponses, texte dans la langue originale (de préférence annoté
avec le nom des variables, y compris des variables dérivées, et créé sur la base de
tout logiciel MS Office Suite).
7. Toutes les règles logiques établies en tant que partie du traitement de données et
qui ne figurent nulle part dans la langue originale.
8. Les programmes qui ont été établis en tant que partie du traitement de données et
de la tabulation dans la langue originale (de préférence dans un texte ASCII).
11. Tout rapport basé sur l’ensemble de données, de préférence en MSWord et dans
la langue originale.
12. Les codes créés tels que ceux relatifs à l’emploi, à la profession, et aux accidents.
13. Tout fichier de classification (par exemple, emploi, accidents) créé de manière
spécifique pour l’enquête sur le travail des enfants.
14. Tous les sujets mentionnés dans les points 5-13 dans toute autre langue, dans le
cas où ils ont été traduits.
• L’ensemble des données qui a été déplacé pour un stockage temporaire est le bon et
qu’il est prêt à être transféré à un stockage permanent; le personnel chargé du trai-
tement des données est souvent engagé dans différentes activités en même temps
et il arrive parfois que des fichiers soient déplacés par erreur pour un stockage
temporaire;
Enfin, un fichier index devrait être créé et comporter, au moins, les trois types suivants
d’informations à propos de chaque fichier:
• le nom du fichier;
48
• la date de création ou de la dernière modification; et
Les informations telles que la taille du fichier, la personne qui l’a créé et le motif de sa
création peuvent aussi être incluses dans le fichier index. Elles devraient être sauvegardées
comme un fichier texte.
49
4. Conservation des données
4.1 Introduction
La conservation des données – qui est l’une des étapes les plus importantes de l’en-
quête – est la phase la plus souvent ignorée. Très souvent, des enquêtes importantes ne débou-
chent que sur un nombre limité de rapports basés sur quelques tables, alors que les données
brutes utilisées pour l’élaboration de ces rapports ont simplement été perdues. De telles
données, cependant, devraient rester disponibles pour une utilisation plus large par des
analystes secondaires et cela exige que soit établie une stratégie clairement définie pour une
conservation et une diffusion efficaces. Une conservation efficace des données exige les
mesures suivantes:
• le transfert des fichiers à la machine de conservation;
• l’élaboration d’un index pour les fichiers;
• la mise au point d’une structure de stockage dans la machine principale d’archivage;
• des procédures efficaces de sauvegarde;
• des procédures physiques et techniques de sécurité; et
• un contrôle continu de toutes les procédures susvisées.
Le système de conservation finale devrait se trouver sur un ordinateur autre que ceux
utilisés pour les opérations quotidiennes. Ni les données, ni la documentation ne devraient
être stockées dans un ordinateur de bureau ou tout autre ordinateur utilisé pour le travail de
routine. Une fois le traitement achevé, les informations devraient être transférées à un ordi-
nateur indépendant, un de ceux, de préférence, qui ne seront pas utilisés pour un futur trai-
tement des données.
Si pour des raisons de ressources insuffisantes, ces mesures sont impraticables, tous les
fichiers devraient être copiés sur un support autonome tels que les CD-Roms. Ces supports
devraient être étiquetés de manière adéquate, datés et conservés en lieu sûr. Pour se prému-
nir contre la destruction des versions originales par le feu, par exemple, plusieurs copies
devraient être stockées dans des endroits différents.
Si quelqu’un veut utiliser l’ensemble des données, il devrait recevoir des copies des
fichiers désirés.
Une fois que le traitement des données est achevé et que tous les fichiers ont été créés, le
personnel responsable du stockage à long terme des fichiers (généralement l’administrateur
du système) créera une structure de répertoire pour le stockage permanent sur l’ordinateur.
Les fichiers peuvent être regroupés de différentes manières, en prenant en considération des
51
questions telles que les types de fichiers concernant notamment leur contenu et les modali-
tés de leur création.
Compte tenu de leur contenu, les fichiers peuvent être regroupés selon les modalités
suivantes:
Données. Ce sont les vrais fichiers de données et peuvent être élaborés dans différents
formats (par exemple, SPSS, ASCII).
Documentation. Ce sont les fichiers qui décrivent les données. Ils peuvent être créés
sur la base d’un logiciel de traitement de texte ou ils peuvent être de simples fichiers
textes.
Questionnaires. Les questionnaires utilisés pour l’enquête sont généralement dans les
formats spécifiques aux logiciels.
Rapports. Les rapports (y compris les tables) établis sur la base des données sont géné-
ralement dans le format spécifique au logiciel.
Codes (par exemple, emploi, profession, accident). Des codes types ou des codes
spécifiques au pays sont utilisés pour l’enquête.
CLS. Pour faciliter le travail de l’administration, toutes les informations relatives aux
enquêtes sur le travail des enfants devraient être stockées dans un seul répertoire, qui
peut être nommé le «CLS», ou répertoire du travail des enfants. Le CLS constitue le
répertoire de base pour toutes les informations relatives à ce sujet.
VER_1. En raison du fait que différentes versions des données vont inévitablement
évoluer, une option est de créer un sous- répertoire nommé VER_1.
52
Données, Document et Rapport. Trois sous- sous- répertoires nommés Données,
Document et Rapport peuvent ensuite être incorporés sous VER_1. Un fichier index
décrit le contenu de chaque répertoire.
• Répertoire des données. Le répertoire des données contient seulement des fichiers
de données qui peuvent être spécifiques au logiciel ou des fichiers textes. Attendu
les fichiers textes de données sont toujours associés aux codebooks, ces derniers
apparaissent aussi dans le même répertoire. Un fichier index expliquera le contenu
de chaque fichier.
• Répertoire du rapport. Ce répertoire contient tous les rapports liés aux données, y
compris le rapport national, le profil du pays, etc. Un fichier index présente le contenu
de chaque fichier.
VER_2. Lorsqu’un changement dans le fichier des données crée une version différente,
le fichier de documentation qui s’y rapporte doit aussi changer. On devrait au moins
indiquer ce qui a changé dans le fichier de données, les raisons et la période du chan-
gement. Cela exigera une refonte totale de la structure du répertoire. Cependant, si la
capacité de stockage pose problème, seulement les fichiers qui ont été changés devraient
être stockés dans le répertoire VER_2; tous les fichiers inchangés devraient être trans-
férés à VER_2. Le fichier index dans VER_1 devrait aussi être mis à jour pour inclure
l’emplacement actuel des fichiers manquants (répertoire VER_2 dans cet exemple) de
sorte que tous les fichiers demeurent facilement repérables. Cela s’explique par le fait
que les utilisateurs examineront en premier lieu les dernières versions lorsqu’ils recher-
chent des fichiers.
Un modèle similaire devrait être suivi pour la structure des répertoires externes. Toute-
fois, le nombre de fichiers externes peut être plus faible que le nombre correspondant
de fichiers dans le répertoire interne en raison du fait que certains fichiers peuvent ne
pas être accessibles aux utilisateurs externes. Aucun répertoire VER_1 ne devrait être
accessible aux utilisateurs externes. Ceux-ci devraient toujours pouvoir consulter la
dernière version.
Si les fichiers sont traduits dans une autre langue, chaque version de langue exigera une
structure complète et séparée de répertoire similaire à celle présentée dans la figure 1 ci-
dessous. Les noms dans les cases représentent les répertoires, alors que les noms non en
encadrés représentent les fichiers. Pour rendre la présentation plus facile, les noms des
fichiers n’ont pas été établis selon la méthode 8.3 (voir section 2.3, l’affectation d’un nom
aux fichiers).
Une fois les fichiers transférés pour un stockage permanent, les administrateurs doivent
vérifier qu’aucun fichier n’a été endommagé au cours du transfert. Afin d’assurer un trans-
fert de tous les fichiers à l’abri des erreurs, les contrôles suivants sont nécessaires:
• les numéros et noms des fichiers doivent correspondre aux informations pertinentes
du fichier index ;
• les fichiers doivent être garantis exempts de virus;
53
• les fichiers source et destination doivent être de taille égale (en bits);
• les fichiers devraient être ouverts au hasard pour voir s’ils on été convenablement
transférés; et
• les administrateurs du système devraient accomplir tous autres contrôles qu’ils
estiment nécessaires.
• Si le système le permet, les dates de création des fichiers devraient demeurer
inchangées.
4.4 Sauvegarde
Une fois que le traitement des données est achevé, les procédures de sauvegarde
devraient être appliquées. Un ensemble complet de données sur le travail des enfants est
généralement inférieur à 640MB et il est mieux stocké sur un CD simple. Le CD devrait être
clairement marqué pour identifier son contenu et la date de sa création. Tout changement
dans les données ou la documentation exige soit un CD de stockage séparé, soit un nouvel
ensemble de données qui portera une indication sur la date de sa création et sera transféré à
un répertoire séparé sur le même CD.
54
CLS
INTERNE EXTERNE
Ver_1 Ver_2
La structure sera
la même que
dans la Version 1
Données Document Rapport Index. txt Données Document Rapport Index. txt
Index. txt Index. txt Index. txt Index. txt Index. txt Index. txt
55
Transfert des fichiers au BIT
Toutes les micro-données sur le travail des enfants ainsi que la documentation et les
rapports nécessaires seront stockés dans le répertoire central des données sur ce sujet. Tout
en prenant toujours en considération les questions de confidentialité, ces données seront
accessibles à des utilisateurs secondaires.
Les fichiers peuvent être transférés au BIT sur la base des procédures FTP. Des détails
sur la manière de transférer les fichiers utilisant FTP seront fournis avant le transfert effec-
tif. Toute personne désirant poser des questions est priée de contacter le BIT par e-mail:
simpoc@[Link]
4. toute règle logique établie au cours du traitement des données et ne figurant nulle
part dans la langue originale;
8. tout système de codage ou référence à des informations sur le codage (par exemple,
emploi, profession et accidents) dans MSWord;
9. tout rapport basé sur l’ensemble des données, de préférence en MSWord et dans
la langue originale; et
10. toutes les questions mentionnées ci-dessus dans toute autre langue, dans le cas où
elles sont traduites.
57
Bibliographie et références supplémentaires
Center for Statistical Information and Research (CSCAR). Guide to data entry. University
of Michigan.
[Link]
Data Documentation Initiative. Codebook DTD Version 1.0 (FINAL) March 17 2000
[Link]
Data, Government and Geographic Information Services. SSDC Data File Structure in a
Nutshell. University of California, San Diego.
[Link]
Inter-University Consortium for Political and Social Research (ICPSR). Guide to Social
Science Data Preparation and Archiving.
[Link]
59
North Carolina State University – Department of Statistics. How to Collect Survey Data.
[Link]
Rasinski, K., Timberlake, J., Lee, L., Porras, J., and Mulrow, J.: Producing a Public Use
File: A Case Study. American Statistical Association.
[Link]
U.S. Department of Health and Human Services. Documenting Survey Data Files.
[Link]
U.S. Department of Health and Human Services. Producing welfare outcomes data files.
[Link]
UCLA Academic Technology Services, SPSS Learning Module Match: Merging Data Files.
University of California, Los Angeles.
[Link]
UCLA Academic Technology Services, SPSS Class notes: Splitting and merging files.
University of California, Los Angeles.
[Link]
UK Data Archive
[Link]
60
Glossaire 24
Cas. Données complètes à propos d’une personne, d’un ménage ou d’une entité. Cela est
parfois désigné par observation ou unité d’observation. Un enregistrement simple ou
des enregistrements multiples, selon la structure de l’enquête et des données, pourraient
constituer un cas.
CAPI. Computer-aided personnal interviewing. Les données sont collectées sur la base d’in-
terviews face à face. De petits ordinateurs (ordinateurs de poche, ordinateurs portables
ou des supports électroniques portables qui peuvent être connectés aux ordinateurs)
sont utilisés pour la collecte des données.
CATI. Computer-aided telephone interviewing. Les données sont collectées sur la base d’in-
terviews par téléphone. De petits ordinateurs (ordinateurs de poche, ordinateurs porta-
bles ou des supports électroniques portables qui peuvent être connectés aux ordina-
teurs) sont utilisés pour la collecte des données.
Code. Dans la plupart des fichiers de données numériques, les réponses aux questions sont
enregistrées à l’aide de chiffres plutôt que par un texte et souvent même les réponses
numériques sont enregistrées par le biais des nombres au lieu de la réponse réelle. Les
nombres utilisés dans le fichier de données sont appelés «codes». Ainsi, quand une
personne interrogée se qualifie d’enfant qui travaille, un code «1» devrait être utilisé
pour «cherche l’eau», «2» pour «mendie», etc. De même, un âge de 18 ans peut rece-
voir le code 2 indiquant «18 ans ou plus». Les codes utilisés et leur correspondance par
rapport aux réponses réelles sont énumérés dans le codebook ou, en cas de codage
préalable, dans le questionnaire.
Connexion directe par câble. Une procédure basée sur Windows par l’intermédiaire de
laquelle les fichiers sont transférés entre des ordinateurs qui ne sont pas en réseau. Le
programme est mis en place au cours de l’installation de Windows, et il se trouve géné-
ralement sous le groupe de programme «Accessoires ➙ Communication». Les ordi-
nateurs ont d’abord besoin d’être connectés par leurs ports / de série / parallèles. Les
Plusieurs définitions du glossaire sont basées sur le «Glossary of Selected Social Science
24
61
deux ordinateurs ont aussi besoin de recevoir une configuration appropriée avant le
transfert des fichiers.
DDI. La Data Documentation Initiative (DDI) est un effort pour établir des critères et une
méthodologie internationale en matière de contenu, de présentation, de transport et de
conservation des métadonnées au sujet des ensembles de données dans les sciences
sociales et du comportement.
Double saisie. C’est lorsque, au cours de la saisie des données, les mêmes informations sont
saisies par deux personnes différentes et ensuite comparées pour détecter les erreurs.
DTD. Document type definition (DTD) est un ensemble de règles déterminé par une appli-
cation qui utilise SGML (Standard Generalized Mark-up Language) en vue du balisage
des documents d’un type particulier.
Fichier plat. Il s’agit de la structure du fichier. Un fichier plat est un fichier dans lequel
chaque personne interrogée ou chaque unité d’analyse comporte le même nombre de
variables. Souvent connu sous le nom de fichier rectangulaire par opposition à fichier
hiérarchisé.
FTP. File transfer protocol (FTP) est une méthode sûre de transfert électronique des fichiers
entre des ordinateurs en réseau.
Fichier hiérarchisé. C’est un fichier de données ASCII dans lequel plusieurs types d’enre-
gistrements sont organisés. Le type et (généralement) le nombre de variables associées
à chaque personne interrogée ou unité d’analyse sont différents pour chaque type d’en-
registrement. Par exemple, un ménage peut être enregistré type 1, qui comporte 10 varia-
bles décrivant le bâtiment, alors qu’une personne peut être enregistrée type 2, qui comp-
rend 20 variables séparées décrivant chaque membre vivant dans ce bâtiment.
HTML. HyperText Markup Language. HTML est une langue véhiculaire pour la publica-
tion d’hypertextes sur le World Wide Web.
Imputations. C’est le procédé par lequel on peut estimer les valeurs manquantes pour des
questions auxquelles la personne interrogée dans le cadre d’une enquête n’a pas
répondu.
Saisie intelligente des données. Il s’agit de l’utilisation d’un logiciel capable aussi bien
d’aider à la détection des erreurs au cours de la saisie des données qu’à fournir des
mesures préventives destinées surtout à éviter les erreurs.
LapLink. C’est un logiciel qui permet le transfert des fichiers entre des ordinateurs qui ne
sont pas connectés par l’intermédiaire d’un réseau. Deux ordinateurs sont d’abord
connectés à l’aide d’un câble Laplink au moyen de leurs ports parallèles ou de leurs
ports de série. Lorsque les ordinateurs sont mis en marche en mode DOS et que le logi-
ciel LL3 (LapLink 3.0) est exécuté, les fichiers peuvent être transférés facilement entre
deux ordinateurs.
Métadonnée. C’est une information relative aux données. Elle représente l’information qui
permet une utilisation effective, efficace et exacte de l’ensemble des données auquel
elle se réfère.
Microdonnée. Ce sont des informations basées sur des réponses individuelles, collectées
dans le cadre d’une forme particulière de procédure de collecte des données (interviews
face à face, dans la plupart des enquêtes sur le travail des enfants). Les fichiers conte-
nant les microdonnées sont connus sous le nom de fichiers de microdonnées.
62
Valeurs manquantes. Ce sont les valeurs (codes) qui manquent dans un ensemble de
données. Parfois, une donnée pour une variable particulière est laissée en blanc pour
un enregistrement particulier. Cela peut se produire, par exemple, lorsque la question
n’est pas applicable à ce cas.
PAPI. Interview avec papier et crayon- lorsque les données sont collectées dans le cadre
d’interviews face à face et que les réponses sont enregistrées sur papier (sur le ques-
tionnaire). Toutes les données sont alors saisies à l’aide d’un ordinateur pour y être
ensuite traitées.
RDF. Resource description framework. Un moyen type de décrire une entité, par exemple,
les conditions dans lesquelles certaines données ne peuvent pas être disponibles à
certains utilisateurs.
Enregistrement. Données complètes à propos d’une personne, d’un ménage ou d’une entité.
Un certain nombre de variables constitue un enregistrement. Quand un enregistrement
constitue un cas, le nombre d’enregistrements est le même que celui des cas (observa-
tion ou unité d’observation) dans un fichier de données.
Type d’enregistrement. Parfois, dans le même fichier de données ASCII, la même colonne
concerne une variable différente. Le codebook associé à un fichier de données ASCII
explique comment un logiciel de statistique interprètera chaque colonne du fichier de
données selon le type d’enregistrement.
Telnet. Un procédé par lequel on peut accéder à distance à un autre ordinateur en réseau et
utiliser les ressources disponibles de l’ordinateur en question.
Unité d’analyse. C’est l’entité de base observable analysée par une enquête, et pour laquelle
les données sont collectées sous forme de variables. Bien qu’une unité d’analyse soit
parfois signalée comme un cas ou une observation, ces termes ne sont pas toujours
synonymes. Avec les enquêtes sur le travail des enfants, l’»unité d’analyse» est une
personne, alors qu’un «cas» est un ménage parce que le ménage peut comporter diffé-
rentes variables pour les différentes unités d’analyse, à savoir un abri physique, une
famille dans le bâtiment et une personne dans la famille.
Variable. Dans la recherche en sciences sociales, pour chaque unité d’analyse, chaque sujet
de donnée (par exemple l’âge de la personne, le revenu de la famille) est appelé variable.
63
entière, des «coefficients de pondération» sont donc affectés à chaque cas et utilisés
pour ajuster les résultats globaux de manière à les rendre plus adaptés à la population
totale.
Code aberrant. Dans la recherche en matière d’enquête, les codes aberrants sont des codes
qui ne sont pas autorisés pour une question particulière. Par exemple, si une question
qui enregistre le sexe de la personne interrogée possède les codes documentés de «1»
pour féminin, «2» pour masculin et «9» pour «donnée manquante», un code de «3»
serait un code «aberrant», appelé parfois «code non documenté».
XML. Extensible Markup Language est le format universel pour les documents structurés
et les données sur le World Wide Web.
64
Annexe I
1 024 (utilisant
Largeur max.
la liste des
du fichier d’entrée 1 mega-octet
8 192 8 192 32 767 données) (plus
de données (sous Windows)
si File Handle
de format brut
est utilisé)
Windows Windows Pas de limite
Dimensions max. Limité par la Limité par la NTFS: NTFS: (limité
du fichier mémoire libre la mémoire libre 17GB. 4 trillions GB. seulement
de données de la machine de la machine Autre Autre par l’espace
Windows: 2GB Windows: 2GB du disque)
Pas de limite Pas de limite Pas de limite
(limité (limité (limité
Nombre max.
2 147 483 647 2 147 483 647 seulement seulement seulement
d’observations
par l’espace par l’espace par l’espace
du disque) du disque) du disque)
Pas de limite
(limité
Nombre max.
2 047 2 047 32 767 32 767 seulement
de variables
par l’espace
du disque)
Longueur max.
du nom 8 32 8 32 8
de la variable
Longueur max.
de l’étiquette
de la variable 80 80 40 256 255
Longueur max.
de l’étiquette 80 80 40 256 60
de la valeur
Longueur max.
de l’étiquette
80 80 ? 32 60
d’un ensemble
de données
Longueur max. 8 pour courte
d’une variable 80 80 200 32767 chaîne; 255 pour
de chaîne longue chaîne
Nombre max. de
codes de valeurs 1 1 27 27 Pas de limite
manquantes
25
Basée sur «les services de la technologie académique d’UCLA»: SPSS FAQ Quelles sont
les limites de la version 10 de SPSS et des autres logiciels de statistique, [Link]
edu/stat/spss/faq/[Link]
65
STATA STATA SAS SAS SPSS
Version 6 Version 7 Version 6.12 Version 8.x Version 10
Nombre max. de
notes qui peuvent
être jointes 9 999 9 999 N/D N/D Pas de limite
à un fichier
de données
Nombre
d’ensembles de
données pouvant 1 1 Pas de limite Pas de limite 1
être ouverts
simultanément
Nombres
Dates Nombre de Nombre de Nombre de jours Nombre de de secondes
calculées jours à partir jours à partir jours à partir jours à partir à partir
en tant que du 1/1/1960 du 1/1/1960 du 1/1/1960 du 1/1/1960 du 14 Oct.
1582
Nombre max.
de variables clés 10 10 Pas de limite Pas de limite Pas de limite
dans une fusion
Nombre max.
de niveaux dans
l’encodage / 80 80 N/D N/D Pas de limite
le recodage
automatique
Nombre max.
de conditions
30 100 Pas de limite Pas de limite Pas de limite
dans une
instruction «si»
Nombre max.
de lignes
3000 3000 32 760 unités 32 760 unités Pas de limite
dans une table
à une entrée
Nombre max.
de lignes
300 300 32 760 unités 32 760 unités Pas de limite
dans une table
à double entrée
Nombre max.
de colonnes
dans une table
à double entrée 20 20 32 760 unités 32 760 unités Pas de limite
66
Annexe II
Cette liste donne les noms de pays (formes courtes officielles des noms en français) par
ordre alphabétique tels qu’ils sont donnés dans l’ISO 3166-1 et des codes alpha-2 correspon-
dants de l’ISO 3166-1.
Cette liste est mise à jour chaque fois qu’une modification est apportée par l’agence
d’entretien de l’ISO 3166 à la liste officielle des codes de l’ISO 3166-1.
Cette liste est complète et à jour au 26 février 2001. Elle donne 239 noms dans leur
forme courte officielle et leur élément de code correspondants.
AFGHANISTAN AF
AFRIQUE DU SUD ZA
ALBANIE AL
ALGERIE DZ
ALLEMAGNE DE
ANDORRE AD
ANGOLA AO
ANGUILLA AI
ANTARCTIQUE AQ
ANTIGUA-ET-BARBUDA AG
ANTILLES NEERLANDAISES AN
ARABIE SAOUDITE SA
ARGENTINE AR
ARMENIE AM
ARUBA AW
AUSTRALIE AU
AUTRICHE AT
AZERBAIDJAN AZ
BAHAMAS BS
BAHREIN BH
BANGLADESH BD
BARBADE BB
BELARUS BY
BELGIQUE BE
BELIZE BZ
26
Basé sur l’organisation internationale pour la standardisation: [Link]
prods-services/iso3166ma/02iso-3166-code-lists/[Link]
67
BENIN BJ
BERMUDES BM
BHOUTAN BT
BOLIVIE BO
BOSNIE-HERZEGOVINE BA
BOTSWANA BW
BOUVET, ILE BV
BRESIL BR
BRUNEI DARUSSALAM BN
BULGARIE BG
BURKINA FASO BF
BURUNDI BI
CAIMANES, ILES KY
CAMBODGE KH
CAMEROUN CM
CANADA CA
CAP-VERT CV
CENTRAFRICAINE, REPUBLIQUE CF
CHILI CL
CHINE CN
CHRISTMAS, ILE CX
CHYPRE CY
COCOS (KEELING), ILES CC
COLOMBIE CO
COMORES KM
CONGO CG
CONGO, LA REPUBLIQUE DEMOCRATIQUE CD
COOK, ILES CK
COREE, REPUBLIQUE DE KR
COREE, REPUBLIQUE POPULAIRE DEMOCRATIQUE DE KP
COSTA RICA CR
COTE D’IVOIRE CI
CROATIE HR
CUBA CU
DANEMARK DK
DJIBOUTI DJ
DOMINICAINE, REPUBLIQUE DO
DOMINIQUE DM
EGYPTE EG
68
EL SALVADOR SV
EMIRATS ARABES UNIS AE
EQUATEUR EC
ERYTHREE ER
ESPAGNE ES
ESTONIE EE
ETATS-UNIS US
ETHIOPIE ET
FALKLAND ILES (MALVINAS) FK
FEROE, ILES FO
FIDJI FJ
FINLANDE FI
FRANCE FR
GABON GA
GAMBIE GM
GEORGIE GE
GEORGIE DU SUD ET LES ILES SANDWICH DU SUD GS
GHANA GH
GIBRALTAR GI
GRECE GR
GRENADE GD
GROENLAND GL
GUADELOUPE GP
GUAM GU
GUATEMALA GT
GUINEE GN
GUINEE-BISSAU GW
GUINEE EQUATORIALE GQ
GUYANA GY
GUYANE FRANCAISE GF
HAITI HT
HEARD, ILE ET MCDONALD, ILES HM
HONDURAS HN
HONG-KONG HK
HONGRIE HU
ILES MINEURES ELOIGNEES DES ETATS-UNIS UM
ILES VIERGES BRITANNIQUES VG
ILES VIERGES DES ETATS-UNIS VI
INDE IN
69
INDONESIE ID
IRAN,REPUBLIQUE ISLAMIQUE D’ IR
IRAQ IQ
IRLANDE IE
ISLANDE IS
ISRAEL IL
ITALIE IT
JAMAIQUE JM
JAPON JP
JORDANIE JO
KAZAKSTAN KZ
KENYA KE
KIRGHIZISTAN KG
KIRIBATI KI
KOWEIT KW
LAO, REPUBLIQUE DEMOCRATIQUE POPULAIRE LA
LESOTHO LS
LETTONIE LV
LIBAN LB
LIBERIA LR
LIBYENNE, JAMAHIRIYA ARABE LY
LIECHTENSTEIN LI
LITUANIE LT
LUXEMBOURG LU
MACAO MO
MACEDOINE, L’EX-REPUBLIQUE YOUGOSLAVE MK
MADAGASCAR MG
MALAWI MW MV
MALDIVES MV
MALI ML
MALTE MT
MARIANNES DU NORD, ILES MP
MAROC MA
MARSHALL, ILES MH
MARTINIQUE MQ
MAURICE MU
MAURITANIE MR
MAYOTTE YT
MEXIQUE MX
70
MICRONESIE, ETATS FEDERES DE FM
MOLDOVA, REPUBLIQUE DE MD
MONACO MC
MONGOLIE MN
MONTSERRAT MS
MOZAMBIQUE MZ
MYANMAR MM
NAMIBIE NA
NAURU NR
NEPAL NP
NICARAGUA NI
NIGER NE
NIGERIA NG
NIOUE NU
NORFOLK, ILE NF
NORVEGE NO
NOUVELLE-CALEDONIE NC
NOUVELLE-ZELANDE NZ
OCEAN INDIEN, TERRITOIRE BRITANNIQUE DE L’ IO
OMAN OM
OUGANDA UG
OUZBEKISTAN UZ
PAKISTAN PK
PALAOS PW
PALESTINIEN OCCUPE, TERRITOIRE PS
PANAMA PA
PAPOUASIE-NOUVELLE-GUINEE PG
PARAGUAY PY
PAYS-BAS NL
PEROU PE
PHILIPPINES PH
PITCAIRN PN
POLOGNE PL
POLYNESIE FRANCAISE PF
PORTO RICO PR
PORTUGAL PT
QATAR QA
REUNION RE
ROUMANIE RO
71
ROYAUME-UNI GB
RUSSIE, FEDERATION DE RU
RWANDA RW
SAHARA OCCIDENTAL EH
SAINTE-HELENE SH
SAINTE-LUCIE LC
SAINT-KITTS-ET-NEVIS KN
SAINT-MARIN SM
SAINT-PIERRE-ET-MIQUELON PM
SAINT-SIEGE (ETAT DE LA CITE DU VATICAN) VA
SAINT-VINCENT-ET-LES-GRENADINES VC
SALOMON, ILES SB
SAMOA WS
SAMOA AMERICAINES AS
SAO TOME-ET-PRINCIPE ST
SENEGAL SN
SEYCHELLES SC
SIERRA LEONE SL
SINGAPOUR SG
SLOVAQUIE SK
SLOVENIE SI
SOMALIE SO
SOUDAN SD
SRI LANKA LK
SUEDE SE
SUISSE CH
SURINAME SR
SVALBARD ET ILE JAN MAYEN SJ
SWAZILAND SZ
SYRIENNE, REPUBLIQUE ARABE SY
TADJIKISTAN TJ
TAIWAN, PROVINCE DE CHINE TW
TANZANIE, REPUBLIQUE -UNIE DE TZ
TCHAD TD
TCHEQUE, REPUBLIQUE CZ
TERRES AUSTRALES FRANCAISES TF
THAILANDE TH
TIMOR ORIENTAL TP
TOGO TG
72
TOKELAU TK
TONGA TO
TRINITE-ET-TOBAGO TT
TUNISIE TN
TURKMENISTAN TM
TURKS ET CAIQUES, ILES TC
TURQUIE TR
TUVALU TV
UKRAINE UA
URUGUAY UY
VANUATU VU
Vatican, Etat de la Cité du voir SAINT-SIEGE
VENEZUELA VE
VIET NAM VN
WALLIS ET FUTUNA WF
YEMEN YE
YOUGOSLAVIE YU
Zaire voir CONGO, LA REPUBLIQUE DEMOCRATIQUE
ZAMBIE ZM
ZIMBABWE ZW
73
Annexe III
Questionnaire sur le travail des enfants en Zambie en fin de décennie
(module éducation) 27
QUESTIONS
NUMÉRO DE 1 2 3 4
LA PERSONNE
Contrôler l’âge, si c’est … a-t-il/elle jamais Pourquoi n’a … jamais Quel est/était le niveau
15 ans ou plus, poser la fréquenté l’école fréquenté l’école? le plus élevé atteint?
question primaire/
secondaire? TRAVAILLE . . . . . . . . . 1 INDIQUER LE NIVEAU
Peut … lire une lettre ou CHER . . . . . . . . . . . . . 2
un journal? OUI . . . . . . . . . . 1 >>Q4 TROP LOIN . . . . . . . . . 3
NON . . . . . . . . . . . . . . 2 INSCRIPTION
FACILEMENT. . . . . . . . 1 REFUSEE. . . . . . . . . . 4
AVEC DIFFICULTE . . . . 2 AUTRE . . . . . . . . . . . . 5
PAS DU TOUT . . . . . . . 3 (Spécifier)
N/A OU AVEUGLE . . . . 8 >> PERSONNE
DK. . . . . . . . . . . . . . . . 9 SUIVANTE
QUESTIONS A POSER AUX PERSONNES ÂGÉES DE 5 À 30 ANS TOUS LES AUTRES >> MODULE SUIVANT
NUMÉRO DE 5 6 7 8
LA PERSONNE
Durant l’année scolaire Quel type d’école … Quel niveau … a-t-il/elle Quelle est la principale
actuelle … a-t-il/elle fréquente? actuellement atteint? raison que … ne
fréquenté une école fréquente pas l’école?
primaire/secondaire à PUBLIQUE. . . . . . . . . . 1 INDIQUER
un moment donné PRIVÉE . . . . . . . . . . . . 2 LE NIVEAU >> TRAVAIL . . . . . . . . . . . 1
sans tenir compte des MISSION. . . . . . . . . . . 3 CHER . . . . . . . . . . . . . 2
vacances? COMMUNAUTAIRE . . . 4 Q9 TROP LOIN . . . . . . . . . 3
AUTRES . . . . . . ……. 5 NON SELECTIONNÉ/
OUI . . . . . . . . . . . . . . . 1 ÉCHEC. . . . . . . . . . . . 4
NON . . . . . . . . . . . . 2>> GROSSESSE . . . . . . . . 5
Q8 L’ECOLE
ACHEVÉE . . . . . . . . . 6
S’EST MARIÉ . . . . . . . 7
AUTRE . . . . . . . . . . . . 8
(SPÉCIFIER)
QUESTIONS A POSER SEULEMENT AUX PERSONNES AGEES DE 5 A 30 ANS TOUS LES AUTRES >> MODULE SUIVANT
NUMÉRO DE LA PERSONNE 9 10 11
[Link] du BIT/IPEC/SIMPOC/Zambia
74
Annexe IV
Un modèle de carnet de codage pour des données ASCII créées avec SAS 28
28
Voir aussi [Link]
75
Nom du fichier: Hhold
Section: Section 4
Nombre unique
Q4 . 1 Quel est le type d’habitation occupé par le ménage (Si ce ménage occupe
plusieurs habitations, entourer le type principal d’habitation)
Nom de la var. Q41DWELL Position: 11 Type/longueur: Numérique 3
Code valide 1 Maison ou structure de briques sur un terrain ou
un jardin* séparé
2 Habitation traditionnelle/hutte/ Structure faite
de matériaux* traditionnels
3 Appartement dans une résidence*
4 Maison en ville/ agglomérat/ semi-détachée
(simplex, duplex ou triplex)*
5 Maison / appartement / Chambre derrière la maison
6 Habitation non conventionnelle/cabane derrière
la maison
7 Habitation non conventionnelle/cabane indépendante
de la maison par exemple dans un squat / une zone
traditionnelle (informel)*
8 Chambre(s) /garage non situé derrière la maison
mais dans une propriété* commune
9 Caravane / tente*
10 Autre, spécifier
-99 Non spécifié
* Inclure dans les catégories 1 à 4 et 7 à 9 des structures similaires pour les fermes
commerciales
76
Q4.3 Quelle est la principale source d’énergie /combustible pour ce ménage?
(Chauffage)
Nom de la var : Q43HEATI Position: 20 Type/longueur: Numérique 3
Code valide: 1 Electricité
2 Gaz
3 Pétrole
4 Bois
5 Charbon
6 Bougies
7 Fumier
8 Energie solaire
9 Autre, spécifier
-99 non spécifié
Q4.4a (Poser les question Q4.4 si la réponse à Q4.3 est 4 ou 7) qui ramasse ce
bois/recueille ce fumier?
Nom de la var: Q44ACOLL Position: 26 Type/longueur: Numérique 4
Code valide: 1 Quelqu’un d’étranger au ménage(le bois/le fumier
livrés ou personne payée pour le faire) (passer à la
question Q4.5)
2 Quelqu’un d’étranger à la maison (gratuit au ménage)
(aller à la question Q4.5)
3 Seulement un adulte/des adultes du ménage
4 Seulement un enfant/des enfants (de moins de 18 ans)
du ménage
5 Un adulte/des adultes et un enfant/des enfants
(de moins de 18 ans) du ménage
6 Autre, spécifier
-99 Non spécifié
-999 Non applicable
77
Q4.5 Quelle est la principale source d’eau du ménage?
Nom de la var. Q45WATER Position: 34 Type/longueur: Numérique 3
Code valide 1 Canalisations d’eau (robinet) dans l’habitation
(Aller à Q4.7)
2 Canalisation d’eau (robinet) sur le site ou dans
le jardin (Passer à Q4.7)
3 Robinet public
4 Le transporteur d’eau /camion-citerne
5 Eau de puits sur le site
6 Eau de puits en dehors du site/communal
7 Réservoir d’eau de pluie sur le site
8 Cours d’eau/ruisseau
9 Réservoir/bassin/eau stagnante
10 Puits
11 Source
12 Autre, spécifier
-99 Non spécifié
Q4. 7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? (Peut-être plusieurs
parcelles)
a) Un membre du ménage est propriétaire du terrain ou appartient à
l’entité légale qui possède le terrain
78
Nom de la var. Q47BRELA Positon 49 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable
Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? Peut-être plusieurs
parcelles)
b) La terre a été attribuée par une autorité tribale ou traditionnelle à un
membre du ménage
Nom de la variable: Q47BRELB Position: 53 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable
Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail (peut-être plusieurs
parcelles)
c) La personne responsable du terrain autorise un membre du ménage à
utiliser le terrain
Nom de la var. Q47 BRELC Position: 57 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
– 99 Non spécifié
-999 Non applicable
Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? (peut-être plusieurs
parcelles)
d) Un membre du ménage loue le terrain
Nom de la var: Q47BRELD Position: 61 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable
Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? (peut-être plusieurs
parcelles)
e) Le ménage devait fournir un travailleur pour la personne responsable
du terrain
Nom de la variable: Q47BRELE Position: 65 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable
Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? (peut-être plusieurs
parcelles)
f) Le versement d’un loyer sous forme d’une partie de la production
(partage de la récolte)
79
Nom de la var. Q47BRELF Position: 69 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable
Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? (peut-être plusieurs
parcelles)
g) Le droit d’utiliser le terrain parce que travaillant pour le propriétaire
Nom de la var: Q47BRELG Position: 73 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable
Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail (peut-être plusieurs
parcelles)
h) Le ménage a un accès gratuit au terrain
Nom de la var. Q47BRELH Position: 77 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable
Q4. 8a Pour les derniers 12 mois, pourriez- vous S. V. P. me dire dans lesquelles
des catégories suivantes se situe le revenu total brut annuel de votre
ménage. Inclure tous versements et toutes sources de revenu
Nom de la var. Q48AGROS Position: 81 Type/longueur: Numérique 3
Code valide: 1 Pas de revenu
2 R1- R1 200
3 R1 202- R2 400
4 R2 401- R4 200
5 R4 201- R6 000
6 R6 001- R9 000
7 R9 001- R12 000
8 R12 001- R18 000
9 R18 001- R30 000
10 R30 001- R42 000
11 R42 001- R54 000
12 R54 001 ou plus
13 Ne sait pas
14 Refuse
-99 Non spécifié
80
Q4.8b Est-ce que le revenu du ménage comporte
b) des salaires temporaires?
Nom de la var.: Q48BCASU Position: 87 Type/longueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié
81
Q4.8c Un membre de la famille reçoit-il les prestations suivantes, en totalité ou
en partie du fait qu’il/elle travaille?
b) nourriture ou repas
Nom de la var.: Q48CSUBB Position: 108 Type/longueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié
82
1 Gujarati
19 Hindi
1 Isandebele/Ndebele/South Ndebele/North Ndebele
2 Isixhosa/Xhosa
3 Isizulu/Sizulu/Zulu
15 Italien
4 Néerlandais
16 Portugais
4 Sepedi /Northern Sotho
5 Sesotho/Southern Sotho/Sotho
6 Setswana/Tswana
25 Shona
7 Siswati/Swazi
24 Swahili
18 Tamil
20 Telegu
8 Tshivenda /Venda
22 Urdu
9 Xitsonga /Tsonga /Shangaan
0 Autre
-99 Non signalé
83
Statistiques descriptive: HHOLD. Dat
Variable N Moyen Std Dev Minimum Maximum
84
ANNEXE V
Données en ASCII:
01234 1 1 Codebook pour enregistrement de ménage
32161 232 0 (Enregistrement type 1)
19082 230 1
02234 1 0 colonnes 1-5 LOGEMENT
11231 240 1 colonne 7 type d’enregistrement
03234 1 0 colonne 9 GROUPE
43711 227 0
04234 1 0
40221 213 1 Codebook pour enregistrement de personne
41162 222 0 (Enregistrement type 2)
16173 224 1
10234 1 1 Colonnes 1-4 PERSONNE
30111 220 0 Colonne 5 P_NUM (NUMERO DE PERSONNE)
36222 211 1 Colonne 7 type d’enregistrement
21234 1 0 Colonnes 8-9 AGE
21751 217 0 Colonne 11 SEXE
33962 210 1
32143 226 1
Fichier de données plat (Après que les données ci-dessus aient été chargées avec SPSS
1234 1 3216 1 32 0
1234 1 1908 2 30 1
2234 0 1123 1 40 1
3234 0 4371 1 27 0
4234 0 4022 1 13 1
4234 0 4116 2 22 0
4234 0 1617 3 24 1
10234 1 3011 1 20 0
10234 1 3622 2 11 1
21234 0 2175 1 17 0
21234 0 3396 2 10 1
21234 0 3214 3 26 1
29
Basée sur «les services de la technologie académique d’UCLA»: SPSS FAQ : Lecture des
données en hiérarchie [Link]
85
Fichier ASCII plat de largeur fixe
86