0% ont trouvé ce document utile (0 vote)
75 vues92 pages

2003 Dpguide FR

Transféré par

David
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
75 vues92 pages

2003 Dpguide FR

Transféré par

David
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Programme d’information statistique et de suivi sur le travail des enfants (SIMPOC)

Programme international pour l’abolition du travail des enfants (IPEC)

Traitement des données


et stockage des fichiers électroniques
concernant une enquête
sur le travail des enfants
Guide pratique

Version revisée en décembre 2003

Bureau international du Travail · Genève


Copyright © Organisation internationale du Travail 2004

Les publications du Bureau international du Travail jouissent de la protection du droit d’auteur en vertu du protocole no 2, annexe
à la Convention universelle pour la protection du droit d’auteur. Toutefois, de courts passages pourront être reproduits sans auto-
risation, à la condition que leur source soit dûment mentionnée. Toute demande d’autorisation de reproduction ou de traduction
devra être adressée au Bureau des publications (Droits et licences), Bureau international du Travail, CH-1211 Genève 22, Suisse.
Ces demandes seront toujours les bienvenues.

ISBN 92-2-213629-2

Première édition 2004


(Original Anglais)

Les désignations utilisées dans les publications du BIT, qui sont conformes à la pratique des Nations Unies, et la présentation des
données qui y figurent n’impliquent de la part du Bureau international du Travail aucune prise de position quant au statut juridique
de tel ou tel pays, zone ou territoire, ou de ses autorités, ni quant au trace de ses frontières.
Les articles, études et autres textes signés n’ engagent que leurs auteurs et leur publication ne signifie pas que le Bureau interna-
tional du Travail souscrit aux opinions qui y sont exprimées.
La mention ou la non-mention de telle ou telle entreprise ou de tel ou tel produit ou procédé commercial n’implique de la part du
Bureau international du Travail aucune appréciation favorable ou défavorable.

Les publications du Bureau international du Travail peuvent être obtenues dans les principales librairies ou auprès des bureaux
locaux du BIT. On peut aussi se les procurer directement a l’adresse suivante: Publications du BIT, Bureau international du Travail,
CH-1211 Genève 22, Suisse. Des catalogues et listes des nouvelles publications peuvent être obtenus gratuitement a la même
adresse.

Photocomposé en Suisse BRI


Imprimé sen Suisse VAU
Avant-propos et remerciements

La production des résultats d’enquête dans une forme présentable est souvent retardée
pour différentes raisons. L’une des raisons les plus importantes est que les questions relati-
ves au traitement des données ne sont abordées ni de manière adéquate ni suffisamment tôt.
Tout en mettant l’accent sur l’importance d’un traitement des données sérieux et bien docu-
menté, ce guide fournit des lignes directrices détaillées à l’attention des planificateurs d’en-
quêtes, des personnes chargées de l’exploitation des données et des administrateurs de systè-
mes informatiques au sujet de la planification et des activités concrètes en matière de
traitement des données et de stockage des fichiers créés. Le guide présente aussi les condi-
tions et les procédures liées au transfert des fichiers électroniques au BIT, au terme des enquê-
tes sur le travail des enfants, un processus qui doit contribuer au développement d’un réper-
toire global des données. L’objectif principal est de faciliter la création de micro-données
de grande qualité à partir des enquêtes sur le travail des enfants.

Ce guide a été préparé par Muhammad Q. Hasan de SIMPOC /IPEC du BIT. De


nombreuses personnes impliquées dans les enquêtes sur le travail des enfants ont apporté
leur contribution à ce travail. Nous voudrions exprimer nos sincères remerciements à toutes
les personnes concernées. Nous souhaiterions également remercier M. Sylvester Young,
Directeur du Bureau de Statistique du BIT, ainsi que M. Farhad Mehran du Département de
l’Intégration des Politiques du BIT pour leurs précieux commentaires et suggestions.

Il est prévu que ce guide soit révisé et reproduit de manière régulière. Pour cela, les
suggestions et commentaires seront toujours les bienvenus. Les utilisateurs pourraient
envoyer directement leurs commentaires à simpoc@[Link]

iii
Table des matières

1. Introduction
1.1 Présentation .............................................................................................................. 1
1.2 Collecte des données sur le terrain: une vue d’ensemble .......................................... 2
1.3 Importance du traitement des données .................................................................... 3

2. Planification
2.1 Introduction .............................................................................................................. 5
2.2 Planification de la politique du traitement des données ............................................ 5
2.3 Définition des aspects pertinents d’un ensemble de données.................................... 5
2.4 Choix du matériel informatique et des logiciels........................................................ 15
2.5 Identification du personnel ........................................................................................ 19
2.6 Calendrier du traitement des données........................................................................ 20
2.7 Stratégie de conservation des données et procédures d’accès .................................. 20

3. Traitement des données


3.1 Introduction .............................................................................................................. 23
3.2 Saisie des données et validations préliminaires ........................................................ 24
3.3 Ajout, fusion et division de fichiers .......................................................................... 25
3.4 Validation des données .............................................................................................. 31
3.5 Décisions finales sur les erreurs ................................................................................ 34
3.6 Achèvement du traitement des données et création de fichier(s) de données .......... 34
3.7 Elaboration de l’ensemble des données accessibles au public .................................. 36
3.8 Documentation finale ................................................................................................ 37
3.9 Tabulations finales .................................................................................................... 45
3.10 Conversion des fichiers de données à d’autres formats ............................................ 46
3.11 Stockage des fichiers ................................................................................................ 47

4. Conservation des données


4.1 Introduction .............................................................................................................. 51
4.2 Organisation des fichiers .......................................................................................... 51
4.3 Transfert des fichiers à une machine de conservation .............................................. 53
4.4 Sauvegarde ................................................................................................................ 54

Transfert des fichiers au BIT ...................................................................................................... 57

Bibliographie et références supplémentaires ............................................................................ 59

v
Glossaire ...................................................................................................................................... 61

Annexes
Annexe I Comparaison des logiciels de statistique........................................................ 65
Annexe II Noms des pays en Français et éléments de codes .......................................... 67
Annexe III Questionnaire sur le travail des enfants en Zambie en fin de décennie
(module éducation) ........................................................................................ 74
Annexe IV Un modèle de codebook pour des données ASCII créées avec SAS ............ 75
Annexe V Structure de l’ensemble de données .............................................................. 85

vi
1. Introduction

1.1 Présentation

Le Programme d’information statistique et de suivi sur le travail des enfants (SIMPOC)


de l’IPEC / BIT soutient les enquêtes sur les activités des enfants menées dans plusieurs
pays. L’un des aspects les plus importants de ce programme est la collecte, l’archivage et la
diffusion de micro-données crédibles, bien documentées et facilement accessibles. Cela exige
la planification, l’organisation et l’exécution d’activités planifiées à grande échelle, notam-
ment au niveau national, où il est prévu que les données collectées soient archivées pour une
période indéterminée.

Ces informations fourniront au BIT la base d’un répertoire global de données sur le
travail des enfants accessible à différentes personnes dans de nombreux pays et dans divers
environnements informatiques. Les données devront donc être nettoyées, sans incohéren-
ces, bien documentées et facilement accessibles de manière à être utilisées à tout moment
dans les activités de recherche et l’élaboration des décisions. L’ensemble des données reçu
par le BIT devra aussi être complet – englobant notamment des codebooks et des question-
naires – et être prêt à être utilisé de manière simple par tout analyste dans tout environne-
ment informatique.

Les enquêtes sur le travail des enfants comprennent trois étapes. Tout d’abord, les
données sont collectées dans le cadre d’entretiens avec les enfants et d’autres membres de
la famille. La collecte de données est suivie du traitement de données après contrôle des
informations collectées permettant d’y déceler les erreurs éventuelles et de créer les micro-
données et les fichiers de documentation pertinents. Enfin, l’analyse des données est accom-
plie en considérant certaines exigences ou politiques supplémentaires.

Le traitement des données est un processus difficile et complexe, mais dans beaucoup
de cas, il s’agit de l’étape qui reçoit le moins d’attention. Les activités liées au traitement
des données telles que l’élaboration de plans destinés à l’équipement, aux logiciels et à la
formation du personnel peuvent être menées de manière parallèle à celles portant sur la
conception de l’enquête et la collecte de données sur le terrain. Etant donné que toutes les
enquêtes sur le travail des enfants sont soumises à des contraintes strictes en matière de
temps, il est recommandé que les procédures concernant la planification, la formation et les
tests soient achevées avant que la collecte des données sur le terrain ne soit entamée.

L’étape de traitement des données comporte plusieurs stades différents, chacun d’eux
englobant de multiples échelons où des erreurs peuvent survenir. Les enquêtes sur le travail
des enfants sont des opérations plus limitées que les recensements, mais vu que la plupart
d’entre elles sont des enquêtes effectuées pour la première fois et qu’elles recueillent beau-
coup plus d’informations que d’autres enquêtes générales sur les ménages, elles ont tendance
à être plus complexes. Alors que les activités globales de traitement des données sont à beau-
coup d’égards similaires à celles d’autres enquêtes générales (de type enquêtes auprès des
ménages), les enquêtes sur le travail des enfants exigent parfois plus de temps et de ressour-
ces en raison de la taille plus importante de leurs échantillons et de leurs questionnaires.

La publication de résultats d’enquêtes de façon présentable est généralement retardée


étant donné que les questions sur le traitement des données n’ont été abordées ni de manière
appropriée, ni suffisamment tôt. Ce guide présente dans un premier chapitre une vue d’en-
semble de l’étape de la collecte de données avant de mettre l’accent sur l’importance du trai-
tement des données et de fournir ensuite des lignes directrices détaillées sur ses modalités
d’exécution, en insistant en particulier sur les questions propres aux enquêtes sur le travail
des enfants. Le chapitre 2 traite des questions de planification liées au traitement des données.
Le chapitre 3 examine le déroulement du traitement des données et, immédiatement

1
l’achèvement d’une enquête sur le travail des enfants, la création de fichiers, y compris un
ensemble de données bien documenté accessible au public. L’un des objectifs principaux de
ce guide est d’aider les personnes chargées du traitement des données au niveau national à
produire des ensembles de données propres et fiables ainsi que la documentation nécessaire
que les analystes secondaires pourront utiliser, au terme des enquêtes, en vue de la produc-
tion de données globales fiables. Le chapitre 4 fournit des informations sur la manière de
conserver les ensembles de données, permettant ainsi un accès aisé continu sur une période
indéterminée.

Les questions sur l’élaboration des enquêtes, l’analyse des données et la diffusion des
données ne sont pas du ressort du présent guide.

Les informations présentées dans les chapitres suivants devraient être considérées
comme de simples lignes directrices- les procédures exposées ici peuvent bien entendu être
adaptées en fonction des ressources et de l’expérience nationale disponibles.

Le présent guide, dans son ensemble, est destiné aux planificateurs et aux experts qui
contrôlent les activités de traitement des données. Le chapitre 3, cependant, est destiné de
manière spécifique aux personnes qui s’occupent effectivement du traitement des données,
alors que le chapitre 4 est adressé aux administrateurs de système informatique responsa-
bles du stockage des données des enquêtes sur le travail des enfants. Ce guide fournit égale-
ment une vue d’ensemble des activités de traitement des données qui peuvent être menées
au cours de l’étape d’élaboration de l’enquête.

1.2 Collecte des données sur le terrain: une vue d’ensemble

En général, la collecte de données peut exiger différentes méthodes en commençant


par l’interview face à face ou par téléphone jusqu’à la photographie aérienne. Cependant,
les enquêtes sur le travail des enfants n’exigent que des interviews face à face avec seule-
ment deux méthodes possibles.

PAPI. Se basant sur les entretiens avec papier et crayon, les enquêteurs remplissent le
questionnaire sur le papier en enregistrant les données au crayon. Les opérateurs de
saisie font la saisie des données sur ordinateur ou les convertissent dans une forme
lisible par ordinateur par l’intermédiaire d’une technique de numérisation doublée d’une
technologie de reconnaissance des caractères. Quelle que soit la méthode choisie lors
de la saisie des données, les informations devront être contrôlées. Différents moyens
sont utilisés pour s’assurer que les données sont convenablement saisies. Des détails
supplémentaires à ce sujet seront fournis dans les prochains chapitres.

CAPI. Pour des interviews assistées par ordinateurs, les enquêteurs sont munis de dispo-
sitifs électroniques portatifs (par exemple, des ordinateurs de poche et des ordinateurs
portables) permettant l’enregistrement numérique direct des données. Cette méthode
offre des avantages par rapport à PAPI en ce sens que les erreurs majeures se produi-
sent seulement au moment de la saisie des données. Ce qui peut être contrôlé immé-
diatement après la collecte des données. Les données sont alors transférées aux ordi-
nateurs, sans qu’il soit nécessaire de perdre davantage de temps pour la saisie
supplémentaire, et le nettoyage des données peut commencer immédiatement.

Le présent guide traite de PAPI qui est la méthode de collecte des données appliquée
dans la plupart des enquêtes sur le travail des enfants.

2
1.3 Importance du traitement des données

De par sa nature, le travail des enfants reste une question obscure à beaucoup d’égards;
et les enquêtes recherchent des données quantitatives fiables au sujet des différents problè-
mes qui s’y rattachent. Les enquêtes nationales exigent d’importantes sommes d’argent et
d’énormes efforts d’organisation de la part des ministères, des bureaux nationaux de statis-
tiques ainsi que d’autres organismes. Les données qui en résultent sont alors fournies aux
décideurs, aux chercheurs, aux spécialistes chargés de l’élaboration des estimations globa-
les et aux responsables des campagnes de publication des effets défavorables du travail des
enfants. Toutes ces personnes ont besoin de données facilement accessibles et fiables sur les
différents aspects du travail des enfants.

Des erreurs liées ou non à l’échantillonnage apparaissent dans les données d’enquête.
Les erreurs d’échantillonnage surviennent durant la phase d’élaboration des échantillons et
ne sont pas traitées dans ce guide. Les erreurs n’ayant pas trait à l’échantillonnage peuvent
émaner des personnes interrogées, des enquêteurs, du personnel de saisie des données ou
des programmeurs. L’un des objectifs principaux du traitement des données est de décou-
vrir ces erreurs et de les éliminer dans les meilleurs délais. Lorsque des erreurs irréparables
sont découvertes, elles devraient être balisées avec les explications nécessaires. Les erreurs
non identifiées et non balisées peuvent fausser l’interprétation des données et, en définitive,
provoquer l’adoption de politiques inappropriées.

Des activités de traitement des données sérieuses et précises – comportant la correc-


tion des erreurs, les contrôles logiques et la compilation des informations en tant que base
de la documentation – sont indispensables pour l’obtention d’informations fiables en matière
d’enquête. Autrement, la production d’une enquête réussie (données collectées sur le terrain)
se limiterait à quelques tables contenant des informations douteuses. Les analystes secon-
daires trouveront difficile, sinon impossible, d’utiliser les données, alors que les décideurs
nationaux et internationaux risquent d’être trompés par les résultats de l’enquête.

L’une des clés d’un traitement réussi des données réside dans une planification minu-
tieuse. Les différentes activités qui y sont rattachées doivent être détaillées le plus tôt possi-
ble, et devraient inclure des plans de rechange.

Le traitement des données est très important pour le résultat d’une enquête, et le
nettoyage et la vérification des données sont essentiels.

3
2. Planification

2.1 Introduction

La préparation des données de grande qualité exige une planification adéquate, et néces-
site deux éléments essentiels:
• la méthode statistique. Il est conseillé de recourir à de bons outils pour la collecte
des données ainsi qu’à une méthodologie développée en matière d’enquête.
• le traitement et le stockage de l’ensemble de données. Un second élément essentiel
exige une utilisation avisée des outils de traitement des données en place, une métho-
dologie du traitement et, si possible, un matériel informatique et des logiciels à jour.

Dans la plupart des cas, les enquêtes sur le travail des enfants sont menées soit en tant
que processus indépendants, soit comme opérations rattachées en tant que module à une
enquête nationale auprès des ménages. Dans les enquêtes indépendantes, les enfants et leurs
parents sont d’habitude interrogés. Sur la base des investigations initiales, ce manuel suppose
que toutes les enquêtes sur le travail des enfants ont recours à des entretiens sur la base de
papier et de crayon (PAPI) en vue de la collecte de données. La planification de l’enquête
et le nettoyage des données sont discutés à la lumière de cette hypothèse.

A la fin des interviews, les données collectées sont saisies à l’aide d’un ordinateur. La
saisie des données sur le terrain peut avoir lieu sous le contrôle des superviseurs de l’équipe
technique de terrain ou au siège de l’enquête, qui est normalement le bureau national de
statistique. Si les données sont saisies sur le terrain, un fichier au moins sera créé pour chaque
emplacement sur le terrain. Etant donné que c’est le même questionnaire d’enquête qui est
utilisé, tous les fichiers créés sur différents emplacements sur le terrain seront identiques
quant au nombre de variables. Peu importe la manière dont les données sont saisies, les diffé-
rents fichiers sont soit ajoutés avant leur nettoyage, soit corrigés et ensuite ajoutés. Ces acti-
vités sont normalement effectuées au siège central de l’enquête.

Lorsqu’une enquête est effectuée sous forme de module rattaché à toute autre enquête
auprès des ménages (par exemple, un module sur la santé et l’éducation des membres du
ménage), les données sur le travail des enfants peuvent être collectées en même temps que
d’autres modules (tout comme pour les enquêtes indépendantes) ou en tant que module
complet sans les informations sur le ménage (qui sont collectées en tant que partie d’un autre
module). Les données peuvent également être collectées à différentes périodes (par exemple,
s’il est rattaché à une enquête trimestrielle sur la main-d’oeuvre, l’échantillon total sera
couvert sur une période d’une année). Dans de tels cas, les informations sur le ménage
doivent être tirées des autres fichiers de données et ensuite rattachées aux données sur le
travail des enfants. Ces cas entraînent à la fois l’ajout et la fusion de données. (L’ajout et la
fusion sont décrits plus loin de manière plus détaillée dans ce guide.) Une fois achevée la
préparation du fichier de données, un nettoyage des données est nécessaire (un nettoyage
partiel peut également avoir lieu dans chaque fichier de module).

Il faudrait noter que le travail des enfants est difficile à définir à moins que toutes les
informations pertinentes sur les enfants ne soient examinées à fond – comprendre les causes
et les conséquences du travail des enfants exige une analyse des informations sur le ménage
et des autres membres de la famille.

Un autre scénario 1 peut se présenter lorsque l’enquête est menée par étapes, avec une
série de questionnaires se référant à différentes entités ou différant de par leurs couvertures

1
Un exemple de ceci serait le rapport national supervisé par SIMPOC sur l’enquête des acti-
vités des jeunes en Afrique du Sud en 1999, http//[Link]/childlabour/simpoc/southafrica/
report/[Link].

5
respectives. Dans cette situation, les données devraient être présentées dans des fichiers
séparés, sans fusion ni ajout de cas.

Toutes les situations décrites précédemment nous font prendre conscience du fait qu’une
planification minutieuse est nécessaire avant de procéder au traitement des informations
collectées et de les rendre prêtes à l’analyse. Toutes les questions relatives à la planification
peuvent être abordées pendant que l’élaboration de l’enquête est en cours. Si les contrain-
tes financières et temporelles ne posent pas problème, toutes les activités de traitement des
données devraient être testées au cours de l’enquête pilote. (Si la méthode de collecte des
données CAPI est utilisée, cela est essentiel.). Il faudrait noter qu’une planification minu-
tieuse effectuée au préalable réduit considérablement le temps réel consacré au traitement.

Les sections suivantes traitent des questions de planification qui doivent être prises en
considération avant le traitement effectif des données.

2.2 Planification de la politique de traitement des données

Deux aspects de la planification sont importants pour le traitement des données. D’un
côté, nous devons décider comment le traitement effectif des données doit être accompli, et
cela est traité en détail au chapitre 3. Mais nous devons d’abord nous demander quelles sont
les ressources et les définitions qui sont nécessaires pour un traitement des données effectif
et efficace. Nous pouvons appeler cette étape initiale «planification de la politique».

La planification de la politique comprend les étapes essentielles suivantes:

• la définition des aspects pertinents de l’ensemble des données à produire;

• le choix du matériel informatique et des logiciels;

• l’identification du personnel;

• l’établissement du calendrier nécessaire pour le traitement des données;

• la formulation d’une stratégie de conservation des données; et

• la désignation d’une procédure d’accès.

2.3 Définition des aspects pertinents d’un ensemble de données

Pour que les analystes puissent utiliser l’ensemble de données de manière efficace, il
faut que les micro-données soient d’abord traitées convenablement. Cela implique un certain
nombre d’étapes. La planification préliminaire est essentielle et inclut l’identification et la
définition de tels aspects de l’ensemble des données conformément à ce qui suit.

Variable d’identification d’un enregistrement

Pour identifier un cas ou un enregistrement, une variable d’identification est générale-


ment créée et codée avec une valeur unique. La méthode d’encodage et les éléments qui
constituent cette variable doivent être déterminés, et la variable -souvent désignée comme
l’unique identificateur d’enregistrement – devrait être nommée conformément à la procé-
dure décrite plus loin dans ce chapitre. Cette variable d’identification fournira le seul lien

6
entre l’ensemble de données original comportant toutes les variables et un ensemble de
données accessible au public (où beaucoup de variables d’identification peuvent avoir été
supprimées pour des raisons de confidentialité) ou lorsque les données se trouvent dans diffé-
rents fichiers, auquel cas une comparaison des informations est nécessaire.

A titre d’illustration, la combinaison du code de l’Etat ou de la province, du code de la


région et du numéro du logement peut être suffisante pour identifier individuellement le
domicile. Le numéro de ligne (position d’une personne dans un logement) peut être utilisé
pour identifier uniquement une personne dans un logement. D’autres approches peuvent
réaliser le même objectif, mais il faut toujours être prudent au moment de joindre de tels
numéros l’un après l’autre, et chaque ménage aussi bien que chaque personne vivant dans
un ménage devrait toujours avoir un unique identificateur.

Structure du fichier

Dans les enquêtes sur le travail des enfants, l’unité d’analyse est «l’enfant» ou «la
personne», alors que le milieu est le ménage, étant donné que les informations au sujet de
l’enfant ou de la personne sont collectées en identifiant en premier lieu un logement. Ainsi,
il est important de déterminer comment devraient être les fichiers de données définitifs.

La structure des fichiers de données peut varier considérablement dans le format et


l’organisation lorsque, au terme de la saisie des données, ils deviennent disponibles à des
analystes secondaires. Est-il préférable d’avoir un grand fichier de données avec un seul long
enregistrement de données (décrivant et l’enfant et le logement dans lequel il/elle vit par
exemple), ou désire-t-on avoir plusieurs petits fichiers de données avec de courts enregis-
trements de données (lorsque les informations sur l’enfant et le logement, par exemple, se
trouvent dans différents fichiers avec une variable de liaison)? Cette décision dépend de
facteurs tels que la façon dont l’enquête est menée et les logiciels de statistique utilisés pour
la saisie et le traitement de données. Les considérations suivantes pourront servir de lignes
directrices.

Un fichier de données peut contenir un long enregistrement ou plusieurs petits enre-


gistrements. Un grand nombre d’enregistrements ralentit la vitesse du traitement. Certains
logiciels de statistique (par exemple Stata) limitent les enregistrements à un nombre
maximum de variables. D’un autre côté, un des avantages des longs enregistrements dans
un fichier unique est que les analystes secondaires n’auront pas plus tard à fusionner les
fichiers. L’annexe I décrit les restrictions associées à des logiciels de statistique tels que
SPSS, SAS et Stata.

Les données peuvent être organisées dans un fichier de telle sorte que les enregistre-
ments du ménage soient suivis des enregistrements de la personne (avec différents types
d’enregistrements dans un fichier hiérarchisé ASCII). Il peut y avoir également deux fichiers
séparés: l’un pour le logement et l’autre pour les personnes vivant dans ce logement, avec
des variables de liaison bien définies communes aux deux fichiers dans le format spécifique
au logiciel. De même, il peut y avoir un fichier unique fusionné avec de longs enregistre-
ments. Les valeurs des nombreuses variables seront répétées pour les membres d’un seul
logement dans de tels fichiers, occupant ainsi plus d’espace de stockage. Chaque système a
ses avantages et ses inconvénients, et toute décision de planification doit examiner la ques-
tion de savoir combien de fichiers de données doivent être inclus dans l’ensemble de données
et quelle devrait être la structure de chacun d’eux.

Attendu la manière dont chaque logiciel manipule dans une certaine mesure les fichiers
de données, le fait de traiter de grands fichiers de données dans un environnement Windows
peut représenter un problème. Un fichier de données d’enquête sur le travail des enfants

7
pourrait devenir large lorsqu’il est associé à une enquête de main-d’oeuvre. Dans ce cas, il
peut y avoir le besoin de le subdiviser avant toute analyse.

La structure du fichier devrait être choisie en fonction des ressources disponibles en


matière informatique et de l’expérience des personnes chargées du traitement des données.
Cependant, en raison de sa simplicité, un unique fichier plat de données est recommandé,
quand cela est possible, pour les enquêtes sur le travail des enfants.

L’affectation d’un nom aux fichiers

Aussitôt qu’un fichier est créé, il doit porter un nom, et il est important de décider à
l’avance comment tous les fichiers doivent être nommés. Cela signifie tout au moins l’adop-
tion d’une convention sur l’affectation des noms.

Il est toujours recommandé que les noms reflètent le contenu des fichiers. Le numéro
de version du fichier peut également y être inclus. (Dans le chapitre trois, nous verrons
comment différentes versions peuvent être créées.). Pour les enquêtes sur le travail des
enfants, en particulier, il est recommandé que les informations suivantes soient incluses dans
le nom des fichiers:

• Le contenu du fichier (données, documentation, questionnaire, etc.);

• La personne à laquelle se rapporte le fichier (enfant, parent, les deux);

• Le numéro de la version;

• Le pays concerné; et

• Si le fichier est d’usage général ou restreint.

Une telle convention type sur l’affectation des noms aide considérablement les utilisa-
teurs à choisir le fichier correct à partir de l’ensemble de données. En général, cela facilite
le traitement du contenu, souvent beaucoup plus tard, des systèmes de stockage à l’aide des
ordinateurs qui peuvent contenir des milliers de fichiers. D’autres informations, telles que
l’année ou le cycle de l’enquête, peuvent également être incluses dans le nom du fichier.
Cependant, il y a généralement des restrictions quant au nombre de caractères utilisés pour
l’affectation d’un nom à un fichier, avec la plupart des systèmes informatiques autorisant
des structures de 8.3 – c’est-à-dire huit caractères pour le nom exact du fichier et trois carac-
tères pour l’extension du fichier (par exemple, MY_FILE.DOC). L’extension est générale-
ment prévue dans le logiciel qui a été utilisé pour créér le fichier. (MSWord, par exemple,
utilisera DOC comme extension). En d’autres termes, huit caractères seulement peuvent être
manipulés pour exprimer le plus d’informations possibles à propos de la nature du fichier.
Du fait de ces restrictions, la convention suivante d’affectation des noms est recommandée.

Tous les noms de fichiers devraient commencer par un code de pays (l’Annexe II
énumère les codes de deux caractères) suivi des abréviations C pour enfant, P pour parent
ou F pour famille (les parents et les enfants) et H pour logement. Le numéro de la version
vient après et, vu que plus de neuf versions peuvent facilement être élaborées avec le temps,
deux caractères devraient être utilisés. G indique que le fichier est d’usage général et R qu’il
est d’usage restreint. Finalement, le huitième caractère – D, Q, ou C, représentant respecti-
vement les données, le questionnaire ou le codebook – indique le contenu du fichier. Si un
champ dans le nom du fichier n’est pas applicable, un tiret devrait le remplacer (_), simpli-
fiant ainsi les manipulations au cours du traitement informatique. En résumé, lorsque l’af-
fectation d’un nom à un fichier se fait selon une structure de 8.3, il est recommandé d’utili-
ser la convention suivante.

8
Les premiers huit caractères

• Premier et second caractères – code du pays

• Troisième et quatrième caractères – enfant/parent (personne), logement (habitations)


ou les deux
• C_ – pour enfant seulement
• F_ – pour enfant et parent (famille)
• H_ – pour logement
• P_ – pour parent seulement

• FH – un fichier unique contenant des informations aussi bien sur l’enfant, le parent
et le logement (habitations)

Note: un tiret (_) est utilisé pour remplir l’espace vierge laissé par le quatrième
caractère

• Cinquième et sixième caractère- numéro de la version


• 01-première version ou version originale
• 02- deuxième version, et donc pas la version originale
• Et ainsi de suite…

• Septième caractère- usage du fichier


• G – pour usage général (du public)
• R – pour usage restreint (interne) (en cas de données seulement)

• Huitième caractère- contenu du fichier


• C- pour codebook (normalement associé à un fichier de données ASCII)
• D- pour données
• I – pour résumé de la classification des professions
• L – règles de contrôle interne de cohérence
• Q – pour questionnaire
• S – pour résumé de classification des emplois
• V – pour liste des variables

Les trois derniers caractères, après le point, indique le type de fichier (propriétaire
ou autre).

Les exemples suivants devraient clarifier la convention:

BDC_01RD.DOC/SAV/POR

Un fichier contenant des données sur les enfants au Bangladesh, et qui représente la
version originale, pourrait être nommé BDC_01RD, où BD désigne Bangladesh;
C représente enfant; _ indique qu’il n’y a pas d’informations concernant le logement
(ou l’habitation); 01 signale que ce fichier représente une première version; R montre
que ce fichier est d’usage restreint; et D signifie donnée. Le fichier de données
correspondant accessible au public dérivé du fichier susvisé pourrait s’appeler

9
BDC_01GD. Les questionnaires associés pourraient être nommés BDC_01GQ. (Vu
que les questionnaires sont destinés à l’usage général, ils devraient toujours inclure le
code «G»). L’extension pourrait indiquer s’il s’agit d’un fichier de données ou d’une
documentation spécifique au logiciel. Par exemple, un fichier de données SPSS a une
extension SAV ou POR, alors que la documentation dans le MSWord prend une exten-
sion DOC.

UAFHO4RD. [xxx]

De façon similaire, un fichier contenant des données sur les parents, les enfants et leur
logement en Ukraine, et qui représente la quatrième version, peut être nommé
UAFHO4RD. La version accessible au public pourrait alors être désignée par
UAFHO4GD. Les questionnaires associés sont appelés UAFHO4GQ, alors qu’un
fichier de description de variables est nommé UAFHO4GV. Un fichier sommaire de
classification des emplois serait nommé UAFHO4GS. Tous les noms de fichiers inclu-
raient des extensions appropriées de trois caractères.

[Link]

Un fichier de données ASCII qui contient des données sur les parents, les enfants et les
ménages au Panama, et qui représente la seconde version, peut être nommé
[Link], et la version accessible au public serait [Link]. Le fichier du
codebook associé devrait être désigné par PAFHO2GC avec une extension TXT ou
DOC, selon le type du fichier.

Création et attribution de nom aux variables

Une fois l’enquête achevée, un ensemble de variables est créé à partir du questionnaire
(variables primaires). A une étape ultérieure, des variables dérivées peuvent être générées
en manipulant les variables primaires. A moins de suivre les conventions, l’affectation d’un
nom à ces variables peut paraître difficile. Voici quelques règles générales à suivre:

• Les noms des variables devraient traduire le sens du contenu des données qu’elles
représentent. Tout analyste potentiel devrait être sûr que le nom de la même varia-
ble s’applique à la même donnée. Par exemple, si deux questions sont utilisées pour
déterminer la situation professionnelle de la personne interrogée – par exemple, en
se renseignant au sujet du travail actuel et du travail habituel- les variables repré-
sentant ces questions ne devraient jamais être nommées «travail 1» et «travail 2»,
car on ne saurait plus alors à quelle question se réfère chaque variable.

• En principe, les questionnaires devraient être élaborés de telle sorte que chaque ques-
tion soit accompagnée d’un nom de variable désigné à l’avance. Par exemple: «Quel
âge avez-vous?» devrait être annoté du nom de la variable AGE. Ce type de ques-
tionnaire est souvent désigné comme étant un questionnaire annoté.

• Comme pour les fichiers, l’affectation d’un nom aux variables dépend souvent des
logiciels de statistique qui limitent le nombre de caractères de code à huit ou même
moins (par exemple SPSS) 2. L’environnement informatique qui prévaut dans un pays
déterminé influencera aussi les conventions d’affectation de noms.

2
Voir annexe I pour le nombre maximum de caractères autorisés pour l’affectation d’un nom
à une variable dans certains logiciels de statistique.

10
• Chaque réponse à une question à choix multiple devrait aussi se voir attribuer un
nom de variable. Par exemple: si la question numéro 9 possède 2 réponses à choix
multiple, les variables peuvent alors être nommées Q9A et Q9B.

Plusieurs méthodes différentes peuvent être appliquées à l’affectation d’un nom aux
variables 3.

Numéros croissants. Dans cette approche, les variables sont numérotées de façon
séquentielle. Ainsi, s’il y a 100 variables dans un fichier de données, elles peuvent être
numérotées de 1 à 100. Cependant, de nombreux logiciels statistique ne permettent pas
de choisir un chiffre comme premier caractère du nom d’une variable (par exemple avec
SPSS); auquel cas une lettre peut être ajoutée comme premier caractère du nom (par
exemple, en utilisant SPSS, les noms de variable seront automatiquement désignés soit
par V1....V100, soit par Var0001 ... V00100). Par la suite, les noms de variable peuvent
être changés manuellement. Toutefois, l’inconvénient de cette méthode est qu’il est
souvent impossible de comprendre le sens de la variable avec les questions correspon-
dantes sans les étiquettes supplémentaires. Dans ce sens, si l’on attribue manuellement
les noms aux variables, il peut se produire facilement des erreurs.

Numéros de questions. Une alternative possible à la méthode des nombres croissants


est de nommer les variables en se référant aux numéros des questions; par exemple, Q1
est la variable qui correspond à la question 1. Etant donné que les questions à réponse
multiple exigeraient la création de plus d’une variable pour une seule question, une
lettre peut être jointe au numéro de question, c’est-à-dire Q4a, Q4b, etc. Compte tenu
du fait que les questionnaires liés au travail des enfants sont composés de plusieurs
sections, la première lettre peut être choisie pour représenter la section (A1, A2 ... B4a,
B4b, etc., où A, B sont deux sections différentes). En outre, l’utilisation des étiquettes
supplémentaires permettrait d’expliquer le sens réel des variables.

Les noms mnémoniques. Dans cette méthode, les variables sont nommées avec des
mots représentant le concept de la variable. Toutefois, le même mot peut donner lieu à
différentes significations selon les utilisateurs. Aussi, la limite de huit caractères pour
chaque nom de variable est susceptible d’imposer des restrictions strictes à la trans-
mission du sens réel. Il est également difficile d’attribuer manuellement le même mot
à diverses variables traduisant le même type de signification.

Systèmes des préfixes, des racines et des suffixes. Une alternative possible à la
méthode précédente de construction des noms de variable est d’utiliser des mots abrégés
prédéfinis et de les joindre comme des préfixes, des racines et des suffixes. Ainsi, pour
toutes les variables liées aux enfants, on pourra employer CH comme préfixe; WW et
WY en qualité de racine pour décrire respectivement le travail de la semaine dernière
et le travail de l’année dernière; et GRP en termes de suffixe pour les cas de groupe.

Variables dérivées. Comme mentionné plus haut, des variables dérivées sont créées à
partir des variables primaires ou en combinant plusieurs variables primaires. Par
exemple, l’âge peut être une variable primaire, mais les analystes peuvent avoir besoin
d’informations portant sur les enfants appartenant au groupe d’âge 5 – 9 ans. Les infor-
mations concernant l’âge de chaque enfant sont alors regroupées pour former la varia-
ble dérivée «groupe d’âge». Il est toujours recommandé que les variables primaires et
dérivées soient distinguables. Pour différentes raisons, il est également recommandé
que les ensembles de données accessibles au public ne contiennent pas de grands
nombres de variables dérivées: celles-ci sont coûteuses en terme de temps de traitement
des données; pour être utilisées de manière convenable, elles ont besoin d’explications

3
Ceci suit les approches décrites dans: Le consortium inter universitaire pour la recherche en
sciences politiques et sociales (ICPSR), Guide pour l’élaboration et l’archivage de données de
sciences sociales. Se référer à http//[Link]/access/[Link]

11
adéquates; et les ensembles de données risquent de devenir trop longs et peu mania-
bles. De plus, les analystes de données peuvent ne pas avoir l’occasion d’utiliser plus
tard ces variables dérivées, et préfèrent adapter les variables dérivées à leurs propres
exigences.

Ne pas oublier que le coefficient de pondération inclus dans un ensemble de données


n’est pas une variable du questionnaire, et devrait être traité séparément. Il devrait être
nommé COEFFICIENT DE PONDERATION en utilisant la convention d’affectation des
noms appliquée à une variable primaire.

Les différents pays sont bien sûr libres de choisir la convention d’affectation des noms
appropriée à leurs variables. Cependant, dans le but d’établir une cohérence au niveau inter-
national par rapport aux données sur le travail des enfants, les règles suivantes sont recom-
mandées:
• utiliser la méthode du numéro de question dans l’affection d’un nom aux variables,
avec le caractère représentant la section comme premier caractère dans le nom de la
variable;
• utiliser la méthode du préfixe dans l’affectation d’un nom aux variables dérivées;
• utiliser les lettres majuscules pour les variables primaires dans la mesure du possible;
• utiliser les lettres minuscules pour les variables dérivées; et
• le coefficient de pondération devrait être nommé selon les règles appliquées aux
variables primaires, mais devrait en même temps être distinguable d’une variable
primaire.

Les étiquettes des variables

Il est plus difficile de comprendre un ensemble de données si les attributs associés aux
variables – par exemple le libellé de la question posée – ne sont pas convenablement décrits
dans cet ensemble de données. Les personnes qui veulent accomplir des analyses secondai-
res des enquêtes sur le travail des enfants préfèrent que toutes les informations soient conte-
nues dans l’ensemble de données. Une méthode de codification consiste à fournir une
étiquette adéquate à chaque variable.

Etant donné que de nos jours la plupart des logiciels de traitement de données (par
exemple SPSS) fournissent la possibilité d’ajouter des étiquettes, cette option devrait être
utilisée dans la description de chacune des variables. Si l’on retrouve des étiquettes inadap-
tées, le libellé de la question avec le numéro approprié pourrait faire office d’étiquette. Dans
le cas où il s’agit d’une variable dérivée, une étiquette peut être ajoutée pour montrer la ou
les variables utilisées en vue de la créer et si possible indiquer la raison sous-jacente à la
construction d’une telle variable.

Codage

Un logiciel de statistique est utilisé pour analyser les informations recueillies grâce à
la collecte de données sur le terrain. Ainsi, les informations ont besoin d’être transformées
en données que le logiciel peut manipuler. A cette fin, chaque réponse est codée, et le proces-
sus selon lequel chaque sujet est représenté par un symbole est connu sous le nom de codage.
Le codage devrait être entrepris durant le processus d’élaboration de l’enquête et il est impor-
tant que les personnes chargées du traitement des données soient eux-mêmes associés à cette
opération.

12
Les enquêtes sur le travail des enfants devraient être préalablement codées avant la
saisie des données. Toutes les valeurs possibles, notamment les valeurs telles que «non dispo-
nible», «non applicable», «a refusé de répondre» – devraient être incluses dans le question-
naire, et les enquêteurs devraient recevoir une formation adéquate. Ces mesures réduiront
de manière importante le temps nécessaire au personnel chargé de la saisie et du traitement
des données pour procéder au codage. Quelques lignes directrices ci-dessous sont tirées du
«Guide ICPSR pour la préparation et le stockage des données des sciences sociales» 4 et de
«L’analyse des enquêtes basées sur le dialogue en public» 5.

• Le besoin de codes supplémentaires devrait s’accroître (par exemple, en affectant un


code spécifique aux «questions flexibles»). On entreprend ceci convenablement au
système de codification défini au moment de l’élaboration du questionnaire. Il est
particulièrement important de s’assurer qu’il n’y a pas de chevauchement et que
chaque code s’accorde uniquement avec une seule catégorie.

• Pour les «questions flexibles», les principales catégories / classifications devraient


être identifiées, en examinant le nombre de réponses, et employées pour les codifi-
cations additionnelles. La signification de chaque code devrait être clairement docu-
mentée. Au cours de la procédure de la codification additionnelle, il est également
bien recommandé de préserver autant que possible assez d’information dans les
données telles qu’elles ont été collectées (c’est-à-dire ni les abréger ni les laisser de
côté, etc.).

• Pour la codification des professions, il est important de suivre un format standard


défini par des organismes reconnus en la matière – par exemple la classification inter-
nationale type des professions, CITP-88- et d’utiliser autant de chiffres et de détails
que possible.

• Spécifier toutes les valeurs manquantes possibles (telles que «non réponse» ou «non
applicable»). Accorder la même valeur (99, par exemple) à chaque type (par exemple
«non applicable») dans le même ensemble de données. L’un des facteurs suivants
est généralement responsable des valeurs manquantes dans les données d’enquêtes
sur le travail des enfants, et un code différent devrait être accordé à chaque cas.

• A refusé de répondre. Un enfant ou un parent n’a pas répondu à la question.


• Ne sait pas. Un enfant ou un parent était incapable de répondre à la question. Par
exemple, la personne interrogée pouvait ne pas avoir de notion de temps ou d’arith-
métique, et elle avait répondu «ne sait pas» à la question «quel était votre revenu
total l’année passée». (Les personnes interrogées devraient être encouragées à ne
pas répondre «ne sais pas»).
• Non applicable. Pour un motif bien valable, la question n’a pas du tout été posée.
Après une réponse «ne travaille pas», par exemple, aucune question relative au
salaire n’a été posée.
Il a été observé dans de nombreuses enquêtes sur le travail des enfants que les valeurs
manquantes étaient laissées en blanc ou codées 0 sans que ceci ne soit préalablement défini.
Cependant, il est de la plus grande importance que tous les cas reçoivent un code au cours
du processus de codage; ceux-ci devraient apparaître déjà codés dans le questionnaire. Si,
pour une raison ou une autre, il est attribué des codes aux valeurs manquantes, la docu-
mentation devrait inclure des descriptions précises.

4
ibid.
5
Dialogue en public: Analyse des enquêtes. Se référer à [Link]
org/[Link]

13
Il est souvent difficile de coder des sujets tels que les emplois et les professions. Quand
des codes sont établis, certaines classifications (emplois par exemple) peuvent manquer,
rendant encore plus difficile le travail des enquêteurs et des personnes chargées du traite-
ment des données. Pour cela, les pays sont encouragés à consulter les documents suivants
de l’OIT:

Classification internationale type des professions (CITP-88) 6


Classification internationale d’après la situation dans l’emploi (ISCE) 7
Classification internationale type par industrie de toutes les branches d’activité écono-
mique (CITAE) 8
Classifications des lésions professionnelles 9

Cette liste, qui n’est pas exhaustive, peut être accessible sur la page Web du Bureau de
Statistique 10. Les classifications sur le travail des enfants, les catégories concernées variant
d’un pays à un autre, ne sont pas encore définitives, et des systèmes additionnels de codage
peuvent encore avoir besoin d’être développés.

Les règles de contrôle de cohérence et de logique

Il est important d’élaborer autant de règles de contrôle logique que possible en exami-
nant à fond le questionnaire. Cela exige une compréhension détaillée du questionnaire et de
son déroulement, et aidera beaucoup les programmeurs au cours des étapes ultérieures. Tout
d’abord, des règles de contrôle de cohérence doivent être créées en étudiant le parcours de
chaque question (par exemple, si la réponse à la question 20 est «oui», ignorer les questions
21 et 22). Voici quelques échantillons de réponses du questionnaire qui justifient d’autres
règles de contrôle de cohérence:
• Un enfant âgé de moins de six ans est signalé comme ayant achevé l’école secon-
daire.
• Un enfant est signalé comme ne travaillant pas mais ramenant pourtant de l’argent
au ménage.
• Un enfant ne travaillant pas, mais signalé comme victime d’un accident du travail.

Un autre type de règle de contrôle logique doit être élaboré lorsque les données possè-
dent une valeur dans les normes mais ne semblent néanmoins pas justes. Par exemple, un
parent est signalé comme ayant 11 enfants. Cela peut être vrai, mais ne semble pas juste, et
peut bien constituer une erreur typographique. La valeur correcte peut être plutôt 1 enfant.
La règle correspondante pourrait être: «Marquer les cas où les parents déclarent avoir plus
de 10 enfants». Ces cas marqués ont alors besoin d’être contrôlés manuellement.

Imputations

Une fois les contrôles de cohérence accomplis, beaucoup de valeurs manquantes


peuvent être remplacées selon des règles d’imputation. Les imputations estiment quelles
seraient les valeurs manquantes lorsque les personnes interrogées n’ont pas fourni de réponse
à des questions données. Une des règles pourrait indiquer, par exemple, que le revenu d’une

6
Se référer à [Link]
7
Se référer à [Link]
8
Se référer à [Link]
9
Se référer à [Link]
10
Des détails peuvent être obtenus à partir de [Link]

14
personne peut être imputé en créant une formule comprenant l’âge, le type de travail, le taux
de salaire et le nombre de jours de travail effectué dans une région géographique détermi-
née. De telles formules devraient être élaborées autant que possible grâce à l’examen du
questionnaire.

Il doit être décidé comment les variables imputées doivent être incorporées dans l’en-
semble de données et, lorsque c’est nécessaire, des programmes informatiques adéquats
peuvent être élaborés et testés. Plus simplement, une variable complètement nouvelle peut
être créée, une variable qui inclut les valeurs imputées pour les codes manquants ou lorsque
les codes manquants sont remplacés par les valeurs imputées en même temps qu’une varia-
ble marquée de la valeur de 1 pour « imputée » et de 0 pour « non imputée ».

Coefficients de pondération

Les enquêtes sur le travail des enfants étant des enquêtes basées sur l’échantillonnage,
des coefficients de pondération doivent être calculés en vue de produire des estimations
nationales. En choisissant une procédure d’échantillonnage, nous devrions demander si les
erreurs courantes dues à l’échantillonnage aléatoire simple sont appropriées ou si des métho-
des plus complexes ne sont pas nécessaires. Si des coefficients de pondération sont requis,
ils devraient être décrits. Une indication claire du taux de réponse devrait être fournie dans
la documentation, indiquant la proportion de la population retenue dans l’échantillon qui a
effectivement participé à l’enquête. Le taux d’abstention, s’il est applicable, devrait aussi
être noté. Les coefficients de pondération sont généralement élaborés par des spécialistes,
et il est primordial qu’une formule de pondération comportant la description de tous ses
éléments soit obtenue bien avant le début du traitement des données.

Documentation

La documentation devrait faire partie de la planification globale, tout comme l’analyse.


Il doit être décidé qui est responsable de tenir le journal de tout ce qui se passe au cours du
traitement de données, y compris des considérations telles que les problèmes rencontrés, les
décisions importantes prises et toute méthode d’imputation adoptée. Des détails supplé-
mentaires de ce processus seront présentés dans la «documentation finale» (Section 3.8).

2.4 Le choix du matériel informatique et des logiciels

Le choix des ressources pour une enquête sur le travail des enfants dépend largement
du matériel informatique, des logiciels et du personnel du bureau national de statistique
disponibles. Du fait de ces exigences, les aspects suivants doivent être pris en considération
au moment de choisir le matériel informatique et les logiciels destinés au traitement des
données:
• les ordinateurs et les imprimantes
• la saisie et le nettoyage des données
• le traitement statistique et les tabulations
• les documentations et autres tabulations
• les outils de logiciels utilitaires
• les outils d’automatisation (pour accomplir des tâches répétitives)
• les utilitaires destinés à transférer les fichiers entre différents ordinateurs
• les logiciels anti-virus

15
• les accessoires du matériel informatique
• câbles, disques, CD, UPS, etc.

Ordinateurs et imprimantes

Compte tenu du fait que les données seront saisies en temps différé (par lots) et proba-
blement de façon parallèle, un ordinateur est nécessaire pour chaque opérateur chargé de la
saisie des données. Cependant, plusieurs opérateurs chargés de la saisie des données peuvent
partager le même ordinateur à des heures différentes. Des imprimantes capables d’imprimer
le format «Paysage» sont également nécessaires. Si des imprimantes matricielles sont utili-
sées, elles devraient avoir une capacité de 120 caractères par lignes.

Un ordinateur Pentium comportant un disque dur de 1 Go est plus que suffisant pour
le traitement des données et le stockage provisoire des données d’enquête sur le travail des
enfants. Un ordinateur permanent est aussi nécessaire lorsque l’ensemble de données final
sera archivé. Il est fortement recommandé que l’ordinateur utilisé pour le stockage perma-
nent des données ne soit pas le même que celui utilisé pour le travail quotidien, même si cet
ordinateur est un ordinateur central que se partagent différentes sections des bureaux de
statistique nationaux pour stocker leurs données sur une base permanente.

Saisie et nettoyage des données

L’élaboration des logiciels personnalisés destinés au contrôle des erreurs liées à la saisie
des données nécessite parfois un nombre important d’heures de travail. Une meilleure solu-
tion serait d’utiliser un logiciel de saisie automatique des données. La plupart de ces logi-
ciels disposent d’une certaine forme d’équipement de contrôle automatique. Au cours des
années, plusieurs organisations ont élaboré des logiciels de saisie des données, et de nomb-
reux de bureaux nationaux de statistiques utilisent un ou tous les programmes suivants pour
la saisie et les validations initiales de données (cette liste n’est pas exhaustive):

Blaise. 11 Un système flexible et relativement puissant a été mis au point par les Statis-
tiques des Pays-Bas pour les entretiens assistés par ordinateur, la saisie et la modifica-
tion des données. Blaise est un système de logiciel pour le traitement d’enquêtes sur
micro-ordinateurs. Il simplifie le traitement ultérieur des données collectées. Ce logi-
ciel est utilisé essentiellement dans les pays de l’Union européenne.

IMPS. 12 Elaboré par le Bureau de recensement des Etats-Unis, le système original de


traitement du micro-ordinateur intégré basé sur DOS a été remplacé par une version
sous Windows. Plusieurs pays en développement utilisent ce logiciel pour la saisie des
données.

ISSA. 13 Integrated Systems for Survey Analysis. Systèmes intégrés pour l’analyse d’en-
quêtes, Issa est produit conjointement par SerPro Ltda de Chili et Macro International
des Etats-Unis. Plusieurs pays en développement utilisent ce logiciel de saisie des
données. Les témoignages suggèrent que ISSA ne possède pas de large base d’utilisa-
tion dans les pays du programme SIMPOC et qu’il fournit un appui limité en matière
de cours de formation et de documentation.

11
Des détails peuvent être obtenus de la Statistique des Pays-Bas [Link]
12
Des détails peuvent être obtenus du Bureau de recensement des Etats Unis
[Link]
13
Des informations supplémentaires sont disponibles à SERPRO [Link]
[Link].

16
EpiInfo. 14 Ce programme de traitement de texte, de gestion de bases de données et de
statistiques pour la santé publique sur les micro-ordinateurs IBM compatibles est
produit par le Centre de Contrôle et de Prévention des maladies aux USA. Un grand
nombre de pays en développement utilisent ce logiciel pour la saisie des données.

CSPro. 15 Le système de traitement des enquêtes et des recensements a aussi été mis au
point par le Bureau américain du Recensement. Incorporant des caractéristiques de
IMPS, ISSA et EpiInfo, CSPro est destiné, en définitive, à remplacer aussi bien IMPS
que ISSA.

Une évaluation détaillée des logiciels présentés ci-dessus n’est pas du domaine du
présent manuel. En général, cependant, la disponibilité des ressources financières, de person-
nel formé et de micro-ordinateurs constitue un certain nombre de considérations importan-
tes pour le choix de tout logiciel dans le cadre d’une enquête sur le travail des enfants.

Là où aucun autre logiciel de saisie des données n’est disponible et où le bureau natio-
nal de statistique manque de personnel formé, CSPro (voir plus haut), le logiciel du domaine
public en provenance du Bureau américain du Recensement, peut être utilisé pour saisir,
mettre en forme des tableaux et «mapper» les données d’enquête. Ce logiciel, ainsi que sa
documentation, est gratuit en ligne, quoiqu’une inscription en ligne puisse être exigée. Le
Bureau américain du recensement peut organiser des programmes de formation payants.
Selon la documentation du logiciel, il est possible de manipuler des données d’enquête sur
le travail des enfants avec ce logiciel. Néanmoins, bien que plusieurs bureaux nationaux de
statistique aient déclaré utiliser des versions de ce logiciel, celles-ci doivent encore être
testées de manière spécifique en matière d’enquêtes sur le travail des enfants et il serait utile
d’engager des dépenses pour bénéficier d’une telle formation.

Une autre possibilité est Blaise (voir ci-dessus), un logiciel de saisie et de manipula-
tion des données d’une grande rapidité, convivial et possédant une fonction de modification
interactive et des capacités de gestion d’enquête. Ce logiciel n’est pas gratuit mais il est
proposé à un prix plus bas pour les pays en développement. Cependant, il possède un certain
nombre de caractéristiques qui rendent son utilisation plus difficile à apprendre pour les non
programmeurs. L’une de ces caractéristiques est l’utilisation de concepts avancés de program-
mation tels que la frappe de données et les paramètres de procédure. Une autre caractéris-
tique est l’absence de formes structurées pour aider à l’élaboration des formulaires de ques-
tionnaires et des variables. Blaise n’est pas très utilisé en dehors de l’Europe. De plus, il
n’existe pas encore dans les pays en développement de support d’utilisateur.

De toute manière, le logiciel devrait être testé au préalable, et les opérateurs de saisie
des données devraient recevoir une formation pour son utilisation et avoir une expérience
en matière d’enquêtes sur le travail des enfants avant de s’occuper de la saisie effective des
données.

Traitement et tabulations

Il est évident qu’en pratique tous les bureaux nationaux de statistique ont accès soit à
SAS, soit à SPSS, soit aux deux logiciels de statistique. Lorsque cela ne peut pas être le cas,
les bureaux nationaux de statistique devraient essayer d’adopter un logiciel de statistique
standard (par exemple, SPSS, SAS ou Stata). Là où ce n’est pas possible, le logiciel de saisie
des données peut aussi être utilisé à des fins de traitement des données d’une enquête sur le

14
Des détails peuvent être obtenus du Centre de contrôle et de Prévention des maladies
[Link]
15
Des détails peuvent être obtenus du Bureau de recensement des Etats Unis [Link]
[Link]/ipc/www/cspro/[Link].

17
travail des enfants. (Par exemple, l’analyse des données peut être accomplie en utilisant
EpiInfo). Voir l’Annexe I pour une comparaison entre SAS, SPSS et les logiciels de statis-
tique de Stata.

Documentation et autres tabulations

Microsoft Office Suite, comprenant Word, Excel et Access est utilisé par beaucoup de
bureaux de statistique et il est approprié pour la création de la documentation adéquate, y
compris la création de questionnaires. Aussi bien MSExcel, un tableur, que Access, un
gestionnaire de bases de données, sont des moyens conviviaux pour l’élaboration de tables.
TPL, un logiciel de création de tables créé par QQQsoftware 16, peut aussi être utilisé. A ce
niveau également, on peut dire que la disponibilité de ressources et la présence d’un person-
nel qualifié devraient être le critère principal dans le choix d’un logiciel particulier.

Logiciels utilitaires

La liste suivante de logiciels utilitaires n’est pas exhaustive car d’autres logiciels utili-
taires peuvent être actuellement utilisés dans différents pays.

Base de données. Les utilisateurs généraux n’ont souvent pas l’habitude des logiciels
de statistique et ils préfèreraient avoir un sous-ensemble de données (ou même la totalité
des données) dans un format de base de données. De nombreux logiciels de statistique
permettent de sauvegarder les données dans un format de base de données et les
programmes de bases de données tels que Microsoft Access sont parfois tout à fait utiles.

Logiciel de compression des fichiers (par exemple WinZip, PKZIP, gzip). Ce logi-
ciel est utilisé pour comprimer les fichiers. Il est parfois possible de réduire de 80 pour
cent ou plus la dimension des fichiers en utilisant ces types de logiciel. La compres-
sion est utile quand un disque dur ne comporte plus d’espace de stockage ou quand il
faut utiliser les disquettes pour transférer des fichiers d’un ordinateur à un autre.

Logiciel de compilation (par exemple Visual Basic, FoxPro, C++). Il s’agit d’un
logiciel de programmation autre que celui incorporé au logiciel de statistique. Les
compilateurs peuvent être utilisés pour mettre au point un environnement convivial pour
la saisie des données ou pour produire des logiciels d’automatisation intérieure person-
nalisés pour l’accomplissement de tâches répétitives.

Logiciels de conversion. Les logiciels utilitaires tels que STAT Transfer et DBMScopy
convertissent les fichiers d’un logiciel spécifique à un autre. SAS proc convert state-
ments peut facilement convertir les fichiers portables SPSS en ensembles de données
SAS.

Logiciels de transfert des fichiers. Il s’agit d’un logiciel qui permet de transférer les
fichiers d’un ordinateur à un autre, qu’ils soient ou non en réseau. Ces services incluent
une connexion directe de câble, qui est comprise dans le système d’exploitation
Windows, ou LL3 pour les transferts non basés sur Windows. Les programmes FTP
sont aussi utiles pour transférer les fichiers entre les ordinateurs en réseau.

Logiciels anti-virus. Des programmes tels que Norton Utilities, McAfee Virus Shield
et Scan Disk (qui peuvent ou non être prévus dans le système d’exploitation), non seule-
ment fournissent une protection contre les attaques de virus mais peuvent aussi parfois
être utiles pour récupérer des fichiers endommagés.

16
Des détails supplémentaires sont disponibles à QQQ Software, Inc [Link]

18
Les accessoires de matériel informatique

Mis à part les ordinateurs, les ressources nécessaires incluent les accessoires de maté-
riel informatique tels que les câbles, les disquettes, les CDs, l’UPS, les systèmes d’air
conditionné et les déshumidificateurs. Les problèmes qui y sont associés varient d’un pays
à un autre.

2.5 Identification du personnel

Les ressources humaines sont exigées dans les domaines suivants:

Le personnel de saisie des données. Ces personnes sont responsables de tâches telles
que la saisie des données et les validations initiales.

Bien que certains pays essayent d’utiliser la technologie de numérisation associée aux
systèmes de reconnaissance optique des caractères (OCR) pour la saisie des données,
la plupart des données d’enquête sur le travail des enfants continuent à être saisies
manuellement. Le personnel chargé de saisie des données doit bien connaître les logi-
ciels de saisie ainsi que la structure du questionnaire. En principe, il est conseillé de
prendre une personne ayant déjà une expérience préalable en la matière. Les opérateurs
de saisie des données doivent au minimum bien connaître le clavier et avoir des compé-
tences en dactylographie.

En règle générale: dix opérateurs de saisie de données travaillant de façon parallèle


environ 40 heures par semaine sont nécessaires pour saisir des données portant sur 8000
ménages pendant une période d’environ 2 mois et soumettre ces données à des valida-
tions préliminaires.

L’utilisation de la méthode CAPI de collecte des données supprime le besoin de recou-


rir à de tels opérateurs de saisie.

Le personnel de traitement des données. Ces personnes devraient être parfaitement


au courant du questionnaire de l’enquête, des activités de traitement des données, de la
modification et des tabulations nécessaires. Elles ont besoin de bien connaître les logi-
ciels de statistique et devraient être capables de découvrir et de corriger certains types
d’erreurs dans l’ensemble de données. Elles doivent aussi être capables d’accomplir
efficacement des tâches répétitives.

Le programmeur informatique. Cette personne devrait être capable d’élaborer des


programmes- que ce soit selon le format spécifique du logiciel ou en utilisant d’autres
langages de programmation – basés sur les règles de contrôle de cohérence. En prin-
cipe, la personne devrait aussi être capable de comprendre le questionnaire de l’enquête
et d’élaborer des règles de cohérence. Si des programmeurs sont associés à l’élabora-
tion du questionnaire, il est fortement recommandé qu’ils soient par la suite inclus dans
l’équipe de programmeurs.

Administration du système informatique. L’administrateur de systèmes informa-


tiques devrait être compétent – au courant de la gestion des systèmes autonomes ou des
systèmes en réseau, des imprimantes, des méthodes de transfert des fichiers, des
anti-virus, des opérations de sauvegarde et des méthodes de récupération des fichiers
endommagés.

Le superviseur. C’est un poste qui exige un spécialiste hautement qualifié dans le


traitement des données avec une expérience en programmation, capable de surveiller

19
l’ensemble des opérations. Il ou elle devrait avoir une expérience antérieure dans la
gestion du traitement des données d’une enquête ou d’un recensement et bien connaî-
tre les logiciels utilisés dans le domaine du travail des enfants.

Il est possible qu’une seule et même personne puisse accomplir plusieurs des activités
décrites ci-dessus. Si tel est le cas, le superviseur devrait décider lesquelles de ces activités
la même personne pourrait accomplir et déterminer la façon dont le temps de cette personne
serait réparti.

2.6 Etablir le calendrier du traitement de données

Le temps est toujours un facteur déterminant dans les enquêtes sur le travail des enfants.
Les procédures administratives, la non-soumission aux organismes donateurs de rapports
sur les progrès réalisés, la non-disponibilité des ressources et la formation du personnel sont
parmi les facteurs qui peuvent retarder la saisie et le traitement des données. Les plans
devraient prévoir que toutes les activités de traitement des données soient achevées dans un
délai de trois mois à partir de la date de début de saisie des données, ou même plus tôt. Parmi
les autres questions importantes à prendre en considération en ce moment figurent celles
d’identifier les tâches qui peuvent être menées de manière concomitante et de vérifier la
disponibilité des ressources humaines et informatiques.

Nous allons présenter ci-dessous des lignes directrices pour le traitement de 8000 enre-
gistrements de ménages avec environ 50 questions. Un nombre plus élevé d’enregistrements
ou de questions au sujet des ménages entraînerait la nécessité d’engager des ressources
supplémentaires et exigerait davantage de temps en vue de la saisie et du nettoyage des
données ainsi que de la correction des erreurs. Par contre, moins d’enregistrements ou de
questions en exigeraient moins. En règle générale, le chronogramme suivant pourrait être
consacré aux enquêtes indépendantes sur le travail des enfants:
• environ un mois pour la saisie de données, y compris le codage supplémentaire; et
• environ un mois pour les validations des données.

2.7 Stratégie de conservation des données et procédure d’accès

Les enquêtes se terminent souvent par la préparation des tableaux. Si les micro-données
ne sont pas archivées de manière adéquate, elles risquent en définitive de devenir obsolètes
si, par exemple, les données sont conservées dans un format spécifique et que le logiciel
utilisé pour créer les données est remplacé par une nouvelle version. La planification doit
prendre en considération le stockage des données ainsi que les stratégies destinées à établir
les modalités nécessaires pour permettre un accès ultérieur à ces informations.

Lors de l’établissement des procédures de conservation des données et de leur accès,


il est nécessaire d’accorder une attention particulière aux éléments suivants:

Matériel informatique. Parfois, c’est une machine partagée qui est utilisée, dans
laquelle d’autres ensembles de données sont stockés par le bureau national de statis-
tique. Il peut s’agir d’un poste de travail avec une capacité de stockage autonome ou
de tout serveur dans lequel des données sont stockées. Le minimum requis est un PC
Pentium qui n’est pas utilisé pour le travail quotidien.

Logiciel d’automatisation. Il peut s’agir d’un logiciel local et personnalisé qui peut
varier selon la catégorie de matériel informatique disponible dans le pays considéré.

20
Ce logiciel est utilisé pour accomplir des tâches répétitives, par exemple pour vérifier
que tous les fichiers sont transférés et catalogués.

Structure du répertoire. Elaborer une structure de stockage des fichiers de données,


de documentation et de programmes. Se rappeler que les fichiers seront créés en utili-
sant une variété de logiciels. Il n’est pas conseillé de stocker tous les fichiers relatifs
au même ensemble de données dans un répertoire unique. (Une structure de répertoire-
type est présentée au chapitre 4).

Politique d’accès. Décider qui est autorisé à accéder aux données. Une demande
d’accès peut émaner d’une personne à l’intérieur du service, d’un autre ministère ou
organisation ou d’une personne complètement étrangère. Une politique d’accès devrait
permettre, en général, l’accès des données à tous les utilisateurs. Néanmoins, l’accès à
certaines données peut être limité à un groupe particulier d’utilisateurs.

Politique de sauvegarde. Les procédures de sauvegarde des données d’une enquête


sur le travail des enfants seront probablement les mêmes que celles appliquées aux
autres données. De toute manière, il est nécessaire, en matière de sauvegarde, de consi-
dérer les aspects suivants:

• les fichiers qui doivent être sauvegardés ;


• la fréquence à laquelle ils doivent être sauvegardés (quotidiennement, hebdomadai-
rement, mensuellement, etc.) ;
• le support de sauvegarde qui doit être utilisé (CD-Rom, bande, etc.); et
• Quelle est la procédure qui doit être utilisée- qui est responsable, et comment les
opérations de sauvegarde doivent être accomplies? Les procédures de sauvegarde
sont différentes selon qu’elles sont accomplies pendant ou après le traitement des
données:
• Au cours du traitement, les fichiers sont incomplets et la sauvegarde se fait seule-
ment à court terme (les dernières versions peuvent encore être récupérées si le
système tombe en panne). Ces fichiers temporaires sont naturellement courts; les
fichiers de traitement des données sur le travail des enfants peuvent normalement
contenir sur deux disquettes.
• A l’achèvement du traitement des données, des opérations de sauvegarde perma-
nente sont nécessaires.

Procédure de diffusion. La politique d’accès détermine en partie comment les données


seront diffusées. Les procédures de diffusion doivent être simples. Les approches à
envisager comprennent la diffusion en ligne grâce à l’Internet ou à un intranet et la
diffusion off line par un système autonome utilisant des disquettes ou des CD-Roms.
Des procédures détaillées doivent être formulées.

Toutes les activités d’élaboration des politiques de planification peuvent être accom-
plies parallèlement à l’élaboration d’enquêtes et la collecte de données sur le terrain. L’éla-
boration de la politique de planification devrait être achevée avant la collecte des données
sur le terrain de sorte que les données puissent immédiatement être saisies après la collecte.

21
3. Traitement des données

3. 1 Introduction

Le traitement des données d’enquête est resté, à plusieurs égards, inchangé au cours
des dernières décennies. Cependant, avec la mise au point d’une technologie plus sophisti-
quée, il est devenu plus rapide et plus fiable.

Les données sont d’abord collectées sur la base de questionnaires remplis à la main.
Ensuite, un comptage manuel des questionnaires remplis est confronté avec le nombre de
personnes interrogées. Les données sont alors codées et transmises en vue de leur saisie.
Celle-ci est accomplie le plus rapidement possible par des opérateurs qui saisissent machi-
nalement tout ce qu’ils voient. Certains pays peuvent utiliser la technique de numérisation
suivie des procédures de reconnaissance optique des caractères (OCR), où les réponses aux
questionnaires sont explorées en vue de la saisie des données et sont ensuite soumises à
l’OCR pour identifier les codes de sorte que le logiciel de statistique puisse les manipuler.
Si c’est la méthode CAPI qui est utilisée pour la collecte des données, cette forme de saisie
des données n’est pas nécessaire. Mais la plupart des enquêtes sur le travail des enfants sont
accomplies sur la base de la méthode PAPI, et les données doivent ainsi être saisies le plus
rapidement possible afin d’établir un comptage préliminaire destiné à l’enquête.

Comme mentionné précédemment, le traitement des données représente la deuxième


étape du processus de l’enquête. Les données sont d’abord reçues, généralement de plusieurs
sources, et ensuite converties en un format approprié à l’étape suivante, qui est l’analyse.

Les données peuvent être collectées sur papier ou en tant qu’information numérique.
De même, le traitement des données peut être soit électronique, soit non-numérique. Les
investigations initiales réalisées au niveau national révèlent que les activités de traitement
des données pour les enquêtes sur le travail des enfants sont accomplies de manière électro-
nique en utilisant dans la plupart des cas les ordinateurs personnels. Dans ce contexte, le
présent guide traite seulement du traitement électronique des données.

Quelle que soit la méthode avec laquelle les données sont saisies, une attention parti-
culière est nécessaire au cours des étapes suivantes du traitement des données:
• la saisie des données et les validations préliminaires;
• l’ajout, la fusion et la division de fichiers;
• la validation de données (plus de contrôles, de modifications et d’imputations);
• les décisions finales sur les erreurs;
• l’achèvement du traitement des données et la création de fichier(s) de données;
• l’élaboration d’ensembles de données accessibles au public;
• les documentations finales;
• les tabulations finales;
• la conversion des fichiers de données à d’autres formats comme requis; et
• le stockage de tous les fichiers.

Les données d’enquête sur le travail des enfants devraient passer au minimum par ces
étapes et il ne devrait pas y avoir de raccourci. Les «raccourcis» sont rarement efficaces car
ils augmentent le risque de production d’ensembles de données peu sérieux et donc moins
fiables qui exigent en définitive plus de temps en raison de la nécessité de corriger les erreurs.

23
Les sections suivantes de ce chapitre donnent des détails sur ces étapes. Il est recom-
mandé que toutes les personnes associées au traitement des données lisent attentivement ce
chapitre avant d’entreprendre toute action liée à cette activité. Se rappeler qu’il est aussi
important d’inclure dans les données des facteurs de pondération adéquats.

3.2 Saisie des données et validations préliminaires

Selon la situation qui prévaut dans un pays donné, la saisie des données peut avoir lieu
soit sur le terrain, sous le contrôle d’un superviseur sur le terrain, soit au siège du bureau
dont relève l’enquête.

Lorsque les données sont saisies par lots, chaque lot devrait apparaître dans un fichier
séparé plutôt que plusieurs dans un seul grand fichier. Ce qui est plus important à cette étape
est la saisie des données juste après leur collecte et contrôlées pour vérifier que toutes les
informations ont été saisies correctement. Des procédures de détection des erreurs devraient
être mises en place afin de les corriger sans délai.

Les opérateurs de saisie ne devraient pas quitter leur ordinateur pendant la saisie des
données relatives à un enregistrement de ménage. Une absence, même de courte durée, risque
de provoquer des erreurs.

Une fois un lot de données saisi, le questionnaire devrait être compilé, nommé et stocké
pour servir ultérieurement de référence.

Voici présentés ci-après plusieurs erreurs communes de saisie des données avec les
mesures de précaution ou de correction nécessaires:

Données d’un ancien questionnaire saisi (par exemple, à partir d’une enquête-
pilote). Cela peut être vérifié en se référant aux dates des entretiens ou à la couleur du
papier utilisé pour le questionnaire (lorsque différentes couleurs devraient être utilisées
pour les enquêtes-pilotes et les enquêtes proprement dites). Le logiciel de saisie des
données devrait être programmé pour reconnaître ce problème.

Données incorrectes mais dans la fourchette. Une petite fille est enregistrée comme
étant un petit garçon. Les deux enregistrements «fille» ou «garçon» étant dans les
normes, ce type d’erreur échappe donc à un contrôle statistique classique. Des program-
mes personnalisés touchant différentes questions doivent être élaborés à cette fin et
testés à l’avance.

Données incorrectes et hors de l’intervalle (Code aberrant). Si 1 désigne «mascu-


lin» et 2 «féminin», une valeur de 3 représente une donnée erronée. Les procédures de
répartition des fréquences vont baliser ces cas. Une fois l’erreur découverte, comparer
les enregistrements erronés avec d’autres réponses afin de corriger l’erreur.

Fausse logique (cohérence). Un enfant de six ans est signalé comme ayant achevé
l’école secondaire. L’enfant a pu avoir répondu de manière appropriée, mais la réponse
a été tapée de manière incorrecte. Ce type d’erreurs peut aussi être détecté par les
programmes personnalisés touchant différentes questions. Une fois l’erreur découverte,
comparer l’enregistrement erroné avec d’autres réponses afin de la corriger.

Données non tapées (données manquantes). Les codes de données manquantes pour
des questions telles que «non applicable» ou «a refusé de répondre» peuvent ne pas
avoir été préalablement codés dans le questionnaire, même s’ils auraient dû l’être. Ou
bien, au cours de la saisie des données, de telles valeurs ont pu être laissées en blanc

24
pour être remplies plus tard. Tous ces cas devraient, à chaque fois, être découverts et
remplacés par le code approprié des données.

Duplication (les mêmes enregistrements ou cas ont été saisis plus d’une fois). Etant
donné que les données sont saisies par lots, les mêmes cas ou enregistrements peuvent
être saisis deux fois. Des contrôles peuvent être effectués pour détecter ce genre d’er-
reurs (par exemple en se référant aux numéros uniques d’identification). Une fois ces
cas identifiés, des actions appropriées sont prises, y compris la suppression (cela peut
ne pas être possible avec certains types de logiciels de saisie de données), le balisage
ou le signalement au responsable.

Enregistrements qui ne correspondent pas (pour les fichiers hiérarchisés). Un enre-


gistrement «ménage» peut être suivi d’un enregistrement «personnes vivant dans le
logement». Dans ce cas, deux types d’erreurs peuvent se produire. Dans un premier
cas, il y a soit moins d’enregistrements, soit plus d’enregistrements de personnes que
le nombre qui a été effectivement collecté. Dans un second cas, des ménages entiers
ont été oubliés. Les deux cas peuvent être détectés et corrigés grâce à une program-
mation adéquate.

Cas négligés (interviewés mais non saisis). Parfois, les données ne sont pas saisies
dans l’ordinateur. Lorsque des cas/enregistrements ont été négligés, il est nécessaire de
faire des vérifications à ce sujet.

Erreurs dans l’ajout (données saisies mais non jointes de manière adéquate).
Lorsque des données sont saisies par lots, des programmes doivent être élaborés pour
joindre / fusionner tous les fichiers. Le nombre de cas doit correspondre à la taille de
l’échantillon ou au nombre de personnes interviewées (ou aux enregistrements collec-
tés), selon que l’une ou l’autre des situations est applicable.

Le logiciel de saisie des données décrit plus haut est capable de détecter un certain
nombre de ces erreurs. La saisie des données sur la base d’un logiciel interactif est souvent
désignée comme «la saisie intelligente des données». La méthode de «double saisie» –
lorsque deux personnes différentes saisissent la même donnée, et que les deux fichiers sont
alors comparés pour y déceler les différences – est également utilisée pour valider le proces-
sus de saisie des données.

Il est recommandé qu’aussi bien la méthode de «double saisie» que celle de «saisie
intelligente des données» soient appliquées aux enquêtes sur le travail des enfants.

Les fichiers électroniques créés après la saisie des données peuvent être formatés en
tant que modules. Dans ce cas, il faut contrôler chaque module séparément en réexaminant
les questionnaires, si nécessaire. Une fois la saisie des données achevée, les variables d’iden-
tification des enregistrements devraient être contrôlées pour s’assurer que chacune est unique
pour chaque enregistrement ou cas comme prévu. Si non, pour aider les personnes en charge
du traitement des données à éviter les problèmes liés à la fusion des fichiers, ces cas compor-
tant des erreurs devraient être corrigés en réexaminant les questionnaires.

3.3 Ajout / fusion / division de fichiers

L’ajout est la méthode de combinaison de plusieurs fichiers avec des observations diffé-
rentes (se composant de variables) dans un seul fichier. Les propriétés de chaque variable
sont habituellement les mêmes dans chaque fichier. D’un point de vue conceptuelle, on peut
dire que l’ajout a pour effet d’augmenter verticalement la taille des données.

25
La fusion est la méthode de combinaison des variables de plusieurs fichiers dans un
seul fichier. Les variables dans chaque fichier décrivent la même observation, habituelle-
ment avec des unités différentes telles que le ménage ou l’individu. Pour mieux expliquer la
fusion, on peut dire qu’elle permet d’augmenter horizontalement la taille des données.

La division, pour sa part, aussi appelée «subdivision» se réfère au fractionnement des


fichiers. Cela peut se produire en termes de nombres de variables ou d’observations.

La fusion de fichiers devrait faire l’objet de beaucoup d’attention. Elle est souvent à
l’origine des valeurs manquantes, même si les fichiers qui doivent être fusionnés sont corrects
et parfaitement nettoyés. Différents types de fusion, d’ajout et de subdivision des fichiers
sont décrits plus loin dans ce guide. Ils sont basés sur les notes de classe des «Services de
Technologie Académique de UCLA» 17 et du «Centre de Population de l’Université du Nord
de Caroline» 18.

Fusion «un par un»

La fusion «un par un» est le processus d’association de fichiers lorsqu’un enregistre-
ment dans chaque fichier constitue un cas et que chaque enregistrement dans chaque fichier
doit avoir au moins une variable d’identification unique. Il pourrait y avoir plus d’une varia-
ble commune.

La fusion est accomplie conformément à des variables uniques d’identification. Cette


procédure est généralement utilisée quand les données sont collectées à des périodes diffé-
rentes ou lorsque les données sont saisies en tant que deux modules différents, générant ainsi
plus d’un fichier. Par exemple, d’un côté, le fichier 1 (fichier des ménages) peut inclure trois
variables a1, a2 et a3 représentant l’âge du chef de famille, les sources d’énergie dans le
logement et le nombre de personnes vivant dans le logement. (Voir tableau 1 ci-dessous).
De l’autre côté, le fichier 2 (fichier des individus) peut inclure plus d’informations détaillées
à propos du chef de famille, à savoir le nombre d’heures (x1) de travail effectuées par
semaine, le niveau d’éducation (x2) et le revenu (x3). Les nombres 1, 2 et 3 représentent les
nombres uniques d’identification des enregistrements/cas basés peut-être sur le groupe de
données, le ménage et le numéro de ligne. Dans ce cas, il y aura une fusion un par un puis-
qu’un logement comporte un seul chef de ménage. Le fichier fusionné présentera les six
sujets d’information (variables) à propos du chef de famille dans un unique fichier.

Au cours de la fusion un par un, plusieurs logiciels de statistique posent des limites au
nombre de variables (Par exemple, Stata a une limite de 2,047 variables. Les limites impo-
sées par certains logiciels de statistique sont incluses dans l’annexe I). Dans les enquêtes sur
le travail des enfants, bien qu’il soit peu probable que le nombre total de variables excède
le nombre autorisé par un logiciel de statistique particulier, les personnes ayant en charge le
traitement des données devraient être conscients de l’existence de cette possibilité au cours
de la fusion un par un.

17
SPSS Learning Module Match merging data files [Link]
[Link]
18
Stata Programming: Data Management http//: [Link]/services/computer/presen-
tations/statatutorial#combining

26
Tableau 1: Exemple de fusion un par un

Avant fusion Après fusion


Fichier 1 (fichier Fichier 2 (fichier Les numéros sont les identificateurs uniques
des ménages) des individus) utilisés pour la fusion
1 a1 a2 a3 1 x1 x2 x3 1 a1 a2 a3 x1 x2 x3
2 b1 b2 b3 2 y1 y2 y3 2 b1 b2 b3 y1 y2 y3
3 c1 c2 c3 3 z1 z2 z3 3 c1 c2 c3 z1 z2 z3
Quelques exceptions: l’un des fichiers a plus de cas que l’autre ou les deux fichiers ont les
mêmes variables. Différents logiciels de statistique pourront manipuler ces situations de
manière différente.

L’opération peut être accomplie de la manière suivante:


• TRIER le fichier des ménages par la variable unique d’identification ID et sauve-
garder en tant que fichier séparé (File1), préservant ainsi l’original en cas de
problème.
• TRIER le fichier des individus (personnes) par la variable unique d’identification ID
et sauvegarder en tant que fichier séparé (File2), préservant ainsi l’original en cas de
problème.
• S’assurer que les deux fichiers (File1) et (File2) sont sauvegardés de manière
adéquate en les fermant et en les rouvrant.
• Exécuter la commande de fusion des fichiers pour fusionner les fichiers File1 et File2.
• SAUVEGARDER le fichier fusionné (New File).
Modèle de syntaxe de programmation sous SPSS:
GET FILE = «[Link]».
SORT CASES BY ID.
SAVE OUTFILE = «[Link]».
GET FILE = «[Link]».
SAVE FILE = «[Link]».
SORT CASES BY ID.
SAVE OUTFILE = «[Link]».
MATCH FILES FILE = «[Link]»/FILE=»[Link]»/BY ID.
SAVE OUTFILE = «[Link]».

Fusion de «un à plusieurs»

Fusionner «un à plusieurs» est le processus de fusion des fichiers dans lequel plusieurs
enregistrements constituent une observation et que les enregistrements d’une même obser-
vation sont situés dans différents fichiers. Chaque enregistrement dans chaque fichier doit
avoir au moins une unique variable d’identification. Il pourrait ou non y avoir plus d’une
variable commune. Par exemple, il peut y avoir un logement habité par trois personnes. Les
informations à propos du logement (par exemple, le type de bâtiment, le statut d’occupa-
tion, le loyer) figurent dans le fichier 1, alors que les informations concernant chaque
personne (par exemple, âge, sexe, situation socio-économique) se trouvent dans le fichier 2.
Les informations sur le logement relatives à chaque membre habitant le logement seront les
mêmes. Un exemple de fusion de «un à plusieurs» est présenté au tableau 2, où un enregis-
trement de ménage peut être associé à plus d’un enregistrement de personne selon le nombre
de personnes vivant dans le logement. Chaque enregistrement dans chaque fichier doit avoir

27
la même «variable unique d’identification» pour la fusion et celle-ci est accomplie sur la
base de cette variable unique.

Tableau 2: Exemple de fusion de «un à plusieurs»

Avant fusion Après fusion


Fichier 1 (ménage) Fichier 2 (personne) Les numéros sont les identificateurs
uniques utilisés pour la fusion
1 a1 a2 a3 1 x1 x2 x3 1 a1 a2 a3 x1 x2 x3
Idem que dans ménage 1 1 y1 y2 y3 1 a1 a2 a3 y1 y2 y3
Idem que dans ménage 1 1 z1 z2 z3 1 a1 a2 a3 z1 z2 z3
2 b1 b2 b3 2 m1 x1 z1 2 b1 b2 b3 m1 x1 z1
Idem que dans ménage 2 2 z1 m1 m2 2 b1 b2 b3 z1 m1 m2
3 c1 c2 c3 3 m1 y1 y2 3 c1 c2 c3 m1 y1 y2
Idem que dans ménage 3 3 x1 y1 y2 3 c1 c2 c3 x1 y1 y2
Exception: Un des fichiers possède des enregistrements qui ne correspondent pas à l’autre.
Les différents logiciels de statistique peuvent manipuler une telle situation de manière diffé-
rente.

L’opération peut être accomplie de la manière suivante:


• TRIER le fichier du ménage par la variable d’identification ID et sauvegarder le
fichier en tant que fichier séparé (File1), préservant ainsi l’original en cas de
problème.
• TRIER le fichier des personnes par la variable d’identification ID et sauvegarder le
fichier en tant que fichier séparé (File2), préservant ainsi l’original en cas de
problème.
• S’assurer que les deux fichiers (File1) et (File2) sont sauvegardés convenablement
en les fermant et en les rouvrant.
• Exécuter la commande de fusion des fichiers pour fusionner les fichiers File1 et File2.
• SAUVEGARDER le fichier fusionné (New)
Modèle de syntaxe de programmation sous SPSS:
GET FILE = «[Link]».
SORT CASES BY ID.
SAVE OUTFILE = «[Link]».
GET FILE = «[Link]».
SORT CASES BY ID.
SAVE OUTFILE = «[Link]».
MATCH FILES FILE = «[Link]» / TABLE=«[Link]»/BY ID.
SAVE OUTFILE = «New. Sav».

Il est à noter que si l’option /FILE est utilisée au lieu de /TABLE dans la syntaxe de la
commande MATCH FILES, des systèmes de valeurs manquantes vont apparaître dans le
fichier fusionné (New).

28
Fusion de «plusieurs à plusieurs»

La fusion de «plusieurs à plusieurs» est utilisée lorsqu’un certain nombre d’observa-


tions dans un fichier correspondent contrairement à d’autres. Cette situation peut apparaître
lorsque les données sur le terrain ont été collectées à différentes périodes (par exemple dans
une enquête modulaire ou en cas d’enquête de suivi) avec des questions communes, des
ménages communs, des personnes vivant ensemble dans le même logement, alors que d’au-
tres n’y sont plus. On ne peut savoir combien il y a de chevauchements entre les fichiers
fusionnés avant que la fusion ne soit accomplie. La fusion est là aussi réalisée selon les varia-
bles uniques d’identification qui sont les mêmes dans tous les fichiers à fusionner.

En un mot, la fusion de «plusieurs à plusieurs» est une combinaison des processus «un
par un» et «un à plusieurs». Dans le tableau 3, deux fichiers sont fusionnés. Les deux fichiers
1 et 2 contiennent des variables décrivant le logement et les personnes qui y vivent, mais les
informations ont été collectées à des périodes différentes. Dans la première enquête, deux
personnes vivaient dans le même logement (fichier 1), et il y avait deux enregistrements.
Cependant, dans le cas 1 de la seconde enquête, l’une des personnes ne vivait plus là. Après
la fusion, il y avait donc des variables vides pour la seconde personne. Dans le cas 2, aucun
habitant de ce logement n’a été interrogé dans la première enquête et le logement n’y avait
pas été répertorié. Mais dans la seconde enquête, il était inclus. De même dans le cas 3, des
habitants d’un logement étaient interviewés alors que dans la seconde enquête le logement
n’avait pas été répertorié parce que cette maison n’existait peut-être plus. Dans les fichiers
fusionnés «plusieurs à plusieurs», il y a généralement des valeurs manquantes de type «non
applicable».

Tableau 3: Exemple de fusion de plusieurs à plusieurs

Avant fusion Après fusion


Fichier 1 Fichier 2 (Les nombres sont les identificateurs
(ménage& personne) (ménage & personne) uniques utilisés pour la fusion)
1 a1 a2 a3 (personne 1) 1 x1 x2 x3 1 a1 a2 a3 x1 x2 x3
1 b1 b2 b3 (personne 2) 1 personne non interrogée 1 b1 b2 b3 — — —
2 personne non interrogée 2 z1 z2 z3 2 — — — z1 z2 z3
3 d1 d2 d3 3 personne non interrogée 3 d1 d2 d3 — — —

Ajout de fichiers de données

L’ajout est utilisé lorsque tous les fichiers de données contiennent les mêmes variables
avec chacun d’eux enregistrant différentes observations. Cela est habituellement essentiel
au cours de la saisie des données, et le processus se poursuit jusqu’à ce que tous les lots de
fichiers soient ajoutés.

Par exemple, l’ajout est nécessaire si les données sont saisies dans divers endroits et
transmises aux bureaux du siège de l’enquête à des périodes différentes, ou lorsque les
données sont saisies par lots (modules) et que chaque lot (module) constitue un fichier. Dans
le tableau 4, les données ont été saisies par lots. Chaque fichier avait le même nombre de
variables, mais chaque cas /enregistrement concerne un logement/ une personne différents.
Ainsi, les cas /enregistrements sont simplement ajoutés à la fin. Après avoir ajouté des cas,
le nombre de cas/enregistrements dans le fichier final devrait être égal au nombre total de
cas / enregistrements de chaque fichier. Il peut y avoir des exceptions quand les enregistre-
ments ont des variables différentes.

29
Tableau 4: Exemple d’ajout de fichiers de données

Avant ajout
Fichier 1 Fichier 2
1 a1 a2 a3 1 x1 x2 x3
2 b1 b2 b3 2 y1 y2 y3
3 c1 c2 c3 3 z1 z2 z3
Après ajout
1 a1 a2 a3
2 b1 b2 b3
3 c1 c2 c3
4 x1 x2 x3
5 y1 y2 y3
6 z1 z2 z3

Problèmes potentiels lors de l’ajout et de la fusion de fichiers. La fusion peut être


très complexe et, en général, il faut bien connaître les données avant de tenter une fusion.
Les problèmes éventuels à surveiller (quelques uns d’entre eux n’étant que de simples
désagréments) avant de procéder à l’ajout ou à la fusion de fichiers comprennent:

• Des noms différents de variable peuvent avoir été utilisés pour représenter la même
chose dans deux fichiers de données (par exemple age dans un fichier et c_age dans
un autre).

• Le même nom de variable peut avoir été utilisé pour représenter différentes choses
dans deux fichiers de données (par exemple la variable «salaire» représente le revenu
par semaine dans un fichier et le revenu par mois dans un autre). Cela ne pose pas
de problème pour les fichiers «à fusionner», mais il peut constituer un problème pour
les fichiers fusionnés.

• Les noms de variables dans deux fichiers peuvent être les mêmes mais de type diffé-
rent (par exemple numérique ou chaîne de caractères).

• Les variables en chaînes de caractères dans deux fichiers différents peuvent être de
longueur différente (par exemple 8 et 16 caractères).

• Les deux fichiers de données ont des variables avec le même nom mais des codes
différents (par exemple les valeurs de «oui» et «non» sont inversées).

• Les enregistrements n’ont pas pu correspondre au cours de la fusion.

• Vérifier les notices d’avertissement propres au logiciel et appliquer les mesures de


précaution ou les solutions prévues quand c’est nécessaire.

Il est essentiel que quelques uns des problèmes examinés ci-dessus, s’ils sont présents
dans les données, soient résolus avant de tenter une fusion ou un ajout. Les différents logi-
ciels de statistique manipulent de manière différente la fusion et l’ajout. Il faut être attentif
sur la manière dont certaines cellules vides seront remplies et consulter les manuels en cas
de besoin.

30
Division des fichiers de données

Le processus de division d’un fichier, aussi désigné par subdivision, est souvent néces-
saire au cours du nettoyage et de l’analyse de données. Les fichiers de données peuvent être
divisés selon le nombre de cas ou d’enregistrements ou suivant le nombre de variables. Au
cours des opérations de division, la plupart des logiciels de statistique offrent des options de
suppression ou de filtrage des cas / variables non désirés. Il faut être prudent en matière de
sauvegarde des fichiers divisés, car toute négligence à ce propos pourrait surcharger le fichier
original d’un sous-ensemble de fichier.

3.4 Validation des données

A l’aide des procédures de saisie efficaces, les données sont pratiquement nettoyées
aussitôt qu’elles sont saisies. Les modifications secondaires impliquent des contrôles
complexes de cohérence interne et de structure qui exigent l’examen des différentes parties
du questionnaire et doivent suivre des recommandations détaillées dans le cas où des correc-
tions sont nécessaires. Des experts en traitement de données peuvent effectuer ceci de
manière interactive. Certaines personnes préfèrent accomplir toutes les validations de
données avant de procéder à la fusion des fichiers. Chaque pays décidera de l’approche qu’il
trouvera parfaitement appropriée à sa situation particulière.

Même lorsque les premières opérations statistiques sont accomplies avec les précau-
tions adéquates sur des données parfaitement corrigées, il n’est pas rare de trouver des situa-
tions telles que des cas d’enfants de six ans ayant achevé leurs études secondaires. Des
contrôles de validation sont nécessaires pour détecter ces erreurs et les corriger. Bien qu’au-
cun système ne soit parfait, le nombre d’erreurs peut sûrement être réduit si les mesures
minimums suivantes sont prises 19.

Nombre de contrôles de variables. Il arrive parfois que le nombre de variables qui


devraient être créées à partir d’un questionnaire ne corresponde pas avec le nombre de
variables dans les données. Différents facteurs peuvent en être responsables. Par
exemple, la variable peut ne pas avoir été créée en premier lieu ou les questionnaires
peuvent avoir été traduits de manière imparfaite. Il est vrai que ce type d’erreurs devrait
être détecté aux cours des étapes antérieures, mais il est préférable de contrôler à
nouveau lorsque tous les fichiers ont été fusionnés ou ajoutés.

Nombre de contrôles d’enregistrements/cas. Si le ménage est considéré comme un


cas, vérifier que le nombre de cas saisis est égal au nombre prévu de ménages (peut
être égal à la taille de l’échantillon). Vérifier aussi que le nombre d’enregistrements de
personnes est égal au nombre de personnes interviewées (ou de données collectées).

Les correspondances et les comptages d’enregistrements. Si les enregistrements des


ménages et des individus vivant dans le ménage sont dans deux fichiers différents,
vérifier pour s’assurer que les variables d’identification requises pour la fusion sont
clairement définies. De même, s’assurer que tous les membres appartenant à un
ménage sont correctement saisis en comparant le nombre de personnes dans le fichier
des ménages avec le nombre de personnes dans le même ménage dans le fichier des
individus.

19
Des développements plus détaillés des procédures sont décrits dans « Consortium inter
universitaire pour la recherche en sciences politiques et sociales » (ICPSR), Guide pour l’élabo-
ration et l’archivage de données de sciences sociales, op. cit., et Dialogue en public : Analyse des
enquêtes, op. cit.

31
Codes aberrants et valeurs hors de l’intervalle. Les codes aberrants sont des codes
qui ne sont pas définis comme étant dans les normes, tandis que les valeurs hors de l’in-
tervalle sont des valeurs auxquelles sont affectés des codes acceptables selon les normes
mais qui peuvent ne pas être justes. Par exemple, si 1 signifie «mâle» et 2 «femelle»,
3 sera un code aberrant, tandis que le revenu par semaine d’un enfant a une valeur hors
des fourchettes s’il est de 1000 lorsque réellement il devrait être 100. La répartition des
fréquences aussi bien que les graphiques exposent ces types d’erreur. Ainsi, les
distributions des fréquences de toutes les variables devraient être examinées pour
d’éventuelles anomalies. Revoir le questionnaire si nécessaire afin de corriger tous
ces problèmes.

Les valeurs manquantes. Signaler toutes les valeurs qui sont manquantes en spéci-
fiant dans chaque cas la raison pour laquelle la valeur est manquante. Les réponses
telles que «ne sais pas», «non applicable», «non disponible» et «a refusé de répondre»
devraient être marquées de manière claire. Leurs valeurs devraient aussi, dans la mesure
du possible, être uniformes partout dans l’ensemble des données. Aucune cellule dans
l’ensemble de données ne devrait comporter d’espace vierge.

Contrôles de cohérence. Il y a toujours des possibilités d’incohérence entre les répon-


ses et les questions afférentes. Par exemple, 100 enfants déclarent avoir travaillé contre
105 indiquant qu’ils ont perçu des revenus. Certaines incohérences pourraient prove-
nir d’au moins deux variables. Ainsi, le fait que cinq enfants supplémentaires aient
déclaré avoir des revenus ne devrait pas être juste en ce sens qu’ils sont effectivement
scolarisés.

L’un des moyens les plus faciles de réaliser les contrôles de cohérence est de contrôler
le «parcours de la question». Par exemple, lorsqu’il est signalé dans le questionnaire
«Lorsque la réponse à la question numéro 10 est 2 (non), passer directement à la question
numéro 14», une règle logique peut être élaborée:

Si Q10 = 2, alors Q11 = Q12 = Q13 = 99 (veut dire «non applicable»).

Si les données indiquent un résultat différent, il est alors possible que Q10 soit en réalité
1, mais qu’au cours de la saisie, elle ait été saisie en tant que 2. Cela est probablement le cas
si Q11, Q12 et Q13 ont des codes valides. Ainsi, la réponse à Q10 peut facilement être
changée pour passer à 1 (oui). Si elles avaient été codées mais que les codes ne sont pas tous
valides, il est nécessaire de se référer au questionnaire original pour découvrir laquelle a
besoin d’être changé. La comparaison des fréquences ou des tableaux croisés entre toutes
les variables ayant des liens possibles pourrait révéler plusieurs incohérences. Revoir le ques-
tionnaire afin de corriger ces problèmes.

Un exemple utile (voir aussi l’annexe 3) sur la manière dont les règles de contrôle
logique peuvent être élaborées est présenté dans les règles suivantes de contrôle de la cohé-
rence tirées de l’enquête zambienne de fin de décennie sur le travail des enfants (module
d’éducation) 20 dans laquelle des informations sur les enfants âgés de 5-17 ans ont été
collectées:

Si un enfant répond OUI à la question «n’avez-vous jamais fréquenté l’école», ignorer


alors la question (non applicable) «pourquoi n’avez-vous jamais fréquenté l’école».

Si un enfant répond NON à la question «n’avez-vous jamais fréquenté l’école», mais


spécifie un niveau dans sa réponse à la question relative au «niveau le plus élevé atteint»,

20
Bureau central de statistique, questionnaire ménage de l’enquête sur le travail des enfants
(1999) en Zambie en fin de décennie [Link]
zambia/document/[Link]

32
un Oui devrait remplacer le non dans sa réponse à la question»avez-vous jamais
fréquenté l’école».

Ceux qui n’ont répondu ni à la question «n’avez-vous jamais fréquenté l’école» ni à


celle concernant «le niveau le plus élevé atteint» devraient être considérés comme ayant
répondu NON à la question «n’avez-vous jamais fréquenté l’école» et ayant obtenu un
NIVEAU 0 concernant la question sur le niveau le plus élevé atteint. Le raisonnement
est le suivant: Aucune réponse n’ayant été donnée aux deux questions, il est probable
que les réponses correctes soient effectivement NON.

Si l’enfant répond NON à «n’avez-vous jamais fréquenté l’école» et NON à «fréquente


l’école», le reste des questions dans le module éducation devrait alors être considéré
comme non applicable.

Si un enfant répond NON à «fréquente l’école», ignorer alors la question (non appli-
cable) «niveau suivi actuellement».

Quand un enfant répond NON à la question «a fréquenté l’école l’année dernière», mais
OUI à la question «type d’école fréquentée l’année dernière» et OUI à la question sur
«le niveau suivi l’année dernière», la première réponse devrait passer de NON à OUI.
Le raisonnement est le suivant: les deux réponses OUI dans ce cas suggèrent que OUI
est une réponse plus probable que le non.

Au cours des contrôles de cohérence, des efforts importants doivent être déployés pour
éviter d’exécuter des scénarios basés sur une fausse logique (règles de cohérence). Si, de
plus, plusieurs opérations de contrôle de cohérence impliquant la même variable doivent être
menées, veiller à choisir l’ordre approprié dans l’exécution des opérations de contrôle et le
changement de valeurs.

Certains programmeurs estiment qu’il est plus efficace de diviser les fichiers avant d’en-
treprendre les contrôles de cohérence et de les fusionner à nouveau dès que les contrôles
sont achevés.

Les erreurs sont inévitables durant les contrôles complexes de cohérence. Il est recom-
mandé de conserver les anciens fichiers de manière à pouvoir toujours se référer à une copie
des données originales.

Les contrôles de cohérence devraient être effectués pour vérifier, tout au moins, qu’au-
cune rubrique n’a été laissée en blanc et que chacune d’elles contient une valeur valide.

Finalement, les premiers trois à cinq pour cent des enregistrements devraient être minu-
tieusement contrôlés pour vérifier qu’ils sont exempts d’erreurs. Par la suite, des contrôles
devraient être menés au hasard pour vérifier la cohérence de l’ensemble des données.

A la fin de l’étape de validation des données, il ne devrait y avoir aucune forme de


valeur manquante (par exemple, les codes «non applicable» sont correctement utilisés); les
erreurs de cohérence et tous les enregistrements devraient être comparés avec tous les iden-
tificateurs uniques d’enregistrements/cas. En d’autres termes, toutes les valeurs manquan-
tes doivent être définies de manière appropriée. Cependant, pour toutes les valeurs de l’en-
semble des données qui ne peuvent pas être rectifiées, un fichier devrait être créé avec les
informations suivantes:
• l’identification du cas / de l’enregistrement;
• le type d’erreur (valeur manquante, erreur de non- réponse, etc.);
• la répartition présentée de manière détaillée au sujet du nombre de cas, d’enregis-
trements, etc.;

33
• les raisons pour lesquelles ces erreurs ne pourraient pas être corrigées;
• quelques tables pour montrer leur impact sur l’ensemble des données;
• le nombre de situations où les cas et les enregistrements applicables dans un cas ne
correspondent pas; et
• le manque de correspondance entre le nombre de cas et la collecte de données et les
raisons possibles des erreurs.

De plus, une liste de toutes les variables avec leurs noms doit être créée. Ces tableaux
avec le fichier du rapport sur les erreurs et la liste des variables devraient ensuite être trans-
mis pour examen au superviseur des données.

3.5 Décisions finales sur les erreurs

Une fois une liste de contrôle des erreurs établie, en même temps que des tables indi-
quant l’impact global de ces erreurs sur les données, le responsable, en consultation avec les
personnes associées à l’enquête, devrait décider des mesures à prendre au sujet de ces
questions.

Selon le type d’erreur, les décisions nécessaires peuvent comprendre ce qui suit:
• la manière dont les erreurs dans les données devrait être marquée;
• les cas / enregistrements/variables qui peuvent être imputés et sous quelles condi-
tions et comment ces informations seront incorporées dans l’ensemble des données
une fois qu’une décision est prise;
• les enregistrements/ cas pour lesquels il est nécessaire de se référer aux question-
naires de l’enquête pour avoir des informations supplémentaires et comment ces
informations seront incorporées dans l’ensemble des données ;
• les cas/ enregistrements/variables qui peuvent être négligés ; les raisons de leur
abandon et comment cela affectera les données dans leur ensemble ; et
• le libellé de la documentation pour tous les cas ci-dessus.

Aussitôt que les mesures nécessaires sont prises, elles devraient être communiquées
aux personnes traitant les données. Celles-ci auront en charge de les incorporer le plus rapi-
dement possible dans l’ensemble des données.

3.6 Achèvement du traitement des données et création de fichiers de données

La plupart des personnes traitant les données trouvent que leur travail est un processus
sans fin. Même lorsque les données ont été préalablement nettoyées, elles continuent leur
activité, souvent en subdivisant les données, en créant des variables supplémentaires et ainsi
de suite. Cela conduit fréquemment à un problème important – de nombreuses personnes
traitant les données se retrouvent en train de travailler sur différentes versions de l’ensem-
ble des données.

Lorsque toutes les informations nécessaires pour la préparation de la documentation


finale sont disponibles, le superviseur devra déclarer achevées toutes les activités de traite-
ment des données. Le ou les fichier(s) de données peuvent, à ce stade, être marqués comme
la version 1 de l’ensemble des données.

34
Les superviseurs devraient à ce moment charger quelqu’un de compiler toutes les infor-
mations qui ont été collectées par le personnel chargé du traitement des données dans un
document unique (fichier).

Gestion du traitement

Un superviseur devrait surveiller toutes les opérations de saisie et de traitement des


données.

Son rôle consiste notamment à:


• s’assurer que toutes les activités de traitement des données avancent selon le calen-
drier établi;
• accorder une assistance administrative au personnel du traitement des données (par
exemple en fournissant un ordinateur de rechange en cas de panne du premier);
• vérifier que les fichiers de données sont structurés (par exemple fichier plat ou clas-
sement hiérarchisé, types d’enregistrements) avant que les données ne soient saisies
et que toutes les variables ne soient codées, étiquetées et que les valeurs ne soient
accordées, y compris les types et les codes pour les valeurs manquantes;
• essayer de s’assurer que le personnel du traitement des données ne rencontre pas de
problèmes liés au codage; dans le cas où il en a, lui fournir une aide dans son travail;
• s’assurer que tous les fichiers sont fusionnés et / ou ajoutés;
• contrôler le fichier maître, de sorte que le personnel responsable du nettoyage et de
l’analyse des données travaille toujours avec des fichiers à jour;
• en consultation avec les autres parties concernées, (par exemple les analystes de
données et les personnes qui ont élaboré les enquêtes), prendre les décisions néces-
saires au sujet des erreurs (voir 3.5, ci-dessus);
• surveiller les contrôles au hasard des enregistrements relatifs aux ménages en tant
que mesure globale de contrôle de la qualité au cours des procédures de traitement
des données;
• s’assurer que toutes les décisions sont enregistrées au cours du traitement des données
et que la documentation finale comporte toutes les informations pertinentes;
• s’assurer que les mesures nécessaires ont été prises en vue de la création d’un ensem-
ble de données efficace accessible au public;
• décider de la période de la fin des activités de traitement des données et prendre alors
le contrôle de tous les fichiers de données et la documentation;
• vérifier que les fichiers nécessaires sont placés de manière appropriée dans le système
principal de conservation pour servir ultérieurement de référence; et
• servir, une fois le traitement achevé, de point de liaison pour l’ensemble des données.

Le problème principal du superviseur devrait être de réduire autant que possible le


temps entre la saisie des données après la collecte sur le terrain et leur préparation en vue
de leur analyse sans mettre en danger leur qualité.

35
3.7 Elaboration de l’ensemble des données accessibles au public

Questions de confidentialité

La plupart des enquêtes sur le travail des enfants nécessitent beaucoup d’argent et sont
d’une grande importance au niveau national. Elles fournissent des données statistiques qui
contribueront à améliorer la scolarité, éliminer la pauvreté et accroître les ressources desti-
nées à la santé et aux autres services publics ou privés. Chaque réponse individuelle donnée
dans le cadre de l’enquête est significative et il est important de partager les informations de
l’enquête avec le maximum de personnes possible. Les concepts ci-après ont été tirés de
deux documents de référence 21, 22.

Caractère anonyme des données. En même temps, les personnes qui participent à une
enquête devraient être sûres que leur identité personnelle ne sera pas révélée. Ainsi, d’un
côté, les données d’enquête sur le travail des enfants devraient être accessibles au public en
vue d’une analyse secondaire en profondeur; d’un autre côté, il est primordial que des procé-
dures particulières soient suivies pour assurer le caractère anonyme des données de sorte
que ni les enfants, ni leurs familles, ni les personnes ou organisations pour lesquelles ils
travaillent ne puissent être identifiés à partir des données brutes. A moins d’être anonyme,
un ensemble de données ne peut être diffusé.

Altération des fichiers. Les informations qui risquent de porter atteinte à la confiden-
tialité des données sur les enfants, les parents, les ménages ou les organisations, particuliè-
rement ceux qui sont engagés dans des travaux dangereux ou qui sont concernés par de tels
travaux, ne devraient pas être diffusées. Il peut ainsi être nécessaire d’altérer des fichiers
relatifs au travail des enfants accessibles au public.

Deux sortes de variables peuvent révéler l’identité d’un individu ou d’une organisation:

Les identificateurs directs. Ce sont des variables décrivant l’identification d’une


personne, d’une entité, etc. (exemple, le code postal). Les informations telles que le
numéro et l’adresse du logement sont utilisées essentiellement pour l’administration
de l’enquête. Ces variables, associées avec d’autres numéros d’identification tels que
la date de naissance, peuvent être utilisées pour identifier un individu. Ces identifica-
teurs devraient être supprimés ou codés de manière adéquate.

Les identificateurs indirects. Ce sont des variables qui ne sont pas traitées comme des
identificateurs directs mais elles peuvent être utilisées avec d’autres variables ou infor-
mations publiques pour identifier une personne, une entité, etc. Par exemple, lorsqu’un
nombre insignifiant de personnes est engagé dans un emploi particulier dans une région
donnée, l’information peut être couplée avec des données de recensement récent à la
disposition du public pour identifier une personne.

Les analystes de données, de concert avec d’autres membres des bureaux nationaux de
statistique et les experts techniques de l’OIT, devraient, si nécessaire, examiner et traiter des
identificateurs potentiels. Pourtant, jusqu’à présent, avec toutes les enquêtes nationales de
SIMPOC, les identificateurs indirects ne constituent pas une source majeure de problème.

21
«Consortium inter universitaire pour la recherche en sciences politiques et sociales»
(ICPSR), Guide pour l’élaboration et l’archivage de données de sciences sociales, op. cit.
22
Association américaine de statistique, Rasinski, K. et al; Producing a public use file – A
case study, se référer à [Link]
(1997)

36
Sans être exhaustives, les méthodes destinées à assurer le caractère anonyme des
données d’enquête sur le travail des enfants sont les suivantes:

La suppression. Une variable ou un nombre de variables peuvent être supprimés de


l’ensemble des données. Par exemple, les numéros et adresses des bâtiments devraient
être supprimées de l’ensemble des données accessibles au public.

La classification. Une fourchette de valeurs d’une variable peut être incluse dans une
seule variable. Par exemple, un enfant de 7 ans peut être placé dans la tranche d’âge
des 5 à 9 ans.

Codification des niveaux maximum / minimum. On peut limiter le niveau supérieur


et / ou inférieur de la fourchette d’une variable. Par exemple, les enfants qui gagnent
beaucoup d’argent risquent d’être identifiés et devraient alors être regroupés avec d’au-
tres enfants décrits simplement comme «gagnant plus de 100 unités de la monnaie locale
par jour».

Recodification. On peut combiner deux ou plus de variables similaires et les recoder


en une seule variable. Par exemple, la province, le district, la ville et le numéro du bâti-
ment peuvent être combinés pour former une variable unique.

Troc entre données. On peut échanger des enregistrements relatifs aux individus d’un
ménage contre ceux d’un autre ménage dans les données de manière à ce que l’en-
semble du résultat ne soit pas altéré. Les identificateurs du ménage ne peuvent pas être
utilisés pour identifier les personnes vivant dans ce ménage.

Perturbation des données. On peut modifier les enregistrements individuels (par


exemple, en additionnant / soustrayant un nombre fixe) de manière à ce qu’ils chan-
gent mais l’ensemble des comptages reste le même.

L’ensemble des données accessibles au public devrait toujours être copié à partir de
celui des données originales. De même, il est nommé selon une convention appropriée (voir
section 2.3). La copie originale peut rester d’accès limité et devrait être toujours gardée
comme référence sans modification.

3.8 Documentation finale

L’élaboration d’une documentation de grande qualité peut exiger beaucoup de temps.


Cependant, une documentation claire et complète améliore considérablement le processus
de l’enquête. Il est toujours mieux d’engager des personnes qui avaient été associées au début
du travail sur l’ensemble de données. Elles sauront mieux que quiconque la manière dont
l’ensemble de données a été créé, les raisons pour lesquelles les variables dérivées ont été
construites, les décisions importantes qui ont été prises et les règles de modification appli-
quées au cours du traitement des données ainsi que leurs fondements.

En outre, les personnes associées à l’enquête et au traitement initial des données sont
parfois si proches du projet qu’elles ont tendance à penser que certaines informations n’ont
pas besoin d’être documentées. Cependant, les données sont destinées à être utilisées par
diverses personnes, et une documentation approfondie, claire et précise améliore grande-
ment son utilisation.

L’élaboration de la documentation ou des métadonnées devrait commencer bien avant


le début du traitement effectif des données. Dès que le traitement des données est achevé,
toutes les informations pertinentes devraient être compilées. Deux éléments peuvent servir

37
de documentation finale. Le premier est un court fichier décrivant la structure de l’ensem-
ble des données en même temps que des informations concernant les variables et les valeurs,
les systèmes de codage et de classification et la pondération. Une brève description de
l’enquête devrait également y être incluse. Le second est plus détaillé et peut se décrire
comme suit.

Les lignes qui suivent sont des extraits relatifs aux enquêtes sur le travail des enfants
tirés du codebook de Data Document Initiative (DDI), version finale 1.0 DTD 23.

Il est à noter que les informations regroupées sous les titres suivants ne remplacent pas
le codebook ou le dictionnaire pour l’ensemble des données ASCII qui définit les disposi-
tions des micro-données.

Description sommaire de l’enquête

Titre. Le titre complet et officiel de l’enquête sera utilisé pour toutes les données et la
documentation, et devrait indiquer la portée géographique de la collecte de données
ainsi que la période couverte.

Par exemple: Travail des enfants au Portugal: caractérisation sociale des familles et
des enfants en âge scolaire, 1998.

Sous-titre. Un titre secondaire peut être utilisé pour mettre en relief ou délimiter le titre
principal. Par exemple: Travail des enfants au Portugal, 1998.

Titre alternatif. Le titre alternatif peut être celui généralement utilisé pour désigner la
collecte de données ou il peut être une abréviation du titre. Par exemple: Enquête
SIMPOC du Portugal, 1998.

Titre parallèle. Un titre peut être traduit dans une autre langue. Par exemple: Trabalho
Infantil em Portugal: Caracterizaçao social dos menores emidade escolar e suas fami-
lias, 1998.

Les mots clés. Les mots ou les phrases devraient être définis comme décrivant les prin-
cipaux aspects de l’enquête pouvant être utilisés pour construire des index de mots clés
à des fins de classification et de recherche documentaire.

Résumé. Il s’agit d’un résumé décrivant le but, la nature et la portée d’une collecte de
données sur le travail des enfants. Des caractéristiques spéciales du contenu et une liste
des variables principales dans les données peuvent être ajoutées ici.

Description sommaire des données

Elle devrait présenter brièvement l’enquête sur le travail des enfants en ce qui concerne
sa durée, les dates de collecte des données, la couverture géographique et l’unité d’analyse.

23
Le DTD du codebook de l’initiative de la documentation des données, [Link]
[Link]/DDI/users/dtd/[Link] (Les extraits ont été modifiés étant donné que le
document avait été préparé comme un guide pour différents types d’enquêtes conduites dans une
variété de situations et que certaines réalités ne devraient pas s’appliquer à tous les pays. En outre,
la même information est parfois présentée dans différentes sections du codebook en raison du fait
que lors de la diffusion en ligne le logiciel devrait chercher les mêmes données parmi plusieurs
titres. Une version complète est disponible à partir du site web du DTD du codebook.

38
La période couverte. Il s’agit de la période à laquelle se réfèrent les données- la période
couverte par les données, et non des dates de codage ou de l’élaboration de documents
lisibles par ordinateur ou des dates auxquelles les données ont été collectées. Par
exemple, si les données ont été collectées en 1999 et qu’une des questions était «Avez-
vous travaillé l’année dernière?», la période devrait être 1998-99.

Date de la collecte. Il s’agit de la / des date(s) à laquelle/ auxquelles les données ont
été collectées.

Pays. Nom du pays dans lequel l’enquête a été menée.

Couverture géographique. Elle concerne la couverture géographique totale des


données et tous les niveaux supplémentaires de codage géographique prévus dans les
variables. La plupart des enquêtes sur le travail des enfants sont de portée nationale.

Unité géographique. Cette question se réfère à la localité géographique la plus petite


couverte par les données- par exemple la province, l’Etat ou le district.

Unité d’analyse. Pour la plupart des enquêtes sur le travail des enfants, l’unité de base
de l’analyse ou de l’observation est l’individu.

L’univers. Le résumé devrait aussi inclure une description de la population couverte


par les données dans le fichier- le groupe de personnes ou autres éléments qui font
l’objet de l’enquête et auxquels se réfèrent les résultats des investigations. L’âge, la
nationalité et la résidence aident généralement à délimiter un univers donné- connu
aussi sous le nom d’univers d’intérêt, population d’intérêt ou population cible- mais
plusieurs autres facteurs peuvent aussi être impliqués, parmi lesquels les limites d’âge,
le sexe, le statut matrimonial, la race, le groupe ethnique, la nationalité, le revenu, le
statut de vétéran et le casier judiciaire. L’univers peut être constitué d’éléments autres
que les personnes, y compris les unités et régions d’habitation. En général, il devrait
être possible de dire d’après la description de l’univers si un individu ou un élément
donné (hypothétique ou réel) fait partie de la population soumise à l’enquête (par
exemple, lorsque dans le cadre d’une enquête sur le travail des enfants, uniquement les
enfants du groupe d’âge de 5-15 ans sont interrogés).

Nature des données. Il s’agit de la nature des données comprises dans le fichier. Par
exemple, données d’enquête, agrégées, cliniques ou portant sur des évènements/ opéra-
tions; code de la source des programmes; texte lisible sur ordinateur; données sur les
enregistrements administratifs; donnée textuelle; donnée textuelle codée; documents
codés; agendas du budget temps; données/ indices d’observation; ou donnée traitée.
Tous les types de données applicables devraient être inclus.

Notes. Les notes devraient être utilisées pour fournir des informations supplémentai-
res en clarifiant et en commentant les informations du codebook sur la portée de la
collecte des données.

La méthodologie et le traitement de l’enquête

La méthode du temps. Panel, coupe instantanée (transversale), tendances et séries


chronologiques représentent quelques moyens d’approche de la dimension temporelle
de la collecte des données.

Collecteur de données. Il s’agit de l’entité (par exemple un bureau national de statis-


tique) responsable de l’administration du questionnaire, de l’interview et/ou de la
compilation des données.

39
Fréquence de la collecte des données. Si les données ont été collectées à différentes
périodes, indiquer la fréquence de la collecte. Par exemple, dans les enquêtes sur le
travail des enfants effectuées pour la première fois, «première fois» devrait suffire.

Procédure d’échantillonnage. Il s’agit à partir de techniques de sondage (échantillon


et plan d’échantillonnage) de constituer des échantillons des unités soumises à l’en-
quête, représentatifs de la population cible. Elle porte aussi sur la taille de l’échantillon
cible et la fraction d’échantillonnage (taux de sondage).

Modifications majeures à partir de l’échantillon élaboré. Indiquer les correspon-


dances ainsi que les divergences entre les unités d’échantillon (obtenues) et les statis-
tiques disponibles pour la population dans son ensemble (âge, rapport de masculinité,
statut matrimonial, etc.).

Modalités de collecte des données. Il s’agit de la méthode utilisée pour collecter les
données (par exemple interviews face à face).

Type d’instrument de recherche. «Structuré» veut dire qu’un questionnaire qui


s’adresse à tous les participants avec les mêmes questions et qui peut inclure des
réponses préalablement codées. Si une petite partie d’un tel questionnaire comporte
des questions avec possibilité d’extension, fournir les commentaires appropriés.
«Semi-structuré» indique que le questionnaire contient essentiellement des questions
avec possibilité d’extension. «Non structuré» indique que des interviews en profondeur
ont été menées. La plupart des enquêtes sur le travail des enfants sont par nature
structurées.

Mesures pour réduire les pertes. Le résumé devrait inclure les mesures prises pour
réduire les pertes de données telles que les visites de suivi, les contrôles des supervi-
seurs, l’adaptation historique et l’estimation.

Opérations de contrôle. Décrire les méthodes utilisées pour faciliter le contrôle des
données au cours de l’enquête et ensuite le traitement des données.

Pondération. L’utilisation de procédures d’échantillonnage peut rendre nécessaire l’ap-


plication de coefficients de pondération en vue d’obtenir des résultats statistiques exacts.
Décrire ici les critères pour l’utilisation de coefficients de pondération dans l’analyse
de la collecte de données. Si une formule ou un coefficient de pondération a été établi,
fournir la formule, définir ses éléments et indiquer comment la formule a été appliquée
aux données.

Opérations de nettoyage. Les méthodes utilisées pour nettoyer les données collectées
peuvent inclure par exemple des contrôles de cohérence et de codes aberrants.

Notes sur les erreurs au niveau de l’étude. Inclure toutes informations annotant ou
clarifiant la méthodologie et les procédures en matière de traitement des données.

Informations sur l’évaluation des données

Taux de réponse. IL s’agit du pourcentage des personnes faisant partie de l’échantillon


qui ont fourni les informations.

Estimations de l’erreur d’échantillonnage. Inclure une mesure indiquant comment


on peut estimer de manière précise une valeur de population à partir d’un échantillon
donné.

40
Autres formes d’évaluation des données. Inclure des éléments tels que la variance
des réponses, le taux de non- réponse, les tests sur les biais liés aux questions ainsi
qu’aux enquêteurs et aux réponses, et les niveaux de confiance.

Accès aux données

Cette partie décrit les conditions d’accès et d’utilisation et fournit d’autres informa-
tions concernant la disponibilité et le stockage des données collectées.

Lieu. Indiquer où sont actuellement stockées les données (par exemple, bureau natio-
nal de statistique).

Archives où l’étude a été originellement stockée. Indiquer éventuellement l’endroit


où les données ont été précédemment stockées (par exemple, un autre ministère ou
service).

Statut de disponibilité. Fournir une déclaration sur la disponibilité des données. Par
exemple, les données peuvent ne pas être disponibles parce qu’elles ont été interdites
d’accès avant la diffusion officielle du rapport final.

Etendue des données. Présenter le nombre de fichiers physiques qui existent dans un
ensemble de données en indiquant le nombre de fichiers de données et en spécifiant si
la «collection» contient une documentation ou tous autres fichiers supplémentaires lisi-
bles sur ordinateur ainsi que des informations telles que le dictionnaire, la déclaration
de définition et les instruments de collecte des données.

Etat complet de l’étude stockée. Décrire la relation entre les données collectées et la
quantité des données codées et stockées lors de la collecte de données. Indiquer au
besoin pourquoi certains éléments des informations collectées n’ont pas été inclus dans
le fichier de données.

Nombre de fichiers. Indiquer le nombre total de fichiers physiques rattachés à une


collecte.

Notes sur les collectes. Fournir toutes les informations supplémentaires concernant la
disponibilité des données.

Autorité d’accès. Identifier la personne ou l’organisation servant de liaison qui contrôle


l’accès à la collecte de données au niveau du pays (avec son adresse complète et son
numéro de téléphone, si possible).

Déclaration d’utilisation des données. Expliquer les conditions éventuelles d’utili-


sation de la collecte de données.

Conditions. Décrire, lorsque c’est nécessaire, les conditions d’utilisation et d’accès


non prévues ailleurs.

Exigence de mention. Spécifier tout texte qui devrait être mentionné dans des publi-
cations basées sur l’analyse des données.

Exigence de dépôt. Informations concernant la responsabilité des utilisateurs externes


concernant la nécessité d’informer les pays ou le BIT de l’utilisation par eux des
données lorsqu’ils citent le travail publié ou en fournissent des copies.

Notes. Inclure dans la partie sur l’accès aux données une sous-section sur les «notes»
générales afin de faciliter les annotations/ clarifications des informations concernant
l’accès aux données.

41
Descriptions fichier par fichier

Tous les fichiers, y compris les fichiers sur les données et la documentation, devraient
être décrits de manière individuelle.

Nom du fichier. Utiliser un titre court pour distinguer un fichier particulier / une partie
d’autres fichiers/ parties de la collecte de données.

Contenu du fichier. Fournir un résumé ou une description sommaire du fichier indi-


quant son but, sa nature, sa portée, les caractéristiques de son contenu, les domaines
principaux couverts et les motifs de sa création. Il est également important d’énumé-
rer les variables principales contenues dans le fichier. En cas de collecte de plusieurs
fichiers, décrire le contenu de chaque fichier séparément.

Structure du fichier. Décrire le type de structure de fichier en indiquant par exemple


si un fichier déterminé est hiérarchisé, rectangulaire ou relationnel.

Enregistrement ou groupe d’enregistrements. Si le fichier est hiérarchisé ou rela-


tionnel, décrire les groupements d’enregistrements.

Etiquette (de l’enregistrement). Fournir des informations plus détaillées pour chaque
groupe d’enregistrements.

Dimensions (de l’enregistrement). Décrire les caractéristiques physiques de l’enre-


gistrement en indiquant notamment le nombre de variables par enregistrement, le
nombre de cas et, éventuellement, la longueur de l’enregistrement.

Notes (sur l’enregistrement ou le groupe d’enregistrements). Indiquer toutes les


informations supplémentaires concernant le type d’enregistrement.

Dimensions du fichier global

Comptage global des cas. Pour les fichiers rectangulaires, indiquer le nombre de cas
ou d’observations dans le fichier entier.

Comptage global des variables. Pour les fichiers rectangulaires, indiquer le nombre
de variables dans le fichier entier.

Longueur logique de l’enregistrement. La longueur logique d’enregistrement d’un


fichier est le nombre de caractères qui y sont contenus. Fournir cette information pour
les fichiers rectangulaires ou lorsque tous les enregistrements dans un fichier hiérar-
chisé sont de même longueur.

Type de fichier. Si les fichiers de données sont de type mixte (par exemple, à la fois
ASCII et dépendant d’un logiciel) indiquer à quel type ils appartiennent.

Format des données. Spécifier le format physique du fichier de données, c’est-à-dire


format délimité, format libre, dépendant d’un logiciel, etc.

Lieu de l’établissement du fichier. Indiquer quel service a établi le fichier.

Etendue des contrôles du traitement. Indiquer ici, au niveau du fichier, les types de
contrôles et d’opérations accomplis sur le fichier de données.

Statut en matière de traitement. Indiquer le statut du fichier en matière de traitement,


s’il fait partie d’une collecte de plusieurs fichiers.

42
Les données manquantes. Fournir les informations qui peuvent être utilisées pour
calculer les données manquantes. Montrer que les données manquantes ont été stan-
dardisées dans toute la collecte et qu’elles sont le résultat de la fusion, etc.

Logiciel. Indiquer le logiciel qui a été utilisé pour créer le fichier, y compris son numéro
de version.

Déclaration de la version. Fournir une déclaration de la version pour le fichier des


données.

Notes. Fournir des informations supplémentaires au sujet du fichier de données ne figu-


rant pas dans les autres parties de ce résumé.

Groupe de variables

Il s’agit d’un groupe de variables qui peut porter sur le même sujet, dériver de l’inter-
prétation d’une question particulière ou qui est lié par tout autre facteur. Indiquer lequel de
ces cas suivants s’applique:

Type. Montrer le type général du groupement de variables (sujet, réponses multi-


ples, etc.).

Var. Indiquer l’ensemble des variables constituant les IDs dans le groupe.

Groupe de variables. Indiquer tous les groupes de variables subsidiaires imbriqués


dans le groupe actuel de variables qui permettent l’encodage d’une structure hiérar-
chisée des groupes de variables.

Nom. Il s’agit de l’unique identificateur ID du groupe.

Références en matière de description sommaire des données. Elles enregistrent les


valeurs ID de tous les éléments dans le cadre de la description sommaire des données
indiquée précédemment qui s’appliquent à ce groupe de variables. Ces éléments
incluent la période couverte, la date de la collecte, le pays, la couverture géographique,
l’unité géographique, l’unité d’analyse, l’univers et le type de données.

Méthodologie et références en matière de traitement. Elles enregistrent les valeurs


ID de tous les éléments dans le cadre de la méthodologie de l’étude et de la partie rela-
tive au traitement des données présentées précédemment s’appliquant à ce groupe de
variables. Ces éléments comportent des informations sur la collecte et l’évaluation de
données (par exemple, échantillonnage, sources, pondération, nettoyage des données,
taux de réponse et estimations des erreurs d’échantillonnage).

Etiquette du groupe de variables

Elaborer une courte description du groupe de variables.

Texte sur le groupe de variables. Il s’agit d’une description plus longue du groupe de
variables.

Définition du groupe de variables. Indiquer pourquoi les variables sont groupées de


cette façon.

Notes. Ajouter toute information/annotation de clarification concernant les groupes de


variables.

43
Variable

Chaque variable a besoin d’un nom pour lui servir d’unique ID. Pour chaque variable,
fournir les informations suivantes:
• si la variable est un coefficient de pondération;
• référence à la variable du coefficient de pondération pour cette variable;
• une identification de la question pour la variable;
• référence au fichier auquel appartient la variable;
• quel format a été utilisé (par exemple SAS, SPSS);
• le nombre de points décimaux dans la variable;
• si les options sont discrètes ou continues;
• le type d’enregistrement auquel appartient cette variable;
• références à la description sommaire des données enregistrant les valeurs ID pour
tous les éléments qui s’appliquent à cette variable; et
• références à la méthodologie et au traitement enregistrant la valeur ID de tous les
éléments qui s’appliquent à cette variable.
• Etiquette de la variable. Il s’agit d’une phrase descriptive qui définit la variable.
La longueur de la phrase peut dépendre du système d’analyse statistique utilisé.
• Imputation. L’imputation est le processus par lequel les valeurs manquantes pour
les questions auxquelles un participant à une enquête n’a pas répondues sont esti-
mées. Si cela est appliqué dans ce contexte, indiquer la procédure utilisée.
• Interdiction. Cela fournit des informations sur les variables qui peuvent ne pas
être actuellement disponibles à cause des politiques établies par les bureaux natio-
naux de statistique ou les ministères.
• Unité de réponse. Indiquer qui a fourni les informations figurant dans la variable
(par exemple, la personne interrogée, la procuration, l’enquêteur).
• Unité d’analyse. Elle fournit des détails sur les personnes ou les objets décrits par
la variable.
• Libellé de la question. Il s’agit du libellé de la question effectivement posée.
• Texte postérieur à la question. Ce texte décrit éventuellement ce qui arrive
lorsque la question a été posée.
• Instructions aux interviewers. Il s’agit des instructions spécifiques adressées à
la personne qui réalise l’interview.
• Fourchette des valeurs de données valides. Il s’agit des valeurs d’une variable
particulière qui représentent les réponses valables.
• Fourchette des valeurs de données non valides. Il s’agit des valeurs d’une varia-
ble particulière qui représentent les données manquantes, les réponses «non appli-
cables», etc.
• Liste des codes non documentés. Il s’agit de valeurs dont le sens n’est pas connu.
• Résumé des statistiques. Il s’agit d’une ou de plusieurs mesures statistiques qui
décrivent les réponses à une variable particulière et qui peuvent inclure un ou
plusieurs résumés types, par exemple des valeurs minimales et maximales.
• Texte de la variable. Il s’agit d’une description détaillée de la variable, quelque
chose qui va au-delà de ce qui est prévu dans «nom de la variable» et «étiquette
de la variable»

44
• Instructions relatives au codeur. Il s’agit là de toutes instructions particulières
destinées à ceux qui ont converti les informations d’une forme à une autre pour
une variable particulière. Cela pourrait inclure la réorganisation des informations
numériques dans une autre forme ou la conversion des informations textuelles en
informations numériques.
• Déclaration de la version. Lorsqu’une variable a subi des changements, une
déclaration de version est nécessaire.
• Dérivation. Utilisé seulement dans le cas de variables dérivées, cet élément fournit
aussi bien une description de la manière dont la dérivation a été accomplie et de
la commande employée pour construire la variable dérivée qu’une présentation
des autres variables de l’étude utilisées pour créer la dérivation.
• Description de la dérivation. Il s’agit d’un texte décrivant la façon dont la varia-
ble a été dérivée en vue d’une présentation aux utilisateurs.
• Commande de dérivation. Il s’agit de la commande réellement utilisée pour créer
la variable dérivée. L’attribut de syntaxe est utilisé pour indiquer le langage de
commande employé (par exemple SPSS, SAS, Fortran).
• Format de la variable. Il s’agit du format de la variable en question et comprend
le type (caractères ou numériques), le nom du format particulier (en cas de schéma
applicable: groupe du distributeur ou principes définissant le format, l’un des
éléments ci-après, SAS, SPSS, IBM, ANSI, ISO ou XML- DATA), la catégorie
(la date, le temps, la monnaie, autres) et l’identificateur du réseau pour la défini-
tion du format.

3.9 Tabulations finales

Cette section traite des aspects de la tabulation, notamment ceux qui concernent les
personnes en charge du traitement de données. Les tabulations finales sont généralement
élaborées au tout début du processus de l’enquête et ne sont pas nécessairement vues comme
faisant partie du traitement des données. Cependant, habituellement, ce seront les person-
nes chargées du traitement des données qui prépareront les tables pour les analystes.

Toutes les enquêtes supposent une sorte de plan de tabulation. Dans les enquêtes sur le
travail des enfants, un tel plan est généralement formulé dans le cadre de discussions entre
les partenaires principaux. Une fois les données traitées, on devrait élaborer un ensemble
complet de tables basées sur les variables spécifiées par les analystes de données.

Au cours de la tabulation, l’ensemble des données subira des modifications, y compris


des additions et des suppressions, et, même lorsque la correction des données la plus rigou-
reuse a été accomplie au cours des étapes antérieures, des erreurs supplémentaires peuvent
être découvertes. De plus, des variables non prévues devront être établies; différents analys-
tes voudront subdiviser les données par cas et / ou par variables. En conséquence, de multi-
ples versions de l’ensemble des données seront disponibles. Des copies de ces différentes
versions peuvent être effectuées pour différents ordinateurs de bureau, d’où une forte propen-
sion à la confusion.

Il est à noter que toutes les variables dérivées supplémentaires créées et incorporées
dans l’ensemble des données pour y être conservées doivent aussi suivre une convention
d’affectation de nom adéquate et être étiquetées selon la manière décrite plus haut. Ces varia-
bles dérivées devraient aussi être soumises à des procédures standard de contrôle des erreurs
telles que le codage aberrant et les valeurs manquantes. Des explications sur les raisons et
la méthode de leur création devraient figurer dans le codebook ou dans les métadonnées.

45
Finalement, tous les fichiers devraient recevoir des noms différents indiquant leur propre
numéro de version.

Il faudrait veiller à ce que seulement des fichiers à jour et complets (non des sous-
ensembles) soient utilisés pour les tabulations.

3.10 Conversion des fichiers de données à d’autres formats

Les fichiers de données sont généralement créés dans le format spécifique au logiciel
tel que SPSS ou SAS et ne peuvent être lus convenablement que dans ce logiciel. Un analyste
secondaire peut ne pas avoir accès au logiciel dans lequel les données ont été originellement
créées. La lecture des données dans tout autre logiciel (par exemple quand un fichier est créé
en SAS pour Windows et lu ensuite en SPSS pour Windows) ou dans un environnement
informatique différent (par exemple créé sur un PC avec Windows et lu sur un poste de travail
avec Unix) n’est généralement pas une opération facile. Parfois, cette opération n’est pas
possible du tout.

Ainsi, il est toujours recommandé d’enregistrer les données dans d’autres formats. La
meilleure option est de créer l’ensemble des données dans un format ASCII (fichier texte).

• Le format ASCII a l’avantage de pouvoir être importé par n’importe quel logiciel,
pourvu que la documentation nécessaire soit disponible.

• Le format ASCII est aussi mieux adapté à la conservation à long terme. Un ensem-
ble de données, créé et conservé aujourd’hui, peut ne pas pouvoir être utilisé pendant
des années. Au moment où quelqu’un voudrait utiliser les données, cette version
spécifique du logiciel peut ne plus être disponible et les versions nouvelles disponi-
bles peuvent être incompatibles avec l’ancienne. Dans de tels cas, des ensembles de
données deviennent obsolètes dans leur intégralité. Du point de vue de l’archivage,
il est donc souhaitable que les données soient enregistrées dans un format ASCII
aussi bien que dans celui du fabricant.

Les données SPSS peuvent être converties dans un format ASCII de la manière suivante:

1. Ouvrir les données en affichage de variables.

2. Donner une étiquette à toutes les variables comportant les termes adéquats (voir
la documentation finale, section 3.8, ci-dessus). Si des mots appropriés ne sont
pas trouvés, «le texte exact de la question» peut être utilisé en dernier recours.

3. Ajouter toutes les valeurs dans la colonne des valeurs.

4. S’assurer que l’option coefficient de pondération est désactivée, autrement, il y


aurait plus de cas dans le fichier de données.

5. Sauvegarder le fichier de données en tant que fichier ASCII de largeur fixe avec
la commande «enregistrer sous» et sélectionner l’option fixe ASCII lorsqu’un
fichier de données avec extension DAT doit être créé.

6. Les noms des variables et les nombres requis de colonnes seront indiqués dans la
fenêtre de sortie.

7. Dans la fenêtre de sortie, sélectionner «file and then display Data Info», et toutes
les variables avec leur étiquette et leurs valeurs seront affichées.

46
8. Prendre une réponse de fréquence de toutes les variables (option «Without Table»).

9. Exporter tous les objets de la fenêtre de sortie dans un fichier texte en sélection-
nant «fichier», ensuite «exporter» et enfin «enregistrer sous» lorsqu’un fichier
avec une extension TXT doit être créé.

10. Modifier le fichier texte en ajoutant ou en supprimant des informations supplé-


mentaires en cas de besoin.

11. Ce fichier texte est maintenant le dictionnaire des données et le codebook pour un
fichier de données ASCII (avec extension DAT) créés au cours de l’étape 5 ci-
dessus.

12. Prendre les tables de fréquence pour toutes les variables et les sauvegarder en tant
que fichier de sortie. Vu certaines tables, telles que celles concernant les identifi-
cateurs uniques, seront très grandes et peuvent prendre un espace de mémoire
important, elles peuvent être rejetées, même si cela n’est pas recommandé. Ces
tables seront utiles pour ceux qui lisent les données ASCII dans un logiciel en tant
que vérification pour s’assurer que les données ont été correctement lues.

Un exemple de codebook et de dictionnaire de données établis en SAS est inclus dans


l’Annexe IV. Il faudrait retenir que les étapes décrites ci-dessus ne produiraient pas le code-
book en Annexe IV.

Quel que soit le logiciel de statistique utilisé pour le traitement des données, il est forte-
ment recommandé de créer un ensemble de données ASCII avec le dictionnaire de données
et la documentation nécessaires.

3.11 Stockage de tous les fichiers

Différentes personnes accèderont aux données provenant des enquêtes sur le travail des
enfants. A l’origine, les données et la documentation qui y est rattachée sont généralement
préparées dans le format spécifique au logiciel. Le choix du logiciel pour le traitement des
données de l’enquête dépend à la fois de la disponibilité d’un tel logiciel et des ressources
humaines et financières au niveau du pays. Cependant, différentes personnes dans différents
pays utilisant une diversité de logiciels voudront accéder à ces données. Ainsi, l’accessibi-
lité aux fichiers de données et de documentation requis est d’une très grande importance.
Cela signifie que différents types de fichiers ont besoin d’être créés et stockés de manière
efficace.

Une fois tous les fichiers prêts, ils devraient être transférés dans un nouveau répertoire.
La liste suivante des types de fichiers concernés est typique; le nombre réel de fichiers listés
variera d’un pays à un autre.

1. Les données dans le format spécifique au logiciel (par exemple SAS pour
Windows, le logiciel utilisé pour le nettoyage et l’analyse les données).

2. Les données dans un format délimité ASCII avec le dictionnaire nécessaire de


données (tous les fichiers en format texte et plus qu’un fichier).

3. Un ensemble de données accessible au public dépouillé de toutes variables qui


pourraient être utilisées pour identifier une personne / institution dans le format
spécifique au logiciel (fichier modifié à partir du point 1 ci-dessus).

47
4. Un ensemble de données accessible au public sans variables qui pourraient être
utilisées pour identifier une personne / institution, dans un format délimité ASCII
avec le dictionnaire nécessaire de données (modifié à partir du point 1 ou converti
à partir du point 3 ci-dessus).

5. Documentation finale, de préférence à la fois dans le format DTD du codebook


du «Data Documentation Initiative» et dans un texte ASCII dans la langue originale.

6. Questionnaire avec réponses, texte dans la langue originale (de préférence annoté
avec le nom des variables, y compris des variables dérivées, et créé sur la base de
tout logiciel MS Office Suite).

7. Toutes les règles logiques établies en tant que partie du traitement de données et
qui ne figurent nulle part dans la langue originale.

8. Les programmes qui ont été établis en tant que partie du traitement de données et
de la tabulation dans la langue originale (de préférence dans un texte ASCII).

9. Un manuel d’instruction de l’enquêteur et / ou superviseur, de préférence en


MSWord et dans la langue originale.

10. La documentation, de préférence en MSWord et dans la langue originale, décri-


vant la structure de l’ensemble de données et fournissant des informations concer-
nant les variables et les valeurs, les systèmes de codage et de classification ainsi
que des détails sur les variables dérivées, la pondération et les extensions de résul-
tats. Des détails sur tout processus engagé pour rendre les ensembles de données
anonymes, tirés du point 5, ci-dessus, pour servir de référence.

11. Tout rapport basé sur l’ensemble de données, de préférence en MSWord et dans
la langue originale.

12. Les codes créés tels que ceux relatifs à l’emploi, à la profession, et aux accidents.

13. Tout fichier de classification (par exemple, emploi, accidents) créé de manière
spécifique pour l’enquête sur le travail des enfants.

14. Tous les sujets mentionnés dans les points 5-13 dans toute autre langue, dans le
cas où ils ont été traduits.

Un contrôle complet devrait également être effectué pour s’assurer que:

• L’ensemble des données qui a été déplacé pour un stockage temporaire est le bon et
qu’il est prêt à être transféré à un stockage permanent; le personnel chargé du trai-
tement des données est souvent engagé dans différentes activités en même temps
et il arrive parfois que des fichiers soient déplacés par erreur pour un stockage
temporaire;

• Le questionnaire est inclus dans sa forme originale exacte; et

• Tous les matériels de documentation (par exemple codebook, programmes) sont


expliqués et sont prêts à être utilisés par des analystes secondaires.

Enfin, un fichier index devrait être créé et comporter, au moins, les trois types suivants
d’informations à propos de chaque fichier:

• le nom du fichier;

48
• la date de création ou de la dernière modification; et

• une description d’une seule ligne du contenu du fichier.

Les informations telles que la taille du fichier, la personne qui l’a créé et le motif de sa
création peuvent aussi être incluses dans le fichier index. Elles devraient être sauvegardées
comme un fichier texte.

49
4. Conservation des données

4.1 Introduction

La conservation des données – qui est l’une des étapes les plus importantes de l’en-
quête – est la phase la plus souvent ignorée. Très souvent, des enquêtes importantes ne débou-
chent que sur un nombre limité de rapports basés sur quelques tables, alors que les données
brutes utilisées pour l’élaboration de ces rapports ont simplement été perdues. De telles
données, cependant, devraient rester disponibles pour une utilisation plus large par des
analystes secondaires et cela exige que soit établie une stratégie clairement définie pour une
conservation et une diffusion efficaces. Une conservation efficace des données exige les
mesures suivantes:
• le transfert des fichiers à la machine de conservation;
• l’élaboration d’un index pour les fichiers;
• la mise au point d’une structure de stockage dans la machine principale d’archivage;
• des procédures efficaces de sauvegarde;
• des procédures physiques et techniques de sécurité; et
• un contrôle continu de toutes les procédures susvisées.

Le système de conservation finale devrait se trouver sur un ordinateur autre que ceux
utilisés pour les opérations quotidiennes. Ni les données, ni la documentation ne devraient
être stockées dans un ordinateur de bureau ou tout autre ordinateur utilisé pour le travail de
routine. Une fois le traitement achevé, les informations devraient être transférées à un ordi-
nateur indépendant, un de ceux, de préférence, qui ne seront pas utilisés pour un futur trai-
tement des données.

Si pour des raisons de ressources insuffisantes, ces mesures sont impraticables, tous les
fichiers devraient être copiés sur un support autonome tels que les CD-Roms. Ces supports
devraient être étiquetés de manière adéquate, datés et conservés en lieu sûr. Pour se prému-
nir contre la destruction des versions originales par le feu, par exemple, plusieurs copies
devraient être stockées dans des endroits différents.

L’accès à la machine de conservation ou au support autonome (par exemple CDs,


bandes) devrait être contrôlé et autorisé aux seules personnes ayant des droits de lecture/
écriture.

Si quelqu’un veut utiliser l’ensemble des données, il devrait recevoir des copies des
fichiers désirés.

Tout changement à apporter à un fichier devrait respecter les procédures établies en


matière de gestion des données. Toutes les versions précédentes devraient être conservées
et l’index mis à jour.

4.2 Organisation des fichiers

Une fois que le traitement des données est achevé et que tous les fichiers ont été créés, le
personnel responsable du stockage à long terme des fichiers (généralement l’administrateur
du système) créera une structure de répertoire pour le stockage permanent sur l’ordinateur.
Les fichiers peuvent être regroupés de différentes manières, en prenant en considération des

51
questions telles que les types de fichiers concernant notamment leur contenu et les modali-
tés de leur création.

Compte tenu de leur contenu, les fichiers peuvent être regroupés selon les modalités
suivantes:

Données. Ce sont les vrais fichiers de données et peuvent être élaborés dans différents
formats (par exemple, SPSS, ASCII).

Documentation. Ce sont les fichiers qui décrivent les données. Ils peuvent être créés
sur la base d’un logiciel de traitement de texte ou ils peuvent être de simples fichiers
textes.

Programmes. Ce sont des fichiers de programmes établis au cours du traitement des


données (programmes créés pour élaborer l’écran de saisie des données, par exemple).
Là aussi, les fichiers peuvent être soit dans le format spécifique au logiciel, soit dans
un simple format texte.

Questionnaires. Les questionnaires utilisés pour l’enquête sont généralement dans les
formats spécifiques aux logiciels.

Manuel de l’enquête. Les manuels d’instructions fournissent aux enquêteurs des


instructions spécifiques sur la manière de mener la collecte de données sur le terrain.

Rapports. Les rapports (y compris les tables) établis sur la base des données sont géné-
ralement dans le format spécifique au logiciel.

Codes (par exemple, emploi, profession, accident). Des codes types ou des codes
spécifiques au pays sont utilisés pour l’enquête.

Il peut y avoir également des données accessibles au public différentes de l’ensemble


des données réservées à un usage interne. De plus, il peut y avoir des fichiers (tels que des
programmes informatiques détaillés établis pour les contrôles de cohérence) qui ne peuvent
pas être accessibles au public.

Modèles de structure d’organisation

Voici ci-après un modèle de structure d’organisation des fichiers.

CLS. Pour faciliter le travail de l’administration, toutes les informations relatives aux
enquêtes sur le travail des enfants devraient être stockées dans un seul répertoire, qui
peut être nommé le «CLS», ou répertoire du travail des enfants. Le CLS constitue le
répertoire de base pour toutes les informations relatives à ce sujet.

Interne et externe. Deux sous-répertoires, l’un nommé interne et l’autre externe,


dépendent directement du répertoire CLS. Le sous-répertoire interne contient tous les
fichiers créés au cours des activités de traitement des données. Tous les fichiers dans
ce répertoire sont limités à l’usage interne. Le sous-répertoire externe contient des
fichiers qui sont accessibles au public. La structure du fichier dans les deux répertoi-
res est similaire, à l’exception du fait que le sous- répertoire interne peut contenir un
plus grand nombre de fichiers.

VER_1. En raison du fait que différentes versions des données vont inévitablement
évoluer, une option est de créer un sous- répertoire nommé VER_1.

52
Données, Document et Rapport. Trois sous- sous- répertoires nommés Données,
Document et Rapport peuvent ensuite être incorporés sous VER_1. Un fichier index
décrit le contenu de chaque répertoire.

• Répertoire des données. Le répertoire des données contient seulement des fichiers
de données qui peuvent être spécifiques au logiciel ou des fichiers textes. Attendu
les fichiers textes de données sont toujours associés aux codebooks, ces derniers
apparaissent aussi dans le même répertoire. Un fichier index expliquera le contenu
de chaque fichier.

• Répertoire des documents. Ce répertoire contient toute la documentation nécessaire


concernant les données. Tous les programmes créés pour la cohérence, la tabulation,
etc. sont également présents dans ce répertoire ainsi que les questionnaires. Un fichier
index présente le contenu de chaque fichier.

• Répertoire du rapport. Ce répertoire contient tous les rapports liés aux données, y
compris le rapport national, le profil du pays, etc. Un fichier index présente le contenu
de chaque fichier.

VER_2. Lorsqu’un changement dans le fichier des données crée une version différente,
le fichier de documentation qui s’y rapporte doit aussi changer. On devrait au moins
indiquer ce qui a changé dans le fichier de données, les raisons et la période du chan-
gement. Cela exigera une refonte totale de la structure du répertoire. Cependant, si la
capacité de stockage pose problème, seulement les fichiers qui ont été changés devraient
être stockés dans le répertoire VER_2; tous les fichiers inchangés devraient être trans-
férés à VER_2. Le fichier index dans VER_1 devrait aussi être mis à jour pour inclure
l’emplacement actuel des fichiers manquants (répertoire VER_2 dans cet exemple) de
sorte que tous les fichiers demeurent facilement repérables. Cela s’explique par le fait
que les utilisateurs examineront en premier lieu les dernières versions lorsqu’ils recher-
chent des fichiers.

Un modèle similaire devrait être suivi pour la structure des répertoires externes. Toute-
fois, le nombre de fichiers externes peut être plus faible que le nombre correspondant
de fichiers dans le répertoire interne en raison du fait que certains fichiers peuvent ne
pas être accessibles aux utilisateurs externes. Aucun répertoire VER_1 ne devrait être
accessible aux utilisateurs externes. Ceux-ci devraient toujours pouvoir consulter la
dernière version.

Si les fichiers sont traduits dans une autre langue, chaque version de langue exigera une
structure complète et séparée de répertoire similaire à celle présentée dans la figure 1 ci-
dessous. Les noms dans les cases représentent les répertoires, alors que les noms non en
encadrés représentent les fichiers. Pour rendre la présentation plus facile, les noms des
fichiers n’ont pas été établis selon la méthode 8.3 (voir section 2.3, l’affectation d’un nom
aux fichiers).

4.3 Transfert des fichiers à une machine de conservation

Une fois les fichiers transférés pour un stockage permanent, les administrateurs doivent
vérifier qu’aucun fichier n’a été endommagé au cours du transfert. Afin d’assurer un trans-
fert de tous les fichiers à l’abri des erreurs, les contrôles suivants sont nécessaires:
• les numéros et noms des fichiers doivent correspondre aux informations pertinentes
du fichier index ;
• les fichiers doivent être garantis exempts de virus;

53
• les fichiers source et destination doivent être de taille égale (en bits);
• les fichiers devraient être ouverts au hasard pour voir s’ils on été convenablement
transférés; et
• les administrateurs du système devraient accomplir tous autres contrôles qu’ils
estiment nécessaires.
• Si le système le permet, les dates de création des fichiers devraient demeurer
inchangées.

4.4 Sauvegarde

Une fois que le traitement des données est achevé, les procédures de sauvegarde
devraient être appliquées. Un ensemble complet de données sur le travail des enfants est
généralement inférieur à 640MB et il est mieux stocké sur un CD simple. Le CD devrait être
clairement marqué pour identifier son contenu et la date de sa création. Tout changement
dans les données ou la documentation exige soit un CD de stockage séparé, soit un nouvel
ensemble de données qui portera une indication sur la date de sa création et sera transféré à
un répertoire séparé sur le même CD.

54
CLS

INTERNE EXTERNE

Ver_1 Ver_2

La structure sera
la même que
dans la Version 1
Données Document Rapport Index. txt Données Document Rapport Index. txt

Index. txt Index. txt Index. txt Index. txt Index. txt Index. txt

Data. sav Métadonnées Profil Data. por Métadonnées


Profile
du pays du pays
Rapport ASCII Rapport
Data. por Programmes données & Questionnaire
du pays du pays
fichiers
Data. txt Autres Autres
Questionnaire rapports rapports

Codebook. txt Etc.

55
Transfert des fichiers au BIT

Toutes les micro-données sur le travail des enfants ainsi que la documentation et les
rapports nécessaires seront stockés dans le répertoire central des données sur ce sujet. Tout
en prenant toujours en considération les questions de confidentialité, ces données seront
accessibles à des utilisateurs secondaires.

Les fichiers peuvent être transférés au BIT sur la base des procédures FTP. Des détails
sur la manière de transférer les fichiers utilisant FTP seront fournis avant le transfert effec-
tif. Toute personne désirant poser des questions est priée de contacter le BIT par e-mail:
simpoc@[Link]

Fichiers à envoyer au BIT:

1. un ensemble de données accessible au public, débarrassé des variables suscepti-


bles d’être utilisées pour identifier une personne/institution dans un format déli-
mité ASCII avec le codebook/dictionnaire de données nécessaires. Et aussi dans
le format spécifique au logiciel qui avait été utilisé pour le nettoyage des données
et/ou pour les tabulations (par exemple, SPSS, SAS, etc.).

2. la documentation finale, de préférence dans le format DTD du codebook de Data


Documentation Initiative et dans un texte ASCII dans la langue originale;

3. le questionnaire avec les catégories de réponses, le texte dans la langue originale


(de préférence annoté avec les noms des variables, y compris des variables déri-
vées, et créé sur la base d’un logiciel MS Office Suite);

4. toute règle logique établie au cours du traitement des données et ne figurant nulle
part dans la langue originale;

5. les programmes établis au cours du traitement des données et la tabulation dans


la langue originale (de préférence dans un texte ASCII);

6. le manuel de l’interviewer et/ou du superviseur, de préférence en MSWord et dans


la langue originale;

7. la documentation, de préférence en MSWord et dans la langue originale, décri-


vant la structure de l’ensemble des données et fournissant des informations sur les
variables et les valeurs, le codage et les systèmes de classification et des détails
sur les variables dérivées, la pondération, les extensions de résultats ainsi que tous
les processus engagés pour rendre l’ensemble des données anonyme, de même
que la moyenne, les écarts types et les valeurs maximales et minimales de chaque
variable;

8. tout système de codage ou référence à des informations sur le codage (par exemple,
emploi, profession et accidents) dans MSWord;

9. tout rapport basé sur l’ensemble des données, de préférence en MSWord et dans
la langue originale; et

10. toutes les questions mentionnées ci-dessus dans toute autre langue, dans le cas où
elles sont traduites.

57
Bibliographie et références supplémentaires

Active Server Corner. What’s in a name? Part I: Variables and methods.


[Link]

Audience Dialogue. Survey analysis.


[Link]

Carolina Population Center. Stata Programming: Data Management.


University of North Carolina.
[Link]

Center for Statistical Information and Research (CSCAR). Guide to data entry. University
of Michigan.
[Link]

Center for Disease Control and Prevention. EpiInfo, Version 6.


[Link]

Data Documentation Initiative – A project of the social science community


[Link]

Data Documentation Initiative. Codebook DTD Version 1.0 (FINAL) March 17 2000
[Link]
Data, Government and Geographic Information Services. SSDC Data File Structure in a
Nutshell. University of California, San Diego.
[Link]

Deakin University, School of Information Technology. Introduction to Data Collection and


Analysis: Processing survey data.
[Link]

History Data Service. Creating Data. [Link]

ILO. Classification of Occupational Injuries.


[Link]

ILO. International Classification of Status in Employment (ICSE).


[Link]

ILO. International Programme on the Elimination of Child Labour.


[Link]

ILO. International Standard Classification of Occupations.


[Link]

ILO. International Standard Industrial Classification of all Economic Activities (ISIC).


[Link]

ILO. Survey of activities of young people 1999.


[Link]

Inter-University Consortium for Political and Social Research (ICPSR). Guide to Social
Science Data Preparation and Archiving.
[Link]

59
North Carolina State University – Department of Statistics. How to Collect Survey Data.
[Link]

North Carolina State University – Department of Statistics. How to Plan a Survey.


[Link]

Office of Information Technology Services. An introduction to SPSS. Murdoch University.


[Link]

QQQ software Inc. [Link]

Rasinski, K., Timberlake, J., Lee, L., Porras, J., and Mulrow, J.: Producing a Public Use
File: A Case Study. American Statistical Association.
[Link]

SRS Data Library. Introduction to data handling. University of Chicago.


[Link]

The Blaise System Homepage. [Link]

U.S. Census Bureau, CS Pro. [Link]

U.S. Census Bureau. The Integrated Microcomputer Processing System.


[Link]

U.S. Department of Health and Human Services. Documenting Survey Data Files.
[Link]

U.S. Department of Health and Human Services. Producing welfare outcomes data files.
[Link]

UCLA Academic Technology Services, SPSS Learning Module Match: Merging Data Files.
University of California, Los Angeles.
[Link]

UCLA Academic Technology Services, SPSS Class notes: Splitting and merging files.
University of California, Los Angeles.
[Link]

UK Data Archive
[Link]

UNICEF, MICS data processing.


[Link]

60
Glossaire 24

Données agrégées. Données calculées à partir des micro-données.

ASCII. Abréviation de «American Standard Code for Information Interchange». C’est un


moyen par lequel beaucoup d’ordinateurs codifient les caractères, les chiffres et les
caractères spéciaux. En d’autres termes, tous les caractères sont dans le format texte et
aucune conversion n’est nécessaire pour lire/ écrire les caractères ASCII (comme c’est
le cas avec les formats spécifiques au logiciel).

Cas. Données complètes à propos d’une personne, d’un ménage ou d’une entité. Cela est
parfois désigné par observation ou unité d’observation. Un enregistrement simple ou
des enregistrements multiples, selon la structure de l’enquête et des données, pourraient
constituer un cas.

CAPI. Computer-aided personnal interviewing. Les données sont collectées sur la base d’in-
terviews face à face. De petits ordinateurs (ordinateurs de poche, ordinateurs portables
ou des supports électroniques portables qui peuvent être connectés aux ordinateurs)
sont utilisés pour la collecte des données.

CATI. Computer-aided telephone interviewing. Les données sont collectées sur la base d’in-
terviews par téléphone. De petits ordinateurs (ordinateurs de poche, ordinateurs porta-
bles ou des supports électroniques portables qui peuvent être connectés aux ordina-
teurs) sont utilisés pour la collecte des données.

Code. Dans la plupart des fichiers de données numériques, les réponses aux questions sont
enregistrées à l’aide de chiffres plutôt que par un texte et souvent même les réponses
numériques sont enregistrées par le biais des nombres au lieu de la réponse réelle. Les
nombres utilisés dans le fichier de données sont appelés «codes». Ainsi, quand une
personne interrogée se qualifie d’enfant qui travaille, un code «1» devrait être utilisé
pour «cherche l’eau», «2» pour «mendie», etc. De même, un âge de 18 ans peut rece-
voir le code 2 indiquant «18 ans ou plus». Les codes utilisés et leur correspondance par
rapport aux réponses réelles sont énumérés dans le codebook ou, en cas de codage
préalable, dans le questionnaire.

Le codebook. En général, il contient toutes les informations sur la structure, le contenu et


la présentation du fichier de données. Plus spécifiquement, un codebook comporte des
emplacements de colonnes et des largeurs pour chaque variable; des définitions des
différents types d’enregistrements; des codes réponses pour chaque variable; des codes
utilisés pour indiquer les non-réponses et les données manquantes; les questions réelles
et les cas où certaines questions doivent être ignorées ainsi que d’autres éléments du
contenu de chaque variable. De nombreux codebooks comportent aussi des indications
sur la fréquence des réponses. Les codebooks, qui peuvent être lisibles sur ordinateur,
copie de papier ou microfiche, varient beaucoup par rapport à la qualité et à la quan-
tité des informations qu’ils comportent.

Connexion directe par câble. Une procédure basée sur Windows par l’intermédiaire de
laquelle les fichiers sont transférés entre des ordinateurs qui ne sont pas en réseau. Le
programme est mis en place au cours de l’installation de Windows, et il se trouve géné-
ralement sous le groupe de programme «Accessoires ➙ Communication». Les ordi-
nateurs ont d’abord besoin d’être connectés par leurs ports / de série / parallèles. Les

Plusieurs définitions du glossaire sont basées sur le «Glossary of Selected Social Science
24

Computing Terms and Social Science Data Terms» [Link]

61
deux ordinateurs ont aussi besoin de recevoir une configuration appropriée avant le
transfert des fichiers.

DDI. La Data Documentation Initiative (DDI) est un effort pour établir des critères et une
méthodologie internationale en matière de contenu, de présentation, de transport et de
conservation des métadonnées au sujet des ensembles de données dans les sciences
sociales et du comportement.

Double saisie. C’est lorsque, au cours de la saisie des données, les mêmes informations sont
saisies par deux personnes différentes et ensuite comparées pour détecter les erreurs.

DTD. Document type definition (DTD) est un ensemble de règles déterminé par une appli-
cation qui utilise SGML (Standard Generalized Mark-up Language) en vue du balisage
des documents d’un type particulier.

Fichier plat. Il s’agit de la structure du fichier. Un fichier plat est un fichier dans lequel
chaque personne interrogée ou chaque unité d’analyse comporte le même nombre de
variables. Souvent connu sous le nom de fichier rectangulaire par opposition à fichier
hiérarchisé.

FTP. File transfer protocol (FTP) est une méthode sûre de transfert électronique des fichiers
entre des ordinateurs en réseau.

Fichier hiérarchisé. C’est un fichier de données ASCII dans lequel plusieurs types d’enre-
gistrements sont organisés. Le type et (généralement) le nombre de variables associées
à chaque personne interrogée ou unité d’analyse sont différents pour chaque type d’en-
registrement. Par exemple, un ménage peut être enregistré type 1, qui comporte 10 varia-
bles décrivant le bâtiment, alors qu’une personne peut être enregistrée type 2, qui comp-
rend 20 variables séparées décrivant chaque membre vivant dans ce bâtiment.

HTML. HyperText Markup Language. HTML est une langue véhiculaire pour la publica-
tion d’hypertextes sur le World Wide Web.

Imputations. C’est le procédé par lequel on peut estimer les valeurs manquantes pour des
questions auxquelles la personne interrogée dans le cadre d’une enquête n’a pas
répondu.

Saisie intelligente des données. Il s’agit de l’utilisation d’un logiciel capable aussi bien
d’aider à la détection des erreurs au cours de la saisie des données qu’à fournir des
mesures préventives destinées surtout à éviter les erreurs.

LapLink. C’est un logiciel qui permet le transfert des fichiers entre des ordinateurs qui ne
sont pas connectés par l’intermédiaire d’un réseau. Deux ordinateurs sont d’abord
connectés à l’aide d’un câble Laplink au moyen de leurs ports parallèles ou de leurs
ports de série. Lorsque les ordinateurs sont mis en marche en mode DOS et que le logi-
ciel LL3 (LapLink 3.0) est exécuté, les fichiers peuvent être transférés facilement entre
deux ordinateurs.

Métadonnée. C’est une information relative aux données. Elle représente l’information qui
permet une utilisation effective, efficace et exacte de l’ensemble des données auquel
elle se réfère.

Microdonnée. Ce sont des informations basées sur des réponses individuelles, collectées
dans le cadre d’une forme particulière de procédure de collecte des données (interviews
face à face, dans la plupart des enquêtes sur le travail des enfants). Les fichiers conte-
nant les microdonnées sont connus sous le nom de fichiers de microdonnées.

62
Valeurs manquantes. Ce sont les valeurs (codes) qui manquent dans un ensemble de
données. Parfois, une donnée pour une variable particulière est laissée en blanc pour
un enregistrement particulier. Cela peut se produire, par exemple, lorsque la question
n’est pas applicable à ce cas.

PAPI. Interview avec papier et crayon- lorsque les données sont collectées dans le cadre
d’interviews face à face et que les réponses sont enregistrées sur papier (sur le ques-
tionnaire). Toutes les données sont alors saisies à l’aide d’un ordinateur pour y être
ensuite traitées.

Questionnaire préalablement codé. Un questionnaire d’interview où les codes pour chaque


réponse sont déjà inclus dans le questionnaire.

Questionnaire. Parfois signalé comme l’instrument de l’enquête, c’est un ensemble de ques-


tions posées au cours des interviews.

Données brutes. Synonyme de microdonnées.

RDF. Resource description framework. Un moyen type de décrire une entité, par exemple,
les conditions dans lesquelles certaines données ne peuvent pas être disponibles à
certains utilisateurs.

Enregistrement. Données complètes à propos d’une personne, d’un ménage ou d’une entité.
Un certain nombre de variables constitue un enregistrement. Quand un enregistrement
constitue un cas, le nombre d’enregistrements est le même que celui des cas (observa-
tion ou unité d’observation) dans un fichier de données.

Type d’enregistrement. Parfois, dans le même fichier de données ASCII, la même colonne
concerne une variable différente. Le codebook associé à un fichier de données ASCII
explique comment un logiciel de statistique interprètera chaque colonne du fichier de
données selon le type d’enregistrement.

Fichier rectangulaire. Même chose que fichier plat.

SGML. Standard Generalized Markup Language.

Telnet. Un procédé par lequel on peut accéder à distance à un autre ordinateur en réseau et
utiliser les ressources disponibles de l’ordinateur en question.

Unité d’analyse. C’est l’entité de base observable analysée par une enquête, et pour laquelle
les données sont collectées sous forme de variables. Bien qu’une unité d’analyse soit
parfois signalée comme un cas ou une observation, ces termes ne sont pas toujours
synonymes. Avec les enquêtes sur le travail des enfants, l’»unité d’analyse» est une
personne, alors qu’un «cas» est un ménage parce que le ménage peut comporter diffé-
rentes variables pour les différentes unités d’analyse, à savoir un abri physique, une
famille dans le bâtiment et une personne dans la famille.

Variable. Dans la recherche en sciences sociales, pour chaque unité d’analyse, chaque sujet
de donnée (par exemple l’âge de la personne, le revenu de la famille) est appelé variable.

Coefficient de pondération. Dans la recherche en matière d’enquête, c’est un nombre


associé à un cas ou une unité d’analyse. Le coefficient de pondération est utilisé en tant
que mesure de la contribution relative des variables de ce cas au moment de faire des
estimations pour la population entière. Quand un échantillon de probabilité est utilisé,
il y a souvent un risque que quelques éléments de la population soient sous ou surre-
présentés. Dans le but de permettre des estimations plus exactes d’une population

63
entière, des «coefficients de pondération» sont donc affectés à chaque cas et utilisés
pour ajuster les résultats globaux de manière à les rendre plus adaptés à la population
totale.

Code aberrant. Dans la recherche en matière d’enquête, les codes aberrants sont des codes
qui ne sont pas autorisés pour une question particulière. Par exemple, si une question
qui enregistre le sexe de la personne interrogée possède les codes documentés de «1»
pour féminin, «2» pour masculin et «9» pour «donnée manquante», un code de «3»
serait un code «aberrant», appelé parfois «code non documenté».

XML. Extensible Markup Language est le format universel pour les documents structurés
et les données sur le World Wide Web.

64
Annexe I

Comparaison des logiciels de statistique 25

STATA STATA SAS SAS SPSS


Version 6 Version 7 Version 6.12 Version 8.x Version 10

1 024 (utilisant
Largeur max.
la liste des
du fichier d’entrée 1 mega-octet
8 192 8 192 32 767 données) (plus
de données (sous Windows)
si File Handle
de format brut
est utilisé)
Windows Windows Pas de limite
Dimensions max. Limité par la Limité par la NTFS: NTFS: (limité
du fichier mémoire libre la mémoire libre 17GB. 4 trillions GB. seulement
de données de la machine de la machine Autre Autre par l’espace
Windows: 2GB Windows: 2GB du disque)
Pas de limite Pas de limite Pas de limite
(limité (limité (limité
Nombre max.
2 147 483 647 2 147 483 647 seulement seulement seulement
d’observations
par l’espace par l’espace par l’espace
du disque) du disque) du disque)
Pas de limite
(limité
Nombre max.
2 047 2 047 32 767 32 767 seulement
de variables
par l’espace
du disque)
Longueur max.
du nom 8 32 8 32 8
de la variable
Longueur max.
de l’étiquette
de la variable 80 80 40 256 255
Longueur max.
de l’étiquette 80 80 40 256 60
de la valeur
Longueur max.
de l’étiquette
80 80 ? 32 60
d’un ensemble
de données
Longueur max. 8 pour courte
d’une variable 80 80 200 32767 chaîne; 255 pour
de chaîne longue chaîne
Nombre max. de
codes de valeurs 1 1 27 27 Pas de limite
manquantes

25
Basée sur «les services de la technologie académique d’UCLA»: SPSS FAQ Quelles sont
les limites de la version 10 de SPSS et des autres logiciels de statistique, [Link]
edu/stat/spss/faq/[Link]

65
STATA STATA SAS SAS SPSS
Version 6 Version 7 Version 6.12 Version 8.x Version 10

Nombre max. de
notes qui peuvent
être jointes 9 999 9 999 N/D N/D Pas de limite
à un fichier
de données
Nombre
d’ensembles de
données pouvant 1 1 Pas de limite Pas de limite 1
être ouverts
simultanément
Nombres
Dates Nombre de Nombre de Nombre de jours Nombre de de secondes
calculées jours à partir jours à partir jours à partir jours à partir à partir
en tant que du 1/1/1960 du 1/1/1960 du 1/1/1960 du 1/1/1960 du 14 Oct.
1582
Nombre max.
de variables clés 10 10 Pas de limite Pas de limite Pas de limite
dans une fusion
Nombre max.
de niveaux dans
l’encodage / 80 80 N/D N/D Pas de limite
le recodage
automatique
Nombre max.
de conditions
30 100 Pas de limite Pas de limite Pas de limite
dans une
instruction «si»
Nombre max.
de lignes
3000 3000 32 760 unités 32 760 unités Pas de limite
dans une table
à une entrée
Nombre max.
de lignes
300 300 32 760 unités 32 760 unités Pas de limite
dans une table
à double entrée
Nombre max.
de colonnes
dans une table
à double entrée 20 20 32 760 unités 32 760 unités Pas de limite

66
Annexe II

Noms des pays en Français et éléments de codes 26

Cette liste donne les noms de pays (formes courtes officielles des noms en français) par
ordre alphabétique tels qu’ils sont donnés dans l’ISO 3166-1 et des codes alpha-2 correspon-
dants de l’ISO 3166-1.

Cette liste est mise à jour chaque fois qu’une modification est apportée par l’agence
d’entretien de l’ISO 3166 à la liste officielle des codes de l’ISO 3166-1.

Cette liste est complète et à jour au 26 février 2001. Elle donne 239 noms dans leur
forme courte officielle et leur élément de code correspondants.

AFGHANISTAN AF
AFRIQUE DU SUD ZA
ALBANIE AL
ALGERIE DZ
ALLEMAGNE DE
ANDORRE AD
ANGOLA AO
ANGUILLA AI
ANTARCTIQUE AQ
ANTIGUA-ET-BARBUDA AG
ANTILLES NEERLANDAISES AN
ARABIE SAOUDITE SA
ARGENTINE AR
ARMENIE AM
ARUBA AW
AUSTRALIE AU
AUTRICHE AT
AZERBAIDJAN AZ
BAHAMAS BS
BAHREIN BH
BANGLADESH BD
BARBADE BB
BELARUS BY
BELGIQUE BE
BELIZE BZ

26
Basé sur l’organisation internationale pour la standardisation: [Link]
prods-services/iso3166ma/02iso-3166-code-lists/[Link]

67
BENIN BJ
BERMUDES BM
BHOUTAN BT
BOLIVIE BO
BOSNIE-HERZEGOVINE BA
BOTSWANA BW
BOUVET, ILE BV
BRESIL BR
BRUNEI DARUSSALAM BN
BULGARIE BG
BURKINA FASO BF
BURUNDI BI
CAIMANES, ILES KY
CAMBODGE KH
CAMEROUN CM
CANADA CA
CAP-VERT CV
CENTRAFRICAINE, REPUBLIQUE CF
CHILI CL
CHINE CN
CHRISTMAS, ILE CX
CHYPRE CY
COCOS (KEELING), ILES CC
COLOMBIE CO
COMORES KM
CONGO CG
CONGO, LA REPUBLIQUE DEMOCRATIQUE CD
COOK, ILES CK
COREE, REPUBLIQUE DE KR
COREE, REPUBLIQUE POPULAIRE DEMOCRATIQUE DE KP
COSTA RICA CR
COTE D’IVOIRE CI
CROATIE HR
CUBA CU
DANEMARK DK
DJIBOUTI DJ
DOMINICAINE, REPUBLIQUE DO
DOMINIQUE DM
EGYPTE EG

68
EL SALVADOR SV
EMIRATS ARABES UNIS AE
EQUATEUR EC
ERYTHREE ER
ESPAGNE ES
ESTONIE EE
ETATS-UNIS US
ETHIOPIE ET
FALKLAND ILES (MALVINAS) FK
FEROE, ILES FO
FIDJI FJ
FINLANDE FI
FRANCE FR
GABON GA
GAMBIE GM
GEORGIE GE
GEORGIE DU SUD ET LES ILES SANDWICH DU SUD GS
GHANA GH
GIBRALTAR GI
GRECE GR
GRENADE GD
GROENLAND GL
GUADELOUPE GP
GUAM GU
GUATEMALA GT
GUINEE GN
GUINEE-BISSAU GW
GUINEE EQUATORIALE GQ
GUYANA GY
GUYANE FRANCAISE GF
HAITI HT
HEARD, ILE ET MCDONALD, ILES HM
HONDURAS HN
HONG-KONG HK
HONGRIE HU
ILES MINEURES ELOIGNEES DES ETATS-UNIS UM
ILES VIERGES BRITANNIQUES VG
ILES VIERGES DES ETATS-UNIS VI
INDE IN

69
INDONESIE ID
IRAN,REPUBLIQUE ISLAMIQUE D’ IR
IRAQ IQ
IRLANDE IE
ISLANDE IS
ISRAEL IL
ITALIE IT
JAMAIQUE JM
JAPON JP
JORDANIE JO
KAZAKSTAN KZ
KENYA KE
KIRGHIZISTAN KG
KIRIBATI KI
KOWEIT KW
LAO, REPUBLIQUE DEMOCRATIQUE POPULAIRE LA
LESOTHO LS
LETTONIE LV
LIBAN LB
LIBERIA LR
LIBYENNE, JAMAHIRIYA ARABE LY
LIECHTENSTEIN LI
LITUANIE LT
LUXEMBOURG LU
MACAO MO
MACEDOINE, L’EX-REPUBLIQUE YOUGOSLAVE MK
MADAGASCAR MG
MALAWI MW MV
MALDIVES MV
MALI ML
MALTE MT
MARIANNES DU NORD, ILES MP
MAROC MA
MARSHALL, ILES MH
MARTINIQUE MQ
MAURICE MU
MAURITANIE MR
MAYOTTE YT
MEXIQUE MX

70
MICRONESIE, ETATS FEDERES DE FM
MOLDOVA, REPUBLIQUE DE MD
MONACO MC
MONGOLIE MN
MONTSERRAT MS
MOZAMBIQUE MZ
MYANMAR MM
NAMIBIE NA
NAURU NR
NEPAL NP
NICARAGUA NI
NIGER NE
NIGERIA NG
NIOUE NU
NORFOLK, ILE NF
NORVEGE NO
NOUVELLE-CALEDONIE NC
NOUVELLE-ZELANDE NZ
OCEAN INDIEN, TERRITOIRE BRITANNIQUE DE L’ IO
OMAN OM
OUGANDA UG
OUZBEKISTAN UZ
PAKISTAN PK
PALAOS PW
PALESTINIEN OCCUPE, TERRITOIRE PS
PANAMA PA
PAPOUASIE-NOUVELLE-GUINEE PG
PARAGUAY PY
PAYS-BAS NL
PEROU PE
PHILIPPINES PH
PITCAIRN PN
POLOGNE PL
POLYNESIE FRANCAISE PF
PORTO RICO PR
PORTUGAL PT
QATAR QA
REUNION RE
ROUMANIE RO

71
ROYAUME-UNI GB
RUSSIE, FEDERATION DE RU
RWANDA RW
SAHARA OCCIDENTAL EH
SAINTE-HELENE SH
SAINTE-LUCIE LC
SAINT-KITTS-ET-NEVIS KN
SAINT-MARIN SM
SAINT-PIERRE-ET-MIQUELON PM
SAINT-SIEGE (ETAT DE LA CITE DU VATICAN) VA
SAINT-VINCENT-ET-LES-GRENADINES VC
SALOMON, ILES SB
SAMOA WS
SAMOA AMERICAINES AS
SAO TOME-ET-PRINCIPE ST
SENEGAL SN
SEYCHELLES SC
SIERRA LEONE SL
SINGAPOUR SG
SLOVAQUIE SK
SLOVENIE SI
SOMALIE SO
SOUDAN SD
SRI LANKA LK
SUEDE SE
SUISSE CH
SURINAME SR
SVALBARD ET ILE JAN MAYEN SJ
SWAZILAND SZ
SYRIENNE, REPUBLIQUE ARABE SY
TADJIKISTAN TJ
TAIWAN, PROVINCE DE CHINE TW
TANZANIE, REPUBLIQUE -UNIE DE TZ
TCHAD TD
TCHEQUE, REPUBLIQUE CZ
TERRES AUSTRALES FRANCAISES TF
THAILANDE TH
TIMOR ORIENTAL TP
TOGO TG

72
TOKELAU TK
TONGA TO
TRINITE-ET-TOBAGO TT
TUNISIE TN
TURKMENISTAN TM
TURKS ET CAIQUES, ILES TC
TURQUIE TR
TUVALU TV
UKRAINE UA
URUGUAY UY
VANUATU VU
Vatican, Etat de la Cité du voir SAINT-SIEGE
VENEZUELA VE
VIET NAM VN
WALLIS ET FUTUNA WF
YEMEN YE
YOUGOSLAVIE YU
Zaire voir CONGO, LA REPUBLIQUE DEMOCRATIQUE
ZAMBIE ZM
ZIMBABWE ZW

73
Annexe III
Questionnaire sur le travail des enfants en Zambie en fin de décennie
(module éducation) 27
QUESTIONS
NUMÉRO DE 1 2 3 4
LA PERSONNE
Contrôler l’âge, si c’est … a-t-il/elle jamais Pourquoi n’a … jamais Quel est/était le niveau
15 ans ou plus, poser la fréquenté l’école fréquenté l’école? le plus élevé atteint?
question primaire/
secondaire? TRAVAILLE . . . . . . . . . 1 INDIQUER LE NIVEAU
Peut … lire une lettre ou CHER . . . . . . . . . . . . . 2
un journal? OUI . . . . . . . . . . 1 >>Q4 TROP LOIN . . . . . . . . . 3
NON . . . . . . . . . . . . . . 2 INSCRIPTION
FACILEMENT. . . . . . . . 1 REFUSEE. . . . . . . . . . 4
AVEC DIFFICULTE . . . . 2 AUTRE . . . . . . . . . . . . 5
PAS DU TOUT . . . . . . . 3 (Spécifier)
N/A OU AVEUGLE . . . . 8 >> PERSONNE
DK. . . . . . . . . . . . . . . . 9 SUIVANTE

SUITE DU MODULE EDUCATION

QUESTIONS A POSER AUX PERSONNES ÂGÉES DE 5 À 30 ANS TOUS LES AUTRES >> MODULE SUIVANT
NUMÉRO DE 5 6 7 8
LA PERSONNE
Durant l’année scolaire Quel type d’école … Quel niveau … a-t-il/elle Quelle est la principale
actuelle … a-t-il/elle fréquente? actuellement atteint? raison que … ne
fréquenté une école fréquente pas l’école?
primaire/secondaire à PUBLIQUE. . . . . . . . . . 1 INDIQUER
un moment donné PRIVÉE . . . . . . . . . . . . 2 LE NIVEAU >> TRAVAIL . . . . . . . . . . . 1
sans tenir compte des MISSION. . . . . . . . . . . 3 CHER . . . . . . . . . . . . . 2
vacances? COMMUNAUTAIRE . . . 4 Q9 TROP LOIN . . . . . . . . . 3
AUTRES . . . . . . ……. 5 NON SELECTIONNÉ/
OUI . . . . . . . . . . . . . . . 1 ÉCHEC. . . . . . . . . . . . 4
NON . . . . . . . . . . . . 2>> GROSSESSE . . . . . . . . 5
Q8 L’ECOLE
ACHEVÉE . . . . . . . . . 6
S’EST MARIÉ . . . . . . . 7
AUTRE . . . . . . . . . . . . 8
(SPÉCIFIER)

SUITE DU MODULE EDUCATION

QUESTIONS A POSER SEULEMENT AUX PERSONNES AGEES DE 5 A 30 ANS TOUS LES AUTRES >> MODULE SUIVANT
NUMÉRO DE LA PERSONNE 9 10 11

… a-t-il/elle fréquenté Quel type d’école … Quel niveau scolaire


l’école primaire/secondaire a-t-il/elle fréquenté a-t-il/elle atteint l’année
l’année dernière? l’année dernière? dernière?

OUI . . . . . . . . . . . . . . . . . . 1 Publique . . . . . . . . . . . . . . 1 Indiquer le niveau


NON. . . . . . . . . . . . . . . . . . 2 Privée . . . . . . . . . . . . . . . . 2
Mission . . . . . . . . . . . . . . . 3
>>Module suivant Communautaire. . . . . . . . . 4
Autre . . . . . . . . . . . . . . . . . 5

Basé sur [Link]


27

[Link] du BIT/IPEC/SIMPOC/Zambia

74
Annexe IV
Un modèle de carnet de codage pour des données ASCII créées avec SAS 28

Index Nom du fichier:HHOLD


Question Nom de la variable

Nombre unique . . . . . . . . . . . . . . . . . . . . . . . UQNR


Q4.1 Type d’habitation que le ménage occupe . . . . . . . . . . Q41DWELL
Q4.2 Nombre de chambres . . . . . . . . . . . . . . . . . . . . Q42NOROO
Q4.3 Source d’énergie (cuisine) . . . . . . . . . . . . . . . . . . Q43COOKI
Q4.3 Source d’énergie (chauffage) . . . . . . . . . . . . . . . . Q43HEATI
Q4.3 Source d’énergie (éclairage) . . . . . . . . . . . . . . . . Q43LIGHT
Q4.4a Qui ramasse le bois/le fumier . . . . . . . . . . . . . . . . Q44ACOLL
Q4.4b Le sexe des personnes qui ramassent le bois/le fumier . . . Q44BCOLL
Q4.5 La source principale d’eau du ménage . . . . . . . . . . . Q45WATER
Q4.6a Qui cherche l’eau . . . . . . . . . . . . . . . . . . . . . . Q46ACOLL
Q4.6b Le sexe des personnes qui cherchent l’eau . . . . . . . . . Q46BCOLL
Q4.7a Cultive la terre ou possède du bétail . . . . . . . . . . . . Q47AHHCU
Q4.7b Le membre du ménage qui possède la terre . . . . . . . . . Q47BRELA
Q4.7b Terre allouée par la tribu . . . . . . . . . . . . . . . . . . Q47BRELB
Q4.7b Le ménage est autorisé par le propriétaire à utiliser la terre Q47BRELC
Q4.7b Le ménage verse de l’argent pour louer la terre . . . . . . . Q47BRELD
Q4.7b Le ménage fournit un travailleur . . . . . . . . . . . . . . Q47BRELE
Q4.7b Paie le loyer sous forme d’une partie de la production . . . Q47BRELF
Q4.7b Droit d’utiliser la terre en contrepartie d’un travail . . . . . Q47BRELG
Q4.7b Le ménage possède un accès gratuit à la terre . . . . . . . Q47BRELH
Q4.8a Revenu annuel brut total du ménage . . . . . . . . . . . . Q48AGROS
Q4.8b Salaires réguliers . . . . . . . . . . . . . . . . . . . . . . Q48BREGU
Q4.8b Salaires temporaires . . . . . . . . . . . . . . . . . . . . . Q48BCASU
Q4.8b Revenu du travail indépendant . . . . . . . . . . . . . . . Q48BSELF
Q4.8b. Transfert ne provenant pas du ménage . . . . . . . . . . . Q48BREMI
Q4.8b Revenu de l’agriculture . . . . . . . . . . . . . . . . . . . Q48BAGRI
Q4.8b Pension de retraite . . . . . . . . . . . . . . . . . . . . . . Q48BPENS
Q4.8b Allocations pour les enfants placés . . . . . . . . . . . . . Q48BCHIL
Q4.8c Logement subventionné . . . . . . . . . . . . . . . . . . . Q48CSUBA
Q4.8c Nourriture ou repas subventionnés . . . . . . . . . . . . . Q48CSUBB
Province . . . . . . . . . . . . . . . . . . . . . . . . . . . PROV
Type de région . . . . . . . . . . . . . . . . . . . . . . . . STRATUM
Qualifié pour la seconde étape . . . . . . . . . . . . . . . QALIFIE
Sélectionné pour la seconde étape . . . . . . . . . . . . . SELECTIONNE
Numéro de la personne principale . . . . . . . . . . . . .
Langue de l’entrevue . . . . . . . . . . . . . . . . . . . . Q410LANG
Poids du ménage pour l’étape une . . . . . . . . . . . . . HHWGT

28
Voir aussi [Link]

75
Nom du fichier: Hhold
Section: Section 4

Nombre unique

Nom de la variable: UQNR Position: 1 Type/longueur: Numérique 10


Code valide: 1011010101 9313021471

Q4 . 1 Quel est le type d’habitation occupé par le ménage (Si ce ménage occupe
plusieurs habitations, entourer le type principal d’habitation)
Nom de la var. Q41DWELL Position: 11 Type/longueur: Numérique 3
Code valide 1 Maison ou structure de briques sur un terrain ou
un jardin* séparé
2 Habitation traditionnelle/hutte/ Structure faite
de matériaux* traditionnels
3 Appartement dans une résidence*
4 Maison en ville/ agglomérat/ semi-détachée
(simplex, duplex ou triplex)*
5 Maison / appartement / Chambre derrière la maison
6 Habitation non conventionnelle/cabane derrière
la maison
7 Habitation non conventionnelle/cabane indépendante
de la maison par exemple dans un squat / une zone
traditionnelle (informel)*
8 Chambre(s) /garage non situé derrière la maison
mais dans une propriété* commune
9 Caravane / tente*
10 Autre, spécifier
-99 Non spécifié
* Inclure dans les catégories 1 à 4 et 7 à 9 des structures similaires pour les fermes
commerciales

Q4.2 Combien de chambres, y compris les cuisines, sont à la disposition


de ce ménage? A l’exclusion des toilettes et des salles de bain
Nom de la var.: Q42NOROO Position: 14 Type/longueur: Numérique 3
Code valide: 1-20
-99 non spécifié

Q4.3 Quelle est la principale source d’énergie/combustible pour ce ménage?


(cuisine)
Nom de la var Q43cook1 Position: 17 Type/longueur: Numérique 3
Code valide: 1 Electricité
2 Gaz
3 Pétrole
4 Bois
5 Charbon
6 Bougies
7 Fumier
8 Energie solaire
9 Autres, spécifier
-99 Non spécifié

76
Q4.3 Quelle est la principale source d’énergie /combustible pour ce ménage?
(Chauffage)
Nom de la var : Q43HEATI Position: 20 Type/longueur: Numérique 3
Code valide: 1 Electricité
2 Gaz
3 Pétrole
4 Bois
5 Charbon
6 Bougies
7 Fumier
8 Energie solaire
9 Autre, spécifier
-99 non spécifié

Q4.3 Quelle est la principale source d’énergie/combustible pour ce ménage?


(Eclairage)
Nom de la Var.: Q43LIGHT Position: 23 Type/longueur: Numérique 3
Code valide: 1 Electricité
2 Gaz
3 Pétrole
4 Bois
5 Charbon
6 Bougies
7 Fumier
8 Energie solaire
9 Autre, spécifier
-99 Non spécifié

Q4.4a (Poser les question Q4.4 si la réponse à Q4.3 est 4 ou 7) qui ramasse ce
bois/recueille ce fumier?
Nom de la var: Q44ACOLL Position: 26 Type/longueur: Numérique 4
Code valide: 1 Quelqu’un d’étranger au ménage(le bois/le fumier
livrés ou personne payée pour le faire) (passer à la
question Q4.5)
2 Quelqu’un d’étranger à la maison (gratuit au ménage)
(aller à la question Q4.5)
3 Seulement un adulte/des adultes du ménage
4 Seulement un enfant/des enfants (de moins de 18 ans)
du ménage
5 Un adulte/des adultes et un enfant/des enfants
(de moins de 18 ans) du ménage
6 Autre, spécifier
-99 Non spécifié
-999 Non applicable

Q4.4b Les personnes qui ramassent le bois, recueillent le fumier sont-elles


généralement?
Nom de la Var. Q44BCOLL Position: 30 Type/longueur: Numérique 4
Code valide: 1 Majoritairement de sexe masculin
2 Majoritairement de sexe féminin
3 Equitablement des deux sexes
-99 Non spécifié
-999 Non applicable

77
Q4.5 Quelle est la principale source d’eau du ménage?
Nom de la var. Q45WATER Position: 34 Type/longueur: Numérique 3
Code valide 1 Canalisations d’eau (robinet) dans l’habitation
(Aller à Q4.7)
2 Canalisation d’eau (robinet) sur le site ou dans
le jardin (Passer à Q4.7)
3 Robinet public
4 Le transporteur d’eau /camion-citerne
5 Eau de puits sur le site
6 Eau de puits en dehors du site/communal
7 Réservoir d’eau de pluie sur le site
8 Cours d’eau/ruisseau
9 Réservoir/bassin/eau stagnante
10 Puits
11 Source
12 Autre, spécifier
-99 Non spécifié

Q4.6a Qui cherche généralement l’eau?


Nom de la var. Q46ACOLL Position 37 Type/longueur: Numérique 4
Code valide: 1 Une personne étrangère au ménage (eau livrée ou
personne payée pour le faire) (Passer à Q4.7)
2 Une personne étrangère au ménage (fournie
gratuitement au ménage) (Passer à Q4.7)
3 Seulement un adulte /des adultes dans le ménage
4 Seulement un enfant/des enfants (de moins de
18 ans) dans le ménage
5 Un adulte/des adultes et un enfant /des enfants
(de moins de 18 ans) dans le ménage
6 Autre, spécifier
-99 Non spécifié
-999 Non applicable

Q4. 6b Les personnes qui cherchent généralement l’eau sont-elles?


Nom de la var. Q46BCOLL Position: 41 Type/longueur: Numérique 4
Code valide: 1 Surtout des hommes
2 Surtout des femmes
3 Aussi bien des hommes que des femmes
-99 Non spécifié
-999 Non applicable

Q4. 7a Votre ménage cultive-t-il un terrain ou possède-t-il du bétail, ou même


des poules, pour la vente ou la consommation personnelle?
Nom de la var. Q47AHHCU Position: 45 Type/longueur: Numérique 4
Code valide 1 Oui
2 Non (passer à Q4.8)
-99 Non spécifié
-999 Non applicable

Q4. 7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? (Peut-être plusieurs
parcelles)
a) Un membre du ménage est propriétaire du terrain ou appartient à
l’entité légale qui possède le terrain

78
Nom de la var. Q47BRELA Positon 49 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable

Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? Peut-être plusieurs
parcelles)
b) La terre a été attribuée par une autorité tribale ou traditionnelle à un
membre du ménage
Nom de la variable: Q47BRELB Position: 53 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable

Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail (peut-être plusieurs
parcelles)
c) La personne responsable du terrain autorise un membre du ménage à
utiliser le terrain
Nom de la var. Q47 BRELC Position: 57 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
– 99 Non spécifié
-999 Non applicable

Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? (peut-être plusieurs
parcelles)
d) Un membre du ménage loue le terrain
Nom de la var: Q47BRELD Position: 61 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable

Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? (peut-être plusieurs
parcelles)
e) Le ménage devait fournir un travailleur pour la personne responsable
du terrain
Nom de la variable: Q47BRELE Position: 65 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable

Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? (peut-être plusieurs
parcelles)
f) Le versement d’un loyer sous forme d’une partie de la production
(partage de la récolte)

79
Nom de la var. Q47BRELF Position: 69 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable

Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail? (peut-être plusieurs
parcelles)
g) Le droit d’utiliser le terrain parce que travaillant pour le propriétaire
Nom de la var: Q47BRELG Position: 73 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable

Q4.7b Quelle est la situation de votre ménage par rapport au terrain que vous
cultivez ou sur lequel vous gardez votre bétail (peut-être plusieurs
parcelles)
h) Le ménage a un accès gratuit au terrain
Nom de la var. Q47BRELH Position: 77 Type/longueur: Numérique 4
Code valide: 1 Oui
2 Non
-99 Non spécifié
-999 Non applicable

Q4. 8a Pour les derniers 12 mois, pourriez- vous S. V. P. me dire dans lesquelles
des catégories suivantes se situe le revenu total brut annuel de votre
ménage. Inclure tous versements et toutes sources de revenu
Nom de la var. Q48AGROS Position: 81 Type/longueur: Numérique 3
Code valide: 1 Pas de revenu
2 R1- R1 200
3 R1 202- R2 400
4 R2 401- R4 200
5 R4 201- R6 000
6 R6 001- R9 000
7 R9 001- R12 000
8 R12 001- R18 000
9 R18 001- R30 000
10 R30 001- R42 000
11 R42 001- R54 000
12 R54 001 ou plus
13 Ne sait pas
14 Refuse
-99 Non spécifié

Q4. 8b Est-ce que le revenu du ménage comporte


a) des salaires réguliers?
Nom de la var. Q48BREGU Position: 84 Type/lLongueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié

80
Q4.8b Est-ce que le revenu du ménage comporte
b) des salaires temporaires?
Nom de la var.: Q48BCASU Position: 87 Type/longueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié

Q4.8b Est-ce que le revenu du ménage comporte


c) le revenu d’un travail indépendant?
Nom de la var. Q48BSELF Position: 90 Type/longueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié

Q4.8b Est-ce que le revenu du ménage comporte


d) des transferts ne provenant pas des membres du ménage?
Nom de la variable: Q48BREMI Position: 93 Type/longueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié

Q4.8b Est-ce que le revenu du ménage comporte


e) des revenus de l’agriculture
Nom de la var: Q48BAGRI Position: 96 Type/longueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié

Q4.8b Est-ce que le revenu du ménage comporte


f) une pension de retraite
Nom de la var.: Q48BPENS Position: 99 Type/longueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié

Q4.8b Est-ce que le revenu du ménage comporte


g) des allocations pour enfants, des allocations de subsistance ou
allocations pour enfants placés, c. a. d. des allocations liées directement
aux enfants
Nom de la var.: Q48BCHIL Position: 102 Type/longueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié

Q4. 8c Un membre de la famille reçoit-il les prestations suivantes, en totalité ou


en partie du fait qu’il/elle travaille?
a) les indemnités de logement
Nom de la var.: Q48CSUBA Position: 105 Type/longueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié

81
Q4.8c Un membre de la famille reçoit-il les prestations suivantes, en totalité ou
en partie du fait qu’il/elle travaille?
b) nourriture ou repas
Nom de la var.: Q48CSUBB Position: 108 Type/longueur: Numérique 3
Code valide: 1 Oui
2 Non
-99 Non spécifié

Province (variable dérivée: Premier chiffre d’un nombre PSU)


Nom de la var. Prov Position: 111 Type/longueur: Numérique 1
Code valide: 1 Western Cape
2 Eastern Cape
3 Northern Cape
4 Free State
5 Kwazulu- Natal
6 North West
7 Gauteng
8 Mpumalanga
9 Northern Province

Type de région (variable dérivée: à partir de l’énumération des types de région)


Nom de la var.: STRATUM Position 112 Type/longueur: Numérique 1
Code valide 1 Urbaines conventionnelles
2 Urbaines non conventionnelles
3 Autres régions rurales
4 Fermes commerciales

Qualifié (Variable dérivée: à partir de la question 3.4


Nom de la var.: Qualifié Position: 113 Type/longueur: Numérique 1
Code valide: 1 Si le ménage est qualifié pour la sélection pour
la seconde étape
2 Autre

Selectionné (variable dérivée)


Nom de la var.: Sélectionné Position: 114 Type/longueur: Numérique
Code valide 1 Si le ménage était qualifié pour la sélection et
qu’il a été sélectionné
2 Autre

Q4. 9 Numéro de personne de la principale personne interrogée


Nom de la var.: Q49MAINR Position: 115 Type/longueur: Numérique 3
Code valide: 0 – 22
-99 Non spécifié
Q4. 10 La langue dans laquelle l’entrevue a été menée
Nom de la var.: Q410 LANG Position: 118 Type/longueur: Numérique 3
Code valide 10 Afrikaans
26 Arabe
23 Chinois
3 Anglais
17 Français
13 Allemand
14 Grec

82
1 Gujarati
19 Hindi
1 Isandebele/Ndebele/South Ndebele/North Ndebele
2 Isixhosa/Xhosa
3 Isizulu/Sizulu/Zulu
15 Italien
4 Néerlandais
16 Portugais
4 Sepedi /Northern Sotho
5 Sesotho/Southern Sotho/Sotho
6 Setswana/Tswana
25 Shona
7 Siswati/Swazi
24 Swahili
18 Tamil
20 Telegu
8 Tshivenda /Venda
22 Urdu
9 Xitsonga /Tsonga /Shangaan
0 Autre
-99 Non signalé

Coefficient de pondération du ménage pour l’étape I (Variable dérivée: pondéré par


rapport au recensement de la population de 1996 sur la base de la province et du
type de région
Nom de la var.: HHWGT Position: 121 Type/longueur: Numérique 4
Code valide: 7 - 3 686

83
Statistiques descriptive: HHOLD. Dat
Variable N Moyen Std Dev Minimum Maximum

UQNR 26105 5335171383 2527122034 1011010101 9313021471


Q41DWELL 26105 2.3880866 7.8654339 -99.0000000 10.0000000
Q42NOROO 26105 2.0488795 13.2371657 -99.0000000 20.0000000
Q43COOKI 26105 2.1672477 5.8887941 -99.0000000 9.0000000
Q43HEATI 26105 1.6592990 11.1480539 -99.0000000 9.0000000
Q43LIGHT 26105 2.0647002 7.7083625 -990000000 9.0000000
Q44ACOLL 26105 -701.9144608 457.2320285 -999.0000000 6.0000000
Q44BCOLL 26105 -734.6049033 440.5416210 -999.0000000 3.0000000
Q45WATER 26105 2.1295920 9.5600602 -990000000 12.0000000
Q46ACOLL 26105 -582.6624401 492.7074229 -999.0000000 6.0000000
Q46BCOLL 26105 -606.4159356 487.2248795 -999.0000000 3.0000000
Q47AHHCU 26105 0.5947137 10.7473066 -99.0000000 2.0000000
Q47BRELA 26105 -744.4700249 434.0146826 -999.0000000 2.0000000
Q47BRELB 26105 -744.7195173 433.6185791 -999.0000000 2.0000000
Q47BRELC 26105 -744.7502011 433.5729078 -999.0000000 2.0000000
Q47BRELD 26105 -744.7125455 433.6372692 -999.0000000 2.0000000
Q47BRELE 26105 -744.7552959 433.5690465 -999.0000000 2.0000000
Q47BRELF 26105 -744.7124689 433.6378471 -999.0000000 2.0000000
Q47BRELG 26105 -744.7303582 433.6061679 -999.0000000 2.0000000
Q47BRELH 26105 -744.7078721 433.6408503 -999.0000000 2.0000000
Q48AGROS 26105 6.3336526 7.8815061 -99.0000000 14.0000000
Q48BREGU 26105 0.6804444 8.5040063 -99.0000000 2.0000000
Q48BCASU 26105 1.1208964 8.6699237 -99.0000000 2.0000000
Q48BSELF 26105 1.1241525 8.8029268 -99.0000000 2.0000000
Q48BREMI 26105 1.0083509 9.4543846 -99.0000000 2.0000000
Q48BAGRI 26105 1.0907106 9.4173120 -99.0000000 2.0000000
Q48BPENS 26105 1.0495307 8.7774109 -99.0000000 2.0000000
Q48BCHIL 26105 1.0351657 9.6180221 -99.0000000 2.0000000
Q48CSUBA 26105 1.1292856 8.3520700 -99.0000000 2.0000000
Q48CSUBB 26105 1.2311435 8.2393964 -99.0000000 2.0000000
PROV 26105 5.1251867 2.5748888 1.0000000 9.0000000
STRATUM 26105 2.4666539 1.1889267 1.0000000 4.0000000
QUALIFY 26105 1.6494924 0.4771381 1.0000000 2.0000000
SELECTED 26105 1.8278491 0.3775188 1.0000000 2.0000000
Q49MAINR 26105 1.2481900 6.5899414 -99.0000000 22.000000
Q410LANG 26105 5.5339207 7.1309987 -99.0000000 22.0000000
HHWGT 26105 356.7791228 294.7206583 7.0000000 3868.00

84
ANNEXE V

Structure de l’ensemble de données 29

Données hiérarchisées et codebooks

Données en ASCII:
01234 1 1 Codebook pour enregistrement de ménage
32161 232 0 (Enregistrement type 1)
19082 230 1
02234 1 0 colonnes 1-5 LOGEMENT
11231 240 1 colonne 7 type d’enregistrement
03234 1 0 colonne 9 GROUPE
43711 227 0
04234 1 0
40221 213 1 Codebook pour enregistrement de personne
41162 222 0 (Enregistrement type 2)
16173 224 1
10234 1 1 Colonnes 1-4 PERSONNE
30111 220 0 Colonne 5 P_NUM (NUMERO DE PERSONNE)
36222 211 1 Colonne 7 type d’enregistrement
21234 1 0 Colonnes 8-9 AGE
21751 217 0 Colonne 11 SEXE
33962 210 1
32143 226 1

Fichier de données plat (Après que les données ci-dessus aient été chargées avec SPSS

MENAGE GROUPE PERSONNE P_NUM AGE SEXE

1234 1 3216 1 32 0
1234 1 1908 2 30 1
2234 0 1123 1 40 1
3234 0 4371 1 27 0
4234 0 4022 1 13 1
4234 0 4116 2 22 0
4234 0 1617 3 24 1
10234 1 3011 1 20 0
10234 1 3622 2 11 1
21234 0 2175 1 17 0
21234 0 3396 2 10 1
21234 0 3214 3 26 1

29
Basée sur «les services de la technologie académique d’UCLA»: SPSS FAQ : Lecture des
données en hiérarchie [Link]

85
Fichier ASCII plat de largeur fixe

Fichier ASCII de largeur fixe créé à partir


d’un fichier SPSS
Codebook pour fichier ASCII
1234 1 3216 1 32 0
1234 1 1908 2 30 1 Variable Début Fin
2234 0 1123 1 40 1
3234 0 4371 1 27 0 MAISON 1 8
4234 0 4022 1 13 1 GROUPE 9 16
4234 0 4116 2 22 0 PERSONNE 17 24
4234 0 1671 3 24 1 P_NUM 25 32
10234 1 3011 1 20 0 AGE 33 40
10234 1 3622 2 11 1 SEXE 41 48
21234 0 2175 1 17 0
21234 0 3396 2 10 1
21234 0 3214 3 26 1

86

Vous aimerez peut-être aussi