Guide SPSS Version 2010
Guide SPSS Version 2010
Guide labor pour les tudiants du cours CRI-1600 G : Initiation aux mthodes quantitatives
Automne 2010
PRSENTATION DU LOGICIEL SPSS . . . . 1. Lenvironnement SPSS . . . . . 1.1. La fentre diteur de donnes . . . 1.2. La fentre de rsutats Viewer . . . 2. Les fichiers dans SPSS . . . . 2.1. Les fichiers de donnes . . . . 2.2. Les fichiers de rsultats . . . . 3. Les commandes dans SPSS . . . . . 3.1. Travailler avec les menus, sous-menus et la souris 3.2. Les commandes, les sous-commandes et les options 3.3. Raliser une opration dans SPSS . . . 3.4. La syntaxe dans SPSS . . . . 4. Sauvegarder les fichiers dans SPSS . . . . 5. Laide dans SPSS . . . . . . 6. Quitter SPSS . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
p.5 p.5 p.5 p.6 p.7 p.7 p.8 p.8 p.8 p.9 p.9 p.9 p.11 p.12 p.13 p.14 p.15 p.16 p.16 p.17 p.17 p.18 p.18 p.19 p.20 p.22 p.22 p.25 p.25 p.26 p.26 p.27 p.28 p.30 p.32 p.34
PRSENTATION DE LA BANQUE DE DONNES DISPONIBLE POUR LES EXERCICES PRSENTATION DES BANQUES DE DONNES DISPONIBLES POUR LES TRAVAUX . LABORATOIRE 1 : CRER OU TRANSFORMER UN FICHIER DE DONNES . 1. La codification des donnes . . . . . 2. Exemple dun fichier de donnes informatiques . . . 3. Ajouter un cas ou une variable une banque de donnes dj constitue 4. Nommer une variable . . . . . . 5. tiqueter une variable . . . . . . 6. tiqueter les valeurs de la variable . . . . . 7. Indiquer la prsence de valeurs manquantes . . . LABORATOIRE 2 : PRENDRE CONNAISSANCE DES DONNES ET APPRENDRE
LES MANIPULER
. . . . . . . . . . . . . . . . . . .
1. Les tableaux de frquences . . . 2. Comment diter les rsultats . . 3. Comment imprimer des rsultats . . 4. Quoi observer dans les tableaux de frquences 4.1. Les valeurs manquantes . . 4.2. Les erreurs videntes . . 4.3. Les catgories retravailler . 5. Prparer le recodage . . . 6. Recoder ou transformer les variables . 7. Calculer ou crer de nouvelles variables .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
LABORATOIRE 3 : TRAVAILLER SUR UN ENSEMBLE SLECTIONN DE DONNES 1. Slectionner une sous-population . . . . . . 2. Slectionner un chantillon . . . . . . . LABORATOIRE 4 : MESURES DE TENDANCES CENTRALES ET DE DISPERSION 1. Les mesures de tendances centrales et de dispersion . . 2. Les reprsentations graphiques . . . . . LABORATOIRE 5 : TESTS DE COMPARAISON DE MOYENNES . . 1. Exemple de listing SPSS dun test de comparaison de moyennes . 2. Exemple dinterprtation de test de comparaison de moyennes . LABORATOIRE 6 : TABLEAUX CROISS . . 1. Exemple de tableau crois . . . 2. Exemple dinterprtation de tableau crois . . . . . . . . . . . . . . . . . . .
p.38 p.38 p.43 p.44 p.44 p.47 p.51 p.54 p.55 p.56 p.60 p.61 p.62 p.62 p.63 p.63 p.67 p.68 p.68 p.68 p.69 p.71 p.72
. . . . . . LABORATOIRE 7 : CORRLATION . 1. Le R2 de Pearson . . . . . . . . 1.1. Quelques exemples de relations entre variables illustrs laide de diagrammes de dispersion (ou nuage de points) 2. Le diagramme de dispersion ou le nuage de points . . . . 2.1. Exemple d'un rsultat de corrlation et interprtation R de Pearson LABORATOIRE 8 : RGRESSION . . . . . . 1. La rgression . . . . . . . 1.1. La droite de rgression simple . . . . 1.2. Le coefficient de dtermination : R2 . . . 1.3. Exemple d'un listing SPSS d'une analyse de rgression . 1.4. Interprtation possible des coefficients et/ou de la droite de rgression et/ou du nuage de point . . . . . .
. . . . . . .
p.7 p.8 p.11 p.13 p.18 p.18 p10 p.20 p.24 p.26 p.32 p.34 p.37 p.41 p.43 p.43 p.44 p.49 p.50 p.52 p.57 p.64 p.66 p.70
CRER UN TABLEAU DE FRQUENCES . . . . . IMPRIMER DIRECTEMENT LES RSULTATS . . . . . CRER UNE VARIABLE . . . . . . . CRER UNE NOUVELLE VARIABLE LAIDE DE LA COMMANDE CALCULER IMPOSER UNE CONDITION UNE COMMANDE . . . . SLECTIONNER UN SOUS-GROUPE . . . . . . SLECTIONNER UN CHANTILLON ALATOIRE PARMI UN . .
ENSEMBLE DE CAS
REVENIR LA POPULATION ENTIRE . . . . OBTENIR LES MESURES DE TENDANCES CENTRALES ET DE DISPERSION CRER UN GRAPHIQUE. . . . . . . DITER UN GRAPHIQUE . . . . . . EFFECTUER UN TEST DE COMPARAISON DE MOYENNES . . CRER UN TABLEAU CROIS . . . . . . PRODUIRE UN DIAGRAMME DE DISPERSION. . . . PRODUIRE UNE ANALYSE DE CORRLATION : R DE PEARSON. . EFFECTUER UN TEST DE RGRESSION . . . .
. . . . . . . . .
Permet de voir la banque de donnes, o les cas sont prsents en lignes et les variables sont en colonne. Chaque cellule prsente la valeur que prend une variable pour un cas donn. Le fichier, lorsque mis sous loption affichage des donnes, se prsente sous la forme suivante :
1.2. LA FENTRE DE RSULTATS VIEWER La fentre de rsultats Viewer enregistre les rsultats des oprations effectues : tableaux, statistiques et diagrammes obtenus tout au long de votre session de travail. SPSS ouvre automatiquement cette fentre et y inscrit l'ensemble des rsultats ainsi que le dtail des oprations effectues. La fentre de rsultats Viewer se prsente sous la forme suivante :
Les rsultats des analyses que vous ferez sempilent les uns la suite des autres, au fur et mesure que vous effectuez de nouvelles oprations, lintrieur dune mme session de travail. Utilisez les menus de la fentre pour slectionner des fichiers, des statistiques et des diagrammes. Vous comprendrez aussi rapidement la pertinence de faire le mnage au fur et mesure dans les rsultats que vous produisez, une fentre de rsultats Viewer qui ne serait pas dbarrasse des rsultats errons, ou ventuellement devenus inutiles, se faisant de plus en plus difficile consulter.
Le nom du fichier de donnes que vous avez slectionn apparat en entte de la fentre. Vous pouvez ds lors effectuer les traitements que vous jugez ncessaires, qu'il s'agisse de modifications l'intrieur mme du fichier de donnes ou de traitements statistiques. L'ouverture dun fichier de donnes doit toujours prcder les instructions de traitement statistiques donnes SPSS, autrement celui-ci ne pourra pas s'excuter, ne sachant pas quelles donnes traiter. Si des modifications ont t apportes au fichier de donnes pralablement ouvert, SPSS demandera lutilisateur si ces modifications doivent tre sauvegardes avant que le fichier soit ferm.
2.2. LES FICHIERS DE RSULTATS Les fichiers de rsultats se reconnaissent par lextension .spv suivant le nom attribu au fichier par lutilisateur. Ils apparaissent dans la fentre de rsultats Viewer et consistent en divers rsultats d'oprations prcdentes qui ont t sauvegards. Tant et aussi longtemps que lutilisateur na pas sauvegard le travail effectu en sance, le fichier se nomme RSULTATS1. Au moment de sauvegarder un fichier contenant les rsultats quil dsire conserver, lutilisateur doit obligatoirement lui donner un nom. partir de ce moment, le fichier peut tre manipul comme tout autre fichier, cest--dire quil peut tre ouvert, consult, dit, nouveau sauvegard, etc. Mme si tout ce qui se retrouve dans le fichier rsultat est gnr automatiquement par SPSS, il est possible d'accder ces fichiers et de les diter, c'est--dire d'en modifier le contenu dans le but, par exemple, de prsenter intgralement les rsultats dans le cadre d'un travail remettre ou d'un article en production sans avoir en refaire manuellement la prsentation, ou encore pour faire du mnage . Il est possible deffacer les oprations inutiles ou les rsultats errons, denlever les messages derreurs dont on a pris connaissance ou de produire une meilleure mise en page. Pour ce faire, il s'agit de manipuler le fichier comme vous le feriez si vous tiez dans un traitement de texte simplifi, en coupant, en collant et en ajoutant du nouveau texte. Les capacits de SPSS en matire traitement de texte sont toutefois limites. Nous verrons comment y pallier.
cliquant, un lment du menu, ou encore une commande, une sous-commande ou une option qui lui sont associes. 3.2. LES COMMANDES, LES SOUS-COMMANDES ET LES OPTIONS Les items qui apparaissent aux diffrents niveaux de menus sont des commandes, des souscommandes ou des options que vous pouvez (ou dans certains cas devez) ou non slectionner afin de complter ou de prciser des analyses que vous envisagez demander SPSS de mettre excution. SPSS prvoit ordinairement, par dfaut, un certain nombre d'options minimales qu'il associe automatiquement chaque commande ou sous-commande rencontre sous SPSS, selon le cas. Dans la mesure o ces options vous satisfont, vous n'avez rien d'autre spcifier que les commandes et sous-commandes pour que SPSS remplisse la mission de traitement des donnes que vous lui assignez. 3.3. RALISER UNE OPRATION DANS SPSS Rien n'est plus simple que de demander SPSS d'excuter une commande. En fait, il s'agit chaque fois de slectionner les oprations et les options que vous dsirez voir excuter, d'indiquer sur quelles variables les oprations doivent tre faites et, finalement, de lancer la commande en cliquant sur OK, ce qui confirme SPSS de se mettre en action. Si l'opration que vous venez d'excuter est une commande statistique, une fentre de rsultats Viewer apparatra. Rappelez-vous aussi que tant et aussi longtemps que vous navez pas vous-mme sauvegard ce fichier-rsultat, celui-ci est temporaire et seffacera la fin de la sance de travail en cours. 3.4. LA SYNTAXE DANS SPSS La deuxime faon dentrer des commandes dans SPSS est via la syntaxe. La syntaxe est essentiellement un fichier de texte simple contenant le code de toutes les commandes et souscommandes demandes dans le cadre de vos analyses statistiques. Ce texte saffiche dans la fentre diteur de syntaxe qui se prsente sous la forme suivante :
10
Lutilisation de la syntaxe prsente plusieurs avantages. Parmi les plus importants, celui de pouvoir suivre la progression de vos travaux statistiques et celui de pouvoir garder des traces de toutes les commandes et sous-commandes que vous aurez demand un logiciel dexcuter. Ces particularits peuvent savrer fortes intressantes lorsque vous essaierez plusieurs combinaisons de tests successivement lors dune mme sance de travail et que vous tenterez dorganiser vos analyses et vos rsultats. Ces caractristiques sont aussi particulirement avantageuses lorsque vous tes plusieurs travailler sur les mmes donnes, effectuer quelque fois de la manipulation de variables, telles que des recodages ou alors que vous crez de nouvelles variables. Il est possible aussi dinscrire des notes directement dans le fichier syntaxe, comme par exemple, *analyses bivaries en date du 1er septembre avec les donnes brutes*. Il sagit simplement de mettre des astrisques * devant et aprs vos notes. Par ailleurs, ces notes se retrouveront dans vos fichiers-rsultats et vous permettront de mieux situer vos tableaux. Un autre avantage des fichiers de syntaxe est quils peuvent tre traits comme un logiciel de traitement de texte simple et les fonctions coups, copis, colls sont possibles. Il est ainsi possible de faire plusieurs tests en recopiant seulement le nom des nouvelles variables, ce qui permet de sauver beaucoup de temps cliquer et recliquer dans les menus. Au besoin, vous aurez simplement ouvrir votre fichier de syntaxe et la rouler nouveau pour relancer les analyses, ce qui vous vitera de toujours sauvegarder ou imprimer vos rsultats. Dans les versions antrieures de SPSS, la syntaxe devait tre rdige manuellement. Les utilisateurs devaient donc apprendre le code des commandes et sous-commandes quils dsiraient effectuer. Dans la version 17.0 de SPSS, lutilisation de la syntaxe est beaucoup plus user friendly. Il sagit simplement dutiliser les fonctions des menus et lorsque toutes les commandes et sous-commandes ont t vrifies, cliquer sur le bouton COLLER situ au bas gauche avant de cliquer sur OK. Une fentre diteur de syntaxe souvrira automatiquement.
11
Dans la version actuelle de SPSS, le logiciel dispose dun diteur de syntaxe qui corrige automatiquement les erreurs de code, et propose des choix de commandes ou de souscommandes au besoin par le biais dun menu droulant. Les erreurs sont plus facilement reprables puisque les fichiers sont maintenant en couleur et seuls les termes reconnus saffichent en couleur (les commandes en bleu et les sous-commandes en vert). Un panneau derreur indiquant o les problmes sont situs apparat aussi automatiquement si ncessaire. Il est aussi trs simple daccder de laide supplmentaire en cliquant sur longlet AIDE. Pour faire rouler une syntaxe, il sagit simplement de slectionner le paragraphe contenant le code dsir et de cliquer sur la flche bleue.
La flche avec le bout rouge situe en marge gauche indique les lignes de syntaxe qui ont t roules. Notez quil est aussi possible de mettre des points darrt en marge gauche si on ne dsire pas rouler toute une syntaxe dans un mme fichier. Il sagit simplement de cliquer en marge gauche la ligne dsire. Un point rouge apparatra ; cliquez nouveau pour dslectionner. Quoique cette technique ne sera pas beaucoup enseigne dans le cadre du cours, il importe de savoir que la syntaxe est un outil trs pratique dans lenvironnement SPSS et quelle est souvent employe pour dtecter des problmes de commandes et/ou de sous-commandes. Nous vous recommandons dailleurs de toujours copier vos commandes partir des menus SPSS lorsque vous effectuerez vos travaux danalyse.
12
travail sur le disque dur ou sur une cl USB, votre choix (prfrablement les deux, pour plus de sret).
Par contre, notez bien que si vous travaillez sur les ordinateurs de l'Universit, vous devez absolument sauvegarder le fruit de votre travail sur votre cl USB ou sur votre WebDpt, puisque vous n'avez pas accs la mmoire centrale (disque dur) de lUniversit.
ATTENTION: Chaque nouvelle sauvegarde de votre travail lintrieur dun fichier qui garde son nom crase l'ancienne version !!! Soyez donc sr de votre coup, particulirement si vous avez fait plusieurs manipulations de variables, avant de sauvegarder un fichier nouveau ou modifi sous le nom dun ancien fichier car vous risquez ainsi de perdre une partie du travail antrieurement ralis, les nouvelles donnes prenant la place des anciennes. Il peut tre trs utile de savoir sauvegarder des fichiers sous de nouveaux noms ou alors de s'en faire des copies ailleurs, comme par exemple sur un CD. Faites en sorte que les noms de fichiers que vous choisissez vous disent quelque chose. La gestion de vos fichiers (et de votre temps) en sera ainsi grandement facilite. N'hsitez donc pas multiplier les copies de vos fichiers, on ne sait jamais quelle catastrophe peut survenir et vous obliger tout recommencer si vous n'avez pas de copies jour de votre travail.
13
un plaisir de tenter de vous rpondre. Vous pouvez aussi consulter plusieurs ressources daide sur Internet, en googlant simplement votre question. Vous pouvez aussi consulter ladresse suivante pour une formation interactive sur les principales fonctions SPSS : http://www.mapageweb.umontreal.ca/guayjea/
Automatiquement, SPSS vous demandera successivement si vous voulez sauvegarder les modifications qui ont t faites aux divers fichiers que vous avez utiliss. En temps normal, on sauvegarde tous les fichiers utiliss, mais il arrive aussi qu'on veuille viter enregistrer des fichiers ne contenant que des rsultats errons ou inutiles. On choisira alors de ne pas sauvegarder le fichier ou de faire le mnage avant de quitter de faon ne conserver que les bons rsultats . En d'autres mots, il vaut mieux prendre le temps de rflchir avant de cliquer sur OK et de tout sauvegarder sans discernement. Ces quelques secondes de rflexion pourraient dans certains cas vous sauver beaucoup d'ennuis et de temps. Par exemple, prenez le temps de vous demander si vous avez bel et bien effectu des transformations dans les donnes avant d'accepter de sauvegarder le fichier de donnes. Il arrive en effet qu'on accroche le clavier de lordinateur, par inadvertance, alors que la fentre des donnes est active. Cet accrochage pourrait ventuellement changer des donnes pralablement correctement inscrites dans le fichier de donnes. Par contre, si vous tes certains de vouloir sauvegarder le contenu du fichier qui vous est indiqu, alors vous navez qu rpondre oui linvitation qui vous est faite de procder de la sorte. SPSS vous prsente ds lors le nom du fichier sauvegarder ainsi que le rpertoire sur lequel il se trouve. Vous pouvez alors choisir de conserver le mme nom de fichier. Dans ce cas, SPSS crase lancienne version du fichier pour la remplacer par la nouvelle que vous venez de crer. Vous pouvez aussi choisir de changer le nom du fichier. Il sagit alors de remplacer la partie du nom qui prcde le suffixe .sav ou .spv qui indique le type de fichier dont il sagit, par un autre nom. Dans ce cas, linformation contenue dans le fichier original est conserve et linformation modifie est sauvegarde sous le nouveau nom de fichier. Ceci est vrai (cest-dire que linformation originelle est conserve) tant et aussi longtemps que nous neffectuez pas une procdure de sauvegarde sadressant au fichier original.
14
15
16
Objectifs dapprentissages :
Crer un fichier de donnes Ajouter une variable Nommer une variable et la dfinir tiqueter les valeurs dune variable Indiquer la prsence de valeurs manquantes La plupart du temps, lorsquon traite statistiquement des informations, on travaille partir de fichiers de donnes dj constitus. Mais il arrive aussi qu'il faille btir une nouvelle banque de donnes. Lopration est gnralement trs simple. Il faut toutefois avoir pralablement compris la faon dont se prsente une grille de donnes. Dans un fichier de donnes, chaque cas (individu, rpondant, dossier...) est reprsent par une ligne contenant les donnes pour un ensemble de variables. Les variables, pour leur part, figurent en colonnes (chaque variable occupe l'espace d'une colonne). La rencontre d'une variable et d'un cas se prsentera donc sous forme dune cellule dans laquelle l'information se trouve consigne. Exemple: si Paul a 21 ans, l'intersection du cas Paul et de la variable ge se trouvera le chiffre 21 . Par dfaut, lorsque vous ouvrez SPSS, une grille de donnes vierge apparat. Il s'agit alors simplement d'effectuer la saisie des donnes (ce qui veut tout simplement dire d'entrer les donnes dans la grille informatique prvue cet effet). On aura alors soin de sauvegarder le fichier le plus tt possible et de procder des sauvegardes rgulires au fur et mesure de lentre des donnes, de sorte quune panne soudaine naura que des effets limits (autrement dsastreux). Afin de vous dplacer dans un fichier de donnes, vous avez le choix procder avec la souris , les flches se trouvant sur le sur le clavier ou alors grce aux ascenseurs situs en bas et sur le ct de l'cran. Si vous voulez inscrire ou corriger des donnes, il s'agira alors simplement de placer le curseur dans la case approprie et d'inscrire l'information en question. L'information apparatra dans la grille seulement aprs que vous ayez quitt cette case, soit en appuyant sur la touche ENTER, soit en vous dplaant avec la souris ou les flches vers une autre cellule ou lextrieur du tableau de donnes.
17
possible, associer une forme numrique aux donnes. En effet, SPSS travaille beaucoup plus facilement avec des chiffres qu'avec des lettres. Dans le cas des donnes de niveau de mesure nominal ou ordinal, il s'agit alors d'attribuer un code numrique aux donnes. Par exemple, pour indiquer le sexe d'un individu, on prfrera coder les rponses de la faon suivante: garon: "1"; fille: "2", plutt que garon: "G"; filles: "F". Bien entendu, pour certaines variables telles le nom, le prnom, les alias... il est quasi impossible d'imaginer une codification un tant soit peu sense. Il s'agira donc d'une contrainte incontournable. Le traitement de telles donnes, dans le cadre danalyses statistiques, est toutefois fort limit ce qui diminue les inconvnients que pose leur forme alphanumrique.
Prnom Nom Annie Lger Caroline Pelletier Claude Gagnon Andr Perron Monique gagn Marcel Tremblay Roger Pich Annie Caron Michelle Martin Andr Sguin
intra 25 22 24 29 29 27 13 19 17 19
tp3 10 7 8 9 7 6 8 8 8 7
final 35 32 34 38 33 36 32 39 35 30
sexe 2 2 1 1 2 1 1 2 2 1
date nai. 780116 771221 760512 780721 681122 790915 730508 800401 770523 580420
Il est toujours possible d'ajouter une ligne (un cas) ou une colonne (une variable) un fichier de donnes dj constitu. Pour ce faire:
18
Placez le curseur soit sur la ligne qui se trouve immdiatement sous lendroit o vous voulez que le nouveau cas apparaisse, soit sur la colonne situe immdiatement aprs lendroit o vous dsirez que la nouvelle variable apparaisse. Cliquez sur dition dans le menu principal Cliquez sur insrer une variable ou insrer des observations
Vous pouvez ds lors insrer linformation se rapportant au nouveau cas ou la nouvelle variable que vous ajoutez au tableau des donnes en remplissant chacune des cellules correspondant lemplacement o doit se trouver la nouvelle information.
19
dfinissant une tiquette, spcifiant quil sagit de la Note de lintra calcule sur 30. Une tiquette peut prendre jusqu 60 caractres de toutes formes et comprendre autant despaces que ncessaire.
Cliquez sur le petit carr gris apparaissant dans la case approprie Apparat alors une zone de dialogue libelle tiquettes de valeurs. Il sagit alors dinscrire le code numrique dans le rectangle de valeurs et la valeur nominale correspondante dans le rectangle tiquette de valeur Une fois que vous avez associ la bonne valeur au chiffre correspondant, cliquez sur ajouter Recommencez lopration jusqu ce que toutes les valeurs numriques de la variable aient leurs tiquettes. Noubliez pas dappuyer sur ajouter aprs avoir prcis chaque tiquette. Lorsque toutes les valeurs de la variable ont reu leurs tiquettes, cliquez sur OK
Dans le cas de variables proportionnelles, comme par exemple lge du rpondant ou le salaire familial brut calcul sur une base annuelle, il nest pas utile de chercher tiqueter les valeurs de la variable puisque les donnes portent de facto ltiquette laquelle elles correspondent (25 ans, 30 ans, 40 ans... 22,432$, 70,557$, 253,500$. Lapposition dune tiquette prcisant le nom de la variable demeure toutefois de mise.
20
Cliquez sur le petit carr gris apparaissant dans la case approprie Il apparatra alors une seconde zone de dialogue SPSS vous soumet diffrentes options : - Aucune valeur manquante - Valeurs manquantes discrtes - Plage plus une valeur manquante facultative - Valeur discrte
Aucune valeur manquante : signale quil ny a pas de valeurs manquantes pour cette variable. Il sagit de la valeur par dfaut de cette sous-commande. Valeurs manquantes discrtes : trois rectangles sont ici prvus afin de permettre de dfinir jusqu trois valeurs manquantes pour une mme variable. Trs souvent, on choisi les valeurs 9, 99 ou 999 comme valeur manquante, condition bien entendu que ces valeurs ne soient pas des valeurs possibles de la variable.
21
Plage plus une valeur manquante facultative : vous permet de dclarer toutes les valeurs comprise entre une borne infrieure (faible) et une borne suprieure (leve) comme tant autant de valeurs manquantes. Par exemple, on pourrait vouloir prcises que toutes les valeurs comprises entre 75 et 99 pour la variable ge du rpondant correspondent autant de valeurs manquantes. Valeur discrte : reprend les proprits de loption prcdente tout en permettant dajouter la dclaration dune valeur discrte comme tant aussi manquante. Une fois que vous avez constitu votre fichier de donnes, nomm vos variables, attribus des tiquettes plus explicites tant aux variables quaux catgories des variables de niveau de mesure nominal et ordinal, vous tes prts passer aux traitements statistiques des donnes proprement dites. Les laboratoires suivants ont pour but de vous guider dans cette tche, quil sagisse de produire des distributions de frquences, des tableaux croiss des statistiques univaries ou bivaries.
22
Objectifs dapprentissages :
Produire des tableaux de frquences Observer les rsultats Dcouvrir les valeurs manquantes et erreurs dentre de donnes Prparer le recodage Apprendre les techniques de manipulation de variables diter les rsultats Imprimer ou transfrer les rsultats Que vous ayez vous-mme cr une banque de donnes ou que celle-ci vous ait t fournie, il s'agit maintenant d'explorer ces donnes, de vous les approprier suffisamment pour bien les comprendre et pour voir s'il n'y aurait pas quelques modifications leur apporter pour qu'elles puissent tre plus facilement analyses.
23
Dans le haut du tableau on retrouve ltiquette de la variable pour laquelle on a demand la production dune distribution des frquences (Judiciariss en vertu de la Loi sur les jeunes contrevenants). Viennent ensuite les tiquettes attribues chacune des valeurs de la variable (non, oui). Effectifs Po ourcentage Le nombre de cas correspondant chacune des valeurs de la variable. Le pourcentages de cas que reprsente chacune des valeurs ou catgories de la variable par rapport l'ensemble des cas, y compris les valeurs manquantes (nombre de cas correspondant une valeur ou catgorie donne / nombre total de cas) Pourcentages des cas associs chacune des valeurs ou catgories dune variable par rapport au nombre de cas valides, cest--dire l'exclusion des valeurs manquantes (nombre de cas correspondant une valeur ou catgorie donne / nombre total de cas nombre de valeurs manquantes).
Po ourcentage valide
ourcentage cumul Pourcentage d'une catgorie dune variable ajout aux pourcentages Po que cumulent les catgories prcdentes. Les pourcentages cumuls ne sont ordinairement pas pertinents lorsqu'il s'agit d'une variable de niveau de mesure nominal car, dans ce cas, il est impossible dordonner de quelque faon que ce soit les rsultats. Par contre, dans le cas de la distribution d'une variable de niveau ordinal ou proportionnel, les pourcentages cumuls permettent de situer facilement l'emplacement d'une fraction des individus partageant une caractristique donne (ex: 75% des individus ont moins de 30 ans). Cette donne ne sera toutefois intressante que si le nombre de catgories que compte la variable ltude est suffisamment important.
24
En format SPSS, lcran de dialogue qui apparat est le suivant, alors quon demande la distribution des frquences de la variable sexe et de la variable ge laquelle est passe du rectangle de gauche, contenant les liste exhaustive des variables contenues dans le fichier de donnes, dans le rectangle de droite, lequel prcise les variables pour lesquelles une distribution de frquences est demande.
25
N.B. Cette manire de slectionner les variables sur lesquelles on veut effectuer des oprations (en les faisant passer dun rectangle lautre) est la mme partout dans SPSS, souvenez-vous-en. Notez aussi que vous pouvez slectionner plusieurs variables la fois en retenant le bouton Ctrl et en dplaant votre curseur vers le haut ou vers le bas de lcran jusqu ce que lensemble des variables quon souhaite soumettre lanalyse soient slectionnes. Mais surtout, notez qu' chaque fois que vous effectuez une nouvelle opration, il faut commencer par RANGER LES ANCIENNES VARIABLES en les slectionnant dans le rectangle de droite et en les envoyant dans le rectangle de gauche (ou en cliquant sur le bouton Rinitialiser ce qui a pour effet de ramener lensemble des variables leur emplacement initial. Cela vous vitera de nombreux ennuis, dont celui daccumuler inutilement des rsultats reproduits plusieurs fois et vitera SPSS de travailler pour rien.
26
Parfois, il est plus intressant de travailler partir dun logiciel de traitement de texte si vous voulez insrer du texte (linterprtation des rsultats par exemple), ou encore prsenter vos rsultats de manire diffrente. Pour ce faire, nous suggrons soit de faire une simple copi-coll , soit de refaire entirement vos tableaux sur Word, si vous dsirez avoir encore davantage de latitude.
27
ceux qui, en rponse une question, indiquent ne sait pas ; la valeur 8 ceux qui refusent de rpondre, et la valeur 9 pour toute information vraiment manquante. Il arrive trs souvent que lon trouve des valeurs manquantes dans la distribution des donnes, mais que l'ordinateur ne le sache pas initialement. Il faut donc que vous observiez chaque tableau en vous demandant s'il y a des valeurs manquantes signifier SPSS. Vous reconnatrez les valeurs manquantes par leur code numrique (9, 99, 999,...), par l'tiquette qui leur est attache (pas de rponse; NSP.; ne s'applique pas; indtermin, ...) ou par l'absence d'annotation. Il est important, au moment de traiter les frquences des rponses, de faire le bilan des valeurs manquantes. Une variable qui prsente un trop grand nombre de valeurs manquantes pourra tre considre non valide. On peut, au contraire, dcider que le nombre de valeurs manquantes n'est pas suffisant pour invalider le traitement de la variable. Toutefois, on ne voudra pas tenir compte des valeurs manquantes dans les analyses. Il faudra alors indiquer SPSS de ne pas tenir compte, au moment des analyses statistiques, des individus pour lesquels l'information n'est pas disponible. Nous verrons comment plus loin.
N.B.: La catgorie rsiduelle autres ne correspond pas des valeurs manquantes. Elle indique plutt que linformation est autre que celle prvue dans les catgories de rponses prtablies
4.2. LES ERREURS VIDENTES Il arrive aussi parfois que lon trouve certaines absurdits dans les tableaux de frquences et qu'elles soient dues des erreurs dans la saisie des donnes. C'est le moment de noter la prsence de ces donnes erratiques, lesquelles seront soit corriges directement dans la banque de donnes, soit associes aux valeurs manquantes si on estime que cela ne remet nullement en cause la valeur des analyses. Par exemple, il arrive que lon se retrouve devant une valeur bizarre et incomprhensible, comme c'est le cas dans le tableau suivant pour la valeur 6 qui tout a fait l'air d'tre une erreur d'entre de donnes. L'indice qu'il s'agit d'une donne erratique est souvent la frquence trs peu leve qui lui est associe. On devra sinquiter des valeurs erratiques qui apparaissent en trop grand nombre. Peut-tre est-ce simplement quon a oubli dassocier une tiquette une valeur qui, par ailleurs, reprsente vraiment un choix de rponse possible. Il sagit de vrifier ce quil en est.
28
Statut de l'agresseur Suspect Accus Condamn N.S.P. Valeur 1 2 3 6 9 Total Valeurs manquantes : 0 Effectifs 12 22 43 1 20 ___ 100 % 12.0 22.0 43.0 1.0 20.0 ____ 100.0 % valide 12.0 22.0 43.0 1.0 20.0 ____ 100.0 % cumul 12.0 36.0 79.0 80.0 100.0
La logique aussi peut nous aider dtecter des erreurs, comme si dans un tableau reprsentant l'ge des meurtriers, on retrouve la valeur 2 . Puisqu'il est fort peu probable que l'un des tueurs apparaissant dans la distribution des donnes ait vraiment eu deux ans au moment de lvnement, on prfrera inclure ce cas dans les valeurs manquantes ou, ventuellement, corriger linformation dans le fichier des donnes, pour peu quon puisse retrouver la bonne donne. 4.3. LES CATGORIES RETRAVAILLER Une autre dmarche partir de la distribution de frquences concerne des amnagements de catgories faire pour que les donnes se prsentent mieux. Il existe deux grandes familles de catgorisations : celles concernant les variables nominales ou ordinales et celles associes aux variables proportionnelles. Les variables ordinales ou nominales Ces variables sont dj considres comme des variables catgorielles . En effet, leurs valeurs se prsentent sous forme de catgories, gnralement tablies par ceux qui ont fait le questionnaire. Normalement, dans ce cas, on ne devrait pas avoir refaire la catgorisation. Mais il arrive qu'on veuille malgr tout procder quelques rorganisations de telles donnes. Il pourrait sagir de regrouper des catgories qui semblent tre parentes ou de limiter le nombre des catgories analyser. Par exemple, on pourrait vouloir faire seulement 3 catgories avec la liste de dlits reprsente au tableau suivant. On regrouperait alors les catgories 1 homicide + 2 agression sexuelle + 3 vol qualifi sous la grande rubrique: 1 dlits contre la personne; les catgories 4 introduction par effraction + 5 vol de moins de 1000$ + 6 vol de plus de 1000$ sous la grande rubrique: 2 dlits contre la proprit; et finalement les catgories 7 possession de stupfiants + 8 prostitution sous la grande rubrique: 3 dlits sans victimes.
29
Dlit dont est accus le suspect tiquette Valeur Homicide Agression sexuelle Vol qualifi Introduction par effraction Vol de moins de 1000$ Vol de plus de 1000$ Possession de stupfiants Prostitution 1 2 4 5 6 7 8 9
Dlit du suspect (3 catgories)* tiquette Valeur Dlits contre la personne Dlits contre la proprit Dlits "sans victimes" 1 2 3
Dlits contre la personne comprenant : homicide, agression sexuelle, vol qualifi; Dlits contre les biens comprenant: introduction par effraction, vol de plus et vol de moins de 1000$; Dlits sans victimes comprenant : possession de stupfiants et prostitution. Les variables proportionnelles Les variables proportionnelles, pour leur part, prsentent habituellement un tel nombre de valeurs qu'il faut, presque toujours, les regrouper en un nombre limit de catgories si on veut en prsenter un tableau de frquences lisible. Vous constaterez en effet que le tableau de frquences d'une variable proportionnelle est souvent extrmement long, sa prsentation peut occuper jusqu plusieurs pages, et qu'il est assez peu instructif, linformation se trouvant grandement parpille. Par contre, en crant des catgories plus larges, on rgle souvent le problme de prsentation et de consultation rapide du matriel.
RAPPEL : 4 types de regroupements sont possibles pour les variables proportionnelles 1. En classes de largeurs gales; 2. En classes d'ingales largeurs respectant un principe conceptuel; 3. En classes d'ingales largeurs constitues autour de points de concentration des donnes; 4. En classes d'ingales largeurs constitues pour respecter un modle prtabli d'analyse.
Ces procdures de recodage ne sont par ailleurs pas ncessairement mutuellement exclusives. Il est en effet possible de combiner plusieurs dentre elles. Ainsi, une catgorisation, mme en classes dgales largeurs, pourrait rpondre des caractristiques conceptuelles... etc.
30
Dans tous les cas, la catgorisation dune variable devra rpondre deux impratifs: Les catgories doivent tre mutuellement exclusives ET exhaustives.
DEUX REMARQUES IMPORTANTES: Ne perdez pas votre temps catgoriser des variables qui ne seront pas utiles pour la suite des analyses. Rappelez-vous toujours que les analyses statistiques se pratiquent sur les donnes brutes (non regroupes). Le groupement en catgories sert essentiellement des fins de prsentation.
5. PRPARER LE RECODAGE
Vous devez maintenant prparer tous les changements effectuer sur vos donnes avant de passer aux analyses dfinitives. Il s'agit tout simplement de noter, propos de toutes les variables pertinentes, les transformations que vous dsirez effectuer.
Demandez-vous: Cette variable m'intresse-t-elle? Y a-t-il des valeurs manquantes non dclares? Y a-t-il des valeurs absurdes? Faut-il organiser une nouvelle catgorisation (un recodage)? C'est ici la base de tout travail d'analyse de qualit.
31
Voici quoi pourrait ressembler lutilisation dune distribution de frquences pour fins de nettoyage et de recodage (notification normalement faites manuellement):
1:
=2:
,1 34,3 ,2 34,5 62,8 97,3 1,9 99,2 ,5 99,7 ,1 99,8 ,1 99,9 ,1 100,0 ------100,0
Voici de quoi pourrait avoir l'air le tableau de frquence de la mme variable, une fois celle-ci retravaille (mnage et recodage fait partir de SPSS):
32
Loption RECODAGE DE VARIABLE est aussi disponible. Toutefois, nous suggrons fortement de ne jamais recoder la variable initiale en tant que telle, car une fois les transformations effectues, il nest plus possible de revenir en arrire et de retrouver les valeurs telles quinitialement colliges. Il vaut donc mieux garder une version intacte de la variable initiale et ne travailler quavec des duplicata pour tout ce qui touche les transformations des donnes.
33
Inscrivez, dans le rectangle de gauche, la ou les valeur(s) numrique(s) que vous voulez changer : Une valeur unique Une valeur manquante par dfaut Une valeur manquante par dfaut ou spcifie Une plage de valeurs (ex: les valeurs 1 5----> 1 5 ) Associez, dans le rectangle de droite, la nouvelle valeur (nouvelle: 1) une ou plusieurs anciennes valeurs Cliquez sur Ajouter. Recommencez les deux dernires oprations jusqu' ce que vous ayez trait toutes les valeurs recoder. Attention, si certaines valeurs ne doivent pas tre recodes, il nest pas ncessaire de faire correspondre anciennes et nouvelles valeurs qui sont alors quivalentes. On doit toutefois prciser SPSS que pour toutes ces valeurs (toutes les autres valeurs dans le rectangle de gauche en bas), la valeur de la variable demeure la mme, ceci en lui prcisant de les recopier (copier les anciennes valeurs) dans le rectangle de droite en haut de lcran). Une fois toutes les oprations de transformation ralises, terminez la procdure de la faon suivante: Cliquez sur Ajouter (pour enregistrer la dernire commande de modification) Cliquez sur Poursuivre Cliquez sur OK
34
MISE EN GARDE Appliquez la recodification dune variable de prfrence la variable "nettoye", i.e. celle o les valeurs manquantes sont dj dfinies et les donnes erratiques corriges ou limines en les associant aux valeurs manquantes, lorsque que vous procdez la transformation dune variable. Sinon, n'oubliez pas de redfinir (ou rappeler) SPSS la prsence des valeurs manquantes. Une valeur ne peut tre recode plus d'une fois au cours d'une mme procdure. Toutefois on peut appliquer une mme variable toute une srie de recodages, en autant quon cre autant de nouvelles variables quil y a de recodages diffrents denvisags pour cette mme variable. N'oubliez pas, immdiatement aprs le recodage, d'aller vrifier si les transformations ont effectivement eu lieu. Vous les verrez apparatre dans le fichier de donnes. Mais ne vous attendez pas les voir apparatre dans un tableau de frquences tant et aussi longtemps que vous navez pas command un tableau de frquences pour regarder les nouvelles variables. Procdez immdiatement ltiquetage des valeurs des nouvelles variables. ( labo 1).
35
Inscrivez, le nom de la nouvelle variable dans le rectangle (Variable cible) situ en haut gauche de lcran de dialogue. Cliquez sur Type et tiquette pour apposer une tiquette cette nouvelle variable. crivez, droite, l'expression numrique permettant la cration de cette nouvelle variable (vous pouvez soit l'crire grce au clavier dordinateur, soit utiliser la zone de dialogue en slectionnant les variables sa gauche, les oprateurs et les fonctions endessous et en cliquant successivement sur les touches correspondant aux donnes ncessaires la cration de la nouvelle variable). Cliquez sur OK
Il existe une infinit de possibilits pour crer de nouvelles variables partir doprations plus ou moins complexes. Nous nous contenterons dindiquer ici la faon dinscrire les principaux oprateurs mathmatiques ainsi que quelques fonctions de transformations parmi
36
les plus courantes, rappelez-vous seulement quoprateurs et fonctions peuvent tre combins volont.
<, > : plus petit, plus grand; <=, >= : plus petit ou gal, plus grand ou gal. & : et | : ou
Quelques fonctions:
valeur absolue moyenne racine carre arrondir au nombre entier faire la somme calculer la priode entre deux dates
N.B. L'ordre d'excution des oprations arithmtiques dans SPSS ne diffre pas de celui que vous avez appris dans vos cours de mathmatiques: exponentiels en premier lieu; multiplications et divisions en second lieu; additions et soustractions en troisime lieu.
Il est important de se le rappeler sinon on risque de ne pas obtenir les rsultats souhaits. Seules les parenthses peuvent modifier l'ordre d'excution des oprations.
L'OPTION SI: L'option SI, qui se prsente sous la forme d'un rectangle situ juste en dessous des oprations et des fonctions de plusieurs commandes, permet de crer, de recoder ou d'associer une valeur une variable SOUS CERTAINES CONDITIONS. On retrouve loption SI pour les commandes recoder, cration de variable ou calculer et bien dautres (que vous verrez ultrieurement). La procdure est toujours la mme ou fort approche :
37
Un nouvel cran de dialogue apparat lequel revt plus ou moins la forme suivante vous permettant de prciser les conditions appliquer la commande (recode, calculer...) en cours:
Choisir loption
Le rectange gris devient actif et vous permet dentrer, manuellement, en vous servant du clavier de lordinateur, ou laide des cls prsentant les oprateurs mathmatiques ou les fonctions ncessaires, la dfinition de la condition impose. Celle-ci peut-tre fort simple (ex: recode SI SEXE_VIC=1) ou fort complexe (ex: Calculer = (TP1+TP2+TP3 + EXAM1 + EXAM2) SI TP1+TP2+TP3*.50) >=50 | (EXAM1 + EXAM2/2)**2 >= (TP1+TP2+TP3) Cliquez sur Poursuivre Cliquez sur OK
38
Objectifs dapprentissages :
Slectionner des observations Crer un chantillon
Exemple 1 : Recherche sappliquant entirement un sous-ensemble de donnes Prenons, par exemple, une recherche s'intressant aux facteurs qui influencent la criminalit des mineurs. Admettons que la banque de donnes laquelle vous avez accs initialement contienne la fois des donnes concernant des adultes et des mineurs. Vous ne vous intressez quaux mineurs contenus dans la banque de donnes. Il suffit alors de demander SPSS d'carter dfinitivement tous les cas qui ont 18 ans ou plus, laide de loption Supprimes (voir plus bas), ce qui permet de crer une nouvelle banque de donnes uniquement compose des mineurs du groupe initial. La condition impose serait alors Selon une condition logique SI : AGE < 18 (la variable AGE reprsentant l'ge des dlinquants)
39
ATTENTION On prendra la prcaution de sauvegarder le fichier constitu uniquement des donnes concernant les mineurs sous un nouveau nom. Ceci a pour effet de conserver le fichier de donnes initial intact et de crer un nouveau fichier de donnes contenant uniquement celles pertinentes ltude en cours, ici une tude portant sur la criminalit des mineurs. Ceci fait en sorte quadvenant quon veuille reproduire ltude pour les adultes, ou encore quon souhaite comparer ce qui se passe dans le cas des adultes par rapport aux mineurs, on possde toujours linformation ncessaire dans le fichier de donnes dorigine.
Exemple 2 : Recherche qui utilise un sous-groupe de la population ou de lchantillon initial pour une partie seulement des analyses Ltude que vous entreprenez consiste dresser le portrait des populations en institutions carcrales. Vient le moment danalyser les donnes concernant la nature (peine pour nonpaiement damende, sentence de juridiction provinciale ou sentence de juridiction fdrale) et la dure (en nombre de jours) des peines imposes. On sait que les prisons du Qubec accueillent la fois des prvenus (des suspects en attente de verdict ou de sentence) et des condamns (individus reconnus coupables qui se voient imposer une peine de prison). La question de la dure des sentences concerne uniquement les individus condamns (les autres ne connaissant pas encore le verdict ou la sentence dans leur cause). Aussi, cette partie des analyses, spcifiquement, ne portera que sur ceux dj condamns. Il sagit alors en quelque sorte de neutraliser la partie de la population ou de lchantillon de dpart qui ne doit pas tre prise en compte pour cette partie prcise des analyses. On effectuera alors une slection temporaire (option Filtres, voir plus bas) des cas devant tre pris en compte cette tape de lanalyse.
REMARQUE Au moment dinterprter les rsultats, il faudra prendre la prcaution de prciser que les analyses portent sur une partie seulement des donnes, celles concernes par la variable ltude. Ainsi, par exemple, on crira que: pour les personnes admises dans les institutions carcrales du Qubec et condamnes une peine de prison, la dure moyenne de la peine est de ... .
40
Exemple 3 : Recherche qui utilise une variable contrle On vous demande de vrifier l'hypothse selon laquelle le mariage serait pour les femmes un facteur important dans la dcision de cesser une carrire criminelle mais pas pour les hommes (variable contrle: sexe de lindividu). Il sagit alors dutiliser une banque de donnes comprenant la fois des hommes et des femmes nanmoins analyss sparment. Ici, il sagit, dans un premier temps, deffectuer les analyses sur le sous-groupe (sous-population ou sous-chantillon) compos uniquement des femmes pour ensuite refaire ces analyses sur le sous-groupe (sous-population ou sous-chantillon) regroupant spcifiquement les hommes. Schma danalyse: 1re condition impose : Slectionner selon une condition logique SI SEXE = 2 (Si la valeur "1" reprsente les femmes) 1re srie de traitements statistiques concernant le sous-groupe des femmes. 2me condition impose : Slectionner selon une condition logique SI SEXE = 1 (Si la valeur "2" reprsente les hommes) 2ime srie de traitements statistiques (quivalents aux premiers) concernant cette fois le sous-groupe des hommes. Comparaison des donnes obtenues dans les deux cas.
41
PROCDURE POUR SLECTIONNER UN SOUS-GROUPE (TIR DUNE POPULATION OU DUN CHANTILLON INITIAL)
Cliquez sur Donnes partir du menu dentte de SPSS Cliquez sur Slectionner des observations
Choisissez loption Selon une condition logique Cliquez sur le rectangle SI...
42
crivez dans le rectangle de droite, la condition permettant la cration du sous-groupe (souspopulation ou du sous-chantillon) requis. Cliquez sur Poursuivre REMARQUE: Pour liminer DFINITIVEMENT, cest--dire pour lensemble des analyses ralises dans le cadre de ltude en cours, les cas qui ne rpondent pas aux conditions du groupe soumis aux analyses: choisir loption sinon laisser sur Suppr Filtres (option par dfaut) la slection est alors temporaire et il est possible de retourner aisment l'ensemble de la population ou de lchantillon de dpart, ceci en slectionnant: Cliquez sur OK
Remarquez que lorsquune slection temporaire dune sous-population ou dun souschantillon (par l'option Filtres) est effectue pour une partie des analyses, les cas nonslectionns sont facilement identifiables dans la fentre Donnes puisque le numro didentification des lignes correspondantes apparat comme tant barr.
43
2. SLECTIONNER UN CHANTILLON
La commande Slectionner des observationsPar chantillon alatoire permet de crer un chantillon alatoire temporaire ou permanent partir d'un fichier de donnes. Une fois que vous avez cr un chantillon, toutes les commandes suivantes sont excutes partir de cet chantillon, jusqu' ce quune nouvelle commande indique SPSS de revenir la population ou lchantillon de dpart.
44
Objectifs dapprentissages :
Obtenir les mesures de tendances centrales et de dispersion sur un ensemble de donnes Obtenir et choisir les graphiques correspondants
45
Choisir les mesures de tendances centrales ou de dispersion dont vous avez besoin en cliquant dans les carrs prcdant la statistique en question. Cliquez sur Poursuivre ... Cliquez sur OK
MODE : SOMME :
46
MINIMUM/MAXIMUM :
CART-MOYEN : Distance moyenne (en valeur absolue) sparant les observations de la moyenne.
47
Gnralement, on ne prsente pas les mesures de tendances centrales et de dispersion sous forme de tableau, on prfre en discuter dans le texte en les y intgrant. Toutefois, il peut arriver, pour une raison ou pour une autre, qu'on veuille aussi prsenter ces rsultats plus schmatiquement. La prsentation des mesures de tendances centrales et de dispersion pourrait alors se faire de la manire suivante:
RAPPEL : Attention, les statistiques concernant la distribution des valeurs dune variable:
mesures de tendances centrales, de dispersion ou de position se calculent sur les donnes brutes nettoyes et lexclusion des valeurs manquantes.
48
EXEMPLE DHISTOGRAMME
FIGURE 5.1 Age du meurtrier (SPCUM, 1989)
600 500 400 300 200 Std. Dev = 12,63 100 0
0,0 10,0 5,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0 15,0 25,0 35,0 45,0 55,0 65,0 75,0 85,0
Age du meutrier
catgorie indtermine
familial
49
Slectionnez alors le diagramme de votre choix Cliquez sur OK N.B. Pour produire dautres formes de diagrammes ou alors pour en faire de type plus labor, choisissez plutt loption Graphes du menu principal.
Conseil : Les graphiques ont l'avantage d'tre loquents et amusants faire, par contre, ils prennent beaucoup de place et prsentent des informations relativement limites, n'en abusez donc pas. En outre, une reprsentation graphique, tout comme une prsentation des donnes sous forme de tableau de frquences, appelle un commentaire de la part du chercheur qui prsente les donnes. Ne vous illusionnez pas : de toute manire, vous ny chapperez pas !
50
51
N.B. Le test de diffrence de moyennes peut se faire lorsqu'on est face : 1 variable DPENDANTE de type PROPORTIONNELLE (QUANTITATIVE) et 1 variable INDPENDANTE de type NOMINALE DICHOTOMIQUE (cest--dire prsentant seulement deux modalits ou catgories)
Exemple: On veut savoir si, parmi les dlinquants qui commettent des vols qualifis, la diffrence dans la moyenne des gains est significative si on compare ceux qui sattaquent aux dpanneurs et ceux qui s'attaquent aux garages? On fait alors un test de moyennes : la variable dpendante (celle qui est appele varier) est le montant d'argent vol la variable indpendante (celle qui pourrait faire varier la variable dpendante) est le lieu o se commet le dlit (dpanneur ou garage). Cette dernire se prsente sous forme dichotomique.
52
Slectionnez la variable dpendante (qui devrait toujours tre de niveau de mesure proportionnel) dans le rectangle de gauche et faites-la passer, en usant de lespace flch prvu cet effet, dans le rectangle intitul Liste variables dpendante. On peut choisir plus dune variable dpendante si plusieurs tests de moyennes doivent tre raliss en fonction dune mme variable indpendante (par exemple on cherche tablir si le nombre dheures passes tudier, le nombre dheures passes travailler, et les rsultats scolaires varient en fonction du fait quon vit encore ou non chez ses parents). Slectionnez la variable indpendante (laquelle devrait toujours se prsenter sous une forme dichotomique, ce qui peut vouloir dire un certain travail de recodage) dans le rectangle de gauche prsentant lensemble des variables contenues dans la banque de donnes et faites-la passer, en usant de lespace flch prvu cet effet, dans le rectangle Liste variable indpendante. On peut choisir plus dune variable indpendante, si celles-ci sont toutes susceptibles dinfluencer la moyenne dune ou de plusieurs variables dpendantes. Celles-ci doivent toutes tre testes en regard de la ou des mmes variables dpendantes (par exemple, on calcule la diffrence de moyennes dans la dure des procdures et la dure de la sentence en fonction du sexe - masculin / fminin - du statut - libre / dtenu - de la situation demploi - possde un emploi oui / non - ) Cliquez sur Option
53
Vous obtenez la boite de dialogue suivante vous permettant de choisir un certain nombre doptions selon quelles vous semblent plus ou moins propos compte tenu des analyses que vous voulez effectuer :
Assurez-vous que les options Moyenne, cart-type et nombre dobservations (nombre de donnes valides sur lesquelles sappuient les analyses) sont slectionnes. Ce sont les donnes dont vous avez minimalement besoin pour procder votre analyse. Les options Variance et Somme (qui fait la somme de toutes les donnes disponibles) sont juges moins utiles et servent surtout de base dautres analyses. Slectionnez loption statistique Table Anova et eta (qui vous donnera deux statistiques indispensables : Table et Eta) Cliquez sur Poursuivre OK.
54
RGLE DE DCISION: COMMENT DTERMINER SI LA DIFFRENCE DE MOYENNES OBSERVE EST STATISTIQUEMENT SIGNIFICATIVE?
Si on accepte un pourcentage d'erreur de 5% (donc qu'on veut tre sr 95% de ne pas se tromper en disant quil existe une diffrence significative entre les moyennes observes et que, par consquent, cette diffrence nest pas simplement due au hasard chantillonnal): Si P (ou Sig) infrieur 0.05, la diffrence est juge statistiquement significative. Si P (ou Sig) est suprieur 0.05, alors la diffrence n'est pas statistiquement significative. Si on se fixe un pourcentage d'erreur de 1% (donc on veut tre sr 99% de ne pas se tromper en disant quil existe une diffrence significative entre les moyennes observes et que, par consquent, cette diffrence nest pas simplement de au hasard chantillonnal ): Si P (ou Sig) est infrieur 0.01, alors la diffrence est juge statistiquement significative. Si P (ou Sig) est suprieur 0.01, alors la diffrence n'est pas statistiquement significative. En sciences humaines on accepte gnralement un pourcentage d'erreur maximum de 10%, 5% ou de 1%, selon les vises de ltude et le degr de certitude ou de prcision requis. C'est pourquoi on compare P l'un des seuils suivants, soit: 0.1, 0.05 ou 0.01
N 1782
Tableau de bord VALVOLFR Valeur du vol ou de la fraude DEP_BANQ Moyenne N dpanneur ou banque 5,00 Dpanneur 422,8920 1093 6,00 Banque 9393,5128 273 Total 2215,7028 1366
55
Tableau ANOVA Somme des carrs 1,758E+10 2,268E+11 2,443E+11 Moyenne des carrs 1,758E+10 166250827
df 1 1364 1365
Combin
F 105,734
Signification ,000
Mesures des associations Eta VALVOLFR Valeur du vol ou de la fraude * DEP_BANQ dpanneur ou banque ,268 Eta carr ,072
Montant du vol Dans des dpanneurs Dans des banques Au total 2215,70 P = .000 ta carr : 0,072 Valeurs manquantes : 416 ou 23,3% 422,89 9393,51
Quant l'interprtation, on pourrait simplement dire qu'il existe une diffrence de moyennes statistiquement significative dans le montant des vols selon lendroit o ils ont t commis. En effet, on peut dire que ceux qui s'attaquent aux dpanneurs font moins d'argent (en moyenne, 422,89$) que ceux qui volent des banques (en moyenne, 9393,51$), puisque p<.05. La mesure dassociation ta carr nous permet daffirmer que 7,2% de la variation des montants des vols pourrait tre expliqu par lendroit ou celui-ci a t commis.
56
Sous l'effet de l'alcool / Crime violent Sous l'effet de l'alcool/ Crime non-violent
N.B. Il est gnralement prfrable de prsenter les valeurs de la variable indpendante en colonnes et celles de la variable dpendante en ranges. En effet, par convention implicite on a convenu de standardiser la prsentation des tableaux sous cette forme, la lecture des donnes s'en trouvant facilite. Toutefois, par souci d'esthtisme ou pour dautres raisons, il est possible de passer outre cette rgle. Par exemple, dans le cas o la variable dpendante prsente un grand nombre de catgories alors que la variable indpendante n'en affiche pour sa part qu'un trs petit nombre, il peut paratre prfrable de prsenter le tableau croisant les deux variables sur le sens de la largeur plutt que sur celui de la longueur. Une chose demeure capitale, quelle que soit le prsentation que l'on choisi de retenir, il faut rfrer aux pourcentages appropris au moment de procder aux analyses et de formuler son commentaire sur les donnes.
57
Slectionnez dans le rectangle de gauche, prsentant lensemble des variables contenues dans la banque de donnes, la ou les variables dpendantes que vous souhaitez soumettre lanalyse et faites-les passer, laide des rectangles flchs prvus cet effet, dans le rectangle Lignes(s). Faire de mme pour la ou les variables indpendantes de sorte quelles sinscrivent, cette fois, dans le rectangle Colonne(s). Vous constatez ainsi que vous pouvez soumettre au cours dune mme commande, plusieurs variables indpendantes et plusieurs variables dpendantes qui seront mises en relations les unes avec les autres. Sachez toutefois que vous multipliez de ce fait le nombre de tableaux croiss produits. Ainsi, le fait de prciser deux variables dpendantes et deux variables indpendantes, comme dans lexemple fourni plus haut, donnera lieu 4 tableaux (sexe des victimes et catgories dhomicide en fonction de lge de lagresseur et sexe des victimes et catgories dhomicide en fonction du sexe de lagresseur.
58
Loption Strates 1 de 1 prsent dans le mme cran de dialogue permet pour sa part de faire intervenir des variables contrles. De la mme faon que pour les procdures prcdentes, vous devez choisir dans le rectangle de gauche une ou des variables que vous voudriez faire intervenir en tant que variables contrles. Ainsi, dans lexemple prcdent, le fait de faire intervenir la variable RESOLU (affaire rsolue ou non), comme variable contrle, double le nombre de tableaux produits, les quatre tableaux dorigine tant produits dune part pour les homicides non rsolus (4 premiers tableaux) et dautre part pour les homicides rsolus (4 autres tableaux). Loption Supprimer les tableaux vous permet dobtenir les statistiques concernant la mise en relation de deux variables, sans que les tableaux croiss correspondant ne soient produits. Ceci peut-tre pratique si la seule chose qui vous est utile ce sont les statistiques, ou encore, si aprs avoir produit un tableau de frquences vous vous apercevez que vous avez besoin des statistiques et que vous avez oubli de demander SPSS de les produire. Si la mise en oeuvre de cette option nest pas prcise (il sagit pour la slectionner de cliquer dans le petit carr prcdant le nom de loption afin dy faire apparatre un x qui signale que loption est en vigueur), SPSS produit par dfaut les tableaux croiss demands. Loption Statistiques permet de slectionner les coefficients dont vous avez besoin afin de prciser la relation entre les deux variables (sa significativit, dans certains cas sa force, dans certains cas encore sa direction).
59
Voici les statistiques les plus couramment utilises : Khi-deux (Khi-carr, 2) : permet de dterminer s'il existe une relation statistiquement significative entre les variables. Seul coefficient qui, avec ses drivs (phi, C de contingence, V de Cramer), s'applique pour les variables de niveau de mesure nominal, et par consquent sapplique aussi pour toutes les variables de niveaux de mesure suprieur. SPSS nomme le 2 tel que nous avons appris le calculer le Khi-deux de Pearson. Les autres donnes affrentes au 2 sont des variantes que nous napprendrons pas interprter. Coefficient de contingence : Driv du 2 qui mesure la force de la relation. Sutilise le plus souvent dans le cas de variables de niveau nominal mais sapplique aussi dans le cas de variables de niveaux de mesure suprieurs. Utilis lorsque le tableau comprend le mme nombre de colonnes et de ranges. Phi et V de Cramer : Drivs du 2 qui mesurent la force de la relation. Sutilisent le plus souvent dans le cas de variables de niveau nominal mais sappliquent aussi dans le cas de variables de niveaux de mesures suprieurs. Phi s'applique dans le cas de tableaux de dimension 2 (colonnes) X 2 (ranges). V de Cramer s'applique quelle que soit la dimension du tableau. Loption Cellules permet pour sa part de slectionner les informations que vous dsirez voir apparatre dans les cellules du tableau crois.
60
Dans lencadr libell Effectifs Observ : prsente le nombre de cas, la frquence de deux caractristiques (lune concernant la variables dpendante lautre la variable indpendante) prises simultanment. Attendu : prsente les frquences espres (ou attendues ou thoriques) de chacun des points de rencontre (cellule) entre une valeur de la variable indpendante et une valeur de la variable dpendante si les variables mises en relation taient parfaitement indpendantes (premire tape du calcul du 2). Dans lencadr libell Pourcentages Ligne : donne le pourcentage calcul en ligne pour chacune des ranges (Nb de cas de la cellule / Nb de cas (frquence) de la range) * 100 Position : donne le pourcentage calcul en colonne pour chacune des colonnes (Nb de cas de la cellule / Nb de cas (frquence) de la colonne) * 100 Total : donne le pourcentage de cas qui appartient chaque cellule en rapport avec le nombre de cas total ltude (Nb de cas de la cellule / Nb total de cas) * 100
61
Tableau 1.1. Relation entre la consommation d'alcool juste avant de dlit et le fait d'avoir commis un crime violent ou non
Alcool Crime violent Non-violent Total Aucune valeur manquante Khi-Deux Pearson Phi 19 70,3% 8 29,6% 27 54,0%
ddl 1
Signification ,00060
62
LABORATOIRE 7 : CORRLATION
Objectifs dapprentissages :
Le R2 de Pearson (coefficient de dtermination) Le nuage de points
1. LE R2 DE PEARSON
Le R2 de Pearson, appel aussi le COEFFICIENT DE DTERMINATION, est un nombre qui mesure l'intensit de la liaison linaire entre deux variables de niveau de mesure quantitatives. Le coefficient R2 varie toujours entre -1 et 1 "-1" reprsentant une relation linaire ngative parfaite (on dira aussi que les variables sont lies par une relation linaire parfaitement inversement proportionnelle); "0" reprsentant l'absence totale de relation linaire entre les variables; "1" reprsentant une relation linaire positive parfaite (ou encore le fait que les variables sont lies par une relation linaire parfaitement directement proportionnelle). Entre ces valeurs extmes , le coefficient de dtermination indique si les variables sont plus ou moins bien linairement lies entre elles, dans un sens ou dans lautre. Ainsi, plus on sapprochera de -1 ou 1 plus on conclura que la force de la relation (inversement ou directement proportionnelle) est importante. linverse, plus le coefficient de dtermination tend vers zro, plus on sapproche dune situation dabsence de relation linaire entre les variables ltude. Plus prcisment encore, le coefficient de dtermination se lit comme tant le pourcentage de variance de la variable dpendante explique par sa mise en relation avec la variable indpendante. On dtermine donc ainsi, si la variable indpendante constitue un plus ou moins bon prdicteur des valeurs que prendra la variable dpendante.
63
Notez que les relations linaires parfaites ou trs leves (R2 >.80) doivent tre questionnes : il est possible qu'elles soient dues au fait qu'on mesure deux fois le mme phnomne. En d'autres mots, il est possible que les variables ne soient pas rellement distinctes. Par exemple, on mesure la peur du crime dans le quartier et en gnral et on met les deux variables en relation. On trouve une relation quasi parfaite entre les deux. Cest lindication, quen fait, la peur du crime dans le quartier et la peur du crime en gnral ne font quun. On avait toutefois raison, dans un premier temps, de vouloir sen assurer scientifiquement . Toutefois, pour la suite de ltude, on sera avis de ne conserver quun seul des deux indicateurs puisquon vient dtablir que les deux mesuraient finalement la mme chose.
N'oubliez pas qu'il peut y avoir une forte relation entre deux variables, sans que cette relation soit linaire. Pour que le coefficient de dtermination rende justice la relation, il faut absolument que la relation entre les variables soit positivement ou ngativement linaire.
1.1
QUELQUES EXEMPLES DE
RELATIONS ENTRE VARIABLES ILLUSTRS LAIDE DE DIAGRAMMES DE DISPERSION (OU NUAGE DE POINTS)
2. LE DIAGRAMME DE DISPERSION OU LE NUAGE DE POINTS Le diagramme de dispersion, ou le nuage de points, constitue la reprsentation graphique de la relation entre deux variables de niveau de mesure proportionnel. Chaque point reprsente un couple d'observations (x,y) rapport sur un graphique en prenant pour abscisse (axe horizontal) la variable indpendante (x) et pour ordonne (axe vertical) la variable dpendante (y).
64
Graphique 1.1. Relation entre le taux de famille vivant sous le seuil de pauvret et le taux de dlinquance dans les secteurs de recensement de Montral.
16
14
12
10
e c n a u q n i l d e d x u a T
-2 0 20 40 60 80 100
Le diagramme de dispersion permet de dceler loeil que ces deux variables varient dans le mme sens, dans une relation linaire directement proportionnelle (ou positive). On doit nanmoins faire appel au calcul des coefficients de dtermination et de corrlation afin dtablir prcisment dans quelle mesure (avec quelle force) ces deux variables sont inter-relies, de manire linaire ou non.
PROCDURE POUR LA PRODUCTION DUN DIAGRAMME DE DISPERSION (OU NUAGE DE POINTS) ILLUSTRANT LA RELATION ENTRE DEUX VARIABLES DE
NIVEAU PROPORTIONNEL
Cliquez sur Graphes partir su menu principal Slectionnez Bote de dialogue ancienne version Slectionnez Dispersion/points
65
66
Slectionnez la variable dpendante soumise lanalyse dans le rectangle de gauche qui vous prsente lensemble des variables contenues dans la banque de donnes et linscrire, en la faisant passer laide du rectangle flch prvu cet effet, dans le rectangle correspondant l'Axe des Y (axe vertical), lequel doit reprsenter les valeurs de la variable dpendante. Rptez lopration pour ce qui est de la variable indpendante laquelle sera pour sa part porte dans le rectangle reprsentant lAxe de X (axe horizontal dans la reprsentation graphique). Notez bien : Vous pouvez ds cette tape prciser les titres des axes et du graphique ( partir de loption TITRES... prsente en bas de la bote de dialogue, mais cette opportunit vous sera aussi donne, une fois le graphique constitu, et il est alors un peu plus ais de procder. Alors attendre avant de procder ces ramnagements esthtiques. Cliquez sur OK - Le graphique se cre et apparat dans la fentre Viewer. Vous navez plus qu cliquer afin damnager le graphique votre got !
67
Slectionnez les variables pour lesquelles vous dsirez mesurer la corrlation. SPSS en traitera deux par deux. cette tape, SPSS ne vous demande pas de prciser quelle est la variable dpendante et quelle est celle indpendante parce que, quel que soit le sens dans lequel il effectue le calcul du coefficient de corrlation, celui-ci tant symtrique, il donnera le mme rsultat. S'assurer que le coefficient Pearson est bien slectionn Cliquez sur OK
2.1. EXEMPLE D'UN RSULTAT DE CORRLATION ET INTERPRTATION R DE PEARSON: Notez bien que les coefficients de Pearson sont souvent prsents sous forme de matrice, donc qu'il n'y a que les chiffres en gras qui peuvent rellement servir. TABLEAU 1.1: CORRLATION ENTRE LE TAUX DE FAMILLE PAUVRE ET LE TAUX DE DLINQUANCE DANS 245 SECTEURS DE RECENSEMENT DE L'LE DE MONTRAL TAUX_DEL TAUX_DEL 1,0000 ( 245) P= , ,4707 ( 244) P= ,000 PAUVRES ,4707 (r de Pearson) ( 244) (nombre de cas ayant servi au calcul) P= ,000 (niveau de significativit) 1,0000 ( 245) P= ,
PAUVRES
INTERPRTATION POSSIBLE DU TABLEAU 1.1. : Il existe une relation statistiquement significative (p<.05) et directement proportionnelle (puisque le signe du coefficient nest pas ngatif) entre le taux de familles vivant sous le seuil de pauvret et le taux de dlinquance juvnile. De fait, on constate que plus il y a de familles pauvres dans un secteur de recensement donn, plus le taux de dlinquance y est lev. Ceci est confirm par un coefficient de corrlation R de Pearson de .47 (p - 0,000) indiquant une relation statistiquement significative positive assez forte entre les deux variables.
Notez bien : Dans le cadre dun article scientifique, lorsque seulement deux variables sont mises en relation, on se contentera de glisser la valeur du coefficient et le degr de significativit dans le texte lappui de notre analyse. Inutile de prsenter la matrice des rsultats de lanalyse de corrlation.
68
LABORATOIRE 8 : RGRESSION
Objectifs dapprentissages :
La rgression Le R de Pearson (coefficient de corrlation) 1. LA RGRESSION 1.1. LA DROITE DE RGRESSION SIMPLE La droite de rgression est la droite qui s'ajuste le mieux possible aux points d'un diagramme de dispersion mettant en relation deux variables.
y = a + bx
o "y" = variable dpendante, "x" = variable indpendante "a" = l'ordonn l'origine (quon nommera aussi constante) "b" = la pente de la droite.
Exemple de la relation entre le nombre de victimisations subies et la peur du crime, telle que mesure sur une chelle croissante de 1 7, 7 reprsentant le plus haut degr de peur que peut indiquer un rpondant.
Le R2 de Pearson est ici de 0,27, cest--dire que le nombre de victimisations subies permet dexpliquer 27% de la variance observe en ce qui a trait au niveau de peur du crime exprim par les rpondants.
69
Tableau 8.2 Indice de la peur du crime en fonction du nombre d'expriences de victimisation subies par les rpondants 7 y = 2,0111 + 0,30320x R^2 = 0,269 6
0 0 2 4 6 8 10 12
Nombre de victimisations
1.2. LE COEFFICIENT DE DTERMINATION: R2 Le coefficient de dtermination, le R2 de Pearson, reprsente la proportion de la variation totale que subie la variable dpendante qui est explique par la droite de rgression, lorsquune variable indpendante quelconque est prise en compte. Il s'exprime comme le rapport de la variation explique (par la prsence de la variable indpendante) la variation totale (lorsque la variable indpendante nest pas tenue en compte). En dautres mots, il sagit dun indice de lajustement de la droite au nuage de points dcoulant de la mise en relation de deux variables. Ainsi, on peut voir que le premier diagramme, qui reprsente une relation plus forte entre les deux variables, prsente un coefficient de dtermination plus lev que le second diagramme.
70
La procdure de rgression ralise par SPSS sert donc dterminer la prsence d'une relation statistiquement significative, cest--dire qui ne serait pas due au hasard, entre les variables (donn par le niveau de significativit; la direction de cette relation (donne par la pente positive ou native); ainsi que la proportion de variance de la variable dpendante explique par la prsence de la variable indpendante avec laquelle elle est mise en relation (R2).
Slectionnez les variables dpendantes et indpendantes que vous souhaitez soumettre lanalyse. Ici il est important de bien dterminer et prciser SPSS quelles sont les variables indpendante et dpendante. Cliquez sur OK
71
Modle 1
Variables limines ,
Mthode Introduire
Modle 1
R ,537a
R-deux ,288
Modle 1
ddl 1 18
Rgression Rsidu
F 7,283
Signification ,015a
a. Valeurs prdites : (constantes), PEUR Indice de la peur du crime b. Variable dpendante : VICTIM Nombre de victimisation
Modle 1
72
ET/OU DE LA DROITE DE
Nous constatons lexistence dune relation statistiquement significative (p = .01) et directement proportionnelle (signe de la pente = positif) entre le nombre de victimisations subies et la peur du crime telle que mesure par une chelle allant de 1 7, o 7 indique le niveau le plus lev de peur. Ainsi, plus une personne aura t victimise, plus elle aura tendance craindre la criminalit (R de Pearson: 0,54). La droite de rgression nous permet mme de dire que la variable indpendante nombre de victimisations permet dexpliquer prs de 30% de la variance observe au sujet de la variable dpendante peur du crime exprime par les rpondants (R2 = 0,288).