Statistiques
Définition d’Antoine Cournot : “La statistique est la science qui a pour objet de recueillir et
coordonner des faits nombreux dans chaque espèce, de manière à obtenir des rapports
numériques sensiblement indépendants des anomalies du hasard et qui dénotent l’existence
de causes régulières.”
Cette définition intègre deux types de statistiques :
- Les statistiques descriptives/de constatation : “recueillir et coordonner des faits
nombreux dans chaque espèce”
- Les statistiques inférentielles/dynamiques : “obtenir des rapports numériques
sensiblement indépendants des anomalies du hasard et qui dénotent l’existence de
causes régulières”. Elles sont beaucoup plus récentes et sont apparues fin XIXème
début XXème siècle.
De l’utilité des statistiques en tant que psychologue :
- La psychologie est une discipline scientifique, elle a besoin d’outils objectifs
- Comprendre les normes des tests que l’on va faire passer
- Permet de communiquer avec différents professionnels
- Écrire des compte-rendus
- Cibler la prise en charge
- Trace de l’évolution des patients
- Tester l’efficacité d’une prise en charge pour éventuellement la moduler
- Approfondir ses connaissances
Ce sont une boîte à outils de plus pour nous adapter et faire preuve d’un esprit critique et
d’analyse.
3 parties (chapitres)
- Notion de base et nature des variables
- Analyses univariées (description d’une série de données)
- Analyses bivariées
Chapitre 1 : notions de base et échelle de mesure
Ensemble : groupe d’unités de même nature
ex : ensemble d’individus, ensemble d’instruments, ensemble d’émojis
Population : ensemble global d’éléments qui intéresse le chercheur pour établir ses
conclusions générales.
Dans cette population, et comme il est difficile d’avoir accès à toute cette population, on va
aller piocher des échantillons : sous-ensemble de la population.
Quand on fait des mesures sur la population, on calcule des paramètres
Quand on fait des mesures sur l’échantillon : on calcule des statistiques
Les statistiques ont pour but de généraliser des caractéristiques de l’échantillon à la
population entière (càd aux paramètres)
Variable : information dont on a la valeur pour chaque élément d’un ensemble
symbole utilisé pour la variable : x, y, w, …
ex : x : taille
Les différentes valeurs d’une variable : des modalités
ex : avec la variable taille, les modalités sont : 1m88, 1m56, etc…
Les modalités peuvent être de différentes natures :
- Nombres entiers cardinaux : 1,75m, 164cm
- Nombres entiers ordinaux : 1er (le plus grand), 2e, 3e. Le nombre n’indique pas
une grandeur de la taille, mais indique un rang
- Étiquettes verbales : petit, grand, …
Constante : variable qui n’a qu’une seule modalité
Variable aléatoire : valeurs soumises aux lois du hasard
Nature des variables
- Qualitatives : variables dont les modalités sont des étiquettes verbales (valeurs).
Attributs, qualités, propriétés, caractéristiques, catégories.
Ex : “la couleur des yeux” est une variable qualitative yeux marrons, bleus, verts…
- Quantitatives : correspondent à une quantité, une mesure réelle
- Discrète : nombre entier
- Continue : nombre décimaux
Nombre de bonbons mangés la semaine dernière : discrète
Temps passé à parler pendant le CM de stats (ex: 2mns, 25mns, etc.) : discrète
Moyenne au bac : continue
Nombre d’animaux de compagnie dans une famille : discrète
% du budget dépensé en choses inutiles : si 20% discret, si 20.2% continue.
Nominale : étiquettes verbales qui permettent de faire des catégories, on ne peut pas
classer les modalités entre elles
Ordinale : étiquettes verbales que l’on peut classer entre elles
Numérique : les modalités vont suivre le principe d’ordinalité et de cardinalité (écarts
quantifiables)
Variable numérique :
- de rapport : 0 = absence comme 0kg
- d’intervalle : 0 ≠ absence comme 0°C
Ex :
- Temps moyen de conduite par jour : de rapport
- Longueur de cheveux : de rapport
- Note sur 20 à un concours d’histoire : d’intervalle ( si j’ai 0 sur 20 je n’ai pas
d’absence de note )
- Prix d’un billet d’avion : de rapport (mais j’aurais dit d’intervalle)
Nature des échelles de mesure : conversion possible
Une échelle peut être transformée de :
Numérique => Ordinale
Numérique => Nominale
Ordinale => Nominale
On ne peut pas transformer une variable ordinale en numérique, de nominale à numérique
ou de nominale à ordinale.
ordinale ≠> numérique
nominale ≠> numérique
nominale ≠> ordinale
Exemple ci-dessous où une échelle numérique est transformée en ordinale, qui est
transformée en nominale.
Les analyses univariées
Lorsqu’on essaie de décrire un ensemble de données, c’est d’essayer de réduire le nombre
de données et d’organiser ces données pour une seule série de données (une seule
variable).
Avant tout calcul :
- Identifier la variable et bien préciser son nom
- Identifier la nature de la variable et son échelle de mesure (à quoi correspondent les
nombres ?)
Regrouper les mesures déjà prises par 2 moyens :
- Distributions
Les distributions
Titre du tableau
Modalités m1 m2 m3
Effectif effectif fréquence pourcentage
Différencier les tableaux
- tableau de données brutes : il y a autant de lignes que de participants
Tableau de données brutes
var1 var 2 var 3
Couleur des yeux Taille Cheveux
Participant 1 noir 1.68 mi-long
Participant 2 vert 1.91 très court
Participant 3 marron 1.73 court
C’est à partir du tableau de données brutes qu’on crée le tableau de distribution
Effectifs cumulés
Ne peuvent être calculés que pour les variables dont les modalités peuvent être rangées par
ordre croissant (ordinales et numériques)
Les modalités doivent être rangées par ordre croissant
Croissant : ajouter l’effectif à partir de la modalité inférieure
Modalités Pas du tout Un peu en Ni d’accord, Un peu Tout à fait
d’accord désaccord ni pas d’accord d’accord
d’accord
Effectifs 3 3 12 51 71
partiels
Effectifs 3 6 18 69 140
cumulés
croissants
Décroissant : ajouter l’effectif à partir de la modalité supérieure
Modalités Pas du tout Un peu en Ni d’accord, Un peu Tout à fait
d’accord désaccord ni pas d’accord d’accord
d’accord
Effectifs 3 3 12 51 71
partiels
Effectifs 140 137 134 122 71
cumulés
croissants
Distributions de fréquences
fi = ni/N
La fréquence est égale à l’effectif partiel divisé par l’effectif total
N = 140
Modalités Pas du tout Un peu en Ni d’accord, Un peu Tout à fait
d’accord désaccord ni pas d’accord d’accord
d’accord
Effectifs 3 3 12 51 71
partiels, ni
fréquence, fi 0.02 0.02 0.09 0.36 0.51
% 2% 2% 9% 36% 51%
Les représentations graphiques
C’est en fonction des types de variables que l’on va choisir nos graphiques.
Quali : secteur ou barres
quantitative : secteur (camembert), barres (non collées), histogramme (colonnes collées),
polygone (points reliés par des traits)
Rappel
Nombre de lessives faites par semaine : numérique
Premier plat indien goûté : nominale
Combien de mots différents prononcez-vous par jour ? numérique
Degré de température d’un gâteau : numérique
Degré de motivation pour suivre le cours : ordinale
Le titre du graphique se place en-dessous du graphique
Quel château est le plus apprécié ?
Modalité Moritzburg Hofburg Alnwick Pierrefonds Alcazar
Effectif
28 40 48 55 66
partiels ni
N = 237
Répartition des effectifs
Utilisation du téléphone en cours
Modalité Jamais Peu Moyenneme Souvent Tout le
nt temps
ni 7 72 88 46 20
N = 233
Température de l’eau pour se baigner
Modalité 12 16 20 25 29 37
ni 5 4 15 76 84 22
N = 206
Température de l’eau pour se baigner
Taille des danseuses à l’Opéra ?
Modalité 171 172 173 174 175 176 177
ni 9 15 16 10 2 5 3
Ici ce sera un histogramme (barres collées)
Que ce soit pour les fréquences ou les pourcentages, on doit faire un graphique différent
pour chacun.
Forme de distribution d’effectifs
Va nous donner la forme du graphique.
● Distribution en forme de cloche : normale
● Distribution biaisée à droite/gauche: ressemble à une distribution en cloche mais
plus longue sur la gauche ou la droite
● Monotone croissante/décroissante
● En “U”
● Bimodale : il y a deux modes
Chapitre 2 : Indicateurs de position
Valeurs résumant la distribution des réponses obtenues dans notre échantillon
● Indices de tendance centrale : “où est centrée la distribution ?”, où est-ce qu’on a
le plus de valeur, où se regroupent les réponses.
● Autres indices de position : “Comment se répartissent les données ?”
Indices de tendance centrale
1. Mode
a. Nominales
b. Ordinales
c. Numériques
2. Médiane : classer les modalités
a. Ordinales
b. Numérique
3. Moyenne : classer les modalités + écart quantifiable
a. Numérique
Autres indices de position
1. Quartiles : classer les modalités
a. Ordinales
b. Numériques
2. Déciles : classer les modalités
a. Ordinales
b. Numériques
3. Centiles : classer les modalités
a. Ordinales
b. Numériques
2.1 Indices de tendance centrale
2.1.1 Le mode
“Où est centrée la distribution ?”
Valeurs qui représentent la distribution, c’est une valeur qui appartient aux modalités de la
variable.
Série Himym CDP DH GoT GA
How I meet Casa del Desperate Game of Grey’s
your mother Papel Housewives thrones anatomy
Ni 20 65 56 57 55
Le mode (modalité qui a le plus grand effectif) : CDP
Le mode est calculable pour toutes les échelles de mesure (nominales, ordinales,
numériques).
S’il n’y a pas de mode (toutes les réponses sont équivalentes): amodale
Un seul mode : unimodale
Plusieurs modes : multimodale
Animal préféré : nominale
2 panda
10 chien => Le mode : “chien”, distribution unimodale
3 dauphin
9 chat
5 cheval
2 écureuil
2 tigre
Le mode peut être aussi calculé à partir des effectifs, des fréquences ou des pourcentages
La fréquence la plus élevée est pour le 1 (chocolat) et 6 (chips), c’est donc bimodale.
Mode = 9
Un mode peut ne pas être très informatif ou représentatif de la distribution des réponses. On
peut alors utiliser la médiane.
2.1.2 La médiane
C’est la valeur de la modalité divisant l’échantillon en 2 au regard de l’effectif quand les
données sont rangées par ordre croissant.
Je vais pour se faire calculer le rang médian : N/2
D’abord, ranger mes réponses par ordre croissant
Ensuite calculer mon rang média (10/2=5)
Jamais, rarement, parfois, parfois, parfois, souvent, souvent, souvent, souvent, très souvent
Si N est impair je vais faire (N+1)/2
Consommation de fruits et légumes par semaine
Modalité Aucun Peu Faible Moyen Normal Beaucoup
ni 9 79 41 52 28 11
9 88 129 181 209 220
N = 220
Mode : Peu (associé au plus grand effectif partiel)
Rang médian : 220/2 = 110
Médiane : Faible ça signifie que 50% de l’échantillon consomme des fruits et légumes avec
une fréquence “faible” par semaine.
Combien de personnes dans votre entourage ont un rire gênant ?
Modalité 0 1 2 3 4 5
ni 0.15 0.21 0.23 0.19 0.07 0.02
fi 0.15 0.36 0.59 0.78 0.85 0.87
cumulés
Mode = 2
Médiane = 2 (puisque le rang médian est à 50%)
50% de l’échantillon connaissent au maximum 2 personnes qui ont un rire gênant
Combien de pays étrangers avez-vous visités ?
Modalités 2 3 4 5
ni 22 26 22 14
ni cumulés 22 48 70 84
Mode = 3
N = 84
Rang médian = 84/2 = 42
Médiane = 3
Modalité 0 1 2 3 4 5 6 7 8 9 10
s
ni 7 13 22 26 22 14 15 5 6 3 2
ni 7 20 42 68 90 104 120 125 131 134 136
cumulés
N = 136
Mode = 3
Rang médian = 136/2 = 68
Médiane = 3
Quand on le peut, on va calculer la moyenne qui va prendre en compte les valeurs
extrêmes.
Les modalités suivent le principe d’ordinalité et de cardinalité => seulement pour les
variables numériques
La moyenne est une valeur caractéristique représentative de la distribution
x barre = c’est la moyenne
sigma = somme
ni = effectif partiel
xi = modalité
N = effectif total
Comment calculer la moyenne.
Se rappeler du calcul de la moyenne du bac avec les coefficients.
On peut voir ici que certaines données sont très éloignées (1000, 2000, 1000000).
Si on fait la moyenne, celle-ci ne sera pas vraiment représentative de la distribution que l’on
nous a donné. Elle sera très élevée alors que la majorité des données s’arrête à 500.
Dans certains cas, quand on a des valeurs déviantes (éloignées des réponses), on va
donner une moyenne tronquée.
Moyenne tronquée : on fait la
moyenne en enlevant les valeurs
déviantes
Important : il faut enlever autant
de valeurs extrêmes inférieures
que supérieures. Fonctionne en
système de miroir.
Troncature classique : on retire 5%, 10%, 15% ou 20% (la plus commune) des valeurs.
1) calculer combien de données je vais devoir enlever
Ici troncature à 20%, on va calculer combien de valeurs on doit enlever :
0.20 * 54 = 10.8
Je dois toujours enlever un nombre pair dans les valeurs
10 valeurs ( 5 basses + 5 élevées )
( je regarde dans les ni) : donc je supprime 3(1), 1(2), 1(4) et 2(1000), 1(2000),
2(1000000)
Moyenne sans les valeurs extrêmes qui paraissent déviantes
Enlever autant de valeurs inférieures que supérieures
Utiliser une troncature “classique”
Sinon choisir
Combien de viennoiseries mangez-vous en semaine ?
N = 100
Ici, je vais retirer la modalité 16 qui est très éloignée.
Mais comme je suis en train de tronquer, je dois aussi enlever les deux valeurs les moins
élevées.
Je calcule ici la “troncature” qui est ici égale à 4%.
ici il y a une coquille, c’est x10%
2.3 Relation mode, médiane et moyenne
2.2.1 Les quartiles
Les quartiles :
Diviser en 4 parties égales l’échantillon :
● Au regard de l’effectif
● Quand les valeurs sont rangées par ordre croissant
○ Q1 : 25% de l’effectif en-dessous
○ Q2 : médiane = 50% de l’effectif
○ Q3 : 75% de l’effectif en-dessous
Rang quartile = N/4*N° quartile (1, 2, 3, ou 4)
2.2.2 Les déciles
Pour les déciles : on divise en 10 parties égales l’échantillon :
- Au regard de l’effectif
- Quand les valeurs sont rangées par ordre croissant
● D1 : 10% de l’effectif en-dessous
● D2 : 20% de l’effectif en-dessous
● D3 : 30 de l’effectif en-dessous (...)
● D5 : médiane
Rang décile = N/10*n°décile (entre 1 et 10)
Mod 0 1 2 3 4 5 6 7 8 9 10
ni 0 1 3 4 6 19 10 27 27 10 13
ni 0 1 4 8 14 33 43 70 97 107 120
cumulé
Rang Q1 = 120/4 * 1(quartile Q1) = 30
Q1 = 5 associé à l’effectif cumulé incluant le rang de 25% de l’échantillon donnent une note
de au film de 5 au maximum.
Rang Q3 = 120/4 * 3(quartile Q3) = 90
Q3 = 8, ça signifie que 75% des étudiants donnent une note maximale au dessin animé de 8
Rang D1 = 120/10 * 1(décile) = 12
D1 = 4
10% de l’échantillon donnent une note au film de 4 au maximum
Rang D8 = 120/10*8 = 96
D8 = 8
80% de l’échantillon donnent une note 8 au film au maximum
2.2.4 Centiles
Diviser en 100 parties égales l’échantillon :
- Au regard de l’effectif
- quand valeurs rangées par ordre croissant
● P1 : 1% de l’effectif en-dessous
● P2 : 2% de l’effectif en-dessous
● P3 : 3% de l’effectif en-dessous
● P50 = médiane
Rang centile = N / 100 * N°centile (de 1 à 100)
Chapitre 2 analyses univariées
Indicateurs de dispersion
Comment les valeurs s’étalent autour d’une valeur centrale ?
Permet de se rendre compte de la variabilité des données
Le calcul des indices de dispersion dépend de la nature des variables et des échelles de
mesure.
La condition minimale : pouvoir ranger les modalités par ordre croissant = principe
d’ordinalité
Autres conditions : principe d’ordinalité + de cardinalité. Calcul de moyenne
Nominales Ordinales Numériques
Rien, on ne peut calculer Étendue étendue
quoi que ce soit. écart interquartile écart interquartile
écart moyen à la médiane ecart moyen à la médiane
écart moyen
écart type
Rappel
Nombre de fois où le réveil sonne le matin : numérique
Envie de faire la sieste après le repas de midi aujourd’hui : ordinale (degré d’envie)
Texture des cheveux : nominale
Marque de votre shampoing : nominale
Intensité de la lumière (en candela, donc unité de mesure physique) : numérique
3.1 Étendue
Différence entre la plus grande et la plus petite des modalités.
Sert à savoir s’il y a une grande variation dans les données. Car peut-être présence de
beaucoup d’échelons différents.
Exemple :
3.2 Écart interquartile
Différence entre quartile 3 et le quartile 1 : Q3 - Q1
C’est pour chercher les 50% centraux de nos quartiles.
Note de dangerosité du flyboard
Mod 0 1 2 3 4 5 6 7 8 9 10
alités
ni 3 3 5 18 29 45 38 38 25 14 0
ni 3 6 11 29 58 103 141 179 204 218 218
cum
ulés
Calcul du rang Q1 = 218 / 4 = 54.5 (pour se faire, je vais faire les ni cumulés croissants)
Q1 = 4 (modalité 4) (valeur pour laquelle on a 25% de notre échantillon)
Rang Q3 = 218 / 4 * 3 = 163.5
Q3 = 7 (valeur pour laquelle on a 75% de notre échantillon)
Écart interquartile = 7 - 4 = 3
Ça veut dire que j’ai un écart de 3 sur la note de 10.
On va dire que les 50% centraux de mon échantillon se répartissent sur 3 notes.
3.4 Écart moyen à la médiane
Exemple pour l’écart moyen de la médiane :
Niveau de bricolage (0 = nul ; 1 = très mauvais ; 2 = mauvais ; 3 = moyen ; 4 = plutôt bon ; 5
= bon ; 6 = très bon)
N = 157
Niveau de bricolage
Modalité 0 1 2 3 4 5 6
s
ni 19 20 22 55 30 5 6
ni cum. 19 39 61 116 146 152 157
xi - a -3 -2 -1 0 1 2 3
|xi-a| 3 2 1 0 1 2 3
ni*|xi-a| (19*3) 57 40 22 0 30 10 18
Calcul de l’écart type moyen à la médiane :
1) Calcul de la médiane : nous fait arriver à la modalité 3
2) Soustraire la médiane à chaque modalité
3) Prendre la valeur absolue de la différence
4) Multiplier la valeur absolue par l’effectif partiel (ni)
5) Faire la somme de tout ce qu’on a calculé sur la dernière ligne
(57+40+22+0+30+10+18) / 157 = 177/157 => 1.13 en moyenne, les réponses
s’écartent de la médiane de 1.11 échelons.
Interprétation
● 50% de l’échantillon a, au max un niveau moyen en bricolage
● L’écart moy. à la médiane est de 1.11 unités/échelons sur une échelle en 7 échelons
(car de 0 a 6 il y a 7 échelons ).
● Cet écart moyen à la médiane est assez faible au regard du nombre possible
d’échelons.
● Les réponses concernant le niveau de bricolage sont donc plutôt resserrées (peu
distribuées) autour de la médiane (donc peu de variabilité des réponses) (toujours le
rapporter au nombre possible de réponses)
3.4 Écart moyen
Même chose que l’écart moyen à la médiane, sauf qu’au lieu de soustraire la médiane à
chaque modalité, on va soustraire la moyenne.
Ne peut être calculé que pour les variables numériques, du fait du besoin d’une
moyenne.
Exemple :
Note d’envie de (re)voir le film Ready Player One
N = 150
Calcul de l’écart moyen :
1) Calcul de la moyenne
Les données se rassemblent-elles autour de cette valeur ? (5.68)
2) Soustraire la moyenne à chaque modalité
3) Prendre la valeur absolue de la différence
4) Multiplier la valeur absolue par l’effectif partiel (ni)
cf. tableau, chaque étape correspond à chaque ligne
5) additionner tous les produits calculés
6) Diviser par l’effectif total
Interprétation : on a une moyenne de 5.68 et les notes, en moyennes s’écartent de 2.86,
donc d’en moyenne de 3 points.
3.5 Écart type
Prend davantage en compte le poids des valeurs extrêmes
On va privilégier le calcul de l’écart type, plutôt que l’écart moyen.
Il vaut mieux simplement calculer l’écart type.
Si on a une dispersion importante des données, la variance va être élevée, et l’écart type
aussi. Au contraire, si les données sont resserrées autour de la moyenne, l’écart type et la
variance seront moindres.
Exemple :
1) Calculer la moyenne = 5.68
2) Soustraire la moyenne à chaque modalité
3) Élever la différence au carré ( multiplier le chiffre par lui-même )
4) Multiplier le carré par l’effectif partiel (ni)
5) Additionner tous les produits calculés (=1650,28)
6) Diviser par l’effectif total (ici 150)
7) Prendre la racine carrée de la variance (s2 = 11)
C’est l’écart type qui est le plus élevé
(le s2 c’est la variance)
Interprétation :
● En moyenne, les étudiants attribuent une note de 5.68 d’envie de revoir le film.
● L’écart type est de 3.32
● Cet écart type est plutôt élevé au vu de l’échelle de mesure (note sur 10) et il est
supérieur à la moitié de la moyenne.
● On va dire que l’échantillon est plutôt hétérogène (càd que les données sont
étendues, dispersées autour de la moyenne).
Si l’écart-type est petit, on dira plutôt que l’échantillon est homogène et les données
resserrées autour de la moyenne.
E.M = 2.86 < S = 3.32
Écart-type : meilleure estimation de la variabilité des données car plus de poids pour
les valeurs éloignées de la moyenne.
3.6 Variable centrée réduite (score Z)
Elle va nous permettre de raisonner en nombre d’écart-types par rapport à la moyenne,
en comptant le nombre d’écart-types qui la séparent de la moyenne. Pour savoir si la
donnée que l’on traite est beaucoup/pas beaucoup éloignée de la moyenne.
Exemple :
Mod. 1 2 3 4 5 6 7 8 9
Eff 1 1 4 3 1 2 9 6 3
𝑥 = 6.07 ; s = 2.23
Grossomodo, cette modalité, le 5 (cf tableau de gauche) correspond à une modalité à -0.5
écart-type. Le 9 est une modalité qui se situe à 1.5 de la moyenne.
Pour centrer et réduire une variable, on va utiliser la moyenne et l’écart-type.
La moyenne va devenir le centre de notre distribution (donc le 0).
Réduire la variable consiste ensuite à positionner les modalités par rapport aux écarts-types.
=> Soustraire la moyenne, puis diviser par l’écart-type => (score - moyenne)/s
Calcul du score z je peux le calculer pour une seule donnée, si je le souhaite, alors que la
variable centrée réduite nous permet de l’appliquer sur toutes les données.
Intérêt du score Z :
Comparer des scores individuels entre eux
Exemple :
Interprétation :
Pour savoir là où il est le meilleur, il faut savoir là où il réussit le mieux par rapport aux
échantillons. Donc là où son score Z sera plus élevé.
Culture historique : 1.63 écart-types au-dessus de la moyenne
Culture télévisuelle : 0.44 écart-types au-dessus de la moyenne
Pour les 2 tests, ses connaissances sont supérieures à la moyenne.
Comme 1.63 > 0.44, ses connaissances sont donc meilleures en culture historique.
Autre exemple :
Conclusion :
Culture historique : 0.5 écart-type en-dessous de la moyenne
Culture télévisuelle : 0.25 écart-type au-dessus de la moyenne
Attention donc aux signes (“-” => en-dessous/ “+” => au-dessus de la moyenne)
Second intérêt du score Z :
Comparer un score individuel à une norme/distribution
Le film évalué par les L1 de de psycho :
𝑥= 5.68 et s = 3.32
Un étudiant de L2 a attribué 8 pour le film, est-il dans la moyenne de l’échantillon de L1 ?
Interprétation :
Score Z de -1 à +1 : dans la norme/moyenne
● -1.5 à -1 : légèrement inférieur à la norme/moyenne
● -2 à -1.5 : modérément inférieur à la norme/moyenne
● inférieur à -2 : grandement inférieur à la norme/moyenne
● +1 à +1.5 : légèrement sup
● +1.5 à +2 : modérément sp
● > +2 : grandement supérieur
Limite de ce qui sera demandée en CC
Conclusion
Comment appliquer tout ce que l’on a déjà vu : la logique statistique
166 L1 en psycho ont indiq. cmb ils avaient de frères et soeurs.
Q. peut-on dire de cet échantillon ?
Nombre de frères et soeurs :
Que doit-on faire ici pour répondre à la question ?
● Décrire une série de données
○ a) organiser les données (si besoin, si données brutes)
○ a1) faire les graphiques si besoin
○ b) calculer les indices de position et de dispersion
1) Identifier la variable (nom précis + modalités)
- nom : nombre de frères et soeurs
- modalités : de 0 à 6
2) nature de la variable
- Quantitative
3) Nature de l’échelle de mesure
- numérique, discrète et continue
Étape 1, 2 et 3 : variable et nature de la variable et de l’échelle :
Le nombre de frères et sœurs est une variable quantitative discrète, car les modalités sont
de mesures et ne sont que des nombres entiers, associées à une échelle numérique, car les
modalités suivent le principe d’ordinalité et de cardinalité.
Étape 4 : graphique si besoin et justification du choix de graphique utilisé
Ex : sous forme de polygone car variable numérique.
Ici, pas besoin du graphique car pas utile (pas demandé) et pas besoin de dire la forme de
distribution. Si on demande la forme de distribution, alors on doit faire un graphique.
Étape 5 : faire la distribution d’effectifs de fréquence ou de %
Ici, la distribution des effectifs est déjà donnée.
Étapes 4 et 5 sont pas toujours obligatoires.
Étape 6 : calcul des indices de positions adéquats
Comme la variable est numérique, on va calculer le mode, la médiane, la moyenne et les
quartiles.
Le mode : 1, car l’effectif le plus élevé est 64 qui correspond à la modalité 1.
Le rang médian : (on fait le calcul des effectifs cumulés) 166/2 = 83
La médiane : est de 2 frères et sœurs.
La moyenne :
Calcul des quartiles :
Le rang de Q1 est de : 166/4*1 = 41.5
Le Q1 est donc de 1 frère/soeur
Le rang de Q3 est de 166/4*3 = 124.5 (on doit arrondir)
Le Q3 est donc de 3 frères et soeurs
Étape 7 : Calcul de l’indice de dispersion
● L’écart-type car la variable est numérique (on justifie)
Je procède par étape en décomposant la formule, et fais ici la somme de la dernière
ligne
Ici nous avons la variance :
Ici l’écart-type :
Étape 8 : interpréter : décrire / répondre à la question
64 personnes sur 166 (soit 39%) ont 1 frère/soeur (interprétation mode)
25% des personnes ont au maximum 1 frère/soeur (Q1)
50% en ont au maximum 2 (médiane)
Et 75%, au maximum, 3 (Q3)
En moyenne, les personnes ont 1.94 frères/soeurs (moyenne)
Comme l’écart-type (=1.26) est un peu supérieur à la moitié de la moyenne mais faible au
regard des modalités, l’échantillon est un peu hétérogène (écart-type). (si l’écart-type est
petit, échantillon homogène ≠ écart-type grand, hétérogène = réponses ne se resserrent pas
autour de la moyenne)
Les L1 de l’échantillon ont plutôt un nombre de frères et sœurs un peu élevé (peu élevé) (en
sachant qu’en moyenne il y a 1.96 enfants par famille).
On doit en conclusion répondre à la question.