Cours Stats L3 Sem5
Cours Stats L3 Sem5
Données Statistiques
Liliane Righou
Libreville (Gabon)
Préambule
Ce cours a pour objectif d’initier les étudiants inscrits en troisième année de licence à l’Institut
National des Sciences de Gestion aux principes approfondis des statistiques descriptives. Il
vise en priorité à maîtriser les concepts fondamentaux et les méthodes élémentaires de la
statistique dans le but de permettre un usage autonome ultérieur de méthodes
complémentaires.
Des exemples seront fournis au fur et à mesure de l’évolution du cours afin d’obtenir une
meilleure compréhension des concepts énoncés. A la fin de cette année académique, les
étudiants seront capables de :
La compréhension de ce cours prendra une place dans de futurs enseignements des étudiants.
Il s’agira notamment de :
2
INTRODUCTION GENERALE
La statistique est une branche des mathématiques appliquées qui a pour objet l’étude des
phénomènes mettant en jeu un grand nombre d’éléments. Les statistiques désignent un
ensemble de données numériques concernant l’état ou l’évolution d’un phénomène que l’on
étudie par la statistique.
Le but de ce cours est donc de présenter les principales méthodes de description des données afin de
mettre en exergue une primo analyse de ces données prélevées lors de l’enquête.
2.1 Population
Une population représente l’ensemble des unités ou individus pour lequel on effectue une analyse
statistique.
2.2 Echantillon
Un échantillon est un ensemble d’individus dans une population déterminée. La taille de l’échantillon
représente le nombre d’individus contenu dans cet échantillon.
3
Exemple d’individu : chacun des étudiants de ces échantillons
Exemple de caractère quantitatif : le nombre de matières rattrapées pour valider l’entrée en Licence
2.5 Modalités
Ce sont les différentes situations d’un caractère. Les modalités d’un caractère doivent être
incompatibles et mesurables, c'est-à-dire que tout individu doit présenter une et une seule modalité.
4
PARTIE I : PREPARATION DES INFORMATIONS STATISTIQUES
La statistique est une discipline qui étudie des phénomènes à travers la collecte des données,
leur traitement et leur analyse. Elle s’occupe en plus d’interpréter les résultats et faire leur
représentation afin de rendre les données recueillies, compréhensibles par tous.
Il s’agit de compter sur l’ensemble d’une population cohérente avec un ou plusieurs critères
de ciblage prédéfinis en amont. Il faut donc dénombrer et recenser. Pour réaliser une enquête
et donc étudier un échantillon représentatif de la population pour en déduire des conclusions
et tendances générales, il faut passer par 4 étapes :
Le questionnaire doit comporter toutes les questions de l’enquête. Ces questions doivent être
placées dans un ordre précis en commençant par celles d’ordre général qui servent à filtrer
les personnes interrogées. Ensuite, il faut présenter les questions qui revêtent un caractère
important. En effet, l’ordre des questions est important. Il faut qu’il y ait un enchainement
logique.
5
Il est préférable de privilégier des questions courtes et assez simples à comprendre. De même,
il vaut mieux limiter le nombre de questions à 20 ou 25 maximum. Ne pas en tenir compte,
c’est courir le risque que les personnes interrogées n’aillent pas au bout de l’enquête ou bien
qu’elles ne répondent pas correctement.
- Les questions fermées à choix unique : l’enquêté n’a qu’une seule possibilité de
réponse à donner (question de type oui/non ou de filtrage tel que âge, ville, sexe, …) ;
- Les questions fermées à choix multiples : l’enquêté doit sélectionner une seule
réponse parmi toutes celles qui sont proposées ;
- Les questions ouvertes : l’enquêté peut s’exprimer en donnant ainsi des réponses
libres.
- Par contact direct : l’enquête est faite directement sur le terrain. Cette technique
prend beaucoup de temps et est surtout utilisé dans le cadre d’une étude de marché
qualitative ;
- Par téléphone : cette technique permet d’avoir aussi un contact direct avec les
personnes interrogées. Tout comme la première technique, elle prend aussi du temps ;
- En ligne : l’enquête se fait par diffusion du questionnaire auprès des communautés
d’internautes. Il s’agit d’un sondage en ligne. Les réseaux sociaux sont le moyen
sollicité dans cette méthode. Cependant, le taux de retour de réponses peut être
moins important que dans les 2 autres procédés. De même il est difficile de juger du
sérieux dans les réponses récoltées ;
- Faire appel à un prestataire qui propose une plateforme de sondage donnant accès à
des panélistes. Cette méthode permet de définir avec précision l’échantillon qui
intéresse l’étude. Mais c’est une méthode qui a un coût assez élevé.
6
1.4. Regrouper et analyser les résultats du questionnaire d’enquête
A ce stade du procédé de l’enquête, dès lors que le questionnaire a été rempli par l’échantillon
retenu, il faut alors regrouper les résultats et les analyser. Ces résultats peuvent être étudiés
au moyen d’applications spécifiques sur ordinateur. Toutefois, pour la maîtrise du processus
d’analyse, nous nous attellerons à le faire manuellement afin de pouvoir l’exécuter en toutes
occasions.
2.1. Le dépouillement
Le dépouillement des questionnaires d’enquête se fait dans un tableau global qui permet de
recenser les réponses de chaque enquêté. Il existe des logiciels spécialisés tels que Sphinx ou
SPSS qui permettent la rédaction du questionnaire et son dépouillement. Cela est fort utile
quand l’effectif est important.
Toutefois, pour effectuer manuellement cette étape, il est utile de procéder avec méthode :
Pour passer d’un tableau statistique discret au tableau statistique continu, on utilise la règle
de Sturge ou la règle de Yule pour déterminer le nombre de modalités.
7
10
𝑘 =1+ × log(𝑁)
3
5 4
𝑘= × √𝑁
2
Les intervalles sont encore appelés « classes ». Pour déterminer l’intervalle de classe, on procède de
la manière suivante :
é𝑡𝑒𝑛𝑑𝑢𝑒𝑑𝑒𝑙𝑎𝑠é𝑟𝑖𝑒
𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑒𝑑𝑒𝑐𝑙𝑎𝑠𝑠𝑒 =
𝑘
Dans le cas d’une série continue, on peut calculer, et représenter graphiquement, les cumuls
ascendants et descendants. Soient des ECC, FCC et Effectifs cumulés décroissants (ECD) et Fréquences
cumulées décroissantes (FCD).
8
Chapitre 2 : Les différentes caractéristiques
Il peut être utile de compléter le tableau statistique par le calcul des effectifs et des
fréquences cumulées.
Le calcul du cumul croissant consiste à additionner successivement les effectifs (ou les
fréquences) de chaque ligne au fur et à mesure que l’on descend dans le tableau. En
additionnant la dernière ligne, on doit trouver l’effectif total ou 1 (100 si les fréquences sont
exprimées en pourcentage) pour les fréquences.
Pour le cumul décroissant, le raisonnement est inverse. On enlève au fur et à mesure la valeur
qui se trouve sur la ligne supérieure.
Ce sont des paramètres qui permettent de savoir autour de quelles valeurs se situe la variable
statistique.
2.1. Le Mode
Le mode, noté généralement 𝑀𝑜 , correspond à la modalité associée au plus grand effectif ou
la plus grande fréquence. Quand on est en présence de plusieurs modalités qui admettent le
même effectif le plus grand, on dit que l’on est présence d’une série plurimodale.
9
2.2. La Médiane
La médiane, notée généralement 𝑀𝑒 , partage la série des observations statistiques en deux
sous-ensembles d’effectifs égaux. C’est donc la valeur de la modalité située à 50% de l’effectif
total. Pour son calcul, on se concentre sur la colonne des ECC ou bien celle des FCC.
N=2p p=N/2
𝑀𝑜𝑑𝑝 + 𝑀𝑜𝑑𝑝+1
𝑀𝑒 =
2
N=2p+1 p=(N-1)/2
𝑀𝑒 = 𝑀𝑜𝑑𝑝+1
𝑁
− 𝐸𝐶𝐶𝑖−1
𝑀𝑒 = 𝑏𝑖−1 + 2 × (𝑏𝑖 − 𝑏𝑖−1 )
𝐸𝐶𝐶𝑖 − 𝐸𝐶𝐶𝑖−1
La médiane se calcule par interpolation linéaire. Pour son calcul, on procède par étape :
2ème étape : repérer l’endroit, dans la colonne des ECC, où se trouve la valeur de la moitié des
effectifs
10
2.3. La Moyenne arithmétique
La moyenne arithmétique ne se définit que pour une variable statistique quantitative.
Partant de la série brute, la moyenne arithmétique, notée généralement 𝑥̅ , est dite simple
quand elle consiste à additionner toutes les modalités et à diviser par l’effectif total.
𝑖=𝑡
1
𝑥̅ = ∑ 𝑥𝑖
𝑁
𝑖=1
Mais comme nous avons fait un tableau qui simplifie la compréhension de la série statistique,
nous allons calculer une moyenne arithmétique pondérée.
𝑖=𝑡
1
𝑥̅ = ∑ 𝑛𝑖 𝑥𝑖
𝑁
𝑖=1
La pondération vient du fait qu’on multiplie chaque modalité par son effectif afin d’avoir le
nombre exact de personnes concernées par cette modalité. Il s’agit de calculer la masse des
modalités
𝑁
− 𝐸𝐶𝐶𝑖−1
𝑄1 = 𝑏𝑖−1 + 4 × (𝑏𝑖 − 𝑏𝑖−1 )
𝐸𝐶𝐶𝑖 − 𝐸𝐶𝐶𝑖−1
Le troisième quartile est la modalité qui sépare la série statistique en 75% avant et 25% après
de l’effectif total.
11
Si la variable est discrète :
𝑀𝑜𝑑𝑝 +𝑀𝑜𝑑𝑝+1
• N est pair N=(4/3)p p=(3/4)N 𝑄3 = 2
• N est impair N=(4/3)p + 1 p=(3/4)(N-1) 𝑄3 = 𝑀𝑜𝑑𝑝+1
3
𝑁 − 𝐸𝐶𝐶𝑖−1
𝑄3 = 𝑏𝑖−1 + 4 × (𝑏𝑖 − 𝑏𝑖−1 )
𝐸𝐶𝐶𝑖 − 𝐸𝐶𝐶𝑖−1
Les déciles se calculent exactement comme les quartiles avec le même résonnement pour les
conclusions. La seule différence est que cela se fait de 10 en 10.
𝑒 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
𝑒 = 𝑥𝑡 − 𝑥1
12
L’écart ou l’intervalle interquartile est la différence entre le troisième quartile et le premier
quartile
é𝑐𝑎𝑟𝑡𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒 = 𝑄3 − 𝑄1
Cette caractéristique est très intéressante car complètement indépendante des valeurs
extrêmes. On peut la considérer comme très fiable.
3.2. La variance
La variance est la moyenne des carrés des écarts à la moyenne. Dans le cas d’une variable
discrète brute, c'est-à-dire sans pondération, la formule de la variance sera :
𝑖=𝑡
1
𝑉(𝑋) = ∑(𝑥𝑖 − 𝑥̅ )²
𝑁
𝑖=1
Dans le cas de regroupement des modalités, le calcul de la variance devient pondéré. Elle se
calcule ainsi :
𝑖=𝑡
1
𝑉(𝑋) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )²
𝑁
𝑖=1
Ou encore
𝑖=𝑡
1
𝑉(𝑋) = ∑ 𝑛𝑖 𝑥𝑖2 − 𝑥̅ 2
𝑁
𝑖=1
Ou encore
𝑖=𝑡
𝑉(𝑋) = ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )²
𝑖=1
Ou encore
13
𝑖=𝑡
𝑉(𝑋) = ∑ 𝑓𝑖 𝑥𝑖2 − 𝑥̅ 2
𝑖=1
3.3. L’écart-type
C’est la caractéristique la plus utilisée. L’écart type correspond à la racine carrée positive de
la variance. L’écart type s’exprime dans la même unité que les observations de la série
statistique.
𝜎𝑥 = √𝑉(𝑋)
On retient :
• 68,2% des effectifs sont concernés par les modalités se situant dans l’intervalle
[𝑥̅ − 𝜎𝑥 ; 𝑥̅ + 𝜎𝑥 ]
• 95% des effectifs sont concernés par les modalités se situant dans l’intervalle
[𝑥̅ − 1,96 × 𝜎𝑥 ; 𝑥̅ + 1,96 × 𝜎𝑥 ]
1
• Si 𝜎𝑥 > 2 𝑥̅ , alors il y a une forte dispersion des modalités de la série statistique
1
• Si 𝜎𝑥 < 2 𝑥̅ , alors il y a une faible dispersion des modalités de la série statistique
On retient que plus l’écart type est petit, plus il y a homogénéité dans la série.
14
PARTIE II : DESCRIPTIONS DES DONNEES STATISTIQUES
La description des données statistiques fait suite au dépouillement issu de la collecte des
informations d’enquête sur le terrain. Elle passe par l’établissement des tableaux statistiques.
Pour décrire les données statistiques, il faut savoir s’il n’y a qu’une seule variable qui nous
intéresse ou bien s’il y en a 2. La figure suivante nous donne des indications.
Source : [Link]
On retient ainsi que, pour décrire une variable, nous aurons besoin de calculer les fréquences,
les moyennes (avec toutes les autres caractéristiques de position ou de dispersion), le
coefficient de corrélation et le coefficient de contingence.
15
Chapitre 3 : Description en univers univarié
Le but de ce chapitre est de procéder à la description des informations recueillies selon que
lesdites informations soient quantitatives ou qualitatives. Les informations obtenues du tri à
plat de l’enquête peuvent désormais être insérées dans un tableau statistique pour de futures
analyses.
∑ 𝒏𝒊 (𝒙𝒊
Total N 1 100 -- -- ∑ 𝒏𝒊 × 𝒙𝒊
̅)
−𝒙
Dans le cas d’une variable statistique quantitative, les modalités, 𝑥𝑖 , peuvent être discrètes ou
continues. La variable X est ce qui est étudié.
Variable X
Effectifs 𝒏𝒊 Fréquence 𝒇𝒊 Fréquences %
𝒙𝒊
𝑛1
𝑥1 𝑛1 𝑓1 = ⁄𝑁 𝐹1
𝑛
𝑥2 𝑛2 𝑓2 = 2⁄𝑁 𝐹2
--- --- --- ---
𝑛
𝑥𝑛 𝑛𝑛 𝑓𝑛 = 𝑛⁄𝑁 𝐹𝑛
Total N 1 100
16
Dans le cas d’une variable statistique qualitative, les modalités sont ordinales ou nominales.
C’est pourquoi il ne peut être calculé ni moyenne arithmétique, ni médiane et encore moins
variance et écart-type.
Variable quantitative :
17
Chapitre 4 : Description en univers bivarié
La description des données statistiques en univers bivarié concerne la mise en évidence des
liaisons qui peuvent ou non exister entre les différentes variables issues de l’enquête. Il s’agit
de faire un tri croisé.
Pour ce faire, il faut partir du tableau général qui a été généré à l’issu du dépouillement. Puis
isoler les deux variables qui intéressent l’étude que l’on veut faire.
Les observations obtenues peuvent être représentées sur le repère orthonormé (O, I, j) par un
ensemble de n points, Mi.
Points M1 M2 … Mn
Coordonnées (x1 ;y1) (x2 ;y2) … (xn ;yn)
Selon l’étirement du nuage de points, une relation affine ou linéaire entre X et Y peut être
envisagée. On suppose, pour cela, l’existence de deux coefficients réels inconnus : a et b, tels
que :
La méthode d’ajustement linéaire par les moindres carrés ordinaires (MCO) est de loin la
méthode la plus utilisée. Elle consiste à proposer d’ajuster le nuage de points par la droite
d’équation𝑌 = 𝑎𝑋 + 𝑏 avec a et b qui rendent minimale la somme des carrées des résidus.
𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏
18
1.1. Quelques notations
Moyennes :
Variances :
Covariance
𝑛
1
𝐶𝑂𝑉(𝑋, 𝑌) = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑁
𝑖=1
𝐶𝑂𝑉(𝑋, 𝑌)
𝑎=
𝑉𝐴𝑅(𝑋)
𝑏 = 𝑦̅ − 𝑎𝑥̅
Avec
19
Relation entre le coefficient de corrélation et le coefficient directeur de la droite de
régression
On retient que le coefficient de corrélation est souvent présenté sous sa forme au carré. Ainsi
donc, pour R², on adopte les critères numériques suivants :
𝑛
1
𝐶𝑂𝑉(𝑋, 𝑌) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑁
𝑖=1
1.5 La régression de X en Y
Nous avons pu voir les effets des changements de Y quand X fluctue. Cependant, la corrélation
peut aussi se faire à partir des fluctuations de Y et voir les effets de cette fluctuation sur X.
- Droite de régression de X en Y
𝑥𝑖 = 𝑎′ × 𝑦𝑖 + 𝑏
Avec :
𝐶𝑂𝑉(𝑋, 𝑌)
𝑎′ =
𝑉𝐴𝑅(𝑌)
20
𝑏 = 𝑥̅ − 𝑎′ × 𝑦̅
𝑅 2 = 𝑎 × 𝑎′
Cependant, c’est le Test du Chi-2 de Pearson qui permet de juger de la liaison entre ces
variables. Ce Chi-2 calculé est à comparer avec le Chi-2 qui se trouve dans les tables
statistiques.
H0 : hypothèse nulle. Il n’existe pas de lien entre les deux variables étudiées
α représente la probabilité que le test nous révèle qu’il existe un lien entre les 2 variables alors
que, dans les faits, ce lien n’existe pas. α représente le seuil du risque accepté. De fait, 1 − 𝛼
représente le seuil de confiance acceptée.
Cette étape consiste à vérifier les conditions d’application du test. On procède ainsi :
21
𝑇𝑜𝑡𝑎𝑙𝑙𝑖𝑔𝑛𝑒𝑖 × 𝑇𝑜𝑡𝑎𝑙𝑐𝑜𝑙𝑜𝑛𝑛𝑒𝑗
𝑇𝑖𝑗 =
𝑁
- 𝑁 ≥ 30
- 𝑇𝑖𝑗 ≥ 5∀𝑖, 𝑗
- Calculer la différence entre les effectifs observés (𝑂𝑖𝑗 ) et les effectifs théoriques (𝑇𝑖𝑗 )
- Calculer le Chi-2
2
2
(𝑂𝑖𝑗 − 𝑇𝑖𝑗 )
𝜒 = ∑[ ]
𝑇𝑖𝑗
𝑖,𝑗
𝜗 = (𝑛𝑜𝑚𝑏𝑟𝑒𝑑𝑒𝑙𝑖𝑔𝑛𝑒 − 1) × (𝑛𝑜𝑚𝑏𝑟𝑒𝑑𝑒𝑐𝑜𝑙𝑜𝑛𝑛𝑒 − 1)
On peut alors calculer le coefficient de contingence à la condition que le nombre de lignes soit
identique au nombre de colonnes.
22
𝜒2
𝐶=√
𝜒2 + 𝑁
0<𝐶<1
On calcule le V de Cramer dans tous les autres cas où le nombre de lignes serait différent du
nombre de colonnes. Il s’utilise quel que soit la taille du tableau.
𝜒2
𝑉=√ 𝑁
min(𝑐 − 1; 𝑙 − 1)
0<𝑉<1
R² Donner la valeur
Tenir compte aussi d’une discussion des 68,2% des observations ainsi que
Dispersion X
de l’intervalle correspondant
Tenir compte aussi d’une discussion des 68,2% des observations ainsi que
Dispersion Y
de l’intervalle correspondant
Discuter sur les caractéristiques de ces populations et leurs grandes tendances. Porter des
conseils sur leurs relations en tenant compte de la valeur du coefficient de corrélation
Variables quali-quali :
𝜒 2 calculé Valeur
𝜒 2 critique Valeur
Hypothèse retenue En expliquant pourquoi
23
Seuil de significativité Valeur
Degré de liberté Valeur
C ou V Discussion sur l’intensité du lien entre les deux variables
Discuter sur les caractéristiques de cette population et ses grandes tendances. Porter des
conseils.
Variables quali-quanti :
𝜒 2 calculé Valeur
2
𝜒 critique Valeur
Hypothèse
En expliquant pourquoi
retenue
Seuil de
Valeur
significativité
Degré de
Valeur
liberté
C ou V Discussion sur l’intensité du lien entre les deux variables
Discuter sur les caractéristiques de cette population et ses grandes tendances. Porter des
conseils.
24