0% ont trouvé ce document utile (0 vote)
55 vues24 pages

Cours Stats L3 Sem5

Transféré par

xojiw32627
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
55 vues24 pages

Cours Stats L3 Sem5

Transféré par

xojiw32627
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Préparation et Description des

Données Statistiques

Liliane Righou

Libreville (Gabon)
Préambule

Ce cours a pour objectif d’initier les étudiants inscrits en troisième année de licence à l’Institut
National des Sciences de Gestion aux principes approfondis des statistiques descriptives. Il
vise en priorité à maîtriser les concepts fondamentaux et les méthodes élémentaires de la
statistique dans le but de permettre un usage autonome ultérieur de méthodes
complémentaires.

Des exemples seront fournis au fur et à mesure de l’évolution du cours afin d’obtenir une
meilleure compréhension des concepts énoncés. A la fin de cette année académique, les
étudiants seront capables de :

- Présenter les données statistiques issues d’enquête ;


- Savoir calculer et interpréter les différents indicateurs statistiques ;

Quelques mots clés : tableau de contingence, distribution conjointe, distribution marginale,


coefficient de contingence, test de Chi-2, coefficient de corrélation, coefficient de Cramer.

La compréhension de ce cours prendra une place dans de futurs enseignements des étudiants.
Il s’agira notamment de :

- Analyse des données (outils scientifiques servant à résumer un ensemble de données


afin de mettre en évidence des informations recueillies) ;
- Simulations (processus stochastique – variable temporelle) ;
- Prédiction et décisions (probabilités de risque ou d’occurrence).

2
INTRODUCTION GENERALE

La statistique est une branche des mathématiques appliquées qui a pour objet l’étude des
phénomènes mettant en jeu un grand nombre d’éléments. Les statistiques désignent un
ensemble de données numériques concernant l’état ou l’évolution d’un phénomène que l’on
étudie par la statistique.

Section 1 : Objet de l’enseignement


La préparation et la description des données statistiques sont des étapes importantes dans la
démarche d’analyse des informations recueillies à l’issue d’une enquête. La préparation étant le travail
en amont tandis que la description concerne le traitement de l’information jusqu’à ses conclusions.
Certaines enquêtes se limitent aux résultats sortis de la description des données statistiques.

Le but de ce cours est donc de présenter les principales méthodes de description des données afin de
mettre en exergue une primo analyse de ces données prélevées lors de l’enquête.

Section 2 : Rappel du vocabulaire usuel

2.1 Population
Une population représente l’ensemble des unités ou individus pour lequel on effectue une analyse
statistique.

Exemple de population : Les étudiants de 3ème année à l’INSG

2.2 Echantillon
Un échantillon est un ensemble d’individus dans une population déterminée. La taille de l’échantillon
représente le nombre d’individus contenu dans cet échantillon.

Exemple d’échantillon : les étudiants inscrits en Licence 3 MOI

2.3 Individu ou unité statistique


L’individu désigne tout élément de la population considérée.

3
Exemple d’individu : chacun des étudiants de ces échantillons

2.4 Caractère ou variable


C’est un trait déterminé présent chez tous les individus d’une population pour laquelle on effectue une
étude statistique. On retient qu’un caractère est dit quantitatif s’il est mesurable. Sinon il est qualitatif.

Exemple de caractère quantitatif : le nombre de matières rattrapées pour valider l’entrée en Licence

Exemple de caractère qualitatif : le type de bac obtenu par les étudiants

2.5 Modalités
Ce sont les différentes situations d’un caractère. Les modalités d’un caractère doivent être
incompatibles et mesurables, c'est-à-dire que tout individu doit présenter une et une seule modalité.

4
PARTIE I : PREPARATION DES INFORMATIONS STATISTIQUES

Chapitre 1 : Mise en évidence de l’objet de l’étude statistique

La statistique est une discipline qui étudie des phénomènes à travers la collecte des données,
leur traitement et leur analyse. Elle s’occupe en plus d’interpréter les résultats et faire leur
représentation afin de rendre les données recueillies, compréhensibles par tous.

L’étude statistique a recours à certaines règles et méthodes particulières au niveau de la


collecte des données afin que ces dernières soient correctement interprétées, notamment en
termes d’outil d’aide à la décision.

Section 1 : Réaliser une enquête par questionnaire

Il s’agit de compter sur l’ensemble d’une population cohérente avec un ou plusieurs critères
de ciblage prédéfinis en amont. Il faut donc dénombrer et recenser. Pour réaliser une enquête
et donc étudier un échantillon représentatif de la population pour en déduire des conclusions
et tendances générales, il faut passer par 4 étapes :

- Construire le questionnaire d’enquête ;


- Sélectionner l’échantillon des personnes à interroger ;
- Réaliser l’enquête ;
- Regrouper et analyser les résultats du questionnaire d’enquête.

1.1. Construire le questionnaire d’enquête


Pour réaliser une enquête, la première étape est de construire le questionnaire qui doit servir
à mener l’enquête pour récolter des réponses. Pour cela, il faut que ledit questionnaire
présente le projet et l’objectif de l’enquête. On peut aussi indiquer le temps à prévoir pour
répondre au questionnaire.

Le questionnaire doit comporter toutes les questions de l’enquête. Ces questions doivent être
placées dans un ordre précis en commençant par celles d’ordre général qui servent à filtrer
les personnes interrogées. Ensuite, il faut présenter les questions qui revêtent un caractère
important. En effet, l’ordre des questions est important. Il faut qu’il y ait un enchainement
logique.

5
Il est préférable de privilégier des questions courtes et assez simples à comprendre. De même,
il vaut mieux limiter le nombre de questions à 20 ou 25 maximum. Ne pas en tenir compte,
c’est courir le risque que les personnes interrogées n’aillent pas au bout de l’enquête ou bien
qu’elles ne répondent pas correctement.

Il y a plusieurs types de questions :

- Les questions fermées à choix unique : l’enquêté n’a qu’une seule possibilité de
réponse à donner (question de type oui/non ou de filtrage tel que âge, ville, sexe, …) ;
- Les questions fermées à choix multiples : l’enquêté doit sélectionner une seule
réponse parmi toutes celles qui sont proposées ;
- Les questions ouvertes : l’enquêté peut s’exprimer en donnant ainsi des réponses
libres.

1.2. Sélectionner l’échantillon des personnes à interroger


Une fois le questionnaire d’enquête élaboré, il faut maintenant déterminer l’échantillon des
individus qui seront interrogés. La détermination des caractéristiques du projet et des
objectifs de l’enquête est essentielle pour sélectionner l’échantillon de la population qui peut
être très large ou très ciblé. On retient que plus l’échantillon est correctement ciblé, plus les
réponses escomptées seront intéressantes à exploiter.

1.3. Réaliser l’enquête


Dès lors que le questionnaire est prêt et que l’échantillon des personnes est correctement
défini, il est désormais aisé de réaliser l’enquête. Il existe plusieurs techniques d’approche :

- Par contact direct : l’enquête est faite directement sur le terrain. Cette technique
prend beaucoup de temps et est surtout utilisé dans le cadre d’une étude de marché
qualitative ;
- Par téléphone : cette technique permet d’avoir aussi un contact direct avec les
personnes interrogées. Tout comme la première technique, elle prend aussi du temps ;
- En ligne : l’enquête se fait par diffusion du questionnaire auprès des communautés
d’internautes. Il s’agit d’un sondage en ligne. Les réseaux sociaux sont le moyen
sollicité dans cette méthode. Cependant, le taux de retour de réponses peut être
moins important que dans les 2 autres procédés. De même il est difficile de juger du
sérieux dans les réponses récoltées ;
- Faire appel à un prestataire qui propose une plateforme de sondage donnant accès à
des panélistes. Cette méthode permet de définir avec précision l’échantillon qui
intéresse l’étude. Mais c’est une méthode qui a un coût assez élevé.

6
1.4. Regrouper et analyser les résultats du questionnaire d’enquête
A ce stade du procédé de l’enquête, dès lors que le questionnaire a été rempli par l’échantillon
retenu, il faut alors regrouper les résultats et les analyser. Ces résultats peuvent être étudiés
au moyen d’applications spécifiques sur ordinateur. Toutefois, pour la maîtrise du processus
d’analyse, nous nous attellerons à le faire manuellement afin de pouvoir l’exécuter en toutes
occasions.

Section 2 : La présentation des résultats


Globalement, La présentation des résultats issus de l’enquête s’effectue dans des tableaux
statistiques. Au préalable, il faut d’abord procéder au dépouillement des informations
recueillies.

2.1. Le dépouillement
Le dépouillement des questionnaires d’enquête se fait dans un tableau global qui permet de
recenser les réponses de chaque enquêté. Il existe des logiciels spécialisés tels que Sphinx ou
SPSS qui permettent la rédaction du questionnaire et son dépouillement. Cela est fort utile
quand l’effectif est important.

Toutefois, pour effectuer manuellement cette étape, il est utile de procéder avec méthode :

a. Eliminer tous les questionnaires qui ne sont pas remplis entièrement ;


b. Compter le nombre de questionnaires correctement remplis (effectif total) ;
c. Construire le tableau d’entrée des informations recueillies question par question ;
d. Réaménager ces informations dans des tableaux statistiques classiques.

2.2. Les tableaux statistiques


Le dressage des tableaux statistiques dépend des informations que l’on veut mettre en
exergue. Cela peut concerner une seule information ou bien plusieurs en même temps. Dans
le premier cas, on parle de distribution univariée. Dans le second cas, on parle de distribution
bivariée.

Pour passer d’un tableau statistique discret au tableau statistique continu, on utilise la règle
de Sturge ou la règle de Yule pour déterminer le nombre de modalités.

Détermination du nombre de modalités par la règle de Sturge :

7
10
𝑘 =1+ × log⁡(𝑁)
3

Détermination du nombre de modalités par la règle de Yule :

5 4
𝑘= × √𝑁
2

Les intervalles sont encore appelés « classes ». Pour déterminer l’intervalle de classe, on procède de
la manière suivante :

é𝑡𝑒𝑛𝑑𝑢𝑒⁡𝑑𝑒⁡𝑙𝑎⁡𝑠é𝑟𝑖𝑒
𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑒⁡𝑑𝑒⁡𝑐𝑙𝑎𝑠𝑠𝑒 =
𝑘

2.3. Les graphiques


a) Le diagramme en bâtons (variable discrète) ou l’histogramme (variable continue).

b) Les courbes cumulatives

Dans le cas d’une série continue, on peut calculer, et représenter graphiquement, les cumuls
ascendants et descendants. Soient des ECC, FCC et Effectifs cumulés décroissants (ECD) et Fréquences
cumulées décroissantes (FCD).

8
Chapitre 2 : Les différentes caractéristiques

Section 1 : Rappel sur quelques notions


Pour une présentation plus simplifiée, on procède au rangement des données dans un tableau
afin que chaque modalité n’apparaisse qu’une seule fois. L’effectif associé à chaque modalité
est tout simplement le nombre de fois que ladite modalité apparaît.

La fréquence mesure le poids de la modalité dans la série statistique. On l’appréhende en


ajoutant une colonne au tableau statistique. Le calcul se fait ainsi :
𝑛𝑖
𝑓𝑖 =
𝑁
Où N représente l’effectif total. La somme des fréquences doit être égale à 1.

Les fréquences peuvent être exprimées en pourcentage. La somme des fréquences en


pourcentage doit être égale à 100

Il peut être utile de compléter le tableau statistique par le calcul des effectifs et des
fréquences cumulées.

Le calcul du cumul croissant consiste à additionner successivement les effectifs (ou les
fréquences) de chaque ligne au fur et à mesure que l’on descend dans le tableau. En
additionnant la dernière ligne, on doit trouver l’effectif total ou 1 (100 si les fréquences sont
exprimées en pourcentage) pour les fréquences.

Pour le cumul décroissant, le raisonnement est inverse. On enlève au fur et à mesure la valeur
qui se trouve sur la ligne supérieure.

Section 2 : Les caractéristiques de tendances centrales ou de position

Ce sont des paramètres qui permettent de savoir autour de quelles valeurs se situe la variable
statistique.

2.1. Le Mode
Le mode, noté généralement 𝑀𝑜 , correspond à la modalité associée au plus grand effectif ou
la plus grande fréquence. Quand on est en présence de plusieurs modalités qui admettent le
même effectif le plus grand, on dit que l’on est présence d’une série plurimodale.

9
2.2. La Médiane
La médiane, notée généralement 𝑀𝑒 , partage la série des observations statistiques en deux
sous-ensembles d’effectifs égaux. C’est donc la valeur de la modalité située à 50% de l’effectif
total. Pour son calcul, on se concentre sur la colonne des ECC ou bien celle des FCC.

Si la variable est discrète :

Soit p, l’emplacement d’un effectif précis.

• Si l’effectif total est pair, on pose :

N=2p p=N/2

La médiane correspondra à la moyenne de la modalité associée à p avec celle associée à p+1.

𝑀𝑜𝑑𝑝 + 𝑀𝑜𝑑𝑝+1
𝑀𝑒 =
2

• Si l’effectif total est impair, on pose

N=2p+1 p=(N-1)/2

La médiane correspondra à la modalité associée à p+1.

𝑀𝑒 = 𝑀𝑜𝑑𝑝+1

Si la variable est continue :

𝑁
− 𝐸𝐶𝐶𝑖−1
𝑀𝑒 = 𝑏𝑖−1 + 2 × (𝑏𝑖 − 𝑏𝑖−1 )
𝐸𝐶𝐶𝑖 − 𝐸𝐶𝐶𝑖−1

La médiane se calcule par interpolation linéaire. Pour son calcul, on procède par étape :

1ère étape : trouver la valeur de la moitié des effectifs

2ème étape : repérer l’endroit, dans la colonne des ECC, où se trouve la valeur de la moitié des
effectifs

3ème étape : trouver la classe des modalités associées à ce nombre

10
2.3. La Moyenne arithmétique
La moyenne arithmétique ne se définit que pour une variable statistique quantitative.

Partant de la série brute, la moyenne arithmétique, notée généralement 𝑥̅ , est dite simple
quand elle consiste à additionner toutes les modalités et à diviser par l’effectif total.
𝑖=𝑡
1
𝑥̅ = ∑ 𝑥𝑖
𝑁
𝑖=1

Mais comme nous avons fait un tableau qui simplifie la compréhension de la série statistique,
nous allons calculer une moyenne arithmétique pondérée.
𝑖=𝑡
1
𝑥̅ = ∑ 𝑛𝑖 𝑥𝑖
𝑁
𝑖=1

La pondération vient du fait qu’on multiplie chaque modalité par son effectif afin d’avoir le
nombre exact de personnes concernées par cette modalité. Il s’agit de calculer la masse des
modalités

2.4. Les quartiles et les déciles


Le premier quartile correspond à la valeur de la modalité située à 25% de l’effectif total. Le
calcul se fait dans le même esprit que celui de la médiane.

Si la variable est discrète :


𝑀𝑜𝑑𝑝 +𝑀𝑜𝑑𝑝+1
• N est pair N=4p p=N/4 𝑄1 = 2
• N est impair N=4p + 1 p=(N-1)/4 𝑄1 = 𝑀𝑜𝑑𝑝+1

Si la variable est continue :

𝑁
− 𝐸𝐶𝐶𝑖−1
𝑄1 = 𝑏𝑖−1 + 4 × (𝑏𝑖 − 𝑏𝑖−1 )
𝐸𝐶𝐶𝑖 − 𝐸𝐶𝐶𝑖−1

Le deuxième quartile correspond à la médiane.

Le troisième quartile est la modalité qui sépare la série statistique en 75% avant et 25% après
de l’effectif total.
11
Si la variable est discrète :
𝑀𝑜𝑑𝑝 +𝑀𝑜𝑑𝑝+1
• N est pair N=(4/3)p p=(3/4)N 𝑄3 = 2
• N est impair N=(4/3)p + 1 p=(3/4)(N-1) 𝑄3 = 𝑀𝑜𝑑𝑝+1

Si la variable est continue :

3
𝑁 − 𝐸𝐶𝐶𝑖−1
𝑄3 = 𝑏𝑖−1 + 4 × (𝑏𝑖 − 𝑏𝑖−1 )
𝐸𝐶𝐶𝑖 − 𝐸𝐶𝐶𝑖−1

Les déciles se calculent exactement comme les quartiles avec le même résonnement pour les
conclusions. La seule différence est que cela se fait de 10 en 10.

D1 : premier décile correspondant à 10% de série

D2 : deuxième décile correspondant à 20% de la série

Etc. Le cinquième décile, D5 est identique à la Médiane.

Section 3 : Les caractéristiques de dispersion

Elles servent à préciser la variabilité de la série, c’est-à-dire à résumer l’éloignement de


l’ensemble des observations par rapport à leur tendance centrale.

3.1. L’étendue de la série et l’écart interquartile


L’étendue de la série représente l’écart entre la plus grande et la plus petite des observations.

𝑒 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 ⁡

𝑒 = 𝑥𝑡 − 𝑥1

On précise que 𝑥𝑚𝑎𝑥 correspond à la valeur de la dernière modalité.

12
L’écart ou l’intervalle interquartile est la différence entre le troisième quartile et le premier
quartile

é𝑐𝑎𝑟𝑡⁡𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒 = 𝑄3 − 𝑄1

Cette caractéristique est très intéressante car complètement indépendante des valeurs
extrêmes. On peut la considérer comme très fiable.

3.2. La variance
La variance est la moyenne des carrés des écarts à la moyenne. Dans le cas d’une variable
discrète brute, c'est-à-dire sans pondération, la formule de la variance sera :
𝑖=𝑡
1
𝑉(𝑋) = ∑(𝑥𝑖 − 𝑥̅ )²
𝑁
𝑖=1

Dans le cas de regroupement des modalités, le calcul de la variance devient pondéré. Elle se
calcule ainsi :
𝑖=𝑡
1
𝑉(𝑋) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )²
𝑁
𝑖=1

Ou encore
𝑖=𝑡
1
𝑉(𝑋) = ∑ 𝑛𝑖 𝑥𝑖2 − 𝑥̅ 2
𝑁
𝑖=1

Ou encore
𝑖=𝑡

𝑉(𝑋) = ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )²
𝑖=1

Ou encore

13
𝑖=𝑡

𝑉(𝑋) = ∑ 𝑓𝑖 𝑥𝑖2 − 𝑥̅ 2
𝑖=1

On retiendra que la variance n’a pas d’unités.

3.3. L’écart-type
C’est la caractéristique la plus utilisée. L’écart type correspond à la racine carrée positive de
la variance. L’écart type s’exprime dans la même unité que les observations de la série
statistique.

𝜎𝑥 = √𝑉(𝑋)

On retient :

• 68,2% des effectifs sont concernés par les modalités se situant dans l’intervalle

[𝑥̅ − 𝜎𝑥 ; 𝑥̅ + 𝜎𝑥 ]

• 95% des effectifs sont concernés par les modalités se situant dans l’intervalle
[𝑥̅ − 1,96 × 𝜎𝑥 ; 𝑥̅ + 1,96 × 𝜎𝑥 ]

1
• Si 𝜎𝑥 > 2 𝑥̅ , alors il y a une forte dispersion des modalités de la série statistique
1
• Si 𝜎𝑥 < 2 𝑥̅ , alors il y a une faible dispersion des modalités de la série statistique

On retient que plus l’écart type est petit, plus il y a homogénéité dans la série.

14
PARTIE II : DESCRIPTIONS DES DONNEES STATISTIQUES

La description des données statistiques fait suite au dépouillement issu de la collecte des
informations d’enquête sur le terrain. Elle passe par l’établissement des tableaux statistiques.
Pour décrire les données statistiques, il faut savoir s’il n’y a qu’une seule variable qui nous
intéresse ou bien s’il y en a 2. La figure suivante nous donne des indications.

Source : [Link]

On retient ainsi que, pour décrire une variable, nous aurons besoin de calculer les fréquences,
les moyennes (avec toutes les autres caractéristiques de position ou de dispersion), le
coefficient de corrélation et le coefficient de contingence.

15
Chapitre 3 : Description en univers univarié
Le but de ce chapitre est de procéder à la description des informations recueillies selon que
lesdites informations soient quantitatives ou qualitatives. Les informations obtenues du tri à
plat de l’enquête peuvent désormais être insérées dans un tableau statistique pour de futures
analyses.

Section 1 : La variable statistique quantitative


Il s’agit de faire une analyse globale qui intègre au tableau statistique, les fréquences, le mode,
la moyenne arithmétique, l’écart-type, le jugement de la dispersion et, éventuellement, les
graphiques.

Variable X Effectifs Fréquence Fréquences Masse


ECC FCC 𝒏𝒊 (𝒙𝒊 − 𝒙
̅)²
𝒙𝒊 𝒏𝒊 𝒇𝒊 % 𝒏𝒊 𝒙𝒊
𝑛
𝑥1 𝑛1 𝑓1 = 1⁄𝑁 𝐹1 𝑛1 𝐹1 𝑥1 × 𝑛1 𝒏𝟏 (𝒙𝟏 − 𝒙
̅)²
𝑛
𝑥2 𝑛2 𝑓2 = 2⁄𝑁 𝐹2 𝑛1 + 𝑛2 𝐹1 + 𝐹2 𝑥2 × 𝑛2 𝒏𝟐 (𝒙𝟐 − 𝒙
̅)²
--- --- --- --- --- --- --- ---
𝑛
𝑥𝑛 𝑛𝑛 𝑓𝑛 = 𝑛⁄𝑁 𝐹𝑛 N 100 𝑥𝑛 × 𝑛𝑛 𝒏𝒏 (𝒙𝒏 − 𝒙
̅)²

∑ 𝒏𝒊 (𝒙𝒊
Total N 1 100 -- -- ∑ 𝒏𝒊 × 𝒙𝒊
̅)
−𝒙

Dans le cas d’une variable statistique quantitative, les modalités, 𝑥𝑖 , peuvent être discrètes ou
continues. La variable X est ce qui est étudié.

Section 2 : La variable statistique qualitative


Il s’agit aussi de faire une analyse globale qui intègre un tableau statistique, les fréquences le
mode et, éventuellement, des graphiques.

Variable X
Effectifs 𝒏𝒊 Fréquence 𝒇𝒊 Fréquences %
𝒙𝒊
𝑛1
𝑥1 𝑛1 𝑓1 = ⁄𝑁 𝐹1
𝑛
𝑥2 𝑛2 𝑓2 = 2⁄𝑁 𝐹2
--- --- --- ---
𝑛
𝑥𝑛 𝑛𝑛 𝑓𝑛 = 𝑛⁄𝑁 𝐹𝑛
Total N 1 100

16
Dans le cas d’une variable statistique qualitative, les modalités sont ordinales ou nominales.
C’est pourquoi il ne peut être calculé ni moyenne arithmétique, ni médiane et encore moins
variance et écart-type.

Section 3 : Description de la variable étudiée


Variable qualitative :

Nom de la variable Type de variable Effectif total Mode


Discuter sur les caractéristiques de cette population et ses grandes tendances. Porter des
conseils.

Variable quantitative :

Nom de la Type de Effectif Moyenne


Mode Médiane Ecart type
variable variable total arithmétique
Discuter sur les caractéristiques de cette population et ses grandes tendances. Prendre en
compte la dispersion (discuter des 68,2% des observations ainsi que de l’intervalle
correspondant). Porter des conseils.

17
Chapitre 4 : Description en univers bivarié

La description des données statistiques en univers bivarié concerne la mise en évidence des
liaisons qui peuvent ou non exister entre les différentes variables issues de l’enquête. Il s’agit
de faire un tri croisé.

Pour ce faire, il faut partir du tableau général qui a été généré à l’issu du dépouillement. Puis
isoler les deux variables qui intéressent l’étude que l’on veut faire.

Section 1 : La variable quantitative


On considère deux variables statistiques notées X et Y. L’objectif est de prévoir et/ou expliquer
les valeurs de la variable numérique Y à partir des valeurs de la variable numérique X. Pour
cela, on doit disposer de données qui sont au nombre de n pour chacune des variables
statistiques afin de générer n couples de variables (x1 ;y1), (x2 ;y2),…., (xn ;yn).

Les observations obtenues peuvent être représentées sur le repère orthonormé (O, I, j) par un
ensemble de n points, Mi.

Points M1 M2 … Mn
Coordonnées (x1 ;y1) (x2 ;y2) … (xn ;yn)

La représentation graphique de cet ensemble de points est appelée nuage de points. La


silhouette de ce nuage de points nous donne des indications précieuses sur la nature de la
relation qui peut ou non exister entre les variables X et Y.

Selon l’étirement du nuage de points, une relation affine ou linéaire entre X et Y peut être
envisagée. On suppose, pour cela, l’existence de deux coefficients réels inconnus : a et b, tels
que :

La méthode d’ajustement linéaire par les moindres carrés ordinaires (MCO) est de loin la
méthode la plus utilisée. Elle consiste à proposer d’ajuster le nuage de points par la droite
d’équation⁡⁡𝑌 = 𝑎𝑋 + 𝑏 avec a et b qui rendent minimale la somme des carrées des résidus.

Ainsi, la droite de régression (ou d’ajustement) sera :

𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏

18
1.1. Quelques notations
Moyennes :

Variances :

Covariance
𝑛
1
𝐶𝑂𝑉(𝑋, 𝑌) = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑁
𝑖=1

1.2. Estimation des coefficients de la droite de régression


L’utilisation de la méthode de Mayer (points moyens) et rarement utilisé lorsque l’on veut
étudier le lien entre deux variables. La méthode des moindres carrés ordinaires est la plus
usitée. On considère que le tracé de la droite de régression passe par le point G du nuage de
points ayant pour coordonnées(𝑥̅ ; 𝑦̅). L’estimation des coefficients a et b se détermine ainsi :

𝐶𝑂𝑉(𝑋, 𝑌)
𝑎=
𝑉𝐴𝑅(𝑋)

𝑏 = 𝑦̅ − 𝑎𝑥̅

1.3 Le Coefficient de Corrélation Linéaire


Encore appelé coefficient de corrélation de Pearson qui permet d’analyser les relations
linéaires, le coefficient de corrélation linéaire, noté R, est un outil qui permet de vérifier à quel
point deux variables X et Y sont liées. Il se calcul ainsi :

Ecart Type de X Ecart Type de Y

Avec

19
Relation entre le coefficient de corrélation et le coefficient directeur de la droite de
régression

𝐶𝑂𝑉(𝑋, 𝑌) 𝐶𝑂𝑉(𝑋, 𝑌) 𝐶𝑂𝑉(𝑋, 𝑌) 𝜎𝑦 𝐶𝑂𝑉(𝑋, 𝑌) 𝜎𝑦


𝑎= = = = × = ×𝑅
𝑉𝐴𝑅(𝑋) (𝜎𝑥 )² 𝜎𝑥 × 𝜎𝑥 𝜎𝑥 𝜎𝑥 × 𝜎𝑦 𝜎𝑥

On en conclue que a et R ont le même signe.

On retient que le coefficient de corrélation est souvent présenté sous sa forme au carré. Ainsi
donc, pour R², on adopte les critères numériques suivants :

- Si 0.75 ≤ 𝑅² ≤ 1, alors il existe une bonne corrélation linéaire entre X et Y.


- Si 0,25 ≤ 𝑅² ≤ 0,75, alors il existe une faible corrélation linéaire entre X et Y
- Si 0 ≤ 𝑅² ≤ 0,25, alors la corrélation est mauvaise entre X et Y

Seul R² peut s’exprimer en pourcentage.

1.4 L’estimation par les MCO avec pondération

𝑛
1
𝐶𝑂𝑉(𝑋, 𝑌) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑁
𝑖=1

1.5 La régression de X en Y
Nous avons pu voir les effets des changements de Y quand X fluctue. Cependant, la corrélation
peut aussi se faire à partir des fluctuations de Y et voir les effets de cette fluctuation sur X.

- Droite de régression de X en Y

𝑥𝑖 = 𝑎′ × 𝑦𝑖 + 𝑏

Avec :

𝐶𝑂𝑉(𝑋, 𝑌)
𝑎′ =
𝑉𝐴𝑅(𝑌)

20
𝑏 = 𝑥̅ − 𝑎′ × 𝑦̅

- Relation avec le coefficient de régression

𝑅 2 = 𝑎 × 𝑎′

𝐶𝑂𝑉(𝑋, 𝑌) 𝐶𝑂𝑉(𝑋, 𝑌)²


𝑅= → 𝑑𝑜𝑛𝑐 → 𝑅 2 =
𝜎𝑥 × 𝜎𝑦 𝑉𝐴𝑅(𝑋) × 𝑉𝐴𝑅(𝑌)

𝐶𝑂𝑉(𝑋, 𝑌) 𝐶𝑂𝑉(𝑋, 𝑌) 𝐶𝑂𝑉(𝑋, 𝑌)²


𝑎 × 𝑎′ = × =
𝑉𝐴𝑅(𝑋) 𝑉𝐴𝑅(𝑌) 𝑉𝐴𝑅(𝑋) × 𝑉𝐴𝑅(𝑌)

Section 2 : La variable qualitative


Pour juger d’une relation de dépendance entre deux variables, X et Y, dont au moins une est
qualitative, on part du tableau de contingence pour aboutir au calcul du coefficient de
contingence.

Cependant, c’est le Test du Chi-2 de Pearson qui permet de juger de la liaison entre ces
variables. Ce Chi-2 calculé est à comparer avec le Chi-2 qui se trouve dans les tables
statistiques.

Il y a des étapes à franchir avant de calculer le coefficient de contingence.

1ère étape : Formuler les hypothèses

H0 : hypothèse nulle. Il n’existe pas de lien entre les deux variables étudiées

H1 : hypothèse alternative. Il existe un lien de dépendance entre les variables étudiées

2ème étape : Indiquer le seuil de signification du test (α)

α représente la probabilité que le test nous révèle qu’il existe un lien entre les 2 variables alors
que, dans les faits, ce lien n’existe pas. α représente le seuil du risque accepté. De fait, 1 − 𝛼
représente le seuil de confiance acceptée.

Généralement α prend la valeur de 5%. On accepte un risque d’erreur de 5%.

Etape 3 : Déterminer les effectifs théoriques

Cette étape consiste à vérifier les conditions d’application du test. On procède ainsi :

- Calculer les effectifs théoriques du tableau de contingence

21
𝑇𝑜𝑡𝑎𝑙⁡𝑙𝑖𝑔𝑛𝑒⁡𝑖 × 𝑇𝑜𝑡𝑎𝑙⁡𝑐𝑜𝑙𝑜𝑛𝑛𝑒⁡𝑗
𝑇𝑖𝑗 =
𝑁
- 𝑁 ≥ 30
- 𝑇𝑖𝑗 ≥ 5⁡⁡⁡⁡∀⁡𝑖, 𝑗
- Calculer la différence entre les effectifs observés (𝑂𝑖𝑗 ) et les effectifs théoriques (𝑇𝑖𝑗 )
- Calculer le Chi-2
2
2
(𝑂𝑖𝑗 − 𝑇𝑖𝑗 )
𝜒 = ∑[ ]
𝑇𝑖𝑗
𝑖,𝑗

Etape 4 : Déterminer le nombre de degré de liberté (𝜗)

𝜗 = (𝑛𝑜𝑚𝑏𝑟𝑒⁡𝑑𝑒⁡𝑙𝑖𝑔𝑛𝑒 − 1) × (𝑛𝑜𝑚𝑏𝑟𝑒⁡𝑑𝑒⁡𝑐𝑜𝑙𝑜𝑛𝑛𝑒 − 1)

Etape 5 : Déterminer 𝜒 2 critique (à lire sur la table statistique)

Cette valeur est à lire sur la table statistique

Etape 6 : On compare les valeurs en définissant la règle de décision

- Si 𝜒 2 calculé > 𝜒 2 critique : on retient l’hypothèse H1 et on rejette H0


- Si 𝜒 2 calculé < 𝜒 2 critique : on retient l’hypothèse H0 et on rejette H1

En cas d’acceptation de l’hypothèse H0, avec un seuil de signification de 5% et un degré de


liberté 𝜗, on ne peut pas affirmer qu’il existe un lien entre les deux variables. Cela ne veut pas
dire qu’il n’y a pas de lien, mais on peut juste affirmer qu’avec le degré de liberté calculé et le
seuil de signification retenu, on ne trouve pas de lien. Il n’existe pas de preuve.

Et tout s’arrête là.

Etape 7 : Si l’hypothèse H1 est vraie (existence d’un lien)

On peut alors calculer le coefficient de contingence à la condition que le nombre de lignes soit
identique au nombre de colonnes.

22
𝜒2
𝐶=√
𝜒2 + 𝑁

0<𝐶<1

On calcule le V de Cramer dans tous les autres cas où le nombre de lignes serait différent du
nombre de colonnes. Il s’utilise quel que soit la taille du tableau.

𝜒2
𝑉=√ 𝑁
min(𝑐 − 1; 𝑙 − 1)

0<𝑉<1

Le coefficient de contingence ou le V de Cramer sert à déterminer l’intensité du lien statistique


existant entre 2 variables dont au moins une d’elles est une variable qualitative.

Section 3 : Description des variables étudiées


Variables quanti-quanti :

Nom des Type de Effectif Moyenne


Mode Médiane Ecart type
variables variable total arithmétique
X
Y

R² Donner la valeur
Tenir compte aussi d’une discussion des 68,2% des observations ainsi que
Dispersion X
de l’intervalle correspondant
Tenir compte aussi d’une discussion des 68,2% des observations ainsi que
Dispersion Y
de l’intervalle correspondant
Discuter sur les caractéristiques de ces populations et leurs grandes tendances. Porter des
conseils sur leurs relations en tenant compte de la valeur du coefficient de corrélation

Variables quali-quali :

Nom de la variable Type de variable Effectif total Mode


X
Y

𝜒 2 calculé Valeur
𝜒 2 critique Valeur
Hypothèse retenue En expliquant pourquoi

23
Seuil de significativité Valeur
Degré de liberté Valeur
C ou V Discussion sur l’intensité du lien entre les deux variables
Discuter sur les caractéristiques de cette population et ses grandes tendances. Porter des
conseils.

Variables quali-quanti :

Nom de la Type de Effectif Ecart-


Mode Moyenne Dispersion
variable variable total type
X Quantitative
Y Qualitative

𝜒 2 calculé Valeur
2
𝜒 critique Valeur
Hypothèse
En expliquant pourquoi
retenue
Seuil de
Valeur
significativité
Degré de
Valeur
liberté
C ou V Discussion sur l’intensité du lien entre les deux variables
Discuter sur les caractéristiques de cette population et ses grandes tendances. Porter des
conseils.

24

Vous aimerez peut-être aussi