0% ont trouvé ce document utile (0 vote)

55 vues24 pages

Cours Stats L3 Sem5

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

55 vues24 pages

Cours Stats L3 Sem5

Transféré par

xojiw32627

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Préparation et Description des

Données Statistiques

Liliane Righou

Libreville (Gabon)
Préambule

Ce cours a pour objectif d’initier les étudiants inscrits en troisième année de licence à l’Institut
National des Sciences de Gestion aux principes approfondis des statistiques descriptives. Il
vise en priorité à maîtriser les concepts fondamentaux et les méthodes élémentaires de la
statistique dans le but de permettre un usage autonome ultérieur de méthodes
complémentaires.

Des exemples seront fournis au fur et à mesure de l’évolution du cours afin d’obtenir une
meilleure compréhension des concepts énoncés. A la fin de cette année académique, les
étudiants seront capables de :

- Présenter les données statistiques issues d’enquête ;

- Savoir calculer et interpréter les différents indicateurs statistiques ;

Quelques mots clés : tableau de contingence, distribution conjointe, distribution marginale,

coefficient de contingence, test de Chi-2, coefficient de corrélation, coefficient de Cramer.

La compréhension de ce cours prendra une place dans de futurs enseignements des étudiants.
Il s’agira notamment de :

- Analyse des données (outils scientifiques servant à résumer un ensemble de données

afin de mettre en évidence des informations recueillies) ;
- Simulations (processus stochastique – variable temporelle) ;
- Prédiction et décisions (probabilités de risque ou d’occurrence).

2
INTRODUCTION GENERALE

La statistique est une branche des mathématiques appliquées qui a pour objet l’étude des
phénomènes mettant en jeu un grand nombre d’éléments. Les statistiques désignent un
ensemble de données numériques concernant l’état ou l’évolution d’un phénomène que l’on
étudie par la statistique.

Section 1 : Objet de l’enseignement

La préparation et la description des données statistiques sont des étapes importantes dans la
démarche d’analyse des informations recueillies à l’issue d’une enquête. La préparation étant le travail
en amont tandis que la description concerne le traitement de l’information jusqu’à ses conclusions.
Certaines enquêtes se limitent aux résultats sortis de la description des données statistiques.

Le but de ce cours est donc de présenter les principales méthodes de description des données afin de
mettre en exergue une primo analyse de ces données prélevées lors de l’enquête.

Section 2 : Rappel du vocabulaire usuel

2.1 Population
Une population représente l’ensemble des unités ou individus pour lequel on effectue une analyse
statistique.

Exemple de population : Les étudiants de 3ème année à l’INSG

2.2 Echantillon
Un échantillon est un ensemble d’individus dans une population déterminée. La taille de l’échantillon
représente le nombre d’individus contenu dans cet échantillon.

Exemple d’échantillon : les étudiants inscrits en Licence 3 MOI

2.3 Individu ou unité statistique

L’individu désigne tout élément de la population considérée.

3
Exemple d’individu : chacun des étudiants de ces échantillons

2.4 Caractère ou variable

C’est un trait déterminé présent chez tous les individus d’une population pour laquelle on effectue une
étude statistique. On retient qu’un caractère est dit quantitatif s’il est mesurable. Sinon il est qualitatif.

Exemple de caractère quantitatif : le nombre de matières rattrapées pour valider l’entrée en Licence

Exemple de caractère qualitatif : le type de bac obtenu par les étudiants

2.5 Modalités
Ce sont les différentes situations d’un caractère. Les modalités d’un caractère doivent être
incompatibles et mesurables, c'est-à-dire que tout individu doit présenter une et une seule modalité.

4
PARTIE I : PREPARATION DES INFORMATIONS STATISTIQUES

Chapitre 1 : Mise en évidence de l’objet de l’étude statistique

La statistique est une discipline qui étudie des phénomènes à travers la collecte des données,
leur traitement et leur analyse. Elle s’occupe en plus d’interpréter les résultats et faire leur
représentation afin de rendre les données recueillies, compréhensibles par tous.

L’étude statistique a recours à certaines règles et méthodes particulières au niveau de la

collecte des données afin que ces dernières soient correctement interprétées, notamment en
termes d’outil d’aide à la décision.

Section 1 : Réaliser une enquête par questionnaire

Il s’agit de compter sur l’ensemble d’une population cohérente avec un ou plusieurs critères
de ciblage prédéfinis en amont. Il faut donc dénombrer et recenser. Pour réaliser une enquête
et donc étudier un échantillon représentatif de la population pour en déduire des conclusions
et tendances générales, il faut passer par 4 étapes :

- Construire le questionnaire d’enquête ;

- Sélectionner l’échantillon des personnes à interroger ;
- Réaliser l’enquête ;
- Regrouper et analyser les résultats du questionnaire d’enquête.

1.1. Construire le questionnaire d’enquête

Pour réaliser une enquête, la première étape est de construire le questionnaire qui doit servir
à mener l’enquête pour récolter des réponses. Pour cela, il faut que ledit questionnaire
présente le projet et l’objectif de l’enquête. On peut aussi indiquer le temps à prévoir pour
répondre au questionnaire.

Le questionnaire doit comporter toutes les questions de l’enquête. Ces questions doivent être
placées dans un ordre précis en commençant par celles d’ordre général qui servent à filtrer
les personnes interrogées. Ensuite, il faut présenter les questions qui revêtent un caractère
important. En effet, l’ordre des questions est important. Il faut qu’il y ait un enchainement
logique.

5
Il est préférable de privilégier des questions courtes et assez simples à comprendre. De même,
il vaut mieux limiter le nombre de questions à 20 ou 25 maximum. Ne pas en tenir compte,
c’est courir le risque que les personnes interrogées n’aillent pas au bout de l’enquête ou bien
qu’elles ne répondent pas correctement.

Il y a plusieurs types de questions :

- Les questions fermées à choix unique : l’enquêté n’a qu’une seule possibilité de
réponse à donner (question de type oui/non ou de filtrage tel que âge, ville, sexe, …) ;
- Les questions fermées à choix multiples : l’enquêté doit sélectionner une seule
réponse parmi toutes celles qui sont proposées ;
- Les questions ouvertes : l’enquêté peut s’exprimer en donnant ainsi des réponses
libres.

1.2. Sélectionner l’échantillon des personnes à interroger

Une fois le questionnaire d’enquête élaboré, il faut maintenant déterminer l’échantillon des
individus qui seront interrogés. La détermination des caractéristiques du projet et des
objectifs de l’enquête est essentielle pour sélectionner l’échantillon de la population qui peut
être très large ou très ciblé. On retient que plus l’échantillon est correctement ciblé, plus les
réponses escomptées seront intéressantes à exploiter.

1.3. Réaliser l’enquête

Dès lors que le questionnaire est prêt et que l’échantillon des personnes est correctement
défini, il est désormais aisé de réaliser l’enquête. Il existe plusieurs techniques d’approche :

- Par contact direct : l’enquête est faite directement sur le terrain. Cette technique
prend beaucoup de temps et est surtout utilisé dans le cadre d’une étude de marché
qualitative ;
- Par téléphone : cette technique permet d’avoir aussi un contact direct avec les
personnes interrogées. Tout comme la première technique, elle prend aussi du temps ;
- En ligne : l’enquête se fait par diffusion du questionnaire auprès des communautés
d’internautes. Il s’agit d’un sondage en ligne. Les réseaux sociaux sont le moyen
sollicité dans cette méthode. Cependant, le taux de retour de réponses peut être
moins important que dans les 2 autres procédés. De même il est difficile de juger du
sérieux dans les réponses récoltées ;
- Faire appel à un prestataire qui propose une plateforme de sondage donnant accès à
des panélistes. Cette méthode permet de définir avec précision l’échantillon qui
intéresse l’étude. Mais c’est une méthode qui a un coût assez élevé.

6
1.4. Regrouper et analyser les résultats du questionnaire d’enquête
A ce stade du procédé de l’enquête, dès lors que le questionnaire a été rempli par l’échantillon
retenu, il faut alors regrouper les résultats et les analyser. Ces résultats peuvent être étudiés
au moyen d’applications spécifiques sur ordinateur. Toutefois, pour la maîtrise du processus
d’analyse, nous nous attellerons à le faire manuellement afin de pouvoir l’exécuter en toutes
occasions.

Section 2 : La présentation des résultats

Globalement, La présentation des résultats issus de l’enquête s’effectue dans des tableaux
statistiques. Au préalable, il faut d’abord procéder au dépouillement des informations
recueillies.

2.1. Le dépouillement
Le dépouillement des questionnaires d’enquête se fait dans un tableau global qui permet de
recenser les réponses de chaque enquêté. Il existe des logiciels spécialisés tels que Sphinx ou
SPSS qui permettent la rédaction du questionnaire et son dépouillement. Cela est fort utile
quand l’effectif est important.

Toutefois, pour effectuer manuellement cette étape, il est utile de procéder avec méthode :

a. Eliminer tous les questionnaires qui ne sont pas remplis entièrement ;

b. Compter le nombre de questionnaires correctement remplis (effectif total) ;
c. Construire le tableau d’entrée des informations recueillies question par question ;
d. Réaménager ces informations dans des tableaux statistiques classiques.

2.2. Les tableaux statistiques

Le dressage des tableaux statistiques dépend des informations que l’on veut mettre en
exergue. Cela peut concerner une seule information ou bien plusieurs en même temps. Dans
le premier cas, on parle de distribution univariée. Dans le second cas, on parle de distribution
bivariée.

Pour passer d’un tableau statistique discret au tableau statistique continu, on utilise la règle
de Sturge ou la règle de Yule pour déterminer le nombre de modalités.

Détermination du nombre de modalités par la règle de Sturge :

7
10
𝑘 =1+ × log⁡(𝑁)
3

Détermination du nombre de modalités par la règle de Yule :

5 4
𝑘= × √𝑁
2

Les intervalles sont encore appelés « classes ». Pour déterminer l’intervalle de classe, on procède de
la manière suivante :

é𝑡𝑒𝑛𝑑𝑢𝑒⁡𝑑𝑒⁡𝑙𝑎⁡𝑠é𝑟𝑖𝑒
𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑒⁡𝑑𝑒⁡𝑐𝑙𝑎𝑠𝑠𝑒 =
𝑘

2.3. Les graphiques

a) Le diagramme en bâtons (variable discrète) ou l’histogramme (variable continue).

b) Les courbes cumulatives

Dans le cas d’une série continue, on peut calculer, et représenter graphiquement, les cumuls
ascendants et descendants. Soient des ECC, FCC et Effectifs cumulés décroissants (ECD) et Fréquences
cumulées décroissantes (FCD).

8
Chapitre 2 : Les différentes caractéristiques

Section 1 : Rappel sur quelques notions

Pour une présentation plus simplifiée, on procède au rangement des données dans un tableau
afin que chaque modalité n’apparaisse qu’une seule fois. L’effectif associé à chaque modalité
est tout simplement le nombre de fois que ladite modalité apparaît.

La fréquence mesure le poids de la modalité dans la série statistique. On l’appréhende en

ajoutant une colonne au tableau statistique. Le calcul se fait ainsi :
𝑛𝑖
𝑓𝑖 =
𝑁
Où N représente l’effectif total. La somme des fréquences doit être égale à 1.

Les fréquences peuvent être exprimées en pourcentage. La somme des fréquences en

pourcentage doit être égale à 100

Il peut être utile de compléter le tableau statistique par le calcul des effectifs et des
fréquences cumulées.

Le calcul du cumul croissant consiste à additionner successivement les effectifs (ou les
fréquences) de chaque ligne au fur et à mesure que l’on descend dans le tableau. En
additionnant la dernière ligne, on doit trouver l’effectif total ou 1 (100 si les fréquences sont
exprimées en pourcentage) pour les fréquences.

Pour le cumul décroissant, le raisonnement est inverse. On enlève au fur et à mesure la valeur
qui se trouve sur la ligne supérieure.

Section 2 : Les caractéristiques de tendances centrales ou de position

Ce sont des paramètres qui permettent de savoir autour de quelles valeurs se situe la variable
statistique.

2.1. Le Mode
Le mode, noté généralement 𝑀𝑜 , correspond à la modalité associée au plus grand effectif ou
la plus grande fréquence. Quand on est en présence de plusieurs modalités qui admettent le
même effectif le plus grand, on dit que l’on est présence d’une série plurimodale.

9
2.2. La Médiane
La médiane, notée généralement 𝑀𝑒 , partage la série des observations statistiques en deux
sous-ensembles d’effectifs égaux. C’est donc la valeur de la modalité située à 50% de l’effectif
total. Pour son calcul, on se concentre sur la colonne des ECC ou bien celle des FCC.

Si la variable est discrète :

Soit p, l’emplacement d’un effectif précis.

• Si l’effectif total est pair, on pose :

N=2p p=N/2

La médiane correspondra à la moyenne de la modalité associée à p avec celle associée à p+1.

𝑀𝑜𝑑𝑝 + 𝑀𝑜𝑑𝑝+1
𝑀𝑒 =
2

• Si l’effectif total est impair, on pose

N=2p+1 p=(N-1)/2

La médiane correspondra à la modalité associée à p+1.

𝑀𝑒 = 𝑀𝑜𝑑𝑝+1

Si la variable est continue :

𝑁
− 𝐸𝐶𝐶𝑖−1
𝑀𝑒 = 𝑏𝑖−1 + 2 × (𝑏𝑖 − 𝑏𝑖−1 )
𝐸𝐶𝐶𝑖 − 𝐸𝐶𝐶𝑖−1

La médiane se calcule par interpolation linéaire. Pour son calcul, on procède par étape :

1ère étape : trouver la valeur de la moitié des effectifs

2ème étape : repérer l’endroit, dans la colonne des ECC, où se trouve la valeur de la moitié des
effectifs

3ème étape : trouver la classe des modalités associées à ce nombre

10
2.3. La Moyenne arithmétique
La moyenne arithmétique ne se définit que pour une variable statistique quantitative.

Partant de la série brute, la moyenne arithmétique, notée généralement 𝑥̅ , est dite simple
quand elle consiste à additionner toutes les modalités et à diviser par l’effectif total.
𝑖=𝑡
1
𝑥̅ = ∑ 𝑥𝑖
𝑁
𝑖=1

Mais comme nous avons fait un tableau qui simplifie la compréhension de la série statistique,
nous allons calculer une moyenne arithmétique pondérée.
𝑖=𝑡
1
𝑥̅ = ∑ 𝑛𝑖 𝑥𝑖
𝑁
𝑖=1

La pondération vient du fait qu’on multiplie chaque modalité par son effectif afin d’avoir le
nombre exact de personnes concernées par cette modalité. Il s’agit de calculer la masse des
modalités

2.4. Les quartiles et les déciles

Le premier quartile correspond à la valeur de la modalité située à 25% de l’effectif total. Le
calcul se fait dans le même esprit que celui de la médiane.

Si la variable est discrète :

𝑀𝑜𝑑𝑝 +𝑀𝑜𝑑𝑝+1
• N est pair N=4p p=N/4 𝑄1 = 2
• N est impair N=4p + 1 p=(N-1)/4 𝑄1 = 𝑀𝑜𝑑𝑝+1

Si la variable est continue :

𝑁
− 𝐸𝐶𝐶𝑖−1
𝑄1 = 𝑏𝑖−1 + 4 × (𝑏𝑖 − 𝑏𝑖−1 )
𝐸𝐶𝐶𝑖 − 𝐸𝐶𝐶𝑖−1

Le deuxième quartile correspond à la médiane.

Le troisième quartile est la modalité qui sépare la série statistique en 75% avant et 25% après
de l’effectif total.
11
Si la variable est discrète :
𝑀𝑜𝑑𝑝 +𝑀𝑜𝑑𝑝+1
• N est pair N=(4/3)p p=(3/4)N 𝑄3 = 2
• N est impair N=(4/3)p + 1 p=(3/4)(N-1) 𝑄3 = 𝑀𝑜𝑑𝑝+1

Si la variable est continue :

3
𝑁 − 𝐸𝐶𝐶𝑖−1
𝑄3 = 𝑏𝑖−1 + 4 × (𝑏𝑖 − 𝑏𝑖−1 )
𝐸𝐶𝐶𝑖 − 𝐸𝐶𝐶𝑖−1

Les déciles se calculent exactement comme les quartiles avec le même résonnement pour les
conclusions. La seule différence est que cela se fait de 10 en 10.

D1 : premier décile correspondant à 10% de série

D2 : deuxième décile correspondant à 20% de la série

Etc. Le cinquième décile, D5 est identique à la Médiane.

Section 3 : Les caractéristiques de dispersion

Elles servent à préciser la variabilité de la série, c’est-à-dire à résumer l’éloignement de

l’ensemble des observations par rapport à leur tendance centrale.

3.1. L’étendue de la série et l’écart interquartile

L’étendue de la série représente l’écart entre la plus grande et la plus petite des observations.

𝑒 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 ⁡

𝑒 = 𝑥𝑡 − 𝑥1

On précise que 𝑥𝑚𝑎𝑥 correspond à la valeur de la dernière modalité.

12
L’écart ou l’intervalle interquartile est la différence entre le troisième quartile et le premier
quartile

é𝑐𝑎𝑟𝑡⁡𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒 = 𝑄3 − 𝑄1

Cette caractéristique est très intéressante car complètement indépendante des valeurs
extrêmes. On peut la considérer comme très fiable.

3.2. La variance
La variance est la moyenne des carrés des écarts à la moyenne. Dans le cas d’une variable
discrète brute, c'est-à-dire sans pondération, la formule de la variance sera :
𝑖=𝑡
1
𝑉(𝑋) = ∑(𝑥𝑖 − 𝑥̅ )²
𝑁
𝑖=1

Dans le cas de regroupement des modalités, le calcul de la variance devient pondéré. Elle se
calcule ainsi :
𝑖=𝑡
1
𝑉(𝑋) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )²
𝑁
𝑖=1

Ou encore
𝑖=𝑡
1
𝑉(𝑋) = ∑ 𝑛𝑖 𝑥𝑖2 − 𝑥̅ 2
𝑁
𝑖=1

Ou encore
𝑖=𝑡

𝑉(𝑋) = ∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )²
𝑖=1

Ou encore

13
𝑖=𝑡

𝑉(𝑋) = ∑ 𝑓𝑖 𝑥𝑖2 − 𝑥̅ 2
𝑖=1

On retiendra que la variance n’a pas d’unités.

3.3. L’écart-type
C’est la caractéristique la plus utilisée. L’écart type correspond à la racine carrée positive de
la variance. L’écart type s’exprime dans la même unité que les observations de la série
statistique.

𝜎𝑥 = √𝑉(𝑋)

On retient :

• 68,2% des effectifs sont concernés par les modalités se situant dans l’intervalle

[𝑥̅ − 𝜎𝑥 ; 𝑥̅ + 𝜎𝑥 ]

• 95% des effectifs sont concernés par les modalités se situant dans l’intervalle
[𝑥̅ − 1,96 × 𝜎𝑥 ; 𝑥̅ + 1,96 × 𝜎𝑥 ]

1
• Si 𝜎𝑥 > 2 𝑥̅ , alors il y a une forte dispersion des modalités de la série statistique
1
• Si 𝜎𝑥 < 2 𝑥̅ , alors il y a une faible dispersion des modalités de la série statistique

On retient que plus l’écart type est petit, plus il y a homogénéité dans la série.

14
PARTIE II : DESCRIPTIONS DES DONNEES STATISTIQUES

La description des données statistiques fait suite au dépouillement issu de la collecte des
informations d’enquête sur le terrain. Elle passe par l’établissement des tableaux statistiques.
Pour décrire les données statistiques, il faut savoir s’il n’y a qu’une seule variable qui nous
intéresse ou bien s’il y en a 2. La figure suivante nous donne des indications.

Source : [Link]

On retient ainsi que, pour décrire une variable, nous aurons besoin de calculer les fréquences,
les moyennes (avec toutes les autres caractéristiques de position ou de dispersion), le
coefficient de corrélation et le coefficient de contingence.

15
Chapitre 3 : Description en univers univarié
Le but de ce chapitre est de procéder à la description des informations recueillies selon que
lesdites informations soient quantitatives ou qualitatives. Les informations obtenues du tri à
plat de l’enquête peuvent désormais être insérées dans un tableau statistique pour de futures
analyses.

Section 1 : La variable statistique quantitative

Il s’agit de faire une analyse globale qui intègre au tableau statistique, les fréquences, le mode,
la moyenne arithmétique, l’écart-type, le jugement de la dispersion et, éventuellement, les
graphiques.

Variable X Effectifs Fréquence Fréquences Masse

ECC FCC 𝒏𝒊 (𝒙𝒊 − 𝒙
̅)²
𝒙𝒊 𝒏𝒊 𝒇𝒊 % 𝒏𝒊 𝒙𝒊
𝑛
𝑥1 𝑛1 𝑓1 = 1⁄𝑁 𝐹1 𝑛1 𝐹1 𝑥1 × 𝑛1 𝒏𝟏 (𝒙𝟏 − 𝒙
̅)²
𝑛
𝑥2 𝑛2 𝑓2 = 2⁄𝑁 𝐹2 𝑛1 + 𝑛2 𝐹1 + 𝐹2 𝑥2 × 𝑛2 𝒏𝟐 (𝒙𝟐 − 𝒙
̅)²
--- --- --- --- --- --- --- ---
𝑛
𝑥𝑛 𝑛𝑛 𝑓𝑛 = 𝑛⁄𝑁 𝐹𝑛 N 100 𝑥𝑛 × 𝑛𝑛 𝒏𝒏 (𝒙𝒏 − 𝒙
̅)²

∑ 𝒏𝒊 (𝒙𝒊
Total N 1 100 -- -- ∑ 𝒏𝒊 × 𝒙𝒊
̅)
−𝒙

Dans le cas d’une variable statistique quantitative, les modalités, 𝑥𝑖 , peuvent être discrètes ou
continues. La variable X est ce qui est étudié.

Section 2 : La variable statistique qualitative

Il s’agit aussi de faire une analyse globale qui intègre un tableau statistique, les fréquences le
mode et, éventuellement, des graphiques.

Variable X
Effectifs 𝒏𝒊 Fréquence 𝒇𝒊 Fréquences %
𝒙𝒊
𝑛1
𝑥1 𝑛1 𝑓1 = ⁄𝑁 𝐹1
𝑛
𝑥2 𝑛2 𝑓2 = 2⁄𝑁 𝐹2
--- --- --- ---
𝑛
𝑥𝑛 𝑛𝑛 𝑓𝑛 = 𝑛⁄𝑁 𝐹𝑛
Total N 1 100

16
Dans le cas d’une variable statistique qualitative, les modalités sont ordinales ou nominales.
C’est pourquoi il ne peut être calculé ni moyenne arithmétique, ni médiane et encore moins
variance et écart-type.

Section 3 : Description de la variable étudiée

Variable qualitative :

Nom de la variable Type de variable Effectif total Mode

Discuter sur les caractéristiques de cette population et ses grandes tendances. Porter des
conseils.

Variable quantitative :

Nom de la Type de Effectif Moyenne

Mode Médiane Ecart type
variable variable total arithmétique
Discuter sur les caractéristiques de cette population et ses grandes tendances. Prendre en
compte la dispersion (discuter des 68,2% des observations ainsi que de l’intervalle
correspondant). Porter des conseils.

17
Chapitre 4 : Description en univers bivarié

La description des données statistiques en univers bivarié concerne la mise en évidence des
liaisons qui peuvent ou non exister entre les différentes variables issues de l’enquête. Il s’agit
de faire un tri croisé.

Pour ce faire, il faut partir du tableau général qui a été généré à l’issu du dépouillement. Puis
isoler les deux variables qui intéressent l’étude que l’on veut faire.

Section 1 : La variable quantitative

On considère deux variables statistiques notées X et Y. L’objectif est de prévoir et/ou expliquer
les valeurs de la variable numérique Y à partir des valeurs de la variable numérique X. Pour
cela, on doit disposer de données qui sont au nombre de n pour chacune des variables
statistiques afin de générer n couples de variables (x1 ;y1), (x2 ;y2),…., (xn ;yn).

Les observations obtenues peuvent être représentées sur le repère orthonormé (O, I, j) par un
ensemble de n points, Mi.

Points M1 M2 … Mn
Coordonnées (x1 ;y1) (x2 ;y2) … (xn ;yn)

La représentation graphique de cet ensemble de points est appelée nuage de points. La

silhouette de ce nuage de points nous donne des indications précieuses sur la nature de la
relation qui peut ou non exister entre les variables X et Y.

Selon l’étirement du nuage de points, une relation affine ou linéaire entre X et Y peut être
envisagée. On suppose, pour cela, l’existence de deux coefficients réels inconnus : a et b, tels
que :

La méthode d’ajustement linéaire par les moindres carrés ordinaires (MCO) est de loin la
méthode la plus utilisée. Elle consiste à proposer d’ajuster le nuage de points par la droite
d’équation⁡⁡𝑌 = 𝑎𝑋 + 𝑏 avec a et b qui rendent minimale la somme des carrées des résidus.

Ainsi, la droite de régression (ou d’ajustement) sera :

𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏

18
1.1. Quelques notations
Moyennes :

Variances :

Covariance
𝑛
1
𝐶𝑂𝑉(𝑋, 𝑌) = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑁
𝑖=1

1.2. Estimation des coefficients de la droite de régression

L’utilisation de la méthode de Mayer (points moyens) et rarement utilisé lorsque l’on veut
étudier le lien entre deux variables. La méthode des moindres carrés ordinaires est la plus
usitée. On considère que le tracé de la droite de régression passe par le point G du nuage de
points ayant pour coordonnées(𝑥̅ ; 𝑦̅). L’estimation des coefficients a et b se détermine ainsi :

𝐶𝑂𝑉(𝑋, 𝑌)
𝑎=
𝑉𝐴𝑅(𝑋)

𝑏 = 𝑦̅ − 𝑎𝑥̅

1.3 Le Coefficient de Corrélation Linéaire

Encore appelé coefficient de corrélation de Pearson qui permet d’analyser les relations
linéaires, le coefficient de corrélation linéaire, noté R, est un outil qui permet de vérifier à quel
point deux variables X et Y sont liées. Il se calcul ainsi :

Ecart Type de X Ecart Type de Y

Avec

19
Relation entre le coefficient de corrélation et le coefficient directeur de la droite de
régression

𝐶𝑂𝑉(𝑋, 𝑌) 𝐶𝑂𝑉(𝑋, 𝑌) 𝐶𝑂𝑉(𝑋, 𝑌) 𝜎𝑦 𝐶𝑂𝑉(𝑋, 𝑌) 𝜎𝑦

𝑎= = = = × = ×𝑅
𝑉𝐴𝑅(𝑋) (𝜎𝑥 )² 𝜎𝑥 × 𝜎𝑥 𝜎𝑥 𝜎𝑥 × 𝜎𝑦 𝜎𝑥

On en conclue que a et R ont le même signe.

On retient que le coefficient de corrélation est souvent présenté sous sa forme au carré. Ainsi
donc, pour R², on adopte les critères numériques suivants :

- Si 0.75 ≤ 𝑅² ≤ 1, alors il existe une bonne corrélation linéaire entre X et Y.

- Si 0,25 ≤ 𝑅² ≤ 0,75, alors il existe une faible corrélation linéaire entre X et Y
- Si 0 ≤ 𝑅² ≤ 0,25, alors la corrélation est mauvaise entre X et Y

Seul R² peut s’exprimer en pourcentage.

1.4 L’estimation par les MCO avec pondération

𝑛
1
𝐶𝑂𝑉(𝑋, 𝑌) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑁
𝑖=1

1.5 La régression de X en Y
Nous avons pu voir les effets des changements de Y quand X fluctue. Cependant, la corrélation
peut aussi se faire à partir des fluctuations de Y et voir les effets de cette fluctuation sur X.

- Droite de régression de X en Y

𝑥𝑖 = 𝑎′ × 𝑦𝑖 + 𝑏

Avec :

𝐶𝑂𝑉(𝑋, 𝑌)
𝑎′ =
𝑉𝐴𝑅(𝑌)

20
𝑏 = 𝑥̅ − 𝑎′ × 𝑦̅

- Relation avec le coefficient de régression

𝑅 2 = 𝑎 × 𝑎′

𝐶𝑂𝑉(𝑋, 𝑌) 𝐶𝑂𝑉(𝑋, 𝑌)²

𝑅= → 𝑑𝑜𝑛𝑐 → 𝑅 2 =
𝜎𝑥 × 𝜎𝑦 𝑉𝐴𝑅(𝑋) × 𝑉𝐴𝑅(𝑌)

𝐶𝑂𝑉(𝑋, 𝑌) 𝐶𝑂𝑉(𝑋, 𝑌) 𝐶𝑂𝑉(𝑋, 𝑌)²

𝑎 × 𝑎′ = × =
𝑉𝐴𝑅(𝑋) 𝑉𝐴𝑅(𝑌) 𝑉𝐴𝑅(𝑋) × 𝑉𝐴𝑅(𝑌)

Section 2 : La variable qualitative

Pour juger d’une relation de dépendance entre deux variables, X et Y, dont au moins une est
qualitative, on part du tableau de contingence pour aboutir au calcul du coefficient de
contingence.

Cependant, c’est le Test du Chi-2 de Pearson qui permet de juger de la liaison entre ces
variables. Ce Chi-2 calculé est à comparer avec le Chi-2 qui se trouve dans les tables
statistiques.

Il y a des étapes à franchir avant de calculer le coefficient de contingence.

1ère étape : Formuler les hypothèses

H0 : hypothèse nulle. Il n’existe pas de lien entre les deux variables étudiées

H1 : hypothèse alternative. Il existe un lien de dépendance entre les variables étudiées

2ème étape : Indiquer le seuil de signification du test (α)

α représente la probabilité que le test nous révèle qu’il existe un lien entre les 2 variables alors
que, dans les faits, ce lien n’existe pas. α représente le seuil du risque accepté. De fait, 1 − 𝛼
représente le seuil de confiance acceptée.

Généralement α prend la valeur de 5%. On accepte un risque d’erreur de 5%.

Etape 3 : Déterminer les effectifs théoriques

Cette étape consiste à vérifier les conditions d’application du test. On procède ainsi :

- Calculer les effectifs théoriques du tableau de contingence

21
𝑇𝑜𝑡𝑎𝑙⁡𝑙𝑖𝑔𝑛𝑒⁡𝑖 × 𝑇𝑜𝑡𝑎𝑙⁡𝑐𝑜𝑙𝑜𝑛𝑛𝑒⁡𝑗
𝑇𝑖𝑗 =
𝑁
- 𝑁 ≥ 30
- 𝑇𝑖𝑗 ≥ 5⁡⁡⁡⁡∀⁡𝑖, 𝑗
- Calculer la différence entre les effectifs observés (𝑂𝑖𝑗 ) et les effectifs théoriques (𝑇𝑖𝑗 )
- Calculer le Chi-2
2
2
(𝑂𝑖𝑗 − 𝑇𝑖𝑗 )
𝜒 = ∑[ ]
𝑇𝑖𝑗
𝑖,𝑗

Etape 4 : Déterminer le nombre de degré de liberté (𝜗)

𝜗 = (𝑛𝑜𝑚𝑏𝑟𝑒⁡𝑑𝑒⁡𝑙𝑖𝑔𝑛𝑒 − 1) × (𝑛𝑜𝑚𝑏𝑟𝑒⁡𝑑𝑒⁡𝑐𝑜𝑙𝑜𝑛𝑛𝑒 − 1)

Etape 5 : Déterminer 𝜒 2 critique (à lire sur la table statistique)

Cette valeur est à lire sur la table statistique

Etape 6 : On compare les valeurs en définissant la règle de décision

- Si 𝜒 2 calculé > 𝜒 2 critique : on retient l’hypothèse H1 et on rejette H0

- Si 𝜒 2 calculé < 𝜒 2 critique : on retient l’hypothèse H0 et on rejette H1

En cas d’acceptation de l’hypothèse H0, avec un seuil de signification de 5% et un degré de

liberté 𝜗, on ne peut pas affirmer qu’il existe un lien entre les deux variables. Cela ne veut pas
dire qu’il n’y a pas de lien, mais on peut juste affirmer qu’avec le degré de liberté calculé et le
seuil de signification retenu, on ne trouve pas de lien. Il n’existe pas de preuve.

Et tout s’arrête là.

Etape 7 : Si l’hypothèse H1 est vraie (existence d’un lien)

On peut alors calculer le coefficient de contingence à la condition que le nombre de lignes soit
identique au nombre de colonnes.

22
𝜒2
𝐶=√
𝜒2 + 𝑁

0<𝐶<1

On calcule le V de Cramer dans tous les autres cas où le nombre de lignes serait différent du
nombre de colonnes. Il s’utilise quel que soit la taille du tableau.

𝜒2
𝑉=√ 𝑁
min(𝑐 − 1; 𝑙 − 1)

0<𝑉<1

Le coefficient de contingence ou le V de Cramer sert à déterminer l’intensité du lien statistique

existant entre 2 variables dont au moins une d’elles est une variable qualitative.

Section 3 : Description des variables étudiées

Variables quanti-quanti :

Nom des Type de Effectif Moyenne

Mode Médiane Ecart type
variables variable total arithmétique
X
Y

R² Donner la valeur
Tenir compte aussi d’une discussion des 68,2% des observations ainsi que
Dispersion X
de l’intervalle correspondant
Tenir compte aussi d’une discussion des 68,2% des observations ainsi que
Dispersion Y
de l’intervalle correspondant
Discuter sur les caractéristiques de ces populations et leurs grandes tendances. Porter des
conseils sur leurs relations en tenant compte de la valeur du coefficient de corrélation

Variables quali-quali :

Nom de la variable Type de variable Effectif total Mode

X
Y

𝜒 2 calculé Valeur
𝜒 2 critique Valeur
Hypothèse retenue En expliquant pourquoi

23
Seuil de significativité Valeur
Degré de liberté Valeur
C ou V Discussion sur l’intensité du lien entre les deux variables
Discuter sur les caractéristiques de cette population et ses grandes tendances. Porter des
conseils.

Variables quali-quanti :

Nom de la Type de Effectif Ecart-

Mode Moyenne Dispersion
variable variable total type
X Quantitative
Y Qualitative

𝜒 2 calculé Valeur
2
𝜒 critique Valeur
Hypothèse
En expliquant pourquoi
retenue
Seuil de
Valeur
significativité
Degré de
Valeur
liberté
C ou V Discussion sur l’intensité du lien entre les deux variables
Discuter sur les caractéristiques de cette population et ses grandes tendances. Porter des
conseils.

Vous aimerez peut-être aussi

Cours Statistique Descriptive
Pas encore d'évaluation
Cours Statistique Descriptive
62 pages
Biostat BAC1 Medecine
Pas encore d'évaluation
Biostat BAC1 Medecine
96 pages
Chap
Pas encore d'évaluation
Chap
14 pages
Chapitre 1-Statistique Descriptive
Pas encore d'évaluation
Chapitre 1-Statistique Descriptive
17 pages
Chapitre 1 Stat
Pas encore d'évaluation
Chapitre 1 Stat
14 pages
Cours de Statistiques et Probabilités L1-S2
Pas encore d'évaluation
Cours de Statistiques et Probabilités L1-S2
31 pages
Cours MATH160 Stat Descriptive1 VF
Pas encore d'évaluation
Cours MATH160 Stat Descriptive1 VF
62 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
4 pages
Eco 104
Pas encore d'évaluation
Eco 104
44 pages
Math160 1
Pas encore d'évaluation
Math160 1
60 pages
Cours de Statistique Descriptive L1
100% (1)
Cours de Statistique Descriptive L1
40 pages
Statistique Descriptive
Pas encore d'évaluation
Statistique Descriptive
21 pages
Statistique
Pas encore d'évaluation
Statistique
31 pages
Introduction à la Statistique et Probabilité
Pas encore d'évaluation
Introduction à la Statistique et Probabilité
55 pages
Introduction à la Statistique Économique
Pas encore d'évaluation
Introduction à la Statistique Économique
59 pages
Statistique L1 Gestion
100% (2)
Statistique L1 Gestion
54 pages
Exemple d'individu statistique
100% (1)
Exemple d'individu statistique
41 pages
Statistiques Appliquées à la Gestion
100% (1)
Statistiques Appliquées à la Gestion
25 pages
Cours de Statistique Descriptive L1
Pas encore d'évaluation
Cours de Statistique Descriptive L1
25 pages
Statistique Descriptive : Concepts et Outils
Pas encore d'évaluation
Statistique Descriptive : Concepts et Outils
15 pages
Cours de Statistique L1 FED UCC Ok
Pas encore d'évaluation
Cours de Statistique L1 FED UCC Ok
41 pages
Cours de Statistique Appliquee Bac2 Mode Et TH
Pas encore d'évaluation
Cours de Statistique Appliquee Bac2 Mode Et TH
40 pages
Cours de Statistique Descriptive I - 044300
Pas encore d'évaluation
Cours de Statistique Descriptive I - 044300
10 pages
@ Math160 @
Pas encore d'évaluation
@ Math160 @
97 pages
Cours de BSTA205
Pas encore d'évaluation
Cours de BSTA205
36 pages
Cours de Statistique Descriptive Et Probabilite Ok
Pas encore d'évaluation
Cours de Statistique Descriptive Et Probabilite Ok
47 pages
Terminologie de la Statistique Descriptive
Pas encore d'évaluation
Terminologie de la Statistique Descriptive
3 pages
Statistique Descriptive Univariée
Pas encore d'évaluation
Statistique Descriptive Univariée
15 pages
Raisonnement en Biostatistique
Pas encore d'évaluation
Raisonnement en Biostatistique
40 pages
MP2-MRH S2 Statistiques Appliquées Aux RH
100% (1)
MP2-MRH S2 Statistiques Appliquées Aux RH
11 pages
Chapitre 2 Presentation Des Donnees
100% (4)
Chapitre 2 Presentation Des Donnees
43 pages
StatDescr UNH Prepa Archi - 23-24
Pas encore d'évaluation
StatDescr UNH Prepa Archi - 23-24
172 pages
Statistiques L1 Gestion
Pas encore d'évaluation
Statistiques L1 Gestion
58 pages
Cours de Statistique Appliquée en Éducation.
Pas encore d'évaluation
Cours de Statistique Appliquée en Éducation.
41 pages
Cours Mathématique Statistique2
Pas encore d'évaluation
Cours Mathématique Statistique2
37 pages
Cours de Statistiques Descriptives Et Probqbilites
Pas encore d'évaluation
Cours de Statistiques Descriptives Et Probqbilites
64 pages
Statistiques Descriptives
Pas encore d'évaluation
Statistiques Descriptives
41 pages
Introduction à la Statistique S1
100% (1)
Introduction à la Statistique S1
198 pages
Statistique Descriptive - Chap.1.cours - td.SHS.1ere - Annee.chcl.24 25
Pas encore d'évaluation
Statistique Descriptive - Chap.1.cours - td.SHS.1ere - Annee.chcl.24 25
17 pages
CM de Statistique Appliquee en Education 2023
Pas encore d'évaluation
CM de Statistique Appliquee en Education 2023
41 pages
Introduction aux Statistiques Essentielles
Pas encore d'évaluation
Introduction aux Statistiques Essentielles
28 pages
Cours Stat P1 P2
Pas encore d'évaluation
Cours Stat P1 P2
29 pages
Statistique Descriptive Droit20182019
Pas encore d'évaluation
Statistique Descriptive Droit20182019
50 pages
Sans Titre
Pas encore d'évaluation
Sans Titre
4 pages
Programme de La Statistique L1
Pas encore d'évaluation
Programme de La Statistique L1
25 pages
Cours de Statistique
Pas encore d'évaluation
Cours de Statistique
8 pages
Statistique Descriptive Séance 1
Pas encore d'évaluation
Statistique Descriptive Séance 1
13 pages
Cours Stat l1 2025
100% (1)
Cours Stat l1 2025
32 pages
Stat Desc SE S1 2021 Partie1
Pas encore d'évaluation
Stat Desc SE S1 2021 Partie1
119 pages
Statistiques et Probabilités : Cours Complet
Pas encore d'évaluation
Statistiques et Probabilités : Cours Complet
240 pages
Introduction à la Statistique Descriptive
100% (1)
Introduction à la Statistique Descriptive
47 pages
Statistiques Descriptif
Pas encore d'évaluation
Statistiques Descriptif
18 pages
Cours Biostatistique L 2 (Sante) FOYAGUEM 2024-2025
Pas encore d'évaluation
Cours Biostatistique L 2 (Sante) FOYAGUEM 2024-2025
45 pages
Cours de Statistiques Descriptives
Pas encore d'évaluation
Cours de Statistiques Descriptives
39 pages
Statistiques 1
100% (1)
Statistiques 1
48 pages
Statisticsbook IlhamELHARAOUI
Pas encore d'évaluation
Statisticsbook IlhamELHARAOUI
219 pages
Cours: Méthodes Quantitatives 2010/11
Pas encore d'évaluation
Cours: Méthodes Quantitatives 2010/11
23 pages
Thème 1 - Définition Et Mesure Du Progrès Technique
100% (1)
Thème 1 - Définition Et Mesure Du Progrès Technique
31 pages
Abderahim Abdoulaye Abderahim
Pas encore d'évaluation
Abderahim Abdoulaye Abderahim
91 pages
Diapo - Projet Multidisciplinaire
Pas encore d'évaluation
Diapo - Projet Multidisciplinaire
24 pages
Le Passeur
100% (1)
Le Passeur
16 pages
Imagine Ta Vie Guide Enseignant
Pas encore d'évaluation
Imagine Ta Vie Guide Enseignant
54 pages
TD 1 V.N.R
Pas encore d'évaluation
TD 1 V.N.R
24 pages
Délibération des jurys 2021-2022
Pas encore d'évaluation
Délibération des jurys 2021-2022
14 pages
Histoire et principes de la recherche opérationnelle
100% (1)
Histoire et principes de la recherche opérationnelle
18 pages
ESS au Maroc : Vers une Économie Inclusive
Pas encore d'évaluation
ESS au Maroc : Vers une Économie Inclusive
30 pages
Garantir La Stabilite Legitime en RDC
Pas encore d'évaluation
Garantir La Stabilite Legitime en RDC
24 pages
Guide de Rédaction de Notice de Licence en Architecture
100% (1)
Guide de Rédaction de Notice de Licence en Architecture
8 pages
Système de notation à l'Université Laval
Pas encore d'évaluation
Système de notation à l'Université Laval
1 page
Actuariat: Pilier de l'Économie Marocaine
Pas encore d'évaluation
Actuariat: Pilier de l'Économie Marocaine
19 pages
Electra120 Vibration
Pas encore d'évaluation
Electra120 Vibration
8 pages
Projet Tutore - L'impact de La Technologique Sur L'entrepreneuriat - l2 e LMD
Pas encore d'évaluation
Projet Tutore - L'impact de La Technologique Sur L'entrepreneuriat - l2 e LMD
3 pages
Consignes Partiels - Exam Instructions
Pas encore d'évaluation
Consignes Partiels - Exam Instructions
2 pages
Montage PROJET 1-2
Pas encore d'évaluation
Montage PROJET 1-2
25 pages
Barthes et la Sémiotique Japonaise
Pas encore d'évaluation
Barthes et la Sémiotique Japonaise
3 pages
Copie Finale PFE Ahmed Et Rabii
Pas encore d'évaluation
Copie Finale PFE Ahmed Et Rabii
32 pages
Memoire Pfe - Diarra Kony VF - 240504 - 100221
Pas encore d'évaluation
Memoire Pfe - Diarra Kony VF - 240504 - 100221
87 pages
Haryana Road Safety Hindi Level III & IV Final
Pas encore d'évaluation
Haryana Road Safety Hindi Level III & IV Final
91 pages
EMCO Cours
Pas encore d'évaluation
EMCO Cours
64 pages
Le Temps Présent Et L'Historiographie Contemporaine: François Bédarida
Pas encore d'évaluation
Le Temps Présent Et L'Historiographie Contemporaine: François Bédarida
9 pages
La Démarche D'investigation
100% (2)
La Démarche D'investigation
17 pages
Modernisation des Appels Malades avec MEDICLIC
Pas encore d'évaluation
Modernisation des Appels Malades avec MEDICLIC
22 pages
Analyse de Données-Erraiteb
Pas encore d'évaluation
Analyse de Données-Erraiteb
56 pages
TD Plan D'experience
Pas encore d'évaluation
TD Plan D'experience
2 pages
Cours Méthodologie Recherche Master
Pas encore d'évaluation
Cours Méthodologie Recherche Master
21 pages
ADD - Fiche Mémo
Pas encore d'évaluation
ADD - Fiche Mémo
3 pages
Le Paranormal Dans La Culture Québécoise Contemporaine
Pas encore d'évaluation
Le Paranormal Dans La Culture Québécoise Contemporaine
147 pages