0% ont trouvé ce document utile (0 vote)
57 vues66 pages

Vocabulaire de la Statistique Descriptive

Ce document présente le vocabulaire de base de la statistique descriptive. Il définit les termes clés comme population, échantillon, variable, caractère, ainsi que les différents types de variables et de caractères. Le document décrit également comment construire des tableaux statistiques pour décrire des données.

Transféré par

hamza.saber859
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
57 vues66 pages

Vocabulaire de la Statistique Descriptive

Ce document présente le vocabulaire de base de la statistique descriptive. Il définit les termes clés comme population, échantillon, variable, caractère, ainsi que les différents types de variables et de caractères. Le document décrit également comment construire des tableaux statistiques pour décrire des données.

Transféré par

hamza.saber859
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

STATISTIQUE DESCRIPTIVE

CP2 ENSA AGADIR


LAKHNATI GHIZLANE
Plan 2

1. Vocabulaire de la statistique descriptive;


2. Statistiques descriptives à une dimension:
(a) Caractère qualitatif
(b) Caractère quantitatif
(c) Tableaux et graphiques;
(d) Tendance, dispersion et indicateurs.
3. Les séries statistiques deux dimensions:
(a) Covariance et corrélation;
(b) Ajustement linéaire.
(c) Tableaux des contingence;
Vocabulaire de la statistique descriptive 3

Définition:
La statistique descriptive: est un ensemble de méthodes permettent de décrire
et d’analyser de façon quantifiée, des phénomènes observés.

Deux points importants ressortent de cette définition:

1) Ensemble de méthodes : la statistique descriptive ne contient aucune théorie,


mais seulement des outils d’investigation et de mesure des données chiffrées.

2) Décrire analyser et résumer: faire des tableaux, des graphiques et calculer


des moyennes afin de faire ressortir la signification.
Vocabulaire de la statistique descriptive 4

La statistique descriptive appartient cependant à un ensemble plus vaste, la


statistique générale, qui se divise en deux branches : statistique descriptive et
la statistique ”inférentielle”, dont l’objet est de formuler des lois de
comportement à partir d’observation souvent incomplètes.
Cette dernière intervient dans les enquêtes et les sondages.
Elle s’appuie non seulement sur la statistique descriptive, mais aussi sur le
calcul des probabilités.
Vocabulaire de la statistique descriptive 5

Ensemble statistique ou population : réunion des individus sur lesquels on


étudie une ou plusieurs propriétés. Par exemple des individus, des entreprises,
des ménages.

Unité statistique : chaque individu. Par exemple: un étudiant, un salarié, une


famille.

Echantillon : groupe restreint, ou sous-ensemble, issu de la population.

Echantillon aléatoire : les résultats recueillis sur ce sous-ensemble doivent


pouvoir être étendus, c’est-à-dire inférés, à la population entière.
Vocabulaire de la statistique descriptive 6

Sur ces unités, on mesure une variable ou un caractère, le chiffre d’affaires


de l’entreprise, le revenu du ménage, l’âge de la personne, la catégorie
socioprofessionnelle d’une personne.

Variable ou caractère : ce qui est observé ou mesuré sur les individus d’une
population.

On suppose que la variable prend toujours une seule valeur sur chaque unité.
Les variables sont désignées par simplicité par une lettre (X, Y, Z).

• Les valeurs possibles de la variable, sont appelées modalités.

• L’ensemble des valeurs possibles ou des modalités est appelé le domaine de


la variable.
Vocabulaire de la statistique descriptive 7

Une Variable peut être:


• Qualitative:
– Ordinale
– Nominale
• Quantitative:
– Discrète
– Continue
Vocabulaire de la statistique descriptive 8

Variable quantitative : ses valeurs sont des nombres exprimant une


quantité, comme le poids, taille, le salaire, le prix...

Elle peut être:


• Discrète: si l’ensemble des valeurs possibles est dénombrable.
Les modalités de la variable nombre d’enfants par famille sont 0,1,2,3,4,5,...

• Continue: selon la nature de l’ensemble des valeurs qu’elle est suceptible


de prendre.
L’âge est théoriquement une variable quantitative continue, mais en
pratique, l’âge est mesuré dans le meilleur des cas au jour près.
Vocabulaire de la statistique descriptive 9

Variable qualitative: ses valeurs sont des modalités ou catégories, exprimées


sous forme littérale ou par un codage numérique. ex : couleur des yeux, sexe,
vrai ou faux,... Elle peut être:
• Nominale : La variable est dite qualitative nominale quand les modalités
ne peuvent pas être ordonnées. Exemple: sexe, couleur, religion...
Les modalités de la variable sexe sont masculin (codé M) et féminin (codé
F). Le domaine de la variable est {M, F }.
• Ordinale : La variable est dite qualitative ordinale quand les modalités
peuvent être ordonnées. Exemple: la taille vestimentaire, la qualité...
Le fait de pouvoir ou non ordonner les modalités est parfois discutable.
Par exemple : dans les catégories socioprofessionnelles, on admet
d’ordonner les modalités : ”ouvriers”, ”employés”, ”cadres”. Si on ajoute
les modalités ”sans profession”, ”enseignant”, ”artisan”, l’ordre devient
beaucoup plus discutable.
Vocabulaire de la statistique descriptive 10

Une variable statistique ou aléatoire est notée par une lettre majuscule X, Y ,
et les valeurs ou les modalités qu’elle prend par des lettres minuscules x1 ,
x2 ,..., y1 , y2 ,...

Exemple: On s’intéresse à la variable ”état-civil” notée X et à la série


statistique des valeurs prises par X sur 20 personnes. La codification est:
C : célibataire,
M : marié(e),
V : veuf(ve),
D : divorcée.

Le domaine de la variable X est {C, M, V, D}.


M M D C C M C C C M
C M V M V D C C C M

x1 = M , x2 = M , x3 = D, x4 = C, x5 = C, . . . ., x20 = M .
Vocabulaire de la statistique descriptive 11

Dans le cas des variables discrètes de valeurs x1 , x2 ..., xp , on appelle:


• Effectif total: n le nombre total de données ou la taille de la population
ou l’échantillon.
• Effectif, ni associé à une valeur xi de la variable aléatoire X, le nombre
d’apparitions de cette variable dans la population ou dans l’échantillon.
Pp
Avec n = i=1 ni .
• Fréquence relative, associée à la valeur xi de la variable aléatoire X, le
nombre fi = nni .
• Effectif cumulé, associé à une valeur xi de la variable, le nombre
Pi
d’individus dont la mesure est inférieure ou égale à xi . Ni = k=1 nk .
Pi
• On définit la fréquence cumulée relative: Fi = k=1 fk .
Vocabulaire de la statistique descriptive 12

Un quartier est composé de 50 ménages, et la variable Z représente le nombre


de personnes par ménage. Les valeurs de la variable sont

1 1 1 1 1 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8
Donner le tableau statistique: Calculer les fréquences relatives, les effectifs
cumulés et les fréquences cumulées.
Vocabulaire de la statistique descriptive 13

xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
Total 50 1.0
Vocabulaire de la statistique descriptive 14
Une variable quantitative continue peut prendre une infinité de valeurs
possibles. Le domaine de la variable est alors R ou un intervalle de R. En
pratique, une mesure est limitée en précision. La taille peut être mesurée en
cm ou en mm. On peut alors traiter les variables continues comme des
variables discrètes. Cependant, pour faire des représentations graphiques et
construire le tableau statistique, il faut procéder à des regroupements en
classes. Le tableau regroupé en classe est souvent appelé distribution groupée.
 − +
cj , cj designe la classe j, on note:
• c−
j : la borne inférieure de la classe j.

• c+
j : la borne supérieure de la classe j.

c− +
j +cj
• cj = 2 : le centre de la classe j.

• aj = c+
j − cj : l’amplitude de la classe j.

• nj : l’effectif de la classe; fj : la fréquence de la classe, Nj : l’effectif cumulé


et Fj : la fréquence cumulé de la classe j.
Vocabulaire de la statistique descriptive 15

Les classes peuvent être d’égale amplitude ou non; on choisit, soit le nombre de
classes, soit l’amplitude des classes.
En général, le nombre de classes est compris entre 5 et 20; il dépend du nombre
n d’observations et de l’étalement des données.

Il existent des formules qui nous permettent d’établir le nombre de classes et


l’intervalle de classe (l’amplitude) pour une série statistique de n observations.
Règle de Sturg : nombre de classe = 1 + 3.3log10 (n).
1
Règle de Yule : nombre de classe = 2.5.n 4 .
aj amplitude ou intervalle de classes est
(xmax − xmin )
aj = ,
nbr de classes
avec xmax et xmin , resp, sont la plus grande et la plus petite valeur de la
variable X dans la série statistique.
Vocabulaire de la statistique descriptive 16

Exemple:
On mesure la taille en centimetres de 50 élèves d’une classe:
152 152 152 153 153
154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171
Vocabulaire de la statistique descriptive 17

Le tableau statistique:
 − +
cj , cj nj Nj fj Fj
[151.5; 155.5[ 10 10 0.20 0.20
[155.5; 159.5[ 12 22 0.24 0.44
[159.5; 163.5[ 11 33 0.22 0.66
[163.5; 167.5[ 7 40 0.14 0.80
[167.5; 171.5[ 10 50 0.20 1.00
Total 50 1.00
Les représentations graphiques 18
Variables discrètes:
Soient x1 , x2 , ...,xp les valeurs possibles d’une variable quantitative discrète X,
et n1 , n2 , ...,np les effectifs correspondants.

Diagramme en batôns:
Est constitué par les segments qui relient le point (xi , 0) au point (xi , ni ) pour
i = 1, ..., p.
On peut remplacer les effectifs ni par les fréquences fi en (%).

Polygone des effectifs ou des fréquences :


Ils s’obtienent respectivement, en joignant par un trait les différents points de
cordonnées (xi , ni ) et (xi , fi (%)).

Courbe des fréquences cumulées (ou courbe cumulative): La courbe cumulative


est obtenue à partir des fréquences cumulées ; c’est la courbe de la fonction F
suivante: F (x) = 0, si x < xmin ; F (x) = Fj , si xj ≤ x < xj+1 et
F (x) = 1, si x ≥ xmax Elle se présente comme une courbe en escalier, chaque
segment de cette courbe est ouvert à gauche et fermé à droite sauf le dernier.
Les représentations graphiques 19
Variables continues:
L’histogramme:
Un histogramme est constitué de rectangles juxtaposés dont la base correspond
à l’amplitude de chaque classe et dont la surface est proportionnelle à l’effectif
ou la fréquence relative.
L’histogramme est un outil statistique facile utiliser, donnant rapidement une
image du comportement d’un procédé et l’allure globale de la distribution; il
montre l’étalement des données et apporte ainsi des renseignements sur la
dispersion et sur les valeurs extrêmes; il permet de déceler, éventuellement, des
valeurs aberrantes.
Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la
n
classe j est donc donnée par: hj = ajj .
• On appelle hj la densité d’effectif.
• L’aire de l’histogramme est égale à l’effectif total n, puisque l’aire de
chaque rectangle est égale à l’effectif de la classe j : aj × hj = nj .
fj
Pour un histogramme des fréquences on a dj = aj .

• On appelle dj la densité de fréquence.


Les représentations graphiques 20

• L’aire de l’histogramme est égale à 1, puisque l’aire de chaque rectangle est


égale à la fréquence de la classe j : aj × dj = fj .
Les représentations graphiques 21

Variables continues:

Polygone de fréquences:
Il permet de représenter sous forme de courbe, la distribution des fréquences
absolues ou relatives. Il est obtenu en joignant, par des segments de droite, les
milieux des côtés supérieurs de chaque rectangle de l’histogramme. Pour
fermer ce polygone, on ajoute à chaque extrémité une classe de fréquence nulle.

Courbes de fréquences cumulées: on joint les points ayant pour abscisses la


limite supérieure des classes et pour ordonnées les fréquences cumulées
croissantes correspondant à la classe considérée (pour le premier point, on
porte la valeur 0). Elle donne le nombre d’observations inférieures à une valeur
quelconque de la série.
Les représentations graphiques 22

Variables Qualitatives:
Soit X une variable qualitative pouvant prendre k modalités x1 , x2 , ...,xk
. Le tableau statistique d’une variable qualitative peut être représenté par
deux types de graphique. Les effectifs sont représentés par un diagramme en
barres et les fréquences par un diagramme en secteurs (ou camembert):

Diagrammes en colonnes ou à bandes;

Le diagramme en secteurs circulaires consiste en un cercle découpé en secteurs


circulaires; l’aire de chaque secteur, représentant la proportion des différentes
composantes d’un tout, est proportionnelle aux fréquences relatives ou effectifs.
Les représentations graphiques 23
Exemple:
On interroge 50 personnes sur leur dernier diplôme obtenu (variable Y ). La
codification a étf́aite selon le Tableau ci-dessous.
Dernier diplôme obtenu xj
Sans diplôome Sd
Primaire P
Secondaire Se
Supérieur non-universitaire Su
Universitaire U
On a obtenu la série de données

Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U

Donner le tableau statistique et les représentations graphiques possibles.


Indicateurs 24
Tendance centrale: Elles donnent une idée de l’ordre de grandeur des valeurs
constituant la série. Les principales caractéristiques de tendance centrale sont
la moyenne arithmétique, la médiane, le mode et les quantiles.
Moyenne arithmétique:
La moyenne ne peut être définie que sur une variable quantitative.
Cas 1 : La moyenne est la somme des valeurs observées divisée par leur nombre
:
n
1X
x= xi .
n i=1
Cas 2 : La moyenne peut être calculée à partir des valeurs distinctes xj et des
effectifs nj :
k
1X
x= nj xj .
n i=1
Exemple:
Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La
moyenne est: x̄ = 0+0+1+1+1+2+3+4
8 = 12
8 = 1.5
ou x̄ = 20+31+12+13+14
8 = 1.5
Indicateurs 25

Moyenne géométrique:
Si xi ≥ 0, on appelle moyenne géométrique la quantité:
n
! n1
Y 1
G= xi = (x1 × x1 × ... × xn ) n

i=1
Indicateurs 26
Médiane: La médiane est plutôt une moyenne de position.
La médiane est la valeur, observée ou possible, dans la série des données
classées par ordre croissant (ou décroissant) qui partage cette série en deux
parties comprenant exactement le même nombre de données de part et d’autre
de M e.

On distingue 3 cas.

Cas 1 : données non réparties en classes:


• pour une série ayant un nombre impair de données, la médiane est une valeur
observée de la série: Me = x n+1 .
2
• pour une série ayant un nombre pair de données, on peut prendre pour valeur
médiane, l’une ou l’autre des valeurs centrales ou n’importe quelle valeur
intermédiaire entre ces deux valeurs, par exemple, la moyenne arithmétique de
ces deux valeurs, mais, dans ces conditions, ce n’est pas une valeur observée:
x n +x n +1
Me = 2
2
2
.
Indicateurs 27

Exemple: Etude de deux séries d’observations.


On considère les séries d’observations suivantes.
Série I : 5 observations classées par ordre croissant, 2, 5, 8, 11, 14.
Moyenne arithmétique 8, médiane 8.

Série II : 6 observations classées par ordre croissant, 6, 6, 14, 16, 18, 18.
Moyenne arithmétique 13, médiane 15.

Série III : les deux séries précédentes réunies, 2, 5, 6, 6, 8, 11, 14, 14, 16, 18,
18.
Moyenne arithmétique 10.72, médiane 11
Indicateurs 28

Cas 2: Données groupées par valeur:


Pour déterminer la médiane, on repère 0.5 dans la colonne des fréquences
cumulées F (x) ou bien n2 dans la colonne des effectifs cumulés N (x). On
choisit ensuite la valeur F (x) égale ou immédiatement supérieure à 0.5 (ou la
valeur N (x) égale ou immédiatement supérieure à n2 ).
Indicateurs 29

Exemple:

xi ni fi F (x) N (x)
2 2 0.066 0.066 2
8 3 0.1 0.166 5
9 4 0.133 0.3 9
10 4 0.133 0.433 13
11 5 0.167 0.6 18
12 3 0.1 0.7 21
13 6 0.2 0.9 27
15 1 0.033 0.933 28
18 2 0.067 1 30
Indicateurs 30

Cas 3 : La médiane: si données réparties en classes:

Dans ce cas, pour calculer la médiane,

c− +
 
1) Il faut déterminer la classe médiane: c’est la première classe i , ci dont la
fréquence cumulée est supérieure ou égale à 0.5. Puis

2) Il faut appliquer la formule suivante :


n
− Ni−1
Me = c−
i + ai 2
ni
Avec ai est l’amplitude de la classe médiane;
ni est l’effectif de la classe médiane;
Ni−1 est l’effectif de la classe qui précède la classe médiane.
Indicateurs 31

Exemple:

classe ni N (x)
[0, 5[ 2 2
[5, 10[ 7 9
[10, 15[ 18 27
[15, 20[ 3 30
M e = 11.666
Indicateurs 32

Mode:
Le mode est la valeur de la variable statistique la plus fréquente que l’on
observe dans une série d’observations.
Si la variable est une variable discrète, le mode s’obtient facilement. Si la
variable est une variable continue, on définit une classe modale.
• Le mode n’existe pas toujours et quand il existe, il n’est pas toujours unique.
• Si après regroupement des données en classes, on trouve deux ou plusieurs
modes différents, on doit considérer que l’on est en présence de deux ou
plusieurs populations distinctes ayant chacune leurs caractéristiques propres;
dans ce cas, la moyenne arithmétique n’est pas une caractéristique de tendance
centrale.
Indicateurs 33

Exemple:
Série I : pas de mode.

Série II : deux modes 6 et 18.

Série III : les deux séries réunies, trois modes 6, 14 et 18.


Indicateurs 34

Le Mode: Si les données sont réparties en classes:


Dans ce cas, pour calculer le mode:
1) Il faut tout d’abords déterminer la classe modale: c’est la classe d’effectif
maximal. Puis,
2) Il faut appliquer la formule suivante :
ni − ni−1
M o = c−
i + ai
2ni − ni−1 − ni+1
Avec ai est l’amplitude de la classe modale;
ni est l’effectif de la classe modale;
ni−1 est l’effectif de la classe qui précède la classe modale;
ni+1 est l’effectif de la classe qui suit la classe modale;

Exemple: M o = 12.115.
Indicateurs 35

Effectifs groupés par classes d’amplitudes inégales:


Exemple:
ni
classe ni ai hi = ai
[0, 10[ 9 10 0.9
[10, 12[ 9 2 4.5
[12, 20[ 12 8 1.5
Dans ce cas, pour calculer le mode, il faut appliquer la formule précédente,
mais la définition de d1 et de d2 change, car il faut remplacer les effectifs ni par
les amplitudes corrigées hi .

M o = 11.09
Indicateurs 36

Quantiles:
Cette notion est très utilisée dans les sciences humaines.
Les quantiles sont des caractéristiques de position partageant la série
statistique ordonnée en k parties égales.
Pour k = 4, les quantiles, appelés quartiles, sont trois nombres Q1 , Q2 , Q3 tels
que:
25% des valeurs prises par la série sont inférieures à Q1 ,
25% des valeurs prises par la série sont supérieures à Q3 ,
Q2 est la médiane M e , Q3 − Q1 est l’intervalle interquartile, il contient 50%
des valeurs de la série.
Indicateurs 37

Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28,34 contenant 12
observations

Q1 = 15.5, Q2 = 20.5, Q3 = 26

Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27 contenant 10
observations

Q1 = 15, Q2 = 18.5, Q3 = 24
Indicateurs 38

Caractéristiques de dispersion:
Ces caractéristiques quantifient les fluctuations des valeurs observées autour de
la valeur centrale et permettent d’apprécier l’étalement de la série. Les
principales sont : l’écart-type ou son carré appelé variance et l’étendue.

Variance et écart-type:
La variance, notée V ar(X) ou σ 2 , est appelée aussi écart quadratique moyen
ou variance empirique. La racine carrée de la variance est appelée écart-type.
C’est la moyenne de la somme des carrés des écarts par rapport à la moyenne
arithmétique.
Indicateurs 39

Cas 1: n données non réparties en classes:


n
2 1X
V ar(X) = σ = (xi − x)2
n i=1

ou bien
n
2 1X 2
V ar(X) = σ = xi − x2
n i=1
Cas 2 : n données réparties en k classes, la classe i étant d’effectif ni :
k
2 1X
V ar(X) = σ = ni (ci − x)2
n i=1

ou bien
k
2 1X
V ar(X) = σ = ni c2i − x2
n i=1
Indicateurs 40

Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8.


x̄ = 2+3+4+4+5+6+7+9
8P = 5.
n
V ar(X) = n1 i=1 (xi − x)2
V ar(X) =
1
 2 2 2 2 2 2 2 2

8 (2 − 5) + (3 − 5) + (4 − 5) + (4 − 5) + (5 − 5) + (6 − 5) + (7 − 5) + (9 − 5)
V ar(X) = 4.5

ou, on peut également utiliser la deuxième formule de la variance, ce qui


nécessite moins de calcul:

1
P n 2 2
V ar(X) = n x
i=1 i − x
1 2 2 2
V ar(X) = 8 (2 + 3 + 4 + 42 + 52 + 62 + 72 + 92 ) − 52
V ar(X) = 4.5
Indicateurs 41

Plus σ est petit, plus les données sont regroupées autour de la moyenne
arithmétique et plus la population est homogène;

L’écart-type permet de trouver le pourcentage de la population appartenant à


un intervalle centré sur l’espérance mathématique.

La variance tient compte de toutes les données, c’est la meilleure


caractéristique de dispersion (nombreuses applications en statistique).
Indicateurs 42

Etendue:
Est la quantité :
E = xmax − xmin

L’étendue est facile à calculer.

Elle ne tient compte que des valeurs extrêmes de la série; elle ne dépend ni du
nombre, ni des valeurs intermédiaires.
Séries statistiques à deux dimensions 43

On s’intéresse à deux variables X et Y . Ces deux variables sont mesurées sur


les n unités d’observation. Pour chaque unité, on obtient donc deux mesures.
La série statistique est alors une suite de n couples des valeurs prises par les
deux variables sur chaque individu :
(x1 , y1 ),..., (xi , yi ),..., (xn , yn ).

Chacune des deux variables peut être, soit quantitative, soit qualitative. On
examine deux cas.

• Les deux variables sont quantitatives.


• Les deux variables sont qualitatives.
Séries statistiques à deux dimensions 44
Variables quantitatives: On dispose d’une série de n observations, des deux
variables X et Y , représentées par un nuage de points dans lequel un point Mi
à pour coordonnées (xi , yi ).
Les nuages de points associés à des séries statistiques peuvent présenter
plusieurs formes:
le nuage présente un caractère linéaire, une allure d’une courbe qui n’est pas
une droite ou n’a pas de structure particulière. Les variables X et Y peuvent
être analysées séparément. On peut calculer tous les paramètres dont les
moyennes et les variances:
n n
1X 2 1X 2
x̄ = xi ; et σx = (xi − x̄)
n i=1 n i=1
n n
1X 2 1X 2
ȳ = yi ; et σy = (yi − ȳ)
n i=1 n i=1
Ces paramètres sont appelés paramètres marginaux : variances marginales,
moyennes marginales, écarts-types marginaux, quantiles marginaux...
Séries statistiques à deux dimensions 45
On mesure le poids Y et la taille X de 20 individus.

yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187

Représenter le nuage de points puis calculer les moyennes marginales et les


écart-type marginaux.
Séries statistiques à deux dimensions 46

La covariance:
La covariance est définie:
n
1X
cov(x, y) = (xi − x̄) (yi − ȳ)
n i=1

• La covariance peut prendre des valeurs positives, négatives ou nulles.


• Quand xi = yi , pour tout i = 1, ..., n, la covariance est égale à la variance.
Remarque importante: (En exrecice) La covariance peut également s’écrire:
n
1X
cov(x, y) = xi yi − x̄ȳ
n i=1

Pour l’exemple précédent calculer la covariance entre les deux variables.


Séries statistiques à deux dimensions 47

La corrélation:
Le coefficient de corrélation est la covariance divisée par les deux écart-types
marginaux:
cov(x, y)
r(x, y) =
σx σy
Le coefficient de détermination est le carré du coefficient de corrélation:
2 cov(x, y)2
r (x, y) =
σx2 σy2
Pour l’exemple précédent calculer la corrélation entre les deux variables.
Séries statistiques à deux dimensions 48

1. Le coefficient de corrélation mesure la dépendance linéaire entre deux


variables
2. −1 ≤ r(x, y) ≤ 1
3. Si le coefficient de corrélation est positif, les points sont alignés le long
d’une droite croissante.
4. Si le coefficient de corrélation est négatif, les points sont alignés le long
d’une droite décroissante.
5. Si le coefficient de corrélation est nul ou proche de zéro, il n?’y a pas de
dépendance linéaire.
Ajustement linéaire 49

Préciser une liaison éventuelle entre deux variables statistiques pour lesquelles
on dispose d’une série d’observations jointes. Par exemples:
• La taille et le poids d’un groupe d’individus.
• Le salaire et le solde bancaire moyen des clients d’une banque.
• La consommation et le revenu d’un groupe d’individus.
On dispose d’une série de n observations, des deux variables X et Y ,
représentées par un nuage de points dans lequel un point i à pour coordonnées
(xi , yi ).
Les nuages de points associés à des séries statistiques peuvent présenter
plusieurs formes:
le nuage présente un caractère linéaire, une allure d’une courbe qui n’est pas
une droite ou n’a pas de structure particulière.
Ajustement linéaire 50

Il existe plusieurs méthodes pour représenter la droite d’ajustement, on citera:


• La méthode à la régle;
• La méthode de Mayer: qui consiste à diviser le nuage en deux sous nuages,
calculer le point moyen de chaque sous nuage et puis tracer la droite qui
passe par les deux points moyen.
• La méthode des moindres carrés ordinaires (expliquée ci-dessous).
Ajustement linéaire 51

Le modèle:
Soit Y une variable quantitative, qu’on veut expliquer par une autre variable
quantitative X.
Y est appelée la variable à expliquer.
X est appelée la variable explicative.
L’ajustement linéaire est la recherche de la meilleur droite résumant les
observations: on cherche une relation linéaire

yi = β0 + β1 xi + ei , 1 ≤ i ≤ n

où β0 et β1 sont des paramètres inconnus, et les ei sont les résidus.


βˆ0 et βˆ1 sont les paramètres estimés de β0 et β1 .
ŷi = βˆ0 + βˆ1 xi est la valeur ajustée de la variable explicative associée à la
valeur xi .
ŷ = βˆ0 + βˆ1 x est appelée la droite de régression de y en x.
êi = yi − ŷi sont les résidus estimés.
Ajustement linéaire 52

cov(x, y)
βˆ1 =
V ar(x)
βˆ0 = y − βˆ1 x

1. La droite de régression passe par le point moyen (x, y).


2. Le résidu estimé, êi = yi − ŷi , est l’écart entre la valeur observée de y est la
valeur ajustée.
3. la droite de régression de x en y est : x = λ + µy avec λ et µ sont données
par:
cov(x, y)
µ̂ =
V ar(y)
λ̂ = x − µ̂y

La droite de régression de x en y passe aussi par le point moyen.


Ajustement linéaire 53

Critère de qualité de la régression:

Le carré du coefficient de corrélation de x et y est noté R2 :

R2 = r2 (x, y).

On peut vérifier que:


V ar(ŷ) V ar(ê)
R2 = =1− .
V ar(y) V ar(y)
R2 est la proportion de variance expliquée par la régression.
De plus 0 ≤ R2 ≤ 1.
• Si R2 = 1, les points (xi , yi ) sont alignées.
• Si R2 = 0, y ne dépend pas linéairement de x. x et y sont non corrélées
(r(x, y) = 0).
Ajustement linéaire 54

Pour l’exemple précédent:


• Donner une droite d’ajustement en utilisant la méthode à la régle.
• Donner une droite d’ajustement en utilisant la méthode de Mayer.
• Donner une droite d’ajustement en utilisant la méthode MCO et tracer la.
• Conclure
Séries statistiques à deux dimensions 55

Variables qualitatives:

Si les deux variables X et Y sont qualitatives, alors les données observées sont
une suite de couples de variables
(x1 , y1 ),..., (xi , yi ),..., (xn , yn ),
chacune des deux variables prend comme valeurs des modalités qualitatives.
Les valeurs distinctes de X et Y sont notées respectivement

x1 , ..., xj , ..., xJ

et
y1 , ..., yk , ..., yK .
Séries statistiques à deux dimensions 56

Le Tableau de contingence

Les données observées peuvent être regroupées sous la forme d’un tableau de
contingence:

y1 ... yk ... yK Total


x1 n11 ... n1k ... n1K n1.
.. .. ..
. . .
xj nj1 ... njk ... njK nj.
.. .. ..
. . .
xJ nJ1 ... nJk ... nJK nJ.
Total n.1 ... n.k ... n.K n
Séries statistiques à deux dimensions 57

Les nj. : et n.k sont appelés les effectifs marginaux. Dans ce tableau,
• nj. : représente le nombre de fois que la modalité xj apparaı̂t,
• n.k : représente le nombre de fois que la modalité yk apparaı̂t,
• njk : représente le nombre de fois que les modalités xj et yk apparaissent,
ensemble. On a les relations
J
X
njk = n.k , ∀k = 1, ...K
j=1

K
X
njk = nj. , ∀j = 1, ...J
k=1
K
X J
X J X
X K
n= n.k = nj. = njk
k=1 j=1 j=1 k=1
Séries statistiques à deux dimensions 58

Exemple:
On s’intéresse à une éventuelle relation entre le sexe de 200 personnes et la
couleur des yeux. Le Tableau ci-dessous reprend le tableau de contingence.

Bleu Vert Marron Total


Homme 10 50 20 80
Femme 20 60 40 120
Total 30 110 60 200
Séries statistiques à deux dimensions 59

Tableau des fréquences:


Le tableau de fréquences s’obtient en divisant tous les effectifs par la taille de
l’échantillon :
n.k nj. njk
f.k = , fj. = , fjk =
n n n
Le tableau des fréquences est:

y1 ... yk ... yK Total


x1 f11 ... f1k ... f1K f1.
.. .. ..
. . .
xj fj1 ... fjk ... fjK fj.
.. .. ..
. . .
xJ fJ1 ... fJk ... fJK fJ.
Total f.1 ... f.k ... f.K 1
Séries statistiques à deux dimensions 60

Bleu Vert Marron Total


Homme 0.05 0.25 0.10 0.40
Femme 0.10 0.30 0.20 0.60
Total 0.15 0.55 0.30 1.00
Séries statistiques à deux dimensions 61

Profils lignes et profils colonnes


Un tableau de contingence s’interprète toujours en comparant des fréquences
en lignes ou des fréquences en colonnes (appelés aussi profils lignes et profils
colonnes).
Les profils lignes sont définis par:
njk fjk
fkj = = , ∀k = 1, ...; K et j = 1, ...J
nj. fj.
njk fjk
fjk = = , ∀k = 1, ...; K et j = 1, ...J
n.k f.k
Séries statistiques à deux dimensions 62

Tableau des profils lignes:

Bleu Vert Marron Total


Homme 0.13 0.63 0.25 1.00
Femme 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30 1.00
Tableau des profils colonnes

Bleu Vert Marron Total


Homme 0.33 0.45 0.33 0.40
Femme 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.00 1.00
Séries statistiques à deux dimensions 63
Effectifs théoriques et khi-deux

On cherche souvent une interaction entre des lignes et des colonnes, un lien
entre les variables. Pour mettre en évidence ce lien, on construit un tableau
d’effectifs théoriques qui représente la situation où les variables ne sont pas liées
(indépendance). Ces effectifs théoriques sont construits de la manière suivante:
nj. .n.k
n∗jk =
n
Les effectifs observés njk ont les mêmes marges que les effectifs théoriques n∗jk .
Enfin, les écarts à l’indépendance sont définis par

ejk = njk − n∗jk

La dépendance du tableau se mesure au moyen du khi-deux défini par:


J XK
X e2jk
χ2obs = ∗
j=1
n jk
k=1
Séries statistiques à deux dimensions 64

Le V de Cramer est définit par:


s
χ2obs
V =
n.min(J − 1, K − 1)

Le V de Cramer est compris entre 0 et 1. Il ne dépend ni de la taille de


l’échantillon ni de la taille du tableau. Si V est proche de 0, les deux variables
sont indépendantes. Si V = 1, il existe une relation fonctionnelle entre les
variables.
Séries statistiques à deux dimensions 65

Le Tableau des effectifs théoriques:

Bleu Vert Marron Total


Homme 12 44 24 80
Femme 18 66 36 120
Total 30 110 60 200
Le Tableau des écarts à l’indépendance:

Bleu Vert Marron Total


Homme -2 6 -4 0
Femme 2 -6 4 0
Total 0 0 0 0
Séries statistiques à deux dimensions 66

e2jk
Le Tableau des n∗ :
jk

Bleu Vert Marron Total


Homme 0.33 0.82 0.67 1.82
Femme 0.22 0.55 0.44 1.21
Total 0.56 1.36 1.11 3.03

• Le Khi-deux observé: χ2obs = 3.03


• Comme le tableau a deux lignes min(J − 1, K − 1) = min(2 − 1, 3 − 1) = 1.
• On a V = 0.123. La dépendance entre les deux variables est très faible.

Vous aimerez peut-être aussi