0% ont trouvé ce document utile (0 vote)
94 vues59 pages

Introduction à la statistique descriptive

Ce document présente les concepts et le vocabulaire de base de la statistique. Il définit les notions clés comme la population, l'individu, la variable statistique et l'épreuve statistique.

Transféré par

Iyad Įý
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
94 vues59 pages

Introduction à la statistique descriptive

Ce document présente les concepts et le vocabulaire de base de la statistique. Il définit les notions clés comme la population, l'individu, la variable statistique et l'épreuve statistique.

Transféré par

Iyad Įý
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Paramètres de tendance central

Paramètres de position
et de dispersion et de dispersion

Ajustement linéaire
Représentation graphique Représentation graphique
de séries statistiques d’une V.S continue

Description numérique
Fréquence partielle - Fréquence cumulée Caractère continue

Représentation des séries statistiques


Effectif partiel - effectif cumulé à deux variables

Étude d’une variable statistique


continue

Vocabulaire
Étude d’une variable statistique
discrète

Types du caractères

Étude d’une variable statistique


à deux dimensions

Étude d’une variable statistique


à une dimension

Généralités sur la statistique


Informatique et statistique

Statistiques descriptives
1

Chapitre 1

Généralités sur la statistique

La statistique est l’étude de la collecte de données, leur analyse, leur traitement, l’in-
terprétation des résultats et leur présentation afin de rendre les données compréhensibles
par tous. C’est à la fois une science, une méthode et un ensemble de techniques.

L’analyse des données est utilisée pour d’écrire les phénomènes étudiés, faire des pré-
visions et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel
pour la compréhension et la gestion des phénomènes complexes.

Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile
dans tous les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les
filières universitaires, de l’économie à la biologie en passant par la psychologie et bien sûr
les sciences de l’ingénieur. La statistique consiste à :

– Recueillir des données.


– Présenter et résumer ces données.
– Tirer des conclusions sur la population étudiée et d’aider à la prise de décision.
– En présence de données dépendant du temps, nous essayons de faire de la prévision.

1.1 Vocabulaire

Les statistiques consistent en diverses méthodes de classement des données tels que les
tableaux, les histogrammes et les graphiques, permettant d’organiser un grand nombre de
données. Les statistiques se sont développées dans la deuxième moitié du XIXe siècle dans
le domaine des sciences humaines (sociologie, économie, anthropologie, ...). Elles se sont
dotées d’un vocabulaire particulier.
2 1.1. VOCABULAIRE

Vocabulaire

Population
Individu
Epreuve statistique
Modalités
Caractéristiques
(Variable statisitque)

1.1.1 Épreuve statistique

Les statistiques descriptives visent à étudier les caractéristiques d’un ensemble d’ob-
servations comme les mesures obtenues lors d’une expérience. L’expérience est l’étape pré-
liminaire à toute étude statistique. Il s’agit de prendre "contact" avec les observations. De
manière générale, la méthode statistique est basée sur le concept suivant.

Définition 1
L’épreuve statistique est une expérience que l’on provoque.

Exemple 1 (La durée de vie des lampes)


Imaginons le cas suivant : un fabricant d’ampoules électriques ayant le choix entre
4 types de filaments se propose d’étudier l’influence de la nature du filament sur la
durée de vie des ampoules fabriquées. Pour ce faire, il va faire fabriquer 4 échantillons
d’ampoules identiques, sauf en ce qui concerne le filament, faire brûler les ampoules
jusqu’à extinction, puis comparer les résultats obtenus.

1.1.2 Population

En statistique, on travaille sur des populations. Ce terme vient du fait que la démo-
graphie, étude des populations humaines, a occupé une place centrale aux débuts de la
statistique, notamment au travers des recensements de population. Mais, en statistique,
le terme de population s’applique à tout objet statistique étudié, qu’il s’agisse d’étudiants
(d’une université ou d’un pays), de ménages ou de n’importe quel autre ensemble sur lequel
on fait des observations statistiques. Nous définissons la notion de population.

page 2
1.1. VOCABULAIRE 3

Définition 2
On appelle population l’ensemble sur lequel porte notre étude statistique. Cet ensemble
est noté Ω.

Exemple 2
– On considère l’ensemble des étudiants de la section A. On s’intéresse aux
nombre de frères et sœurs de chaque étudiant. Dans ce cas

Ω = ensemble des étudiants.

– Si l’on s’intéresse maintenant a la circulation automobile dans une ville, la po-


pulation est alors constituée de l’ensemble des véhicules susceptibles de circuler
dans cette ville à une date donnée. Dans ce cas

Ω = ensemble des véhicules.

1.1.3 Individu (unité statistique)

Une population est composée d’individus. Les individus qui composent une population
statistique sont appelés unités statistiques.

Définition 3
On appelle individu tout élément de la population Ω, il est noté ω (ω dans Ω).

Remarque 1
L’ensemble Ω peut être un ensemble de personnes, de choses ou d’animaux...
L’unité statistique est un objet pour lequel nous sommes intéressés à recueillir de l’in-
formation.

Exemple 3
– Dans l’exemple indiqué ci-dessus, un individu est tout étudiant de la section.
– Si on étudie la production annuelle d’une usine de boîtes de boisson en métal
(canettes). La population est l’ensemble des boîtes produites durant l’année et

page 3
4 1.1. VOCABULAIRE

une boîte constitue un individu.

1.1.4 Caractère (variable statistique)

La statistique « descriptive », comme son nom l’indique cherche à décrire une po-
pulation donnée. Nous nous intéressons au caractéristique des unités qui peuvent prendre
différentes valeurs.

Définition 4
On appelle caractère (ou variable statistique, dénotée V.S) toute application

X : Ω → C.

L’ensemble C est dit : ensemble des valeurs du caractère X (c’est ce qui est mesuré ou
observé sur les individus)

Exemple 4
Taille, température, nationalité, couleur des yeux, catégorie socioprofessionnelle ...

Remarque 2
Soit Ω un ensemble. On appelle et on note Card(Ω), le nombre d’éléments de Ω.

Card(Ω) := nombre d’éléments de Ω = N.

1.1.5 Modalités

Les modalités d’une variable statistique sont les différentes valeurs que peut prendre
celle-ci.

Exemple 5
– Variable est " situation familiale "
Modalités sont " célibataire, marié, divorcé "

page 4
1.2. TYPES DES CARACTÈRES 5

– Variable est" statut d’interrupteur "


Modalités sont " 0 et 1 ".

– Variable est " catégories socio-professionnelles "


Modalités sont " Employés, ouvriers, retraités,... "

Les modalités sont les différentes situations dans lesquelles les individus peuvent se
trouver à l’égard du caractère considéré.

1.2 Types des caractères

Nous distinguons deux catégories de caractères : les caractères qualitatifs et les carac-
tères quantitatifs.

1.2.1 Caractère qualitatif

Les caractères qualitatifs sont ceux dont les modalités ne peuvent pas être ordonnées,
c’est-à-dire que si l’on considère deux caractères pris au hasard, on ne peut pas dire de l’un
des caractères qu’il est inférieur ou égal à l’autre. Plus précisément, nous avons la définition
suivante.

Définition 5
Les éléments de C sont représentés par autre chose que des chiffres.

Exemple 6
L’état d’une maison : on peut considérer les modalités suivantes
– Ancienne.
– Dégradée.
– Nouvelle.

page 5
6 1.2. TYPES DES CARACTÈRES

– Rénovée.

1.2.2 Caractère quantitatif

Les caractères quantitatifs sont des caractères dont les modalités peuvent être ordon-
nées. Ainsi, l’âge, la taille de vie ou le salaire d’un individu sont des caractères quantitatifs.
Donc, nous avons la définition suivante.

Définition 6
L’ensemble des valeurs est représenté par des chiffres. De même, il est partagé en deux
sortes de caractères, discret et continu (voir l’exemple).

Exemple 7
– Le salaire d’employés d’une usine.
Modalités : 10000da , 20000da...
Type : Discret.

– La rigidité des ressorts.


Modalités : [10, 20] N/m
Type : continu.

En général, la variable quantitative discrète est une variable ne prenant que des valeurs
entières (plus rarement décimales). Le nombre de valeurs distinctes d’une telle variable
est habituellement assez faible. Citons, par exemple, le nombre de maisons par quartier
d’une ville. Une variable quantitative est dite continue lorsque les observations qui lui sont
associées ne sont pas des valeurs précises, mais des intervalles. C’est le cas lorsque nous
avons un grand nombre d’observations distinctes.

La statistique descriptive a pour objectif de synthétiser l’information contenue dans


les jeux de données au moyen de tableaux, figures ou résumés numériques. Les variables
statistiques sont analysées différemment selon leur nature (quantitative, qualitative).

page 6
1.3. EXERCICES CORRIGÉS 7

1.3 Exercices corrigés

Exercice 1
- La variable statistique "couleur de maisons d’un quartier" est-elle :

qualitative quantitative

discrète continue

La variable statistique "revenu brut" est-elle :

qualitative quantitative

discrète continue

La variable statistique "nombre de maisons vendues par ville" est-elle :

qualitative quantitative

discrète continue

Solution : Pour le premier cas, la variable statistique est qualitative. Pour le deuxième cas,
la variable statistique est quantitative continue. Pour le troisième cas, la variable statistique
est quantitative discrète.

page 7
Chapitre 2

Étude d’une variable statistique


discrète

Le caractère statistique peut prendre un nombre fini raisonnable de valeurs (note,


nombre d’enfants, nombre de pièces, ...). Dans ce cas, le caractère statistique étudié est
alors appelé un caractère discret.

Dans toute la suite du chapitre, nous considérons la situation suivante :

X : Ω → {x1 , x2 , ..., xn },

avec Card(Ω) := N est le nombre d’individus dans notre étude.

Nous allons utiliser souvent l’exemple ci-dessous pour illustrer les énoncés de ce cha-
pitre.

Exemple 8
Une enquête réalisée dans un village porte sur le nombre d’enfants à charge par famille.
On note X le nombre d’enfants, les résultats sont données par ce tableau :

xi 0 1 2 3 4 5 6

ni (Effectif) 18 32 66 41 32 9 2

Nous avons
– Ω ensemble des familles.
– ω une famille.
– X nombre d’enfants par famille

X : ω → X(ω).
2.1. EFFECTIF PARTIEL - EFFECTIF CUMULÉ

On lit, à la famille ω, on associe X(ω) = le nombre d’enfants de cette famille.

2.1 Effectif partiel - effectif cumulé

On étudie ici un caractère statistique numérique représenté par une suite xi décrivant
la valeur du caractère avec i varie de 1 à k.

2.1.1 Effectif partiel (fréquence absolue)

Définition 7
Pour chaque valeur xi , on pose par définition

ni = Card{ω ∈ Ω : X(ω) = xi }.

ni : le nombre d’individus qui ont le même xi , ça s’appelle effectif partiel de xi .

ni w
xi

Figure 2.1: Le nombre d’individus qui prennent la valeur xi .

Exemple 9
Dans l’exemple précédent, 66 est le nombre de familles qui ont 2 enfants.

xi ··· 2 ···

ni (Effectif) ··· 66 ···

page 09
2.2. FRÉQUENCE PARTIELLE - FRÉQUENCE CUMULÉE

2.1.2 Effectif cumulé

Définition 8
Pour chaque valeur xi , on pose par définition

Ni = n1 + n2 + ... + ni .

L’effectif cumulé Ni d’une valeur est la somme de l’effectif de cette valeur et de tous
les effectifs des valeurs qui précèdent.

Exemple 10
Dans l’exemple précédent : 50 est le nombre de familles qui ont un nombre d’enfant
inférieur à 1. Nous le regardons dans le tableau suivant :

xi 0 1 2 3 4 5 6

Ni 18 50 116 157 189 198 200

Interprétation : Ni est le nombre d’individus dont la valeur du caractère est inférieur


ou égale à xi . De ce fait, l’effectif total est donné par
n
X
N = card{Ω) = ni .
i=1

Dans notre exemple précédent, nous avons N = 200.

2.2 Fréquence partielle - Fréquence cumulée

Typiquement les effectifs ni sont grands et il est intéressant de calculer des grandeurs
permettant de résumer la série.

2.2.1 Fréquence partielle (fréquence relative)

Définition 9
Pour chaque valeur xi , on pose par définition

ni
fi := .
N

page 10
2.2. FRÉQUENCE PARTIELLE - FRÉQUENCE CUMULÉE

fi s’appelle la fréquence partielle de xi . La fréquence d’une valeur est le rapport de


l’effectif de cette valeur par l’effectif total.

Remarque 3
On peut remplacer fi par fi × 100 qui représente alors un pourcentage.

Interprétation : fi = est le pourcentage des ω tel que X(ω) = xi .

Exemple 11
Dans l’exemple précédent, 0, 33 := il y a 33% de familles dont le nombre d’enfants égale
à 2. Ce pourcentage est calculé de la façon suivante (N = 200) :

xi ··· 2 ···

ni (Effectif) ··· 66 ···

Ni (Effectif) ··· 66
200 = 0.33 ···

Nous pouvons conclure la propriété suivante.

Proposition 1
Soit fi défini comme précédemment. Alors,

n
X
fi = 1.
i=1

Démonstration. Rappelons que


n
X
ni = N.
i=1

Ce qui implique que

n n n
X X ni 1 X
fi = = ni = 1.
i=1 i=1
N N i=1

page 11
2.2. FRÉQUENCE PARTIELLE - FRÉQUENCE CUMULÉE

2.2.2 Fréquence cumulée

Définition 10
Pour chaque valeur xi , on pose par définition

Fi = f1 + f2 + ... + fi .

La quantité Fi s’appelle la fréquence cumulée de xi .

Interprétation : Fi = est le pourcentage des ω tel que la valeur X(ω) est inférieure
ou égale à xi .

Exemple 12
- Dans l’exemple précédent, 0.785 représente 78.5% de familles dont le nombre d’en-
fants est inférieur ou égale à 3.
- Dans un deuxième exemple, nous nous intéressons aux nombres d’erreurs d’assem-
blage sur un ensemble d’appareils,

Nombre d’erreurs Nombre d’appareils Fréquences cumulées

0 101 0.26

1 140 0.61

2 92 0.84

3 42 0.94

4 18 0.99

5 3 1

Nous avons 94% des appareils qui ont un nombre d’erreurs d’assemblage inférieur ou
égale à 3.

Nous avons vu que les tableaux sont un moyen souvent indispensable, en tous cas très
utile, de classification et de présentation des unités d’une population statistique. Dans le pa-
ragraphe suivant, nous allons voir comment on traduit ses tableaux en graphique permettant
aussi de résumer d’une manière visuelle les données.

page 12
2.3. REPRÉSENTATION GRAPHIQUE DES SÉRIES STATISTIQUES

2.3 Représentation graphique des séries statistiques

On distingue les méthodes de représentation d’une variable statistique en fonction de


la nature de cette variable (qualitative ou quantitative). Les représentations recommandées
et les plus fréquentes sont les tableaux et les diagrammes (graphe).

Le graphique est un support visuel qui permet :

La synthèse : visualiser d’un seul coup d’œil les principales caractéristiques (mais on
perd une quantité d’informations), voir Figure 2.2.

Figure 2.2: Quelques caractéristiques du graphique

La découverte : met en évidence les tendances.


Le contrôle : on aperçoit mieux les anomalies sur un graphique que dans un tableau.
La recherche des régularités : régularité dans le mouvement, répétition du phéno-
mène.

2.3.1 Distribution à caractère qualitatif

A partir de l’observation d’une variable qualitative, deux diagrammes permettent de


représenter cette variable : le diagramme en bandes (dit tuyaux d’orgue) et le diagramme
à secteurs angulaires (dit camembert).

page 13
2.3. REPRÉSENTATION GRAPHIQUE DES SÉRIES STATISTIQUES

Tuyaux d’orgues

Nous portons en abscisses les modalités, de façon arbitraire. Nous portons en ordonnées
des rectangles dont la longueur est proportionnelle aux effectifs, ou aux fréquences, de chaque
modalité (voir Figure 2.3).

Figure 2.3: Tuyaux d’orgues

Diagramme par secteur (diagramme circulaire)

Les diagrammes circulaires, ou semi-circulaires, consistent à partager un disque ou un


demi-disque, en tranches, ou secteurs, correspondant aux modalités observées et dont la
surface est proportionnelle à l’effectif, ou à la fréquence, de la modalité (voir Figure 2.4).

Figure 2.4: Diagramme par secteur

Le degré d’un secteur est déterminé à l’aide de la règle de trois de la manière suivante :

N −→ 360◦

ni −→ di (degré de la modalité i).

page 14
2.3. REPRÉSENTATION GRAPHIQUE DES SÉRIES STATISTIQUES

Donc,
ni × 360
di = .
N

2.3.2 Distribution à caractère quantitatif discret

A partir de l’observation d’une variable quantitative discrète, deux diagrammes per-


mettent de représenter cette variable : le diagramme en bâtons et le diagramme cumulatif
(voir ci-dessous).

Pour l’illustration, nous prenons l’exemple précédent de départ (nombre d’enfants par
famille). Nous rappelons le tableau statistique associe.

xi 0 1 2 3 4 5 6
ni 18 32 66 41 32 9 2

Diagramme à bâtons

On veut représenter cette répartition sous la forme d’un diagramme en bâtons. À


chaque marque correspond un bâton. Les hauteurs des bâtons sont proportionnelles aux
effectifs représentés (voir Figure 2.5).

Figure 2.5: Diagramme à bâtons

2.3.3 Représentation sous forme de courbe et fonction de répartition

Nous avons déjà abordé les distributions cumulées d’une variable statistique. Nous
allons dans cette partie exploiter ses valeurs cumulées pour introduire la notion de la fonction
de répartition. Cette notion ne concerne que les variables quantitatives.

page 15
2.3. REPRÉSENTATION GRAPHIQUE DES SÉRIES STATISTIQUES 19

Soit la fonction Fx : R → [0, 1] définie par

Fx (x) := pourcentage des individus dont la valeur du caractère est ≤ x.

Cette fonction s’appelle la fonction de répartition du caractère X.

Remarque 4
Pour tout i ∈ {1, . . . , n}, on a
Fx (xi ) = Fi .

La courbe de Fx passe par les points (x1 , F1 ), (x2 , F2 ), ... et (xn , Fn ).

En se basant sur notre exemple, la courbe de Fx est représentée ci-dessous (Figure 2.6)
sur
R =] − ∞, 0[ ∪ [0, 1[ ∪ .... ∪ [6, +∞[.

Dans ce cas, nous avons

– Si x < 0, alors Fx (x) = 0.

– Si x ∈ [0, 1[, alors Fx (x) = 0.09.

...

– Si x ≥ 6, alors Fx (x) = 1.

Cette courbe s’appelle "la courbe cumulative des fréquences". La courbe cumulative est une
courbe en escalier représentant les fréquences cumulées relatives.

Figure 2.6: Représentation d’une variable quantitative discrète par la courbe cumulative.

page 16
20 2.4. PARAMÈTRES DE POSITION

Proposition 2
La fonction de répartition satisfait, pour i ∈ {1, . . . , n},

– l’égalité, Fx (xi ) = Fi ,

si x < x1 ,




 0,



si x1 ≤ x < x2 ,

 F1 ,

– l’expression, Fx (x) = .




 Fi , si xi ≤ x < xi+1 ,




 1, si x ≥ xn .

2.4 Paramètres de position (caractéristique de tendance cen-


trale)

Les indicateurs statistiques de tendance centrale (dits aussi de position) considérés


fréquemment sont la moyenne, la médiane et le mode.

Le mode

Le mode d’une V.S est la valeur qui a le plus grand effectif partiel (ou la plus grande
fréquence partielle) et il est dénoté par M0 .

Exemple 13
Dans l’exemple précédent, le mode est égal à 2 qui correspondant au plus grand effectif.

page 17
2.4. PARAMÈTRES DE POSITION

Remarque 5
On peut avoir plus d’un mode ou rien.

La médiane

On appelle médiane la valeur Me de la V.S X qui vérifie la relation suivante :

Fx (M e− ) < 0.5 ≤ Fx (M e+ ) = Fx (M e).

La médiane partage la série statistique en deux groupes de même effectif.

Exemple 14
Dans l’exemple précédent, la relation

Fx (0) = 0 < 0.5 ≤ Fx (0+ ) = 0.09

n’est pas satisfaite. Donc, la médiane est différente de 0. Par contre, nous avons

Fx (2− ) = 0.25 < 0.5 ≤ Fx (2+ ) = F (2) = 0.58.

Donc, M e = 2.

La moyenne

On appelle moyenne de X, la quantité


n n
1 X X
x= ni xi = fi xi ,
N i=1 i=1

avec N = Card(Ω). On peut donc exprimer et calculer la moyenne dite "arithmétique" avec
des effectifs ou avec des fréquences.

Exemple 15
Si x = 2.46, alors nous avons au moyenne une famille de quartier a 2.46 d’enfants.

La valeur de la moyenne est abstraite. Comme dans l’exemple précédent, x = 2.46 est
un chiffre qui ne correspond pas à un fait concret.

page 18
2.5. PARAMÈTRES DE DISPERSION (VARIABILITÉ)

La moyenne arithmétique dont on vient d’indiquer la formule est dite moyenne pon-
dérée ; cela signifie que chaque valeur de la variable est multipliée (pondérée) par un coef-
ficient, ici par l’effectif ni qui lui correspond. Dans ce cas, chaque valeur xi de la variable
intervient dans le calcul de la moyenne autant de fois qu’elle a été observée. On parle de
moyenne arithmétique simple quand on n’effectue pas de pondération. Par exemple, si 5
étudiants ont pour âge respectif 18, 19, 20, 21 et 22 ans, leur âge moyen est donné par
(18 + 19 + 20 + 21 + 22)/5 = 20 ans.

Remarque 6
Nous mentionnons qu’il existe d’autres moyennes que la moyenne arithmétique

2.5 Paramètres de dispersion (variabilité)

Les indicateurs statistiques de dispersion usuels sont l’étendue, la variance et l’écart-


type.

L’étendue

La différence entre la plus grande valeur et la plus petite valeur du caractère, donnée
par la quantité
e = xmax − xmin ,

s’appelle l’étendue de la V.S X. Le calcul de l’étendue est très simple. Il donne une première
idée de la dispersion des observations. C’est un indicateur très rudimentaire et il existe des
indicateurs de dispersion plus élaborés (voir ci-dessous).

La variance

On appelle variance de cette série statistique X, le nombre


n
X
V ar(X) = fi (x − xi )2
i=1

On dit que la variance est la moyenne des carrés des écarts à la moyenne x. Les « écarts à
la moyenne » sont les (x − xi ), les « carrés des écarts à la moyenne » sont donc les (x − xi )2 .
En faisant la moyenne de ces écarts, on trouve la variance.

Le théorème suivant (Théorème de König-Huygens) donne une identité remarquable re-


liant la variance et la moyenne, parfois plus pratique dans le calcule de la variance.

page 19
2.5. PARAMÈTRES DE DISPERSION (VARIABILITÉ)

Théorème 1
Soit (xi , ni ) une série statistique de moyenne x et de variance V ar(X). Alors,

n
X
V ar(X) = fi x2i − x2 .
i=1

Démonstration. Par définition, nous avons


n
X
n n
ni (x − xi )2
X 1 X i=1
V ar(X) = fi (x − xi )2 = ni (x − xi )2 = n .
i=1
N i=1
X
ni
i=1

Donc,
n
X n
X
ni (x − xi )2 ni (x2 + x2i − 2xxi )
i=1 i=1
V ar(X) = n = n .
X X
ni ni
i=1 i=1

Par égalité, nous avons


n
X n
X n
X
ni x2 ni x2i 2ni xxi
i=1 i=1 i=1
V ar(X) = n + n − n .
X X X
ni ni ni
i=1 i=1 i=1

Ce qui implique que


n
X
ni x2i n
i=1 1 X
V ar(X) = x2 + n − 2xx = −x2 + ni x2i .
X N i=1
ni
i=1

Remarque 7
Dans l’utilisation de la formule du théorème précédent, il faut veiller à remplacer x par
sa valeur approchée la plus précise possible.

page 20
2.6. EXERCICES CORRIGÉS

L’écart type

La quantité q
σX = V ar(x)

s’appelle l’écart type de la V.S X.

Remarque 8
Le paramètre σx mesure la distance moyenne entre x et les valeurs de X (voir Figure
2.7). Il sert à mesurer la dispersion d’une série statistique autour de sa moyenne.

– Plus il est petit, plus les caractères sont concentrés autour de la moyenne (on
dit que la série est homogène).
– Plus il est grand, plus les caractères sont dispersés autour de la moyenne (on
dit que la série est hétérogène).

Figure 2.7: La dispersion d’une série statistique autour de sa moyenne

Exercice 1
- Le tableau suivant donne la répartition selon le groupe sanguin de 40 individus pris au
hasard dans une population,

Groupes sanguins A B AB O

L’effectif 20 10 n3 5

1. Déterminer la variable statistique et son type.


2. Déterminer l’effectif des personnes ayant un groupe sanguin AB.

page 21
2.6. EXERCICES CORRIGÉS

3. Donner toutes les représentations graphiques possibles de cette distribution.

Solution 1 - La population dans cette étude est les 40 personnes. Donc N = 40. La variable
statistique est le groupe sanguin des individus et elle est qualitative.

2 - L’effectif total est égal à 40. Par conséquent,

4
X
N = 40 = ni .
i=1

Alors,
20 + 10 + n3 + 5 = 40.

Ce qui implique que n3 = 5.

3- Nous avons deux représentations possibles "Tyaux d’orgue" et "Diagramme en secteur".

Effectif

20 AB
15
A
10 O
5
B
o AB B A Groupes sanguins

Figure 2.8: A gauche "Tyaux d’orgue" et à droite "Diagramme en secteur"

Les angles dans la figure 2.8 se calcule en utilisant la règle de trois.

Exercice 2
- Le gérant d’un magasin vendant des articles de consommation courante a relevé pour un
article particulier qui semble connaître une très forte popularité, le nombre d’articles vendus
par jour. Son relevé a porté sur les ventes des mois de Mars et Avril, ce qui correspond à
52 jours de vente. Le relevé des observations se présente comme suit :

7 13 8 10 9 12 10 8 9 10 6 14 7 15 9 11 12 11 12 5 14 11 8 10 14 12 8

5 7 13 12 16 11 9 11 11 12 12 15 14 5 14 9 9 14 13 11 10 11 12 9 15.

1. Quel type est la variable statistique étudiée.


2. Déterminer le tableau statistique en fonction des effectifs, des fréquences, des effectifs
cumulés et des fréquences cumulés.
3. Tracer le diagramme des bâtonnés associé à la variable X.

page 22
2.6. EXERCICES CORRIGÉS

4. Soit Fx la fonction de répartition. Déterminer Fx .


5. Calculer le mode Mo et la moyenne arithmétique x.
6. Déterminer à partir du tableau puis à partir du graphe, la valeur de la médiane Me.
7. Calculer la variance et l’écart-type.

Solution 1 - La population est les 52 jours et la variable statistique étudiée est le nombre
d’articles vendus par jour. Son type est bien évidement quantitatif discret (nombre).

2 - Le tableau statistique est donné par

xi 5 6 7 8 9 10 11 12 13

ni 3 1 3 4 7 5 8 8 3

fi 3/52 1/52 3/52 4/52 7/52 5 /52 8 /52 8/52 3 /52

Ni 3 4 7 11 18 23 31 39 42

Fi 3/52 4/52 7/52 11/52 18/52 23/52 31/52 39/52 42/52

P
14 15 16

6 3 1 N = 52

6 /52 3/52 1/52 1

48 51 52 ∅

48/52 51/52 1 ∅

3 - L’élaboration du diagramme des bâtonnets de X,

4 - La fonction de répartition est donnée par



0, si x < 5,








si 5 ≤ x < 6,




 3/52,



si 6 ≤ x < 7,

 4/52,

Fx (x) =




 7/52, si 7 ≤ x < 8,



 .. ..



 . .




1, si x ≥ 16.

page 23
ni ou
fi
8

5 6 7 8 9 10 11 12 13 14 15 16 xi
Figure 2.9: Diagramme à bâtons

5 - Le mode est la valeur de la variable qui a le plus grand effectif, c’est à dire, ni = 8.
Donc,
Mo = 11 et M0 = 12.

La moyenne arithmétique est donnée par ;

12 12
1 X X
x= ni xi = fi xi .
N i=1 i=1

Par conséquent,

1 555
x= (3 × 5 + 1 × 6 + 5 × 7 + ... + 1 × 16) = = 10.67.
52 52

6 - La médiane est la valeur de la variable qui divise la population de la série statistique en


deux parties égales. Nous avons,

23 31
Fx (11− ) = < 0.5 ≤ Fx (11+ ) = F (M e) = .
52 52

Donc, M e = 11.

7 - Nous commençons par la variance,


n
1 X
V ar(X) = ni x2i − x2 .
N i=1

Après calcule, on trouve


V ar(X) = 7.64.

Par conséquent, l’écart type est calculé à partir de


q
σX = V ar(x) = 2.76.

page 24
Chapitre 3

Étude d’une variable statistique


continue

Nous rappelons qu’une variable statistique (V.S) quantitative concerne une grandeur
mesurable. Ses valeurs sont des nombres exprimant une quantité et sur lesquelles les opé-
rations arithmétiques (addition, multiplication, etc,...) ont un sens. Nous allons dans ce
chapitre se focaliser sur la V.S quantitative continue.

3.1 Caractère continu

Définition 11
On appelle V.S continue (ou caractère continu) toute application de Ω et à valeurs
réelles et qui prend un nombre "important" de valeurs (Les caractères continus sont
ceux qui ont une infinité de modalités).

Exemple 16
Soit Ω l’ensemble des nouveaux nés au C.H.U d’une ville pendant les 3 premiers mois
de 2017. Nous désignons par X le poids des nouveaux nés. On suppose que

xmin = 2.701 et xmax = 5.001.

Remarque 9
Comment étudier ce caractère ?
3.1. CARACTÈRE CONTINU

Réponse : Partager les valeurs prises par X en classes de valeurs.

3.1.1 Classe de valeurs

Définition 12
On appelle classe de valeurs de X un intervalle de type [a, b[ tel que X ∈ [a, b[ si et
seulement si a ≤ X(w) < b, c’est à dire, que les valeurs du caractère sont dans la classe
[a, b[.

Dès qu’un caractère est identifié en tant que continu, ces modalités Ck = [Lk , Lk+1 [
sont des intervalles avec

– Lk : borne inférieure.

– Lk+1 : borne supérieure.

– ak = Lk+1 − Lk : son amplitude, son pas ou sa longueur.

– Ck = xk = (Lk+1 + Lk )/2 : son centre.

Lk+1+Lk
C k=
2

Lk ak Lk+1

Remarque 10
On supposera dans tous les cas étudiés que la distribution à l’intérieur des classes est
uniforme (voir Figure 3.1). Cette hypothèse permet de justifier le fait qu’on choisisse
le centre des classes comme représentant.

3.1.2 Nombre de classes

En combien de classes partageons-nous les valeurs ? la réponse n’est pas unique. Soit N
l’effectif total. Nous pouvons considérer dans ce cours trois réponses à titre d’exemple.

page 26
3.1. CARACTÈRE CONTINU 35

Figure 3.1: Une représentation de la distribution des valeurs à l’intérieur d’une classe.

√ √ √
1. Une réponse : N , [ N ] (partie entière) ou [ N ] + 1. Donc, le nombre de classes

kw N.

Exemple 17

Considérons 30 valeurs entre 56.5 cm et 97.8 cm. Dans ce cas, k = 30 et on
prend k = 6.

2. Une réponse : la formule de Sturge

k = 1 + 3.3 log10 (N ).

3. Une réponse : la formule de Yule



4
k = 2.5 N .

Remarque 11
De ce fait, on peut avoir plusieurs tableaux statistiques selon le nombre de classes.

Exemple 18
Si on prend N = 30, alors le nombre de classes est donné, par exemple, par

page 27
3.1. CARACTÈRE CONTINU

- soit la formule de Sturge k = 1 + 3.3 log10 (30) w 6,



- soit la formule de Yule k = 2.5 4 30 w 6.
Nous mentionnons que les deux formules sont presque pareils si N  200.

Nous rappelons maintenant la définition de l’étendu. De plus, dans le cas continue


nous parlons aussi du pas ou de la longueur de la classe.

Définition 13
Le nombre
e = xmax − xmin

s’appelle étendu de X. Dans ce cas, on peut définir le pas par

étendu xmax − xmin


ai := = .
nombre de classes k

3.1.3 Effectif et fréquence d’une classe

Définition 14
La quantité
ni := Card{w ∈ Ω : X(w) ∈ Ci }

s’appelle effectif partiel de Ci .

w
ni
Li Li+1

Figure 3.2: Le nombre d’individus qui prennent des valeurs xi dans Ci .

Définition 15
Le nombre
ni
fi :=
N
est appelé la fréquence partielle de Ci .

page 28
3.2. REPRÉSENTATION GRAPHIQUE D’UN CARACTÈRE CONTINU

Définition 16
On appelle l’effectif cumulé de Ci la quantité

i
X
Ni := nj .
j=1

Définition 17
On appelle la fréquence cumulée de Ci la quantité

i
X
Fi := fj .
j=1

Remarque 12
Nous avons, comme dans le chapitre précédent, les interprétations suivantes :

– ni : est le nombre d’individus dont les valeurs des caractères sont dans la classe
Ci ,

– fi : est le pourcentage des w tel que X(w) ∈ Ci ,

– Ni : est égale au Card{w : X(w) ∈ C1 ∪ C2 ∪ ... ∪ Ci },

– Fi : est le pourcentage des w tel que

X(w) ∈ C1 ∪ ... ∪ Ci .

3.2 Représentation graphique d’un caractère continu

3.2.1 Histogramme des fréquences (ou effectifs)

Nous pouvons représenter le tableau statistique par un histogramme. Nous reportons


les classes sur l’axe des abscisses et, au-dessus de chacune d’elles, nous traçons un rectangle
dont l’aire est proportionnelle à la fréquence fi (ou l’effectif ni ) associée. Ce graphique est
appelé l’histogramme des fréquences (voir Figure 3.3).

page 29
3.2. REPRÉSENTATION GRAPHIQUE D’UN CARACTÈRE CONTINU

Figure 3.3: Histogramme des fréquences ou des éffctifs.

3.2.2 Fonction de répartition

Notation : Nous allons noter par

Ci = [xmin = a0 , xmin+1 = a1 [.

Définition 18
La fonction Fx : R → [0, 1] définie par Fx (x) représente le pourcentage des individus
tel que la valeur de leur caractère est inférieure ou égale à x. Elle est donnée par

0, si x < a0 ,






f

 1 (x − a0 ),

si a0 ≤ x < a1 ,


Fx (x) = h
 fi+1

 Fi + (x − ai ), si ai ≤ x < ai+1 ,
h






 1, si x ≥ an ,

et elle s’appelle la fonction de répartition de X.

Nous expliquons cette formulation de la fonction de répartition dans cette remarque.

Remarque 13
Nous calculons Fx (x) par extrapolation (voir Figure 3.4). Nous avons déjà F (Li ) = Fi .
De plus,
F (Li+1 ) − F (Li ) F (x) − F (Li )
tan(α) = = .
Li+1 − Li x − Li

page 30
3.3. PARAMÈTRES DE TENDANCE CENTRAL

Ce qui implique la formule de la fonction de répartition

fi+1
F (x) = (x − Li ) + Fi .
h

Figure 3.4: Le calcul de Fx (x) par extrapolation.

La courbe de Fx est nulle avant a0 , constante égale à 1 après an et joint les points (a0 , 0),
(a1 , F1 ),...,(an , 1) par des segments de droites (voir Figure 3.5).

Figure 3.5: La courbe des fréquences cumulées.

3.3 Paramètres de tendance central

On note par Ci le centre de la classe Ci et nous considérons fi la fréquence partielle


de Ci .

page 31
3.3. PARAMÈTRES DE TENDANCE CENTRAL

Figure 3.6: Le centre de la classe.

La moyenne

Définition 19
La quantité
n
X
x= fi Ci
i=1

s’appelle la moyenne de X.

Le mode

La définition suivante permet de comprendre la démarche à suivre pour calculer le mode


d’une manière exacte et qui se trouve dans une des classes appelée "classe modale".

Définition 20
Nous définissions la classe modale comme étant la classe des valeurs de X qui a le plus
grand effectif partiel (ou la plus grande fréquence partielle). La quantité

∆1
M0 = Li + ai
∆1 + ∆2

s’appelle le mode avec (voir Figure 3.7)

– Li : la borne inférieure de la classe modale.

– ai : le pas de la classe modale.

– ∆1 = n0 − n1 , ∆2 = n0 − n2 ou bien ∆1 = f0 − f1 , ∆2 = f0 − f2 .

– n0 et f0 sont l’effectif et la fréquence associés à la classe modale.

– n1 et f1 sont l’effectif et la fréquence de la classe qui précède la classe modale.

– n2 et f2 sont l’effectif et la fréquence de la classe qui suit la classe modale.

page 32
3.3. PARAMÈTRES DE TENDANCE CENTRAL

Classe modale n0 ou f0

Δ2
Δ1

M0
Ci

Figure 3.7: Représentation ou détermination graphique du mode (cas continu).

Remarque 14
L’expression du mode donnée ci-dessus est déterminée à partir de l’intersection des
deux segments représentés dans la Figure 3.7. Cette notion n’est pas unique.

La médiane

Définition 21
C’est la valeur M e telle que F (M e) = 0.5. Cette valeur est unique.

Noue pouvons la déterminer graphiquement ou par calcule.

1. Première méthode : Graphiquement à partir de la formule

F (Li+1 ) − F (Li ) 0.5 − F (Li )


tan(α) = = .
Li+1 − Li M e − Li

Plus précisément, dans la figure 3.8, nous mettons F (x) = 0.5 et x = M e.

2. Deuxième méthode : En utilisant directement la fonction de répartition donnée par

fi+1
F (x) = (x − Li ) + Fi .
h

Nous retrouvons donc

fi+1
0.5 = (M e − Li ) + Fi .
h

page 33
3.4. PARAMÈTRES DE DISPERSION

Figure 3.8: Le calcul de la médiane par extrapolation.

3.4 Paramètres de dispersion

Définition 22
La variance est la quantité

n
X
V ar(x) = fi (x − Ci )2 .
i=1

Remarque 15
Pour le calcul, on utilise (voir Chapitre 2, Théorème 1)

n
X
V ar(x) = fi Ci2 − x2 .
i=1

Définition 23
La quantité
q
σX = V ar(x)

s’appelle l’écart type de la V.S X.

Nous généralisons la notion de la médiane dans la définition suivante.

Définition 24
i
Pour i ∈ {1, 2, 3}, la quantité Qi tel que F (Qi ) = s’appelle le iem quartile.
4

page 34
Exemple 19
2
Pour i = 2, Q2 tel que F (Q2 ) = = 0.5. Donc, Q2 = M e.
4

La détermination ou le calcul de Qi se fait exactement comme le calcul de la médiane


(graphiquement ou analytiquement).

Interprétation : Il y a 25 % d’individus dont la valeur du caractère est dans l’in-


tervalle [a0 , Q1 ]. De même pour les autres quartiles. Ces intervalles s’appellent "intervalles
interquartiles".

Q1 −→ 25%,

Q2 −→ 50%,

Q3 −→ 75%.

xmin Q1 Me=Q2 Q3 xmax

25%
25%
50%

75%

Figure 3.9: Les quartiles.

page 35
Exercice 1
- Chez un fabriquant de tubes de plastiques, on a prélevé un échantillon de 100 tubes dont
on a mesuré le diamètre en décimètre.

1.94 2.20 2.33 2.39 2.45 2.50 2.54 2.61 2.66 2.85

1.96 2.21 2.33 2.40 2.46 2.51 2.54 2.62 2.68 2.87

2.07 2.26 2.34 2.40 2.47 2.52 2.55 2.62 2.68 2.90

2.09 2.26 2.34 2.40 2.47 2.52 2.55 2.62 2.68 2.91

2.09 2.28 2.35 2.40 2.48 2.52 2.56 2.62 2.71 2.94

2.12 2.29 2.36 2.41 2.49 2.52 2.56 2.63 2.73 2.95

2.13 2.30 2.37 2.42 2.49 2.53 2.57 2.63 2.75 2.99

2.14 2.31 2.38 2.42 2.49 2.53 2.57 2.65 2.76 2.99

2.19 2.31 2.38 2.42 2.49 2.53 2.59 2.66 2.77 3.09

2.19 2.31 2.38 2.42 2.50 2.54 2.59 2.66 2.78 3.12

1. Identifier la population, les individus, le caractère et son type.


2. En utilisant la méthode de Yule puis de Sturge, établir le tableau statistique (Faites
débuter la première classe par la valeur 1.94).
3. Tracer l’histogramme de cette variable statistique.
4. Déterminer par le calcul la valeur du diamètre au-dessous de laquelle se trouvent 50%
des tubes de plastique. Que reprèsente cette valeur.
5. Déterminer par le calcul le pourcentage de tubes ayant un diamètre inférieur à 2.58.

Solution 1 - Identification de cet épreuve statistique,

– Population : les tubes.

page 36
– Individus : le tube.

– Caractère : le diamètre.

– Type : quantitative continue.

– Modalités : 1.94,..., 3.12.

2 - Par la méthode de Yule, nous avons



4

4
k = 2.5 N = 2.5 100 = 7.9 ' 8.

Par la méthode de Sturge, nous avons

k = 1 + 3.3 log10 (N ) = 1 + 3.3 log10 (100) = 7.6 ' 8.

Nous avons donc l’amplitude qui égale

xmax − xmin
ai = ' 0.15.
k

Nous obtenons le tableau statistique suivant,

X ni fi Ni Fi

[1.94, 2.09[ 3 0.03 3 0.03

[2.09, 2.24[ 9 0.09 12 0.012

[2.24, 2.39[ 18 0.18 30 0.3

[2.39, 2.54[ 29 0.29 59 0.59

[2.54, 2.69[ 25 0.25 84 0.84

[2.69, 2.84[ 6 0.06 90 0.90

[2.84, 2.99[ 6 0.06 96 0.96

[2.99, 3.14[ 4 0.04 100 1

\ \
P
100 1

3 - Nous dessinons l’histogramme de cette variable,

page 37
Histogramme des effectifs

Les effeectifs (ni)

30

25

20

15

10

0 1.94 2.09 2.24 2.39 2.54 2.69 2.84 2.99 3.14

Les classes (Ci)

4 - Cette valeur représente la médiane. Le calcule se fait par extrapolation

0.59 − 0.3 0.5 − 0.3


tan(α) = = .
2.54 − 2.39 M e − 2.39

Nous trouvons M e = 2.5.

5 - Le calcule du pourcentage de tubes ayant un diamètre inférieur à 2.58 se fait de la même


manière et nous avons

0.84 − 0.59 x − 0.59


tan(α) = = .
2.69 − 2.54 2.58 − 2.54

Nous trouvons que la valeur cherché est égale à 0.66 (66%).

Exercice 2
- Une étude sur le budget consacré aux vacances d’été auprès de ménages a donné les
résultats suivants

Budget X Fréquence cumulée Fréquences


[800, 1000[ 0.08
[1000, 1400[ 0.18
[1400, 1600[ 0.34
[1600, β[ 0.64
[β, 2400[ 0.73
[2400, α[ 1

page 38
– Certaines données sont manquantes. Calculer la borne manquante α sachant que
l’étendue de la série est égale à 3200.
– Calculer les fréquences dans le tableau.
– Calculer la borne manquante β dans les deux cas suivants :
1. Le budget moyen est égal à 1995.
2. Le budget médian est égal à 1920.

Solution - On sait que l’étendue est égale au maximum moins le minimum. Ainsi,

3200 = xmax − xmin = α − 800,


et donc α = 4000.

- Nous complétons le tableau comme suit


Budget X Fréquence cumulée Fréquences
[800, 1000[ 0.08 0.08
[1000, 1400[ 0.18 0.1
[1400, 1600[ 0.34 0.16
[1600, β[ 0.64 0.3
[β, 2400[ 0.73 0.09
[2400, α[ 1 0.27

- Le calcul la borne manquante β dans le cas où le budget moyen est égal à 1995, c’est à
dire, x = 1995 se fait comme suit
1600 + β β + 2400
x = 1995 = 0.08×900+0.1×1200+0.16×1500+0.3× +0.09× +0.27×3200.
2 2

Ce qui implique que


1644 + 0.195 × β = 1995,

et on trouve β = 1800.

- Le calcule la borne manquante β dans le cas où le budget médian est égal à 1920, c’est
à dire, M e = 1920 se fait comme suit : il faut raisonner par interpolation linéaire sur

l’intervalle [1600 − β[. On pose le rapport des distances suivant,

1920 − 1600 0.5 − 0.34


= ,
β − 1600 0.64 − 0.34

et on trouve β = 2200.

page 39
Chapitre 4

Étude d’une variable statistique à


deux dimensions

Dans les chapitres précédents, nous avons présenté les méthodes qui permettent de
résumer et représenter les informations relatives à une variable. Un même individu peut être
étudié à l’aide de plusieurs caractères (ou variables). Par exemple, les salaries en regardant
leur ancienneté et leur niveau d’étude, la croissance d’un enfant en regardant son poids et
sa taille. Dans la suite, nous introduisons l’étude globale des relations entre deux variables
(en nous limitant au cas de deux variables). Donc, soit Ω une population et

Z : Ω → R2 ,

w 7→ Z(w) = (X(w), Z(w)),

ou directement
(X, Y ) : Ω → R2 ,

w 7→ (X(w), Z(w)).

Dans ce cas, Z est dite variable statistique à deux dimensions avec Card(Ω) = N , avec N
un entier fini. Le couple (X, Y ) est appelé le couple de la variable statistique.

Exemple 20
– On observe simultanément sur un échantillon de 200 foyers, le nombre d’enfants
X et le nombre de chambre Y .
– On observe sur un échantillon de 20 foyers, le revenu mensuel X en Da et les
dépenses mensuelles Y .
– Au près des étudiants pris au hasard parmi une section de L2 génie civil, on
52 4.1. REPRÉSENTATION DES SÉRIES STATISTIQUES À DEUX VARIABLES

observe les notes de math3 X et de statistique Y .


– Une entreprise mène une étude sur la liaison entre les dépenses mensuelles en
publicité X et le volume des ventes Y qu’elle réalise.

4.1 Représentation des séries statistiques à deux variables

Les séries statistiques à deux variables peuvent être présentées de deux façons.

Présentation 1

A chaque wi , on associé (xi , yi ), c’est à dire,

wi −→ (xi , yi ).

On rassemblera les données comme dans le tableau suivant

wi w1 w2 ... wN

Variable X X(w1 ) X(w2 ) ... X(wN )

Variable Y Y (w1 ) Y (w2 ) ... Y (wN )

Cette représentation on la notera "présentation 1". Nous allons utiliser toujours les notations
suivantes :
xi := X(wi )

et yi := Y (wi ).

Exemple 21
Soit Ω l’ensemble de 8 étudiants. Nous avons le tableau suivant

wi w1 w2 w3 w4 w5 w6 w7 w8

X(w) 8 2 6 6 11 10 7 2

Y (w) 9 10 11 7 14 16 12 5

page 41
4.1. REPRÉSENTATION DES SÉRIES STATISTIQUES À DEUX VARIABLES

avec X représente le nombre d’heures passées à préparer l’examen de statistique par


étudiant et Y représente la note sur 20 obtenue à l’examen par l’étudiant.

Lors de cette représentation, nous pouvons traduire le tableau associe dans une figure
appelée "le nuage de points" ou "diagramme de dispersion" (voir Figure 4.1). Cette représen-
tation est obtenue en mettant dans un repère cartésien chaque couple d’observation (xi , yj )
par un point.

Y(w)

x
x x x x

x
x x
x x

x x

x
x

X(w)

Figure 4.1: Représentation sous forme de nuage de points.

Présentation 2

Soit la variable statistique Z donnée par le couple (X, Y ). Soient x1 , ..., xk et y1 ,...,yl
les valeurs prises respectivement par X et Y . Dans ce cas, nous définissons les valeurs de Z
comme suite, pour i allant de 1 à k et pour j allant de 1 à l,

zij := (xi , yj ).

La variable statistique Z prend k × l valeurs. Lors de cette étude, nous avons le tableau à
double entrée (ou tableau de contingence) suivant (discrète ou continue)

page 42
54 4.1. REPRÉSENTATION DES SÉRIES STATISTIQUES À DEUX VARIABLES

X\Y C10 = [L01 , L02 [ ou y1 ... Cl0 = [L0l , L0l+1 [ ou yl Marginale % à X

C1 = [L1 , L2 [ ou x1 n11 ou f11 ... n1l ou f1l n1• ou f1•

C2 = [L2 , L3 [ ou x2 n21 ou f21 ... n2l ou f2l n2• ou f2•

C3 = [L3 , L4 [ ou x3 n31 ou f31 ... n3l ou f3l n3• ou f3•


.. .. .. .. ..
. . . . .

Ck = [Lk , Lk+1 [ ou xk nk1 ou fk1 ... nkl ou fkl nk• ou fk•

Marginale % à Y n•1 ou f•1 ... n•l ou f•l N

Cette représentation on l’a notera "présentation 2". A chaque couple (xi , yi ), on a nij est
l’effectif qui représente le nombre d’individus qui prennent en même temps la valeur xi et
yi , c’est à dire,
nij := Card{w ∈ Ω : Z(w) = zij }.

nij w
zij

Figure 4.2: Le nombre d’individus qui prennent en même temps la valeur xi et yi .

Nous notons par fij la fréquence du coulpe (xi , yi ). Cette fréquence est donnée par

nij
fij := ,
N

avec
N = Card(Ω),
l X
X k
= nij ,
j=1 i=1
k X
X l
= nij .
i=1 j=1

page 43
4.1. REPRÉSENTATION DES SÉRIES STATISTIQUES À DEUX VARIABLES

Le calcul ou le développement de cette double série est donné par

k X
X l
nij = n11 + n12 + n13 + ... + n1l
i=1 j=1

+n21 + n22 + n23 + ... + n2l


.. .. .. ..
. . . .

+nk1 + nk2 + nk3 + ... + nkl .

Remarque 16
Nous avons la propriété suivante,

k X
X l
fij = 1.
i=1 j=1

Lois marginales

Sur la marge du tableau de contingence, on peut extraire les données seulement par
rapport à X et seulement par rapport à Y (voir le tableau de contingence établi aupara-
vant).
1. Effectifs et fréquences marginale par rapport à Y : nous avons, pour j = 1...l,

k
X
n•j := nij ,
i=1

et
k
n•j X
f•j := = fij .
N i=1

2. Effectifs et fréquences marginale par rapport à X : nous avons, pour i = 1...k,

l
X
ni• := nij ,
j=1

et
l
ni• X
fi• := = fij .
N j=1

page 44
4.1. REPRÉSENTATION DES SÉRIES STATISTIQUES À DEUX VARIABLES

Remarque 17
Nous avons les propriétés suivantes

k l k l
et
X X X X
ni• = n•j = N fi• = f•j = 1.
i=1 j=1 i=1 j=1

Exercice 1
Nous considérons 10 salariés qui sont observés à l’aide de deux variables "âge" et "salaire".
Les informations brutes (pas encore traitées ou façonnées) sont données dans le tableau
suivant,

Salaire 6000 7400 7500 8200 8207 8900 9100 9900 9950 10750

Age 15 26 20 43 47 37 52 34 50 44

1. Déterminer le tableau de contingence (X : âge, Y : salaire). Pour l’âge et pour le


salaire, former respectivement des classes de pas de 10 ans et de 1000 Da.
2. Calculer f21 , f12 , f45 et f33 .
3. Déterminer les effectifs marginaux de X et de Y . Tracer le nuages de points.
4. Déterminer le tableau statistique des deux séries marginales X et Y .

Solution : En utilisant les hypothèses, nous considérons les classes suivantes,

[15, 25[, [25, 35[, [35, 45[, [45, 55[,

pour l’âge et
[6, 7[, [7, 8[, [8, 9[, [9, 10[, [10, 11[,

pour le salaire (×1000). De plus, nous avons

e xmax − xmin 52 − 15
N ombre de classe = = = = 3.7 ' 4 classes,
aâge aâge 10

pour l’âge et

e ymax − ymin 10750 − 6000


N ombre de classe = = = = 4.75 ' 5 classes,
asal asal 1000

pour le salaire. Cette série statistique est représentée par le tableau suivant,

page 45
4.1. REPRÉSENTATION DES SÉRIES STATISTIQUES À DEUX VARIABLES

Age \ Salaire [6, 7[ [7, 8[ [8, 9[ [9, 10[ [10, 11[ ni• fi•

[15, 25[ 1 1 0 0 0 0 0.2

[25, 35[ 0 1 0 1 0 2 0.2

[35, 45[ 0 0 2 0 1 3 0.3

[45, 55[ 0 0 1 2 0 3 0.3

n•j 1 2 3 3 1 10 1

f•j 0.1 0.2 0.3 0.3 0.1 1 

De ce fait, nous avons

n12 1 n21 0
f12 = = = 0.1, f21 = = = 0,
N 10 N 10

et
n45 0 n33 2
f45 = = = 0, f33 = = = 0.2.
N 10 N 10

Le nuage de points est tracé, à partir des données brutes, dans la figure suivante.

10

7
6

15 20 25 30 35 40 45 50 55 X

Enfin, les deux tableaux statistiques de X et de Y sont donnés, respectivement, par

page 46
4.2. DESCRIPTION NUMÉRIQUE

Y ni• fi• yi le centre


X ni• fi• xi le centre
[6, 7[ 1 0.1 6.5
[15, 25[ 2 0.2 20
[7, 8[ 2 0.2 7.5
[25, 35[ 2 0.2 30
[8, 9[ 3 0.3 8.5
[35, 45[ 3 0.3 40
[9, 10[ 3 0.3 9.5
[45, 55[ 3 0.3 50
[10, 11[ 1 0.1 10.5

4.2 Description numérique

4.2.1 Caractéristique des séries marginales

Dans le cas d’une variable statistique à deux dimensions X et Y , les moyennes sont
données respectivement par

k k
1 X X
x := ni• xi = fi• xi (moyenne de X),
N i=1 i=1

et

l l
1 X X
y := n•j yj = f•j yj (moyenne de Y ).
N j=1 j=1

Remarque 18
Dans le cas continu, xi et yj représentent respectivement le centre des classes de X et
Y , c’est à dire,
Li+1 + Li Lj+1 + Lj
xi = et yj = .
2 2

Exemple 22
Nous calculons x et y pour l’exercice traité précédemment. Nous avons la moyenne
d’âge
1
x = (40 + 60 + 120 + 150) = 37 ans.
10

page 47
4.2. DESCRIPTION NUMÉRIQUE

et la moyenne du salaire

1
y= (6.5 + 15 + 25.5 + 28.5 + 10.5) × 100 = 8600 Da.
10

Nous définissions maintenant la variance de X et la variance de Y comme suit,

k k
1 X X
V ar(X) := x2 − (x)2 , avec x2 := ni• x2i = fi• x2i ,
N i=1 i=1

et
l l
1 X X
V ar(Y ) := y 2 − (y)2 , avec y 2 := n•j yj2 = f•j yj2 .
N j=1 j=1

Les écarts-type de X et de Y sont donnés, respectivement, par


q q
σX := V ar(X) et σY := V ar(Y ).

4.2.2 Série conditionnelle

La notion de série conditionnelle est essentielle pour comprendre l’analyse de la ré-


gression. Un tableau de contingence se compose en autant de séries conditionnelles suivant
chaque ligne et chaque colonnes.

Série conditionnelle par rapport à X

Elle est notée par X/yj (ou Xj ) et on dit que c’est la série conditionnelle de X sachant
que Y = yj . Nous calculons dans ce cas la fréquence conditionnelle fi/j (fi sachant j), pour
i = 1, ..., k, par
nij fij
fi/j := = .
n•j f•j
Nous avons aussi la moyenne conditionnelle xj , c’est à dire la moyenne des valeurs de X
sous la condition yj , elle est définie par

k k
X 1 X
xj := fi/j xi = nij xi .
i=1
n•j i=1
q
Pour l’écart-type conditionnel, nous avons σXj := V ar(Xj ) avec

k
X
V ar(Xj ) := fi/j (xi − xj )2 = x2 j − (xj )2 .
i=1

page 48
4.2. DESCRIPTION NUMÉRIQUE

Série conditionnelle par rapport à Y

Elle est notée par Y /xj (ou Yj ) et on dit que c’est la série conditionnelle de Y sachant
que X = xi . Nous calculons aussi dans ce cas la fréquence conditionnelle fj/i (fj sachant
i), pour j = 1, ..., l, par
nij fij
fj/i := = .
ni• fi•
Nous avons aussi la moyenne conditionnelle y i , c’est à dire la moyenne des valeurs de Y
sous la condition xi , elle est définie par

l l
X 1 X
y i := fj/i yj = nij yj .
j=1
ni• j=1

p
Pour l’écart-type conditionnel, nous avons σYi := V ar(Yi ) avec

l
X
V ar(Yi ) := fj/i (yj − y i )2 = y 2 i − (y i )2 .
j=1

4.2.3 Notion de covariance

Nous notons par Cov(X, Y ) la covariance entre les variables X et Y . La covariance est
un paramètre qui donne la variabilité de X par rapport à Y (voir Figure 4.3).

Y(w) Y(w) Y(w)


Li
s né
ant ai
end x re
x

p x Indépendance m
dé x en
ent x
x

td
x
x

éa irem x
x x ép
x en
x

Lin
x

da
x
x

x
x
x

x x nt
x s
x
x

x
x

x
x

x x x
x

x
x

x x
x

x
x x
x

x
x

x
x

x
x

x
x
x

x
x

X(w) X(w) X(w)


Cov (X,Y) > 0 Cov (X,Y) = 0 Cov (X,Y) < 0

Figure 4.3: La covariance et la variabilité.

La covariance se calcule par l’expression suivante

k X l
1 X
Cov(X, Y ) = xy − x y = nij xi yj − x y.
N i=1 j=1

page 49
4.2. DESCRIPTION NUMÉRIQUE

Nous avons aussi cette formule


k X l
1 X
Cov(X, Y ) = nij (xi − x)(yj − y).
N i=1 j=1

Remarque 19
Dans le cas où nous avons un tableau des données brutes "representation 1" (nous
n’avons pas d’effectifs), nous avons les formules suivantes
n n
1 X 1 X
x= xi et y= yi .
N i=1 N i=1

De plus, nous avons


n
1 X
xy = x i yi .
N i=1

Remarque 20
La covariance est une notion qui généralise la variance, En effet,

Cov(X, X) = V ar(X) et Cov(Y, Y ) = V ar(Y ).

Cela provient de la définition, c’est à dire,

Cov(X, X) = xx − x x = x2 − x2 = V ar(X).

Définition 25
On dit que deux variables statistiques X et Y sont indépendantes si et seulement si,
pour tout i et j,
fij = fi• × f•j .

Il suffit que cette égalité ne soit pas vérifiée dans une seule cellule pour que les deux
variables ne soient pas indépendantes.. De manière équivalente, pour tout i et j,

N × nij = ni• × n•j .

Dans ce cas, si X et Y sont indépendantes alors (réciproque est fausse) Cov(X, Y ) = 0.

page 50
4.3. AJUSTEMENT LINÉAIRE

Cette définition donne une interprétation intéressante de d’indépendance ; elle signifie que
dans ce cas, les effectifs des modalités conjointes peuvent se calculer uniquement à partir
des distributions marginales, supposées « identiques » aux distributions de X et Y dans la
population ; en d’autres termes, si X et Y sont indépendantes, les observations séparées de
X et de Y donnent la même information qu’une observation conjointe.

4.3 Ajustement linéaire

Dans le cas où on peut mettre en évidence l’existence d’une relation linéaire significative
entre deux caractères quantitatifs continus X et Y (la silhouette du nuage de points est étirée
dans une direction), on peut chercher à formaliser la relation moyenne qui unit ces deux
variables à l’aide d’une équation de droite qui résume cette relation. Nous appelons cette
démarche l’ajustement linéaire.

4.3.1 Coefficient de corrélation

Les coefficients de corrélation permettent de donner une mesure synthétique de l’inten-


sité de la relation entre deux caractères et de son sens lorsque cette relation est monotone.
Le coefficient de corrélation de Pearson permet d’analyser les relations linéaires (voir ci-
dessous). Il existe d’autres coefficients pour les relations non-linéaires et non-monotones,
mais ils ne seront pas étudiés dans le cadre de ce cours.

Définition 26
La quantité
Cov(X, Y )
ρXY := ,
σX σY
s’appelle le coefficient de corrélation.

Proposition 3
Le coefficient ρXY est compris entre [−1, 1], ou encore

| ρXY | ≤ 1.

Le coefficient ρXY mesure le degré de liaison linéaire entre X et Y (voir Figure 4.4 et).
Nous avons les deux caractéristiques suivantes (voir Figures 4.5 et 4.6) 1 :
1. Source : https ://[Link]/wiki/Pearson_correlation_coefficient

page51
4.3. AJUSTEMENT LINÉAIRE

– Plus le module de ρXY est proche de 1 plus X et Y sont liées linéairement.

– Plus le module de ρXY est proche de 0 plus il y a l’absence de liaison linéaire entre
X et Y .

Y(w) Y(w)

x x x x
x x x
x x
x x
x x x
x x
x x x x
x x
x
x
x x x x
x x x x
x x x x
x x
x
x

X(w) X(w)

Figure 4.4: A gauche, le coefficient de corrélation est proche de 1. A droite, le coefficient de


corrélation est proche de 0.

Figure 4.5: Exemples de diagrammes de dispersion avec différentes valeurs de coefficient de cor-
rélation .

Remarque 21
Par définition, si ρXY = 0, alors Cov(X, Y ) = 0.

page 52
4.3. AJUSTEMENT LINÉAIRE

Figure 4.6: La corrélation reflète la non-linéarité et la direction d’une relation linéaire mais pas
la pente de cette relation ni de nombreux aspects des relations non linéaires (en bas). La figure au
centre a une pente de 0, mais dans ce cas, le coefficient de corrélation est indéfini car la variance de
Y est nulle. .

4.3.2 Droite de régression

L’idée est de transformer un nuage de point en une droite. Celle-ci doit être la plus
proche possible de chacun des points. On cherchera donc à minimiser les écarts entre les
points et la droite.

Y
y*i= a xi + b
x
x

yi x x

ei x x
x
y*i x
x

xi X

Figure 4.7: La droite la plus proche possible de chacun des points.

Pour cela, on utilise la méthode des moindres carrées. Cette méthode vise à expliquer un
nuage de points par une droite qui lie Y à X, c’est à dire,

Y = aX + b,

telle que la distance entre le nuage de points et droite soit minimale. Cette distance matéria-

page 53
4.3. AJUSTEMENT LINÉAIRE

lise l’erreur, c’est à dire la différence entre le point réellement observé et le point prédit par
la droite. Si la droite passe au milieu des points, cette erreur sera alternativement positive
et négative, la somme des erreurs étant par définition nulle. Ainsi, la méthode des moindres
carrés consiste à chercher la valeur des paramètres a et b qui minimise la somme des erreurs
élevées au carré.

On pose
n
X
e2i = U (a, b),
i=1

avec ei est l’erreur commise sur chaque observation, c’est à dire,

| ei |= | yi − yi? |= | yi − axi − b | .

La méthode des moindres carrées consiste donc à minimiser la fonction U (la somme des
erreurs commises). Nous avons la condition de minimisation suivante,

∂U ∂U
= = 0,
∂a ∂b

avec n
X
U (a, b) = (yi − axi − b)2 .
i=1

∂U
L’équation = 0 donne
∂b n
X
−2(yi − axi − b) = 0.
i=1

Ce qui implique que

n n n
!
X X X 1
yi − a xi − b 1=0 × .
i=1 i=1 i=1
N

Par conséquent, nous obtenons


y − ax − b = 0,

c’est à dire,
b = y − ax.

∂U
De même, après calcule, = 0 implique que
∂a

Cov(X, Y )
a= .
V ar(X)

Donc, la droite de régression, qui rend la distance entre elle et les points minimale, est

page 54
donnée par
D(Y /X) : Y = aX + b,

avec
Cov(X, Y )
a= et b = y − ax.
V ar(X)
Ou bien
D(X/Y ) : X = a0 Y + b0 ,

avec
Cov(X, Y )
a0 = et b0 = x − a0 y.
V ar(Y )

Remarque 22
Le coefficient de corrélation ρXY permet de justifier le fait de l’ajustement linéaire. On
adopte les critères numériques suivants (voir Figure 4.8),

– Si | ρXY |< 0.7, alors l’ajustement linéaire est refusé (droite refusée).

– Si | ρXY |≥ 0.7, alors l’ajustement linéaire est accepté (droite acceptée).

Correlation Correlation
parfaite parfaite
-1 -0.7 0 0.7 1

ρXY
Accepter Refuser Accepter

Figure 4.8: La zone d’acceptation ou de refus de l’ajustement linéaire.

Exercice 1
Nous considérons 10 joueurs et soient :
– Y la variable qui représente le nombre de jeux auquel un joueur joue.

– X la variable qui représente le gain ou perte (+1 s’il gagne 10 Da et −1 s’il perd 10
Da et 0 sinon).
Nous avons le tableau de contingence suivant,

page 55
X\Y 1 2 3 4 ni•

−1 0 1 2 2

0 1 1 0 1

1 0 1 1 0

n•j

1. Compléter le tableau ci-dessus.


2. Calculer cov(X, Y ).

Solution Les lois marginales sont données dans ce tableau,

X\Y 1 2 3 4 ni•

−1 0 1 2 2 5

0 1 1 0 1 3

1 0 1 1 0 2

n•j 1 3 3 3 N=10

La covariance est calculée à partir de

Cov(X, Y ) = xy − x y.

Nous avons
3
1 X
x= ni• xi = −0.3,
N i=1
et
4
1 X
y= n•j yj = 2.8.
N j=1

De plus, nous avons


3 X 4
1 X
xy = nij xi yj = −1.
N i=1 j=1

Donc,
Cov(X, Y ) = −0.16.

page 56
Exercice 2
Dans un TP de physique, on a les données suivantes :

xi 0 0.5 1.1 1.5 1.9

mi 0 10 20 30 40

La variable mi représente les différentes masses appliquées comme dans le schéma ci-dessous
et la variable xi les hauteurs induits depuis l’état initial.

xi

mi

1. Déterminer D(m/x).
2. Déterminer D(x/m).
3. Tracer le nuage de point et les deux droites. Représenter le point de coordonnée (x, y).
4. Peut-on déterminer x si m = 51.75 Kg ?

Solution Nous déterminons facilement les moyennes x = 1 et m = 1. De plus, nous


avons
Cov(x, m) = xm − x m = 29.6 − 20 = 9.6.

Après calcul, nous avons aussi

V ar(X) = x2 − (x)2 = 0.464 et V ar(m) = 200.

Ce qui implique que


σx = 0.681 et σm = 14.14.

Dans ce cas, les coefficients de la droite sont donnés par

Cov(x, m)
a= = 20.69 et b = m − ax = −0.69.
V ar(X)

Par conséquent,
D(m/x) : m = 20.69x − 0.69.

page 58
En renversant les axes, nous obtenons

D(x/m) : x = 0.048m + 0.04.

Nous traçons les deux droites dans la figure ci-dessous (D(x/m) est la symétrie de D(m/x)
par rapport à la première bissectrice).

D(m/x)

40
30 D(x/m)
(x ,m)
20
10

0.5 1 1.5 2 x

Si on calcule ρxm = 0.997 > 0.7, alors nous avons un ajustement linéaire accepté. Donc, on
peut estimer x pour m = 51.75 et nous obtenons

x = 0.048 × (51.75) + 0.04 = 2.52.

Vous aimerez peut-être aussi