Cours de Statistique
Cours de Statistique
Filière : SGE
Smestre : 1
7 Exercices 22
1 Introduction
OBJECTIFS DU COURS
1. Acquérir une culture de base en statistique : Connaitre et Comprendre les mots clés en statis-
tique.
2. Maîtriser les outils et techniques de base : Savoir comment décrire une situation donnée.
3. Posséder le sens critique nécessaire : Interpréter les résultats obtenus.
• La statistique est la science qui a pour but la collecte, la présentation, la réduction, et l’analyse de
données.
• Les statistiques se sont des données chiffrées relatives à un phénomène étudié.
• Une statistique est la quantité calculée à partir de données.
Deux types de statistique :
1. La statistique descriptive : est un ensemble de méthodes pour décrire les données et dégager
l’ensemble de l’information qu’elles contiennent.
2. La statistique inférentielle : a pour but d’analyser les données collectées auprès d’une partie
de la population afin de tirer des conclusions concernant toute la population.
Remarque 2.1.
– Une population est dite finie si l’on peut déterminer avec précision le nombre d’éléments qui
la composent. Sinon, on parle de population infinie.
– Les éléments de la population ont une ou plusieurs caractéristiques communes.
Définition 2.1 (Individu). Les éléments qui composent une population sont appelés des Individus
Remarque 2.2. L’échantillon doit être bien choisir pour pouvoir représente la population.
Définition 2.2. La taille d’une population est le nombre d’individus qui la composent.
Définition 2.3. Une variable est un critère relatif auquel on observe les individus d’une population.
Définition 2.4 (Modalité). Une valeur que peut prendre un caractère s’appelle modalité.
Remarque 2.3. A chaque individu, on attribut une ou plusieurs variables qui peuvent être soit quanti-
tatives (si elles sont mesurables ; exemple : salaire, nb d’enfants par ménage, poids,...) ou qualitatives
(exemple : sexe, état matrimonial... ).
Exemple 2.2 (Qualitative Nominale). L’état civil d’une personne : "célibataire", "marié", "divorcé",
"veuf".
Exemple 2.3 (Qualitative Ordinale). Le niveau de satisfaction d’un service : "pas satisfait", "moyen-
nement satisfait", "très satisfait".
Exemple 2.5 (Qualitative Continue ). L’âge d’étudiants : [18, 22[; [22, 26[, ...
Remarque 2.4. Une variable est notée par une lettre majuscule et les valeurs qu’elle prend par des
lettres minuscules.
Population
?
Echantillon
?
Variable
? ?
Qualitative Quantitative
? ? ? ?
Nominale Ordinale Continue Discrète
? ? ? ?
Définition 2.5 (Effectif). L’effectif (ni ) est le nombre d’individus ayant une modalité (xi ).
Définition 2.6 (Fréquence). La fréquence (fi ) est la proportion de l’effectif d’une modalité par
rapport à l’effectif total(n) :
ni
fi =
n
Remarque 2.5.
–
k
X
fi = 1
i=1
Définition 2.7 (Effectif et Fréquence cumulés). – Soit Ni le ième effectif cumulé croissant asso-
cié à xi
i
X
Ni = nj
j=1
– Le nombre de classes ne doit être ni trop petit (perte d’information) ni trop grand (le regrou-
pement en classes est inutile et de plus, certaines classes pourraient avoir des effectifs trop
faibles).
– En général le nombre de classes est compris entre 5 et 15 ; il dépend du nombre n d’individus.
– La formule de STURGE donne une valeur approximative du nombre k de classes :
– Sur l’axe des abscisses on représente les modalités (les valeurs de la variable)
– Sur l’axe des ordonnées on représente les effectifs ou les fréquences selon que l’on désire un
diagramme d’effectifs ou de fréquences.
Polygone :
Histogramme :
Après avoir ajouter aux extrémités de
A chaque classe, on associe un rectangle dont
l’histogramme deux rectangles fictifs de
la base est égale à l’amplitude de la classe et
hauteurs nulles et de mêmes bases,on joint,
dont la hauteur est l’effectif correspondant
par des segments, les milieux des sommets
des rectangles de l’histogramme.
4.1.1 Mode
Le mode, noté M o, d’une série statistique est la valeur de cette série, dont l’effectif (ou la fré-
quence) est plus grand que les effectifs (ou les fréquences) des valeurs voisines.
Remarques 4.1. – Le mode est défini pour tous les types de variables.
– Le mode n’est pas nécessairement unique, il se peut que :
– Pas de mode : {0, 1, 2, 3, 4, 5}
– Unimodale si elle admet un mode unique : {1, 2, 1, 3, 2, 0, 2}, ici M o = 2
– Bimodale si elle admet deux modes : {1, 2, 1, 3, 2, 0, 2, 1}, ici 1 et 2
Le mode est : 3
Exemple 4.3 (Variable quantitative continue). X : le poids (kg) d’un échantillon de 50 étudiants.
4.1.2 Médiane
La Médiane, notée M é, d’une série statistique, est la valeur de la série qui partage la population
en deux parties d’effectifs égaux. Par conséquent, on aura autant d’observations inférieures à M é
que d’observations supérieures à M é.
Détermination de la médiane :
Soit la série ordonnée (par ordre croissant) de n observations : {x(1) , x(2) , ..., x(n) }, alors la
valeur médiane est
x( n+1 si n est impair
)
2
M é =
x( n ) + x( n2 +1)
2
si n est pair.
2
Exemple 4.4 (La médiane). On considère la série statistique suivante :
x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10) x(11) x(12) x(13) x(14) x(15) x(16)
8 8 8 9 9 10 10 10 10 10 13 13 13 14 14 17
Le mode est : M o = 10
La médiane est :
x( n2 ) + x( n2 +1) x( 16 ) + x( 16 +1) x(8) + x(9) 10 + 10
2 2
M é = = = = = 10
2 2 2 2
où k est les nombre des modalités et n disigne la taille de la série ou l’effectif total.
Le mode est : M o = 10
La médiane est :
x( n2 ) + x( n2 +1) x( 16 ) + x( 16 +1) x(8) + x(9) 10 + 10
2 2
M é = = = = = 10
2 2 2 2
La moyenne est :
n
1X
x̄ = xi
n i=1
1
= (8 + 8 + 8 + 9 + 9 + 10 + 10 + 10 + 10 + 10 + 13 + 13 + 13 + 14 + 14 + 17)
16
8 × 3 + 9 × 2 + 10 × 5 + 13 × 3 + 14 × 2 + 17
=
16
176
=
16
= 11
On souhaite répartir la population, rangée par ordre croissant de valeurs en 4 groupes de même
effectif 25% chacune.
Alors dans ce paragraphe, on s’intéresse sur le premier quartile Q1 et le troisième quartile Q3
Calcul de Q1
Calcul de Q3
Pour calculer Q3 , on suit les étapes suivantes :
3n
1. Si est un entier naturel, alors
4
x( 3n ) + x( 3n +1)
4 4
Q3 =
2
3n
2. Si n’est pas un entier naturel, alors on prend le plus petit entier naturel supérieur ou égal à
4
3n 3n
noté par d e, et
4 4
Q3 = x(d 3n e)
4
10 13 8 10 9 10 9 14 10 8 13 8 13 10 14
1. M o = 10
2. M é = x( n+1 ) = x(8) = 10
2
3. x̄ = 10.6
n 15
4. Q1 , on a = = 3.75. Donc Q1 = x(4) = 9.
4 4
3n 3 × 15
5. Q3 , on a = = 11.25. Donc Q3 = x(12) = 13.
4 4
Les indicateurs de dispersion
1. e = x(n) − x(1) = 14 − 8 = 6
2. IR = Q3 − Q1 = 13 − 9 = 4
1
3. V (x) = 3(8 − 10.6)2 + 2(9 − 10.6)2 + 5(10 − 10.6)2 + 3(13 − 10.6)2 + 2(14 −
15
10.6)2 = 4.47
p √
4. σx = V (x) = 4.47 = 2.11
σx 2.11
5. Cv = = = 0.2
x̄ 10.6
Apr ès avoir d étermin é les in di cateur s d e p ositi on et les in di cateur s d e di s-
p er si on p our un e vari able qu antitative di s cr ete, d an s ce c h a pitr e, on va voir les
in di cateur s d e p ositi on pui s les in di cateur s d e di s p er si on p our un e vari able qu anti-
tative continu e, afin d e s avoir la differ en ce entr e eux au niveau d e d étermin ati on
( calcul).
Exemple 5.1.
5.1.2 La médiane
Dans le cas continue, toujours la médiane est la valeur qui partage exactement la population en
deux parties égales.
On a deux méthodes pour déterminer la médiane :
Graphe de F (x) :
Détermination graphique :
La médiane correspond à l’abscisse du point
de la courbe cumulative qui admet pour or-
donnée la valeur 0, 5 (ou 50%).
avec
– [ai−1 , ai [ : est la classe médiane
– (ai − ai−1 ) : étant son amplitude
– fi : est sa fréquence
– Fi−1 est la fréquence cumulée de la classe précédente
La classe médiane est [20, 30[ car F (20) = 0.3 ≤ 0.5 < F (30) = 0.7.
Donc
0.5 − F1
M é =a1 + (a2 − a1 ) ×
f2
0.5 − 0.3
=20 + (30 − 20) ×
0.4
0.2
=20 + 10 ×
0.4
=25
M é = ai−1
k
1X
x̄ = ni xi
n i=1
1
= 21 × 15 + 28 × 25 + 12 × 35 + 9 × 45
70
1840
=
70
=26.3
ou bien
k
X
x̄ = fi xi
i=1
= 0.3 × 15 + 0.4 × 25 + 0.17 × 35 + 0.13 × 45
=26.3
Détermination graphique :
Graphe de F (x) :
– Alors, pour le troisième quartile Q3 , il est dans la classe [ai−1 , ai [ telle que, Fi−1 ≤ 0, 75 <
Fi , et on le détermine par :
0.75 − Fi−1
Q3 = ai−1 + (ai − ai−1 ) ×
| {z } fi
amplitude
Remarque 5.2.
1. Si F (ai−1 ) = 0, 25 on a
Q1 = ai−1
2. Si F (ai−1 ) = 0, 75 on a
Q3 = ai−1
Exemple 5.5.
Exemple 5.6.
Exemple 6.1.
– On représente une distribution statistique à deux variables quantitatifs par l’ensemble des points
Ai , de coordonnées (xi , yi ), i = 1, ..., n, chaque individu correspond à un point du plan.
– On appelle nuage de points l’ensemble des points Ai , de coordonnées (xi , yi ), i = 1, ..., n.
– La représentation graphique du nuage de points est essentielle pour déterminer s’il existe ou
non une relation entre les variables X et Y .
Exemple 6.2. Sur un échantillon de 15 étudiants, on a prélevé X la note sur 20 obtenue à l’examen
par l’étudiant, et Y le nombre d’heures passées à préparer l’examen de statistique par étudiant.
xi 9 10 11 7 14 16 12 5 2 1 16 17 13 14 8
yi 8 2 6 6 11 10 7 2 1 0 12 20 9 7 4
– Cette méthode consiste à déterminer l’équation d’une droite telle que la somme des carrés des
distances entre les points du nuage et cette droite soit minimale.
L’objectif est de mettre en évidence l’existence d’une relation linéaire entre deux variables quan-
titatives (continues ou discrètes) de la forme :
Y = aX + b
où
– Y est la variable dépendante.
– X est la variable explicative.
– a est la pente de la droite, donnée par :
σxy
a=
V (X)
b = ȳ − ax̄
xi 166 158 165 150 154 156 158 158 160 155
yi 66 58 65 50 54 56 58 58 60 55
– Les moyennes x̄ = 158 et ȳ = 58
– L’écart-types σx = 4.58 et σy = 4.58
1 P 10
– La covariance σxy = (xi − x̄)(yi − ȳ) = 21
10 i=1
σxy
– Le coefficient de corrélation r = =1
σx σy
σxy
– Les paramètres a = = 1 et b = ȳ − ax̄ = −100
V (x)
– La droite de régression est
Y = X − 100
7 Exercices
Exercice 7.1. La nature des variables du questionnaire médical ci-dessous est :
1. Nom et prénom
2. Sexe
3. Age (ans)
4. Profession
5. Nombre d’incidents cardiaques antérieurs
6. Taille (en cm)
7. Poids (en kg)
8. Cholestérol (en g/l)
Exercice 7.2. Spécifier le type pour chacune de ces variables suivantes :
1. Nombres d’enfants dans une famille
2. Couleur des yeux
3. Catégorie socioprofessionnelle
4. Ville de naissance
5. Niveau de scolarité
6. Revenu
7. Langue maternelle
Exercice 7.3. Soit la liste suivante des prénoms d’un groupe d’étudiants suivis entre parenthèses
d’une indication du niveau de la langue française (A=moyen, B=Assez bien, C=Bien, D=Très bien) :
Said(B), Siham (A), Abdelatif(A), Youness(C), Hayat(A), Khadija(B), Latifa(D), Meriem(C), Has-
naa(B), Ibtissam(B), Zineb(A), Kamal(B), Laila(D), Hicham(C), Mostafa(D).
1. Quelle est la population étudiée ?
2. Quel est la variable étudiée ?
3. Indiquer la nature de la variable
4. Construire le tableau représentatif de cette distribution
5. Déterminer le mode de sette série statistique
6. Représenter la série statistique à l’aide d’un diagramme
Exercice 7.4. Soit la série statistique d’une variable quantitative discrète suivante :
8 8 8 9 9 10 10 10 10 10 13 13 13 14
1. Représenter la série dans un tableau statistique.
2. Représenter graphiquement la série à d’un diagramme.
3. Calculer les indicateurs de position et de dispersion de la série statistique.
Exercice 7.5. Dans un amphi, on préleve un échantillon de 30 étudiants, les resultats suivants pré-
cisent le nombre de stylos chez chaque étudiant
{3, 4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 0, 3, 4, 5, 2, 1, 3, 3, 4, 5, 2, 3, 0, 3, 2, 1, 4, 2}
Exercice 7.6. Les revenus (mensuels en dirhams) d’un ensemble de familles d’un quartier d’une ville
sont donnés comme suit :
Revenus [2000 ;2600[ [2600 ;3200[ [3200 ;3800[ [3800 ;4400[ [4400 ;5000[
Effectifs 142 116 154 100 38
Exercice 7.7. Dans une étude sur la durée d’attente(en mn) devant un arrêt de bus, un échantillon
de 50 étudiants choisis au hasard a donné :
24 27 33 21 27 19 23 23 24 19
27 30 44 27 24 34 18 20 21 15
33 27 20 32 28 27 22 17 30 42
21 25 25 29 25 24 32 31 28 20
29 40 23 37 29 15 21 28 24 23
Exercice 7.8. A la suite d’une enquête concernant le nombre de frères et soeurs des étudiants d’un
certain établissement, on a obtenu les donnés suivantes :
0 1 1 5 8 6 7 2 2 2 4
2 1 0 4 1 3 3 3 2 1 3
7 5 2 3 6 4 9 6 4 1 2
3 5 0 2 4 3 5 2 5 2 3
1 2 1 0 2 8 4 4 2 4 0
3 3 2 1 1 2 3 2 1 3 3
xi 10 11 14 15 20 25 46 50 59 70
yi 10 10 12 12 13 13 19 15 16 20