100% ont trouvé ce document utile (7 votes)
4K vues124 pages

Introduction à la statistique descriptive

Ce document présente un chapitre sur l'introduction à la statistique descriptive. Il définit la statistique, explique la statistique descriptive et inférentielle, et décrit l'importance de la statistique dans le domaine éducatif.

Transféré par

Omar Erraji
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (7 votes)
4K vues124 pages

Introduction à la statistique descriptive

Ce document présente un chapitre sur l'introduction à la statistique descriptive. Il définit la statistique, explique la statistique descriptive et inférentielle, et décrit l'importance de la statistique dans le domaine éducatif.

Transféré par

Omar Erraji
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

MODULE

STATISTIQUE
DESCRIPTIVE
PROFESSEUR:
[Link]
CHAPITRE I

INTRODUCTION
PLAN

1-Objectifs du module
2-Définitions de la statistique

3-La statistique descriptive et la statistique


inférentielle
4-Domaines d’applications de la statistique

5-Histoire de la statistique

6-La démarche statistique

7-importance de la statistique dans le


domaine éducatif

8-Choix de l’échantillon
9-Mener une enquête ou une recherche
I-1-Objectifs du module

 Connaitre les notions de base en statistique


descriptive.
 Savoir analyser et interpréter les résultats
statistiques.
 Pouvoir mener une enquête ou une recherche.
I-2-Définitions de la statistique
 La statistique est une branche des mathématiques
appliquées dont les principes découlent de la théorie des
probabilités et qui a pour objet le groupement
méthodique ainsi que l’étude des séries de faits ou de
données numériques. (Larousse)
 La statistique est la science qui a pour objet de recueillir
un ensemble de données numériques relatives à tel ou tel
phénomène faisant intervenir des variables déterministes
et aléatoires et d’exploiter rationnellement ces données
pour établir toutes relations de causalité par l’analyse et
l’interprétation. (Paul pacè)
I-2-Définitions de la statistique (suite)

Remarque:
Il faut distinguer entre « la statistique » et « les
statistiques » qui désigne familièrement l’ensemble
des données chiffrés.
I-3-La statistique descriptive et la statistique
inférentielle

 La statistique descriptive est la branche des


statistiques qui regroupent les nombreuses
techniques utilisées pour décrire un ensemble
relativement important de données.
 La statistique inférentielle est un ensemble de
méthodes permettant de tirer des conclusions fiables
à partir de données d’echantillons statistiques
I-4-Domaines d’applications de la statistique

 Démographie (recensement).
 Economie.
 Sociologie.
 Politique.
 Médecine.
 Physique.
 Climatologie.
 Ecologie.
…………………………………………
I-5-Histoire de la statistique

Dans l’évolution de la statistique au cours de


l’histoire on peut distinguer trois étapes:
 Dans cette étape qui va de la plus haute antiquité
jusqu’au 18 ième siècle, la statistique se réduit à des
recensements et inventaires de caractère
démographique ou comptable et reste une statistique
de constatation.
 Ce n’est qu’au 18 ième siècle que l’on voit apparaitre
le rôle prévisionnel des statistiques et c’est à Adolphe
Quételet que l’on doit l’idée que la statistique est une
science s’appuyant sur les probabilités.
I-5-Histoire de la statistique (suite)

 Sous l’impulsion de grands mathématiciens , la


troisième étape est révolutionnaire car elle va
permettre désormais d’ouvrir à la statistique des
horizons illimités, surtout avec l’essor de
l’informatique qui va permettre de traiter et
d’analyser un plus grand nombre de données .
I-6-La démarche statistique

La démarche statistique pour une enquête, un


sondage, une étude ou un recensement se fait en
général en quatre étapes.
 Phase préparatoire:
on détermine les différents caractères que l’on va
étudier et sur quel population portera l’étude. Se
pose alors le problème de l’échantillon.
 Recueil des données:
La récolte des données peut se faire par des tests,
des QCM, des mesures etc.
I-6-La démarche statistique (suite)

 Traitement des données:


Les résultats d’une étude statistique forment en
général une immense série de données brutes
difficile à manipuler. Il est don nécessaire de les
ranger, de les représenter graphiquement, de
calculer certains paramètres significatifs.
 Interprétation et analyse des données:
Les résultats obtenus lors d’une étude statistique
ne constituent en fait qu’un échantillon d’une réalité
souvent bien plus vaste.
I-6-La démarche statistique (suite)

Se basant ensuite sur des calculs de probabilités, on


essaye de voir si les résultats observés peuvent se
généraliser à la population tout entière.
Remarque:
L’ensemble des trois premières étapes entrent dans
le cadre de la statistique descriptive. La quatrième
intervient dans le cadre de la statistique inférentielle
I-7-importance de la statistique dans le domaine
éducatif

Les procédés, méthodes


ou techniques statistiques
sont nécessaires pour mener
n’importe quel étude
dans le domaine éducatif,
en vue de prendre des décisions objectives. En
effet, il permettent au professeur dans sa
classe ,en tant qu’évaluateur, de mieux analyser
les instruments de mesure du rendements de ses
élèves et de mieux juger ce rendement.( par
exemple, classification des élèves, situation d’un
élève dans son groupe, mesure de difficulté
d’apprentissage ….).
I-7-importance de la statistique dans le domaine
éducatif (suite)

Donc les statistiques permettent au professeur ,en


tant que chercheur d’analyser les données d’une
situation expérimentale, de vérifier ses hypothèses
de recherche, d’interpréter ses résultats et de pouvoir
les communiquer dans un langage simple et
compréhensible, en vue de prendre des décisions
objectives et efficaces.
I-8-Choix de l’échantillon

La fiabilité des résultats d’une étude statistique


dépend étroitement de l’échantillon choisi. Donc il
faut que cet échantillon soit un modèle réduit de la
population totale, d'ou l’importance d’une telle
décision. Si on connait suffisamment la structure de
la population, on peut créer un échantillon
représentatif de la population qu’un échantillon pris
au hasard.
I-9-Mener une enquête ou une recherche

Pour mener une enquête, généralement on suit les étapes


suivantes:
 Choix du thème (justifié)
 Choix de la population étudiée
 Etude bibliographique sur le thème
 Poser la problématique
 Soulever des hypothèses
 Elaborer des QCM, des test, des contrôles…..(visant à
confirmer ou infirmer les hypothèses)
 Traitement des données
 Conclusion et suggestions
CHAPITRE II

LES ENQUETES
PLAN

1-Qu’est ce qu’une enquête?

2-sondage et échantillon

3-Les sondages aléatoires simples (SAS)

4-Les sondages stratifiés

5-Sondage à choix raisonnés

6-Autres méthodes empiriques de sondage

7-Le questionnaire

8-Construction du questionnaire

9-Le formatage des questions


II-1-Qu’est ce qu’une enquête?

L’enquête est l’opération technique qui permet la


collecte des données sur un ensemble de départ
qu’on appelle « population ».
Remarque:
Une enquête demande des moyens importants en
temps, en préparation méthodique ,travail de
groupe, et en financement.
II-2-sondage et échantillon

En général la plupart des enquêtes que l’on produit


sont des enquêtes partielles que l’on appelle aussi
« sondages » et qui consistent à n’interroger qu’une
partie de la population mère, la plus représentative
possible, appelé « échantillon ».
II-3-Les sondages aléatoires simples (SAS)

On tire de la population mère, de façon aléatoire un


échantillon sur lequel portera l’enquête. Evidement,
si la population est parfaitement homogène, et
parfaitement connue, un tirage de ce genre pourrait
être satisfaisant. Dans ce cas la on parle de SAS.
Cependant, dans la plupart des cas les choses ne sont
pas aussi homogènes que l’on espère.
II-4-Les sondages stratifiés

Ces sondages consistent à découper la population


mère en sous-populations plus homogènes, que l’on
appelle des «strates »,et sur chacune d’elles sera
réaliser un sondage.
II-5-Sondage à choix raisonnés

Il s’agit ici de procédures d’échantillonnage


empiriques et non plus probabilistes. Dans ce cas la
le principe est de respecter les proportions des
principales caractéristiques de la population, pour
obtenir une sorte de maquette simplifiée de la
réalité. Cette méthode s’appelle aussi « méthode des
quotas ».
II-6-Autres méthodes empiriques de sondage

 Le sondage spontané: consiste à lancer un


questionnaire auprès d’abonnés d’un journal, ou de
clients d’une banque, ou à envoyer par internet, ou
même par téléphone, un questionnaire,
 Le sondage sélectif: consiste à interroger par
exemple la 5éme personne, puis la 15 éme, puis la 25
éme et ainsi de suite.
 La méthode du panel: utilisée surtout dans les
domaines de consommation. Elle consiste à fidéliser
un groupe de consommateur pour qu’il répondent à
des questionnaires de façon périodique.
II-6-Autres méthodes empiriques de
sondage(suite)

Pour conclure, on voit bien qu’il ya place à des


champs infinis d’imagination. La recherche de
l’homogénéité est l’objectif principale des
combinaisons de toutes les méthodes entre elles.
Aussi la simple compréhension des méthodes permet
de faire fonctionner son imagination pour fabriquer
un plan de sondage adapté à une investigation qu’on
veut faire sur un problème de terrain.
II-7-Le questionnaire

Le questionnaire est le « support » qui permet à


l’enquêteur de passer son enquête .Par ailleurs, il est
soit passé en « face à face », soit par téléphone, soit
envoyé par poste ou par internet, soit encore déposé
à l’entrée d’un office ou en tout endroit stratégique.
II-8-Construction du questionnaire

 Bien préciser l’objet de l’enquête.


 Bien étudier l’ordre des questions.
 Bien choisir les mots et les expressions de façon à ce que
tout le monde comprenne la même chose en entendant le
même mot.
 Etre court et précis.
 Eviter de poser les doubles questions.
 Mettre le questionnaire à une «pré-enquête».
Cette dernière étape permet de rectifier, reformuler,
corriger le questionnaire; et ceci à fin d’optimiser les
chances de réussite du questionnaire.
II-9-Le formatage des questions

Dans un questionnaires, les questions peuvent être:


 Fermées.
exemple: « avez-vous des enfants? »
oui non
 Ouvertes.
exemple:
« quelles sont vos attentes de cette formation? »
 Semi-ouvertes.
exemple: « êtes-vous satisfait du service? Argumentez en
quelques mots »
oui non
II-9-Le formatage des questions (suite)

Remarque:
D’autres types de formatage de questions peuvent
exister, parmi ceux-ci existent les formatages de type
« échelles ».
exemple: « les maths sont inutiles »
Je n’y J’en suis
crois pas 0 1 2 3 totalement
persuadé
Exemple de questionnaire
Très satisfaisant Peu Très
satisfaisant satisfaisant insatisfaisant

1) Qualité du service
2) Temps de service
3) Qualité des
ingrédients
4) Qualité de la
préparation
5) Variété du choix des
plats
6) Prix du menu ou de
la carte
7) Qualité des boissons
8) Propreté de la
vaisselle
CHAPITRE III

VOCABULAIRE
STATISTIQUE
PLAN

1-Vocabulaire statistique

2-Modalités-effectifs-fréquences

3-Tableaux statistiques

4-effectif cumulé↑-effectif cumulé ↓

5-fréquence cumulée↑-fréquence cumulée ↓


III-1-Vocabulaire statistique

1) Population statistique:
« C’est le groupe sur qui portera l’étude statistique »
2) Individu:
« un élément de la population statistique »
3) Echantillon:
«un sous ensemble de la population statistique »
4) Caractère statistique ou variable statistique:
«la propriété sur laquelle porte l’étude statistique »
III-1-Vocabulaire statistique (suite)

On distingue deux types de caractères:

 Caractère qualitatif:
« C’est un caractère qu’on ne peut pas mesurer »

 Caractère quantitatif:
« C’est un caractère qu’on peut exprimer
numériquement »
III-1-Vocabulaire statistique (suite)

Le caractère quantitatif peut être:

 discret s’il ne prend qu’un nombre fini de valeurs


isolées.

Continue s’il prend toute les valeurs possibles à


l’intérieur d’un intervalle.
III-2-Modalités-effectifs-fréquences

 Les valeurs que peut prendre le caractère statistique


sont appelées « modalités » qu’on peut noter xi
 A chaque modalité xi est associée un effectif ni qui
désigne le nombre d’individus correspondant à cette
modalité .
 fi =ni /N est la fréquence de la modalité xi, elle est
souvent calculée en pourcentage .
L’ensemble des couples (xi , ni ) est appelé série
statistique à une variable. on peut s’intéresser à
d’autre caractère Y dont les modalités sont yi .
L’ensembles des triplets (xi ,yi ,nij) est appelé série
statistique à deux variables.
De même on peut définir une série statistique à n
variables.
III-3-Tableaux statistiques

Dans l’étude statistique ,on commence par grouper les


données dans un tableau :

caractère X1 X2 Xp-1 Xp

effectif n1 n2 np-1 np

fréquence f1 f2 fp-1 fp
III-4-effectif cumulé↑-effectif cumulé ↓

l’effectif cumulé croissant est:


i
N i   n j
j 1

l’effectif cumulé décroissant est:


p
N i   n j
j i
III-5-fréquence cumulée↑-fréquence cumulée ↓

 La fréquence cumulée croissante est:

Ni 
Fi 
N
 La fréquence cumulée décroissante est:

Ni 
Fi 
N
Exemple

A partir d’une enquête portant sur le nombre


d’enfants d’un échantillon de familles, on obtient les
résultats suivants:
Nbre Effectif Effectif Effectif Fréq Fréq Fréq
d’enfants cum cum cum cum
crs décrs crs décrs
0 18 18 200 0,09 0,09 1
1 32 50 182 0,16 0,25 0,91
2 66 116 150 0,33 0,58 0,75
3 41 157 84 0,205 0,785 0,42
4 32 189 43 0,16 0,945 0,215
5 9 198 11 0,045 0,99 0,055
6 2 200 2 0,01 1 0,01
Les différentes situations en statistique

 Situation de répartition: lorsque les individus d’une


population statistique sont rangés, on parle de
situation de répartition.
 Situation de comparaison: lorsqu’on étudie le même
caractère sur plusieurs échantillons d’une même
population.
 Situation d’évolution ou série chronologique: elle
dépend du temps.
CHAPITRE IV

REPRESENTATIONS
GRAPHIQUES
Diagrammes statistiques

Le rôle des diagrammes statistiques et des


représentations graphiques est de faire passer une
information grâce a un effet visuel.
Ils en existent plusieurs types; citons:
 Le diagramme en bâtons.
 Le diagramme en tuyau d’orgues
 Le diagramme en barres
 L’histogramme
 Le diagramme à secteurs angulaires
 Le diagramme en toile d’araignée
NOMBRE DE PIECES NOMBRE DE JOURS
DEFECTUEUSES

0 44

1 18

2 12

3 8

4 6

5 9

6 3
Diagramme des effectifs

50
45
40
35
30
25
20
15
10
5
0
0 1 2 3 4 5 6
L’histogramme

Remplissez le tableau suivant, puis représentez cette série


par un histogramme.

Classe Ci 300,400 400,500 500,600 600,700 700,800

Effectifs 25 90 145 90 50

Fréquences

Fréquences
cum crs
Le tableau suivant donne la répartition des âges de
110 personnes

Représentez cette série statistique par un


histogramme.
âges effectifs

15,20 10

20,25 30

25,30 40

30,35 20

35,45 10
L’histogramme donne une image pour laquelle, on
repère la surface des rectangles, et non leurs
hauteurs, comme pour les bâtons ou les tuyaux
d’orgues.
classes d’amplitudes différentes

Une correction d’effectifs s’impose pour que l’air


reste proportionnelle à l’effectif total .en effet si on
choisit l’intervalle qui a la plus petite amplitude
comme unité et si un intervalle ( classe) d’effectif ni
et k fois plus grand que l’intervalle unité, la
correction de cet intervalle sera ni/k.
Diagrammes a secteurs circulaires

 Dans l’université XX, on compte 39% d’étudiants en droit,


20% en économie, 13% en physique et 28% en biologie.
 Représenter cette série statistique par un diagramme à
secteurs circulaires.
Diagrammes a secteurs circulaires

28%
39% droit
ECONOMIE
PHYSIQUE
BIOLOGIE
13%

20%
Diagramme en toile d’araignée

Chiffres d’affaires du commerce X (en milliers d’euros)


2005 2006 2007
Janvier 11 14 16
Février 9 12 14
Mars 6 10 13
Avril 10 10 15
Mai 4 4 6
Juin 2 1 3
Juillet 5 8 14
Aout 8 9 16
Septembre 7 11 15
Octobre 2 4 6
Novembre 3 2 8
Décembre 10 10 15
janvier
16
decembre 14 fevrier
12
10
novembre 8 mars
6
4
2
2005
octobre 0 avril
2006
2007

septembre mai

aout juin

juillet
CHAPITRE V

PARAMETRES DE POSITION
ET DE DISPERTION
V-1 PARAMETRES DE POSITION

Le rôle des paramètres de position ou de dispersion


est de transmettre, par un calcul, une information
liée à une réalité statistique .
V-1-1 LE MODE

Définition:
Le mode (classe modale) est la valeur (classe)
ayant le plus grand effectif.
Remarques:
 Le mode n’est pas unique.
 Le mode peut aussi être attribuer à une série
statistique à caractère qualitatif.
V-1-2 LA MEDIANE

Définition:
La médiane qu’on note Me est la valeur de la variable
statistique, telle que l’effectif des valeurs inférieurs à
cette valeur soit égal à l’effectif des valeurs supérieures.
Remarque:
 La médiane est la valeur à partir de laquelle la fréquence
cumulée croissante dépasse 50%.
CALCUL DE LA MEDIANE

Pour calculer la médiane on ordonne la distribution par


ordre croissant.
Cas discret:
 Si le nombre total des valeurs du caractère est paire, soit
2n,la médiane est comprise entre le terme de rang n est
celui de rang n+[Link] pourra prendre Me comme demi-
somme des deux.
 Si le nombre total des valeurs du caractère est impaire,
soit 2n+1,la médiane Me est le terme de rang n+1.
 C’est aussi la plus petite valeur du caractère dont
l’effectif cumulé croissant est supérieur ou égal à N/2.
CALCUL DE LA MEDIANE

Cas continue:
 La médiane Me peut être approché graphiquement
comme abscisse du point d’intersection du polygone
des effectifs croissants et décroissants.
 On détermine d’abord la classe médiane  ak 1 ; ak 
tel que : N k 1  N N k
2
puis en utilisant une interpolation affine, on calcule
Me par la formule: Me  ak 1 ak  ak 1

N
 N k 1 N k  N k 1
2
V-1- 3 LES QUANTILES

Définition:
Les quantiles sont les valeurs du caractère qui partagent
la distribution en n parties comprenant le même effectif
égal à 1 de l’effectif total.
n
Remarque:
 Si n=4 ,on parle de quartiles.
 Si n=10,on parle de déciles.
 Si n=100,on parle de centiles.
 Les quantiles servent à mesurer la symétrie d’une série
statistique mais aussi la concentration du caractère
étudié.
CALCUL DES QUARTILES

Cas discret:
Pour déterminer les quartiles Q1 et Q3 ;on range
d’abord les valeurs de la série statistique dans
l’ordre croissant.
N
o Q1est la valeur classé arrondie par excès.
4
3N
o Q3 est la valeur classé arrondie par excès.
4

o Q2 =Médiane
CALCUL DES QUARTILES

Cas continue:
 Les quartiles Q1 et Q3 sont approximativement les
abscisses respectifs des points du polygone des
N
effectifs cumulés croissant qui correspondent à
3 N 4
et à .
4
 On peut aussi déterminer Q1 et Q3 par interpolation
affine comme dans le cas de la médiane.
EXEMPLE

On compte le nombre de voitures à la sortie d’une


ville un jour:
heure
 0, 4  4, 8 8,12 12,16  20, 24  20, 24

Nbre de 1100 3800 2100 700 1800 1200


voitures

On construit la courbe des fréquences cumulées


croissante:
heure 0 4 8 12 16 20 24
FCC en % 0 10,3 45,8 65,4 71,9 88,7 100
Polygone des fréquences cumulées croissantes

120

100

80

60 FCC

40

20

0
0 4 8 12 16 20 24
V-1- 4 LA MOYENNE ARITHMETIQUE

Définition:
La moyenne arithmétique d’une série statistique
 xi , ni 1i p est le nombre réel:
1 p
x 
N i 1
ni xi
Remarque:
 Dans le cas d’une série statistique à caractère
continue  ai , ai 1  ; ni  ,la moyenne arithmétique
1i  p
est : 1 p ou ai  ai 1
x   ni ci ci 
N i 1 2
QUELQUES PROPRIETES DE LA M.A

 La moyenne arithmétique est le paramètre le plus


utilisé. Il a l’inconvénient d’être sensible à des
valeurs aberrantes, ce qui le rend moins significatif
dans certains cas.
Théorème 1:
Soit  xi , ni 1i  p une série statistique de moyenne
arithmétique x .On partage la population en deux
groupes A et B d’effectifs respectifs N A et N B et de
moyenne arithmétique x A et xB .
alors: N A .xA  N B .xB
x
N A  NB
QUELQUES PROPRIETES DE LA M.A

Théorème 2:
Soit la série statistique  xi , ni 1i  p de moyenne
arithmétique x .Si on considère la série statistique
 yi , ni 1i p tel que yi  [Link]  b ( a et b sont deux réels)

alors: y  ax  b
EXERCICE

Le professeur X corrige les copies du devoir qu’il a


donné à ses élèves. Les notes obtenues sont:
6-4-7-9-11-8-5-12-3-7-1-13-5-7-9-2-8-10-10-5
1) Calculer la moyenne arithmétique.
2) Conscient de la faiblesse des résultats, le prof
décide de relever les notes en les multipliant par un
coefficient a puis ajoutant 1 à toute la classe à fin
d’obtenir une moyenne égale à 11,65.
a) Déterminer a.
b) Déterminer les notes ainsi obtenues.
AUTRES TYPES DE MOYENNES

A-La moyenne harmonique:


Définition:
La moyenne harmonique d’une série statistique
 xi , ni 1i p est le nombre :
N
xH  p
1
i 1
ni .
xi
AUTRES TYPES DE MOYENNES

Remarques:
 La moyenne harmonique est l’inverse de la moyenne
arithmétique des inverses des valeurs de la série
statistique.
 La moyenne harmonique n’est utilisée que si les
inverses des données ont vraiment une signification.
AUTRES TYPES DE MOYENNES

B-La moyenne géométrique:


Définition: La moyenne géométrique d’une série
statistique  xi , ni 1i  p est le nombre :

xG  n1 n2 np
N x x2 .......x p
1
AUTRES TYPES DE MOYENNES

Remarques:
 On peut calculer aisément la moyenne géométrique
en utilisant le logarithme, à savoir:
p

 n log( x )
i i
log( xG )  i 1

N
AUTRES TYPES DE MOYENNES

 La moyenne géométrique est rarement utilisée en


statistique. En effet, elle n’a de signification réelle
que lorsqu’elle s’applique à des valeurs qui suivent
sensiblement une progression géométrique.
C’est le cas de certaines données telles que les
valeurs acquises à intérêt composés par un capital
donné, si on considère ces valeurs à la fin des
périodes de placement.
AUTRES TYPES DE MOYENNES

C-La moyenne quadratique:


Définition:
La moyenne quadratique d’une série statistique
 xi , ni 1i p est le nombre:
p
1
xQ 
N
ii
n x
i 1
2
EXERCICE

Montrer que:
xH  xG  x  xQ
V-2 PARAMETRES DE DISPERTION

En général, les paramètres de position ne suffisent


pas à caractériser une série statistique. Par ailleurs,
on peut concevoir qu’il existe des séries statistiques
qui ont même médiane, même mode et même
moyenne. De ce fait, pour distinguer ces séries, il
nous faut trouver des valeurs qui caractérisent la
manière de distribution des données autour d’une
valeur centrale telle que la médiane ou la moyenne.
V-2-1 L’ETENDUE

Définition:
L’étendue d’une série statistique, c’est la
différence entre la plus grande et la plus petite des
données de la série statistique, c-à-d:
e= xmax- xmin
V-2-2 L’ECART INTERQUARTILE

Définition:
C’est la différence entre le troisième et la premier
quartile, c-à-d: Q3  Q1
Remarque:
 L’intervalle interquartile ne contient que 50% des
observations privées de 25% des valeurs extrêmes de
chaque coté.
 Pour pouvoir comparer des séries statistiques
exprimées par des unités différentes, on utilise
l’interquartile relatif Q3  Q1 .
Q2
V-2- 3 L’ECART INTERDECILE

Définition:
C’est la différence entre le neuvième et le premier décile
c-à-d: D9  D1
Remarque:
L’intervalle inter décile contient 80% de la population
étudiée et ne rend pas compte de 10% des valeurs
extrêmes des deux cotés.
V-2-3 L’ECART ABSOLU MOYEN

Définition:
L’écart absolu moyen d’une série statistique  xi , ni 1i  p
est le nombre: 1 p
em 
N
 n
i 1
i xi  x
Remarque:
Lorsqu’il s’agit d’une série statistique à caractère
continue  ai , ai 1 , ni 1i p ;on remplace les xi
ai  ai 1
par ci 
2
V-2-4 LA VARIANCE ET L’ECART-TYPE

Définition:
 La variance d’une série statistique  xi , ni 1i  p est le
nombre:
1 p
V   ni  xi  x 
2

N i 1
 L’écart-type est le nombre:  V
CHAPITRE VI

SERIES STATISTIQUES A
DEUX CARACTERES
VI-1 GENERALITES

On considère deux variables statistiques X et Y d’une


population Ω.
Soient x1,x2 …….et xp les valeurs prises par X
et y1,y2,………..yq les valeurs prises par Y
Deux présentations de la série statistique associée au
couple (X,Y) sont possibles:
LES DONNEES SONT NON GROUPEES

Xi X1 X2 X3 ……………. Xn

Yi Y1 Y2 Y3 ………………. Yn

Dans ce cas il ya autant de valeurs que d'individu de la


population étudiée.
LES DONNEES SONT GROUPEES

Y Y1 …….. Yj …………. Yq Marginale


X X
X1 N11 ………. N1i …………. N1q N1.
. . . . . . .
. . . . . . .
Xi Ni1 ……….. Nij ………….. Niq Ni.
. . . . . . .
. . . . . . .
Xp Np1 ………… Npj ………….. Npq Np.
Marginale N.1 ………… N.j …………… N.q N
Y
DEFINITIONS

 Chaque couple (xi,yj) est associé à l’effectif nij .


 La série obtenue est une série à 2 variables notée
(xi,yj,nij) attachée au couple (X ,Y).
 L’effectif total est N=∑ ∑ nij =∑ ni.= ∑ n.j
 La fréquence de (xi,yj) est fij= nij/N
 Le pourcentage pij=fij•100
 La série peut se noter également par (xi,yj,fij)
 Les deux séries X et Y s’appellent les séries
marginales de la série (xi,yj,nij)
EXEMPLE

 A un examen, chaque candidat est évalue sur deux


disciplines A(noté Xi) et B(noté Yi) à l’aide d’une
échelle de 0 à 10.
Yi MARGINALE
2 4 5 6 7 8 9 X
Xi
3 1 6 1 8
4 3 1 4 4 12
5 2 3 5 1 11
6 1 6 4 2 3 3 19
7 2 3 1 4 10
MARGINALE
Y 1 2 14 9 18 8 8 60
VI-2 NUAGE STATISTIQUE

Dans un repère cartésien ,on considère les points


Mij(xi,yj) .L’ensemble des points Mij s’appelle nuage
statistique attaché à la série (xi,yj,nij).
EXEMPLE 1

 L’ étude statistique suivante porte sur une


population de nouveau-nés .Deux caractères sont
étudiés:
enfant 1 2 3 4 5 6 7 8 9 10

Masse en 2,4 2,6 2,7 3 3,2 3,3 3,5 3,6 3,8 4


kg
Taille en 45 47 48 50 51 52 53 54 54 56
cm
REPRESESENTATION GRAPHIQUE
60

50

40

30

20

10

0
0 1 2 3 4 5
VI-3 POINT MOYEN

 Le point G(x, y) s’appelle « point moyen » du nuage


statistique.
 Dans le cas de l’exemple, on a: x = 3,19

y = 51
EXEMPLE 2

 On recense les salaires mensuels nets en euros des


30 salariés d’une certaine entreprise et leurs âges; on
obtient : (20,1200)-(21,1700)-(25,1400)-(24,2000)-
(30,2600)-(27,2000)-(33,1700)-(33,2200)-
(35,1400)-(35,2500)-(35,3100)-(37,2000)-
(37,2600)-(38,2000)-(43,2000)-(42,3000)-
(45,3600)-(45,2500)-(47,3300)-(47,3000)-
(50,2600)-(50,3000)-(49,3500)-(52,3600)-
(53,3000)-(55,3500)-(55,3400)-(57,3100)-
(59,3600).
salaires
4000

3500

3000

2500
G

2000

1500

1000

500

0 âges
41
0 20 40 60 80
EXEMPLE 3

 Pour une étude démographique locale concernant


l’âge des époux et des épouses au moment du
mariage, on prélève les données suivantes:(24,17)-
(23,18)-(22,17)-(24,18)-(24,20)-(24,21)-(25,18)-
(25,19)-(25,20)-(26,18)-(26,19)-(26,21)-(26,23)-
(27,19)-(27,21)-(28,21)-(28,22)-(30,22)-(30,23)-
(31,24)-(31,25)-(34,24)-(35,24)-(36,25)-(35,25).
30
Age de l’épouse

25

20

15

10

Age de l’époux
0
0 10 20 30 40
EXEMPLE 4

 Les données d’une série statistique double sont:


(5,4 ,8)-(8,12)-(7,9 ,15)-(12,18)-(2,25)-(5,19)-
(5,6 ,32)-(7,3)-(8,2 ,15)-(4,24)-(1,8 ,18)-(6,11)-
(9,3 ,19)-(3,24)-(2,5 ,28)-(7,9 ,30)-(6,14).
35

30

25

20

15

10

0
0 2 4 6 8 10
Autres exemples de nuages de points

14

12

10

0
0 5 10 15 20 25
30

25

20

15

10

0
0 5 10 15 20 25 30 35
25

20

15

10

0
0 2 4 6 8 10 12
8

0
0 0,5 1 1,5 2 2,5 3
VI-4 L’ AJUSTEMENT

 A partir du nuage de points représentant la série


statistique, on cherche à trouver un lien éventuel
entre les deux caractères .Mathématiquement, il
s’agit de déterminer la fonction analytique y=f(x)
qui parait la mieux représentatif pour l’ensemble du
nuage.
 Cet ajustement pourrait servir pour procéder à des
interpolations ou à des extrapolations.
VI-5 L’AJUSTEMENT LINEAIRE

 L’idée est de déterminer la droite qui sera la plus


proche de tous les points du nuage et donnera les
meilleurs résultats. Ceci est le mieux adapté quand le
nuage a un aspect rectiligne.

 Plusieurs méthodes sont possibles:


 La méthode de Mayer.
 La méthode des moindres carrés.
VI-5-1 METHODE DE MAYER

Cette méthode consiste à :


 Fractionner le nuage de points en deux nuages dont
les effectifs sont égaux ou différent de 1 si l’effectif
total est impair.

 Calculer les coordonnées des points moyens G1 et G2


des deux nuages.

 Déterminer l’équation de la droite (G1G2 ).


VI-5- 2 METHODE DES MOINDRES CARRES

Cette méthode consiste à :


 Déterminer la droite (D) qui minimise la somme des
carrés des écarts des points du nuage à cette droite.

On peut procéder de deux manières suivant que l’on


prend les écarts suivant la direction de l’axe des abscisses
ou de l’axe des ordonnées.

Le problème c’est de déterminer la droite (D) :y=ax+b


de telle sorte que
f(a,b)= ∑(a xi+b - yi)² soit minimale.
VI-5- 2 METHODE DES MOINDRES CARRES

(D)
yi Mi

axi  b M2 P3 Pi
M1
P2

M3
P1

xi
DROITE DE REGRESSION DE Y EN X

La droite d’équation y=ax+b qui rend minimale la


somme des résidus est la droite :
 qui passe par le point moyen G.
cov( X , Y )
 qui a pour coefficient directeur a=
V (X )
Donc l’équation de la droite de régression de y en x a
pour équation:
cov( X , Y )
y y ( x  x)
V (X )
DROITE DE REGRESSION DE X EN Y

En procédant de la même manière, mais en prenant


les écarts suivant la direction de l’axe des abscisses,
on trouve l’équation de la droite de régression de x
en y:
cov( X , Y )
xx ( y  y)
V (Y )
DROITES DE REGRESSION

 Le coefficient directeur de la droite de régression de


y en x est : cov( X , Y )
a
V (X )
 Le coefficient directeur de la droite de régression de
x en y est : 1 V (Y )

a cov( X , Y )
Les deux droites de régression sont toutes les deux
croissantes ou toutes les deux décroissantes.

(D’)

(D)

VI-6 LA CORRELATION

 La décision d’ajuster un nuage par une droite ne se


prend pas uniquement à la seule vue du nuage,
suivant s’il est allongé ou non. A cet égard, les
statisticiens ont éprouvé le besoin de quantifier cette
décision par un nombre ;c’est le coefficient de
corrélation.
VI-6 LA CORRELATION

Définition:
cov( X , Y )
le nombre r ( X , Y )  s’appelle coefficient
 ( X ) (Y )

de corrélation linéaire.
Remarque:
a.a   r ( X , Y )
2

Proposition:
1  r ( X , Y )  1
VI-6 LA CORRELATION

Remarques:
 La corrélation est d’autant meilleure que r est
proche de 1.
 De façon calculée, on estime que la corrélation est
bonne lorsque r  0,87
14

12

10
y = 0,4485x + 1,5376
R² = 0,8298

0
0 5 10 15 20 25
30

25

20

15

y = -0,1319x + 17,035
R² = 0,0224
10

0
0 5 10 15 20 25 30 35
25

20

15

10

5
y = -2,0758x + 23,585
R² = 0,7167

0
0 2 4 6 8 10 12
8

y = 0,7338x + 2,1296
R² = 0,0869
3

0
0 0,5 1 1,5 2 2,5 3
AJUSTEMENT POLYNOMIAL

Le plan étant muni d’un repère orthogonal .


Soit le nuage de points M1 ( x1 , y1 ); M 2 ( x2 , y2 );.......; M n ( xn , yn )
Les coefficients de pondérations sont tous égaux à 1.
7
6
5
4
3
2
1
0
0 2 4 6
AJUSTEMENT POLYNOMIAL

n
Soit le polynôme: P( x)  ax  bx  c et S 
2
 i i i
( y
i 1
 ( ax 2
 bx  c )) 2

Si Pi désigne le point de la courbe de coordonnées


n
( xi , axi2  bxi  c) , alors S   PM
i i
2

i 1
On cherche les valeurs des nombres a,b et c pour
lesquelles S est minimal.
AJUSTEMENT POLYNOMIAL

S atteint son minimum lorsque les dérivées partielles


par rapport à a, b et c sont nulles.
Des relations : S S S
  0
a b c
On déduit le système:
aE ( X 4 )  bE ( X 3 )  cE ( X 2 )  E ( X 2Y )

aE ( X )  bE ( X )  cE ( X )  E ( XY )
3 2

aE ( X 2 )  bE ( X )  c  E (Y )

REFERENCES

 [Link],La statistique sans formule mathématiques,2ème


édition, Pearson,Paris,2010.
 [Link],Probabilités et statistiques,Cours
IUT1,Grenoble,2009.
 [Link],R.Séroux,[Link],[Link],2ème
édition, Ellipses,Paris,2011.
 [Link],Probabilités et statistiques,Afrique
orient,Casablanca,2014.
 [Link]é,Cours de statistiques,Editions
Licet,Paris,1986.

Vous aimerez peut-être aussi