MODULE
STATISTIQUE
DESCRIPTIVE
PROFESSEUR:
[Link]
CHAPITRE I
INTRODUCTION
PLAN
1-Objectifs du module
2-Définitions de la statistique
3-La statistique descriptive et la statistique
inférentielle
4-Domaines d’applications de la statistique
5-Histoire de la statistique
6-La démarche statistique
7-importance de la statistique dans le
domaine éducatif
8-Choix de l’échantillon
9-Mener une enquête ou une recherche
I-1-Objectifs du module
Connaitre les notions de base en statistique
descriptive.
Savoir analyser et interpréter les résultats
statistiques.
Pouvoir mener une enquête ou une recherche.
I-2-Définitions de la statistique
La statistique est une branche des mathématiques
appliquées dont les principes découlent de la théorie des
probabilités et qui a pour objet le groupement
méthodique ainsi que l’étude des séries de faits ou de
données numériques. (Larousse)
La statistique est la science qui a pour objet de recueillir
un ensemble de données numériques relatives à tel ou tel
phénomène faisant intervenir des variables déterministes
et aléatoires et d’exploiter rationnellement ces données
pour établir toutes relations de causalité par l’analyse et
l’interprétation. (Paul pacè)
I-2-Définitions de la statistique (suite)
Remarque:
Il faut distinguer entre « la statistique » et « les
statistiques » qui désigne familièrement l’ensemble
des données chiffrés.
I-3-La statistique descriptive et la statistique
inférentielle
La statistique descriptive est la branche des
statistiques qui regroupent les nombreuses
techniques utilisées pour décrire un ensemble
relativement important de données.
La statistique inférentielle est un ensemble de
méthodes permettant de tirer des conclusions fiables
à partir de données d’echantillons statistiques
I-4-Domaines d’applications de la statistique
Démographie (recensement).
Economie.
Sociologie.
Politique.
Médecine.
Physique.
Climatologie.
Ecologie.
…………………………………………
I-5-Histoire de la statistique
Dans l’évolution de la statistique au cours de
l’histoire on peut distinguer trois étapes:
Dans cette étape qui va de la plus haute antiquité
jusqu’au 18 ième siècle, la statistique se réduit à des
recensements et inventaires de caractère
démographique ou comptable et reste une statistique
de constatation.
Ce n’est qu’au 18 ième siècle que l’on voit apparaitre
le rôle prévisionnel des statistiques et c’est à Adolphe
Quételet que l’on doit l’idée que la statistique est une
science s’appuyant sur les probabilités.
I-5-Histoire de la statistique (suite)
Sous l’impulsion de grands mathématiciens , la
troisième étape est révolutionnaire car elle va
permettre désormais d’ouvrir à la statistique des
horizons illimités, surtout avec l’essor de
l’informatique qui va permettre de traiter et
d’analyser un plus grand nombre de données .
I-6-La démarche statistique
La démarche statistique pour une enquête, un
sondage, une étude ou un recensement se fait en
général en quatre étapes.
Phase préparatoire:
on détermine les différents caractères que l’on va
étudier et sur quel population portera l’étude. Se
pose alors le problème de l’échantillon.
Recueil des données:
La récolte des données peut se faire par des tests,
des QCM, des mesures etc.
I-6-La démarche statistique (suite)
Traitement des données:
Les résultats d’une étude statistique forment en
général une immense série de données brutes
difficile à manipuler. Il est don nécessaire de les
ranger, de les représenter graphiquement, de
calculer certains paramètres significatifs.
Interprétation et analyse des données:
Les résultats obtenus lors d’une étude statistique
ne constituent en fait qu’un échantillon d’une réalité
souvent bien plus vaste.
I-6-La démarche statistique (suite)
Se basant ensuite sur des calculs de probabilités, on
essaye de voir si les résultats observés peuvent se
généraliser à la population tout entière.
Remarque:
L’ensemble des trois premières étapes entrent dans
le cadre de la statistique descriptive. La quatrième
intervient dans le cadre de la statistique inférentielle
I-7-importance de la statistique dans le domaine
éducatif
Les procédés, méthodes
ou techniques statistiques
sont nécessaires pour mener
n’importe quel étude
dans le domaine éducatif,
en vue de prendre des décisions objectives. En
effet, il permettent au professeur dans sa
classe ,en tant qu’évaluateur, de mieux analyser
les instruments de mesure du rendements de ses
élèves et de mieux juger ce rendement.( par
exemple, classification des élèves, situation d’un
élève dans son groupe, mesure de difficulté
d’apprentissage ….).
I-7-importance de la statistique dans le domaine
éducatif (suite)
Donc les statistiques permettent au professeur ,en
tant que chercheur d’analyser les données d’une
situation expérimentale, de vérifier ses hypothèses
de recherche, d’interpréter ses résultats et de pouvoir
les communiquer dans un langage simple et
compréhensible, en vue de prendre des décisions
objectives et efficaces.
I-8-Choix de l’échantillon
La fiabilité des résultats d’une étude statistique
dépend étroitement de l’échantillon choisi. Donc il
faut que cet échantillon soit un modèle réduit de la
population totale, d'ou l’importance d’une telle
décision. Si on connait suffisamment la structure de
la population, on peut créer un échantillon
représentatif de la population qu’un échantillon pris
au hasard.
I-9-Mener une enquête ou une recherche
Pour mener une enquête, généralement on suit les étapes
suivantes:
Choix du thème (justifié)
Choix de la population étudiée
Etude bibliographique sur le thème
Poser la problématique
Soulever des hypothèses
Elaborer des QCM, des test, des contrôles…..(visant à
confirmer ou infirmer les hypothèses)
Traitement des données
Conclusion et suggestions
CHAPITRE II
LES ENQUETES
PLAN
1-Qu’est ce qu’une enquête?
2-sondage et échantillon
3-Les sondages aléatoires simples (SAS)
4-Les sondages stratifiés
5-Sondage à choix raisonnés
6-Autres méthodes empiriques de sondage
7-Le questionnaire
8-Construction du questionnaire
9-Le formatage des questions
II-1-Qu’est ce qu’une enquête?
L’enquête est l’opération technique qui permet la
collecte des données sur un ensemble de départ
qu’on appelle « population ».
Remarque:
Une enquête demande des moyens importants en
temps, en préparation méthodique ,travail de
groupe, et en financement.
II-2-sondage et échantillon
En général la plupart des enquêtes que l’on produit
sont des enquêtes partielles que l’on appelle aussi
« sondages » et qui consistent à n’interroger qu’une
partie de la population mère, la plus représentative
possible, appelé « échantillon ».
II-3-Les sondages aléatoires simples (SAS)
On tire de la population mère, de façon aléatoire un
échantillon sur lequel portera l’enquête. Evidement,
si la population est parfaitement homogène, et
parfaitement connue, un tirage de ce genre pourrait
être satisfaisant. Dans ce cas la on parle de SAS.
Cependant, dans la plupart des cas les choses ne sont
pas aussi homogènes que l’on espère.
II-4-Les sondages stratifiés
Ces sondages consistent à découper la population
mère en sous-populations plus homogènes, que l’on
appelle des «strates »,et sur chacune d’elles sera
réaliser un sondage.
II-5-Sondage à choix raisonnés
Il s’agit ici de procédures d’échantillonnage
empiriques et non plus probabilistes. Dans ce cas la
le principe est de respecter les proportions des
principales caractéristiques de la population, pour
obtenir une sorte de maquette simplifiée de la
réalité. Cette méthode s’appelle aussi « méthode des
quotas ».
II-6-Autres méthodes empiriques de sondage
Le sondage spontané: consiste à lancer un
questionnaire auprès d’abonnés d’un journal, ou de
clients d’une banque, ou à envoyer par internet, ou
même par téléphone, un questionnaire,
Le sondage sélectif: consiste à interroger par
exemple la 5éme personne, puis la 15 éme, puis la 25
éme et ainsi de suite.
La méthode du panel: utilisée surtout dans les
domaines de consommation. Elle consiste à fidéliser
un groupe de consommateur pour qu’il répondent à
des questionnaires de façon périodique.
II-6-Autres méthodes empiriques de
sondage(suite)
Pour conclure, on voit bien qu’il ya place à des
champs infinis d’imagination. La recherche de
l’homogénéité est l’objectif principale des
combinaisons de toutes les méthodes entre elles.
Aussi la simple compréhension des méthodes permet
de faire fonctionner son imagination pour fabriquer
un plan de sondage adapté à une investigation qu’on
veut faire sur un problème de terrain.
II-7-Le questionnaire
Le questionnaire est le « support » qui permet à
l’enquêteur de passer son enquête .Par ailleurs, il est
soit passé en « face à face », soit par téléphone, soit
envoyé par poste ou par internet, soit encore déposé
à l’entrée d’un office ou en tout endroit stratégique.
II-8-Construction du questionnaire
Bien préciser l’objet de l’enquête.
Bien étudier l’ordre des questions.
Bien choisir les mots et les expressions de façon à ce que
tout le monde comprenne la même chose en entendant le
même mot.
Etre court et précis.
Eviter de poser les doubles questions.
Mettre le questionnaire à une «pré-enquête».
Cette dernière étape permet de rectifier, reformuler,
corriger le questionnaire; et ceci à fin d’optimiser les
chances de réussite du questionnaire.
II-9-Le formatage des questions
Dans un questionnaires, les questions peuvent être:
Fermées.
exemple: « avez-vous des enfants? »
oui non
Ouvertes.
exemple:
« quelles sont vos attentes de cette formation? »
Semi-ouvertes.
exemple: « êtes-vous satisfait du service? Argumentez en
quelques mots »
oui non
II-9-Le formatage des questions (suite)
Remarque:
D’autres types de formatage de questions peuvent
exister, parmi ceux-ci existent les formatages de type
« échelles ».
exemple: « les maths sont inutiles »
Je n’y J’en suis
crois pas 0 1 2 3 totalement
persuadé
Exemple de questionnaire
Très satisfaisant Peu Très
satisfaisant satisfaisant insatisfaisant
1) Qualité du service
2) Temps de service
3) Qualité des
ingrédients
4) Qualité de la
préparation
5) Variété du choix des
plats
6) Prix du menu ou de
la carte
7) Qualité des boissons
8) Propreté de la
vaisselle
CHAPITRE III
VOCABULAIRE
STATISTIQUE
PLAN
1-Vocabulaire statistique
2-Modalités-effectifs-fréquences
3-Tableaux statistiques
4-effectif cumulé↑-effectif cumulé ↓
5-fréquence cumulée↑-fréquence cumulée ↓
III-1-Vocabulaire statistique
1) Population statistique:
« C’est le groupe sur qui portera l’étude statistique »
2) Individu:
« un élément de la population statistique »
3) Echantillon:
«un sous ensemble de la population statistique »
4) Caractère statistique ou variable statistique:
«la propriété sur laquelle porte l’étude statistique »
III-1-Vocabulaire statistique (suite)
On distingue deux types de caractères:
Caractère qualitatif:
« C’est un caractère qu’on ne peut pas mesurer »
Caractère quantitatif:
« C’est un caractère qu’on peut exprimer
numériquement »
III-1-Vocabulaire statistique (suite)
Le caractère quantitatif peut être:
discret s’il ne prend qu’un nombre fini de valeurs
isolées.
Continue s’il prend toute les valeurs possibles à
l’intérieur d’un intervalle.
III-2-Modalités-effectifs-fréquences
Les valeurs que peut prendre le caractère statistique
sont appelées « modalités » qu’on peut noter xi
A chaque modalité xi est associée un effectif ni qui
désigne le nombre d’individus correspondant à cette
modalité .
fi =ni /N est la fréquence de la modalité xi, elle est
souvent calculée en pourcentage .
L’ensemble des couples (xi , ni ) est appelé série
statistique à une variable. on peut s’intéresser à
d’autre caractère Y dont les modalités sont yi .
L’ensembles des triplets (xi ,yi ,nij) est appelé série
statistique à deux variables.
De même on peut définir une série statistique à n
variables.
III-3-Tableaux statistiques
Dans l’étude statistique ,on commence par grouper les
données dans un tableau :
caractère X1 X2 Xp-1 Xp
effectif n1 n2 np-1 np
fréquence f1 f2 fp-1 fp
III-4-effectif cumulé↑-effectif cumulé ↓
l’effectif cumulé croissant est:
i
N i n j
j 1
l’effectif cumulé décroissant est:
p
N i n j
j i
III-5-fréquence cumulée↑-fréquence cumulée ↓
La fréquence cumulée croissante est:
Ni
Fi
N
La fréquence cumulée décroissante est:
Ni
Fi
N
Exemple
A partir d’une enquête portant sur le nombre
d’enfants d’un échantillon de familles, on obtient les
résultats suivants:
Nbre Effectif Effectif Effectif Fréq Fréq Fréq
d’enfants cum cum cum cum
crs décrs crs décrs
0 18 18 200 0,09 0,09 1
1 32 50 182 0,16 0,25 0,91
2 66 116 150 0,33 0,58 0,75
3 41 157 84 0,205 0,785 0,42
4 32 189 43 0,16 0,945 0,215
5 9 198 11 0,045 0,99 0,055
6 2 200 2 0,01 1 0,01
Les différentes situations en statistique
Situation de répartition: lorsque les individus d’une
population statistique sont rangés, on parle de
situation de répartition.
Situation de comparaison: lorsqu’on étudie le même
caractère sur plusieurs échantillons d’une même
population.
Situation d’évolution ou série chronologique: elle
dépend du temps.
CHAPITRE IV
REPRESENTATIONS
GRAPHIQUES
Diagrammes statistiques
Le rôle des diagrammes statistiques et des
représentations graphiques est de faire passer une
information grâce a un effet visuel.
Ils en existent plusieurs types; citons:
Le diagramme en bâtons.
Le diagramme en tuyau d’orgues
Le diagramme en barres
L’histogramme
Le diagramme à secteurs angulaires
Le diagramme en toile d’araignée
NOMBRE DE PIECES NOMBRE DE JOURS
DEFECTUEUSES
0 44
1 18
2 12
3 8
4 6
5 9
6 3
Diagramme des effectifs
50
45
40
35
30
25
20
15
10
5
0
0 1 2 3 4 5 6
L’histogramme
Remplissez le tableau suivant, puis représentez cette série
par un histogramme.
Classe Ci 300,400 400,500 500,600 600,700 700,800
Effectifs 25 90 145 90 50
Fréquences
Fréquences
cum crs
Le tableau suivant donne la répartition des âges de
110 personnes
Représentez cette série statistique par un
histogramme.
âges effectifs
15,20 10
20,25 30
25,30 40
30,35 20
35,45 10
L’histogramme donne une image pour laquelle, on
repère la surface des rectangles, et non leurs
hauteurs, comme pour les bâtons ou les tuyaux
d’orgues.
classes d’amplitudes différentes
Une correction d’effectifs s’impose pour que l’air
reste proportionnelle à l’effectif total .en effet si on
choisit l’intervalle qui a la plus petite amplitude
comme unité et si un intervalle ( classe) d’effectif ni
et k fois plus grand que l’intervalle unité, la
correction de cet intervalle sera ni/k.
Diagrammes a secteurs circulaires
Dans l’université XX, on compte 39% d’étudiants en droit,
20% en économie, 13% en physique et 28% en biologie.
Représenter cette série statistique par un diagramme à
secteurs circulaires.
Diagrammes a secteurs circulaires
28%
39% droit
ECONOMIE
PHYSIQUE
BIOLOGIE
13%
20%
Diagramme en toile d’araignée
Chiffres d’affaires du commerce X (en milliers d’euros)
2005 2006 2007
Janvier 11 14 16
Février 9 12 14
Mars 6 10 13
Avril 10 10 15
Mai 4 4 6
Juin 2 1 3
Juillet 5 8 14
Aout 8 9 16
Septembre 7 11 15
Octobre 2 4 6
Novembre 3 2 8
Décembre 10 10 15
janvier
16
decembre 14 fevrier
12
10
novembre 8 mars
6
4
2
2005
octobre 0 avril
2006
2007
septembre mai
aout juin
juillet
CHAPITRE V
PARAMETRES DE POSITION
ET DE DISPERTION
V-1 PARAMETRES DE POSITION
Le rôle des paramètres de position ou de dispersion
est de transmettre, par un calcul, une information
liée à une réalité statistique .
V-1-1 LE MODE
Définition:
Le mode (classe modale) est la valeur (classe)
ayant le plus grand effectif.
Remarques:
Le mode n’est pas unique.
Le mode peut aussi être attribuer à une série
statistique à caractère qualitatif.
V-1-2 LA MEDIANE
Définition:
La médiane qu’on note Me est la valeur de la variable
statistique, telle que l’effectif des valeurs inférieurs à
cette valeur soit égal à l’effectif des valeurs supérieures.
Remarque:
La médiane est la valeur à partir de laquelle la fréquence
cumulée croissante dépasse 50%.
CALCUL DE LA MEDIANE
Pour calculer la médiane on ordonne la distribution par
ordre croissant.
Cas discret:
Si le nombre total des valeurs du caractère est paire, soit
2n,la médiane est comprise entre le terme de rang n est
celui de rang n+[Link] pourra prendre Me comme demi-
somme des deux.
Si le nombre total des valeurs du caractère est impaire,
soit 2n+1,la médiane Me est le terme de rang n+1.
C’est aussi la plus petite valeur du caractère dont
l’effectif cumulé croissant est supérieur ou égal à N/2.
CALCUL DE LA MEDIANE
Cas continue:
La médiane Me peut être approché graphiquement
comme abscisse du point d’intersection du polygone
des effectifs croissants et décroissants.
On détermine d’abord la classe médiane ak 1 ; ak
tel que : N k 1 N N k
2
puis en utilisant une interpolation affine, on calcule
Me par la formule: Me ak 1 ak ak 1
N
N k 1 N k N k 1
2
V-1- 3 LES QUANTILES
Définition:
Les quantiles sont les valeurs du caractère qui partagent
la distribution en n parties comprenant le même effectif
égal à 1 de l’effectif total.
n
Remarque:
Si n=4 ,on parle de quartiles.
Si n=10,on parle de déciles.
Si n=100,on parle de centiles.
Les quantiles servent à mesurer la symétrie d’une série
statistique mais aussi la concentration du caractère
étudié.
CALCUL DES QUARTILES
Cas discret:
Pour déterminer les quartiles Q1 et Q3 ;on range
d’abord les valeurs de la série statistique dans
l’ordre croissant.
N
o Q1est la valeur classé arrondie par excès.
4
3N
o Q3 est la valeur classé arrondie par excès.
4
o Q2 =Médiane
CALCUL DES QUARTILES
Cas continue:
Les quartiles Q1 et Q3 sont approximativement les
abscisses respectifs des points du polygone des
N
effectifs cumulés croissant qui correspondent à
3 N 4
et à .
4
On peut aussi déterminer Q1 et Q3 par interpolation
affine comme dans le cas de la médiane.
EXEMPLE
On compte le nombre de voitures à la sortie d’une
ville un jour:
heure
0, 4 4, 8 8,12 12,16 20, 24 20, 24
Nbre de 1100 3800 2100 700 1800 1200
voitures
On construit la courbe des fréquences cumulées
croissante:
heure 0 4 8 12 16 20 24
FCC en % 0 10,3 45,8 65,4 71,9 88,7 100
Polygone des fréquences cumulées croissantes
120
100
80
60 FCC
40
20
0
0 4 8 12 16 20 24
V-1- 4 LA MOYENNE ARITHMETIQUE
Définition:
La moyenne arithmétique d’une série statistique
xi , ni 1i p est le nombre réel:
1 p
x
N i 1
ni xi
Remarque:
Dans le cas d’une série statistique à caractère
continue ai , ai 1 ; ni ,la moyenne arithmétique
1i p
est : 1 p ou ai ai 1
x ni ci ci
N i 1 2
QUELQUES PROPRIETES DE LA M.A
La moyenne arithmétique est le paramètre le plus
utilisé. Il a l’inconvénient d’être sensible à des
valeurs aberrantes, ce qui le rend moins significatif
dans certains cas.
Théorème 1:
Soit xi , ni 1i p une série statistique de moyenne
arithmétique x .On partage la population en deux
groupes A et B d’effectifs respectifs N A et N B et de
moyenne arithmétique x A et xB .
alors: N A .xA N B .xB
x
N A NB
QUELQUES PROPRIETES DE LA M.A
Théorème 2:
Soit la série statistique xi , ni 1i p de moyenne
arithmétique x .Si on considère la série statistique
yi , ni 1i p tel que yi [Link] b ( a et b sont deux réels)
alors: y ax b
EXERCICE
Le professeur X corrige les copies du devoir qu’il a
donné à ses élèves. Les notes obtenues sont:
6-4-7-9-11-8-5-12-3-7-1-13-5-7-9-2-8-10-10-5
1) Calculer la moyenne arithmétique.
2) Conscient de la faiblesse des résultats, le prof
décide de relever les notes en les multipliant par un
coefficient a puis ajoutant 1 à toute la classe à fin
d’obtenir une moyenne égale à 11,65.
a) Déterminer a.
b) Déterminer les notes ainsi obtenues.
AUTRES TYPES DE MOYENNES
A-La moyenne harmonique:
Définition:
La moyenne harmonique d’une série statistique
xi , ni 1i p est le nombre :
N
xH p
1
i 1
ni .
xi
AUTRES TYPES DE MOYENNES
Remarques:
La moyenne harmonique est l’inverse de la moyenne
arithmétique des inverses des valeurs de la série
statistique.
La moyenne harmonique n’est utilisée que si les
inverses des données ont vraiment une signification.
AUTRES TYPES DE MOYENNES
B-La moyenne géométrique:
Définition: La moyenne géométrique d’une série
statistique xi , ni 1i p est le nombre :
xG n1 n2 np
N x x2 .......x p
1
AUTRES TYPES DE MOYENNES
Remarques:
On peut calculer aisément la moyenne géométrique
en utilisant le logarithme, à savoir:
p
n log( x )
i i
log( xG ) i 1
N
AUTRES TYPES DE MOYENNES
La moyenne géométrique est rarement utilisée en
statistique. En effet, elle n’a de signification réelle
que lorsqu’elle s’applique à des valeurs qui suivent
sensiblement une progression géométrique.
C’est le cas de certaines données telles que les
valeurs acquises à intérêt composés par un capital
donné, si on considère ces valeurs à la fin des
périodes de placement.
AUTRES TYPES DE MOYENNES
C-La moyenne quadratique:
Définition:
La moyenne quadratique d’une série statistique
xi , ni 1i p est le nombre:
p
1
xQ
N
ii
n x
i 1
2
EXERCICE
Montrer que:
xH xG x xQ
V-2 PARAMETRES DE DISPERTION
En général, les paramètres de position ne suffisent
pas à caractériser une série statistique. Par ailleurs,
on peut concevoir qu’il existe des séries statistiques
qui ont même médiane, même mode et même
moyenne. De ce fait, pour distinguer ces séries, il
nous faut trouver des valeurs qui caractérisent la
manière de distribution des données autour d’une
valeur centrale telle que la médiane ou la moyenne.
V-2-1 L’ETENDUE
Définition:
L’étendue d’une série statistique, c’est la
différence entre la plus grande et la plus petite des
données de la série statistique, c-à-d:
e= xmax- xmin
V-2-2 L’ECART INTERQUARTILE
Définition:
C’est la différence entre le troisième et la premier
quartile, c-à-d: Q3 Q1
Remarque:
L’intervalle interquartile ne contient que 50% des
observations privées de 25% des valeurs extrêmes de
chaque coté.
Pour pouvoir comparer des séries statistiques
exprimées par des unités différentes, on utilise
l’interquartile relatif Q3 Q1 .
Q2
V-2- 3 L’ECART INTERDECILE
Définition:
C’est la différence entre le neuvième et le premier décile
c-à-d: D9 D1
Remarque:
L’intervalle inter décile contient 80% de la population
étudiée et ne rend pas compte de 10% des valeurs
extrêmes des deux cotés.
V-2-3 L’ECART ABSOLU MOYEN
Définition:
L’écart absolu moyen d’une série statistique xi , ni 1i p
est le nombre: 1 p
em
N
n
i 1
i xi x
Remarque:
Lorsqu’il s’agit d’une série statistique à caractère
continue ai , ai 1 , ni 1i p ;on remplace les xi
ai ai 1
par ci
2
V-2-4 LA VARIANCE ET L’ECART-TYPE
Définition:
La variance d’une série statistique xi , ni 1i p est le
nombre:
1 p
V ni xi x
2
N i 1
L’écart-type est le nombre: V
CHAPITRE VI
SERIES STATISTIQUES A
DEUX CARACTERES
VI-1 GENERALITES
On considère deux variables statistiques X et Y d’une
population Ω.
Soient x1,x2 …….et xp les valeurs prises par X
et y1,y2,………..yq les valeurs prises par Y
Deux présentations de la série statistique associée au
couple (X,Y) sont possibles:
LES DONNEES SONT NON GROUPEES
Xi X1 X2 X3 ……………. Xn
Yi Y1 Y2 Y3 ………………. Yn
Dans ce cas il ya autant de valeurs que d'individu de la
population étudiée.
LES DONNEES SONT GROUPEES
Y Y1 …….. Yj …………. Yq Marginale
X X
X1 N11 ………. N1i …………. N1q N1.
. . . . . . .
. . . . . . .
Xi Ni1 ……….. Nij ………….. Niq Ni.
. . . . . . .
. . . . . . .
Xp Np1 ………… Npj ………….. Npq Np.
Marginale N.1 ………… N.j …………… N.q N
Y
DEFINITIONS
Chaque couple (xi,yj) est associé à l’effectif nij .
La série obtenue est une série à 2 variables notée
(xi,yj,nij) attachée au couple (X ,Y).
L’effectif total est N=∑ ∑ nij =∑ ni.= ∑ n.j
La fréquence de (xi,yj) est fij= nij/N
Le pourcentage pij=fij•100
La série peut se noter également par (xi,yj,fij)
Les deux séries X et Y s’appellent les séries
marginales de la série (xi,yj,nij)
EXEMPLE
A un examen, chaque candidat est évalue sur deux
disciplines A(noté Xi) et B(noté Yi) à l’aide d’une
échelle de 0 à 10.
Yi MARGINALE
2 4 5 6 7 8 9 X
Xi
3 1 6 1 8
4 3 1 4 4 12
5 2 3 5 1 11
6 1 6 4 2 3 3 19
7 2 3 1 4 10
MARGINALE
Y 1 2 14 9 18 8 8 60
VI-2 NUAGE STATISTIQUE
Dans un repère cartésien ,on considère les points
Mij(xi,yj) .L’ensemble des points Mij s’appelle nuage
statistique attaché à la série (xi,yj,nij).
EXEMPLE 1
L’ étude statistique suivante porte sur une
population de nouveau-nés .Deux caractères sont
étudiés:
enfant 1 2 3 4 5 6 7 8 9 10
Masse en 2,4 2,6 2,7 3 3,2 3,3 3,5 3,6 3,8 4
kg
Taille en 45 47 48 50 51 52 53 54 54 56
cm
REPRESESENTATION GRAPHIQUE
60
50
40
30
20
10
0
0 1 2 3 4 5
VI-3 POINT MOYEN
Le point G(x, y) s’appelle « point moyen » du nuage
statistique.
Dans le cas de l’exemple, on a: x = 3,19
y = 51
EXEMPLE 2
On recense les salaires mensuels nets en euros des
30 salariés d’une certaine entreprise et leurs âges; on
obtient : (20,1200)-(21,1700)-(25,1400)-(24,2000)-
(30,2600)-(27,2000)-(33,1700)-(33,2200)-
(35,1400)-(35,2500)-(35,3100)-(37,2000)-
(37,2600)-(38,2000)-(43,2000)-(42,3000)-
(45,3600)-(45,2500)-(47,3300)-(47,3000)-
(50,2600)-(50,3000)-(49,3500)-(52,3600)-
(53,3000)-(55,3500)-(55,3400)-(57,3100)-
(59,3600).
salaires
4000
3500
3000
2500
G
2000
1500
1000
500
0 âges
41
0 20 40 60 80
EXEMPLE 3
Pour une étude démographique locale concernant
l’âge des époux et des épouses au moment du
mariage, on prélève les données suivantes:(24,17)-
(23,18)-(22,17)-(24,18)-(24,20)-(24,21)-(25,18)-
(25,19)-(25,20)-(26,18)-(26,19)-(26,21)-(26,23)-
(27,19)-(27,21)-(28,21)-(28,22)-(30,22)-(30,23)-
(31,24)-(31,25)-(34,24)-(35,24)-(36,25)-(35,25).
30
Age de l’épouse
25
20
15
10
Age de l’époux
0
0 10 20 30 40
EXEMPLE 4
Les données d’une série statistique double sont:
(5,4 ,8)-(8,12)-(7,9 ,15)-(12,18)-(2,25)-(5,19)-
(5,6 ,32)-(7,3)-(8,2 ,15)-(4,24)-(1,8 ,18)-(6,11)-
(9,3 ,19)-(3,24)-(2,5 ,28)-(7,9 ,30)-(6,14).
35
30
25
20
15
10
0
0 2 4 6 8 10
Autres exemples de nuages de points
14
12
10
0
0 5 10 15 20 25
30
25
20
15
10
0
0 5 10 15 20 25 30 35
25
20
15
10
0
0 2 4 6 8 10 12
8
0
0 0,5 1 1,5 2 2,5 3
VI-4 L’ AJUSTEMENT
A partir du nuage de points représentant la série
statistique, on cherche à trouver un lien éventuel
entre les deux caractères .Mathématiquement, il
s’agit de déterminer la fonction analytique y=f(x)
qui parait la mieux représentatif pour l’ensemble du
nuage.
Cet ajustement pourrait servir pour procéder à des
interpolations ou à des extrapolations.
VI-5 L’AJUSTEMENT LINEAIRE
L’idée est de déterminer la droite qui sera la plus
proche de tous les points du nuage et donnera les
meilleurs résultats. Ceci est le mieux adapté quand le
nuage a un aspect rectiligne.
Plusieurs méthodes sont possibles:
La méthode de Mayer.
La méthode des moindres carrés.
VI-5-1 METHODE DE MAYER
Cette méthode consiste à :
Fractionner le nuage de points en deux nuages dont
les effectifs sont égaux ou différent de 1 si l’effectif
total est impair.
Calculer les coordonnées des points moyens G1 et G2
des deux nuages.
Déterminer l’équation de la droite (G1G2 ).
VI-5- 2 METHODE DES MOINDRES CARRES
Cette méthode consiste à :
Déterminer la droite (D) qui minimise la somme des
carrés des écarts des points du nuage à cette droite.
On peut procéder de deux manières suivant que l’on
prend les écarts suivant la direction de l’axe des abscisses
ou de l’axe des ordonnées.
Le problème c’est de déterminer la droite (D) :y=ax+b
de telle sorte que
f(a,b)= ∑(a xi+b - yi)² soit minimale.
VI-5- 2 METHODE DES MOINDRES CARRES
(D)
yi Mi
axi b M2 P3 Pi
M1
P2
M3
P1
xi
DROITE DE REGRESSION DE Y EN X
La droite d’équation y=ax+b qui rend minimale la
somme des résidus est la droite :
qui passe par le point moyen G.
cov( X , Y )
qui a pour coefficient directeur a=
V (X )
Donc l’équation de la droite de régression de y en x a
pour équation:
cov( X , Y )
y y ( x x)
V (X )
DROITE DE REGRESSION DE X EN Y
En procédant de la même manière, mais en prenant
les écarts suivant la direction de l’axe des abscisses,
on trouve l’équation de la droite de régression de x
en y:
cov( X , Y )
xx ( y y)
V (Y )
DROITES DE REGRESSION
Le coefficient directeur de la droite de régression de
y en x est : cov( X , Y )
a
V (X )
Le coefficient directeur de la droite de régression de
x en y est : 1 V (Y )
a cov( X , Y )
Les deux droites de régression sont toutes les deux
croissantes ou toutes les deux décroissantes.
(D’)
(D)
VI-6 LA CORRELATION
La décision d’ajuster un nuage par une droite ne se
prend pas uniquement à la seule vue du nuage,
suivant s’il est allongé ou non. A cet égard, les
statisticiens ont éprouvé le besoin de quantifier cette
décision par un nombre ;c’est le coefficient de
corrélation.
VI-6 LA CORRELATION
Définition:
cov( X , Y )
le nombre r ( X , Y ) s’appelle coefficient
( X ) (Y )
de corrélation linéaire.
Remarque:
a.a r ( X , Y )
2
Proposition:
1 r ( X , Y ) 1
VI-6 LA CORRELATION
Remarques:
La corrélation est d’autant meilleure que r est
proche de 1.
De façon calculée, on estime que la corrélation est
bonne lorsque r 0,87
14
12
10
y = 0,4485x + 1,5376
R² = 0,8298
0
0 5 10 15 20 25
30
25
20
15
y = -0,1319x + 17,035
R² = 0,0224
10
0
0 5 10 15 20 25 30 35
25
20
15
10
5
y = -2,0758x + 23,585
R² = 0,7167
0
0 2 4 6 8 10 12
8
y = 0,7338x + 2,1296
R² = 0,0869
3
0
0 0,5 1 1,5 2 2,5 3
AJUSTEMENT POLYNOMIAL
Le plan étant muni d’un repère orthogonal .
Soit le nuage de points M1 ( x1 , y1 ); M 2 ( x2 , y2 );.......; M n ( xn , yn )
Les coefficients de pondérations sont tous égaux à 1.
7
6
5
4
3
2
1
0
0 2 4 6
AJUSTEMENT POLYNOMIAL
n
Soit le polynôme: P( x) ax bx c et S
2
i i i
( y
i 1
( ax 2
bx c )) 2
Si Pi désigne le point de la courbe de coordonnées
n
( xi , axi2 bxi c) , alors S PM
i i
2
i 1
On cherche les valeurs des nombres a,b et c pour
lesquelles S est minimal.
AJUSTEMENT POLYNOMIAL
S atteint son minimum lorsque les dérivées partielles
par rapport à a, b et c sont nulles.
Des relations : S S S
0
a b c
On déduit le système:
aE ( X 4 ) bE ( X 3 ) cE ( X 2 ) E ( X 2Y )
aE ( X ) bE ( X ) cE ( X ) E ( XY )
3 2
aE ( X 2 ) bE ( X ) c E (Y )
REFERENCES
[Link],La statistique sans formule mathématiques,2ème
édition, Pearson,Paris,2010.
[Link],Probabilités et statistiques,Cours
IUT1,Grenoble,2009.
[Link],R.Séroux,[Link],[Link],2ème
édition, Ellipses,Paris,2011.
[Link],Probabilités et statistiques,Afrique
orient,Casablanca,2014.
[Link]é,Cours de statistiques,Editions
Licet,Paris,1986.