1
STATISTIQUE
Dr ANDRIANARIZAKA
Hantatiana
CHAPITRE I : C’EST QUOI LA STATISTIQUE ? 2
I°) Définition :
La statistique est une étude de données chiffrées et des observations des
chiffres.
II°) Caractéristique :
Tout ce qui est observable, tout ce qui se rapport au chiffre, tout ce qui peut se
transforme en chiffre est de la statistique.
III°) Branche d’étude de la statistique :
C’est une observation, donc de décrire. Il y a de la statistique descriptive, la
probabilité (prévision) et la statistique inférentielle.
CHAPITRE II : POURQUOI FAIT-ON DES ETUDES 3
STATISTIQUES ?
I°) Objectif :
La finalité de la statistique est d’obtenir des informations, la rédaction des informations.
L’information se présente toujours sous forme de rédaction basée sur les indicateurs associés
aux résultats d’analyses statistique.
II°) Avantage :
La statistique crée des informations nécessaire à la formulation des décisions voire des
stratégies pour atteindre des objectifs précis. Notons l’existence d’autres outils ou techniques
de recherche d’informations mais qui utilisent d’une manière ou d’une autre la statistique.
NB : la statistique requiert avant tout de la compréhension, de la réflexion et d’une capacité
rédactionnelle.
Illustration de la démarche d’étude statistique :
4
Supposant qu’on veut connaitre à travers une étude statistique le profil des étudiants en L1 à
l’UCM. Présenter dans un tableau la démarche globale de l’étude statistique.
Informations Source= Caractères à observer ou à Résultats ( réponses) =
à chercher population étudier (questions) modalité
Profil des Les étudiants Formulez des questions :
étudiants (population Quel est votre sexe ? Fille/Garçon
mère) Quel est votre âge ? Chiffre
Ou Quelle est la filière ? Droit/ Economie/SSAD
Les fiches La série du Bacc ? D/C/A/S
d’incription Quel est votre religion ? Catholique/ Protestant/
(population Musulman/ Apocalypse
parente) Quel est votre statut marital ? Célibataire/ couple/ marié
Quel est le secteur de profession Primaire/ Secondaire/ Tertiaire
de votre parent ? Grand/ petit/ moye
Quel est votre taille ?
Informations Source= Caractères à observer Résultats ( réponses) = modalité 5
à chercher population ou à étudier (questions)
La motivation Les Participation Souvent/ toujours/ Jamais
enseignants Concentration Mal/Assez bien/bien/ très bien
Assiduité Moyen/ Toujours/ Jamais
Activité parascolaire Sport : oui/ non
Chorale : Oui/ non
Comportement Bavard/ calme
Le Les parents Réveil tôt/ tard/ juste
comportement des étudiants Révision souvent/ toujours/jamais
(avant d’aller Motivation beaucoup/moyenne/ faible
en classe) Préparation pas du tout/ toujours
vestimentaire
Terminologies 6
Population : c’est un ensemble dans lequel se déroule l’étude ou l’observation statistique
Individu ou unité statistique : ce sont les éléments de la population ;
Caractère xi : propriété de l’individu
Modalité : un mode de représentation de résultats d’observation d’un caractère.
NB : un résultat peut être une modalité mais une modalité n’est pas forcément un résultat. Ex : caractère
couleur : jaune est un résultat ; la couleur claire est une modalité.
Caractère qualitatif : si les modalités ne peuvent pas être représentées par des chiffres.
Caractère quantitatif : si les résultats sont représentés sous forme de chiffres.
Caractère quantitatif discret : si on peut trouver des répétitions non négligeable dans les résultats trouvés.
Ex : soit les notes : 8 6 9 8 6 5 11 8 6 10 14 18 8 14 le caractère note est quantitatif discret.
7
Caractère quantitatif continu : si on peut trouver des répétitions négligeable dans les résultats trouvés.
(a + b)/2 est le centre de l’intervalle b-a : amplitude
Les intervalles sont automatiquement définies par des logicielles dans la pratique mais ils peuvent être
modifiés.
Effectif ni : c’est le nombre d’individu qui présent la même modalité, qui donne la même réponse.
Effectif cumulé croissant ni↗ : c’est le nombre d’individu qui vérifie un ensemble de modalité ordonné
dans le sens croissant. Avec nik, k=1 k=2 …..K=n est l’effectif associé à la kème modalité.
Effectif cumulé décroissant ni↘ : c’est le nombre d’individu qui vérifie un ensemble de modalité ordonné
dans le sens décroissant. ni↘= N- (n1+n2+…+ni-1) avec l’effectif total ou le nombre total des individu
dans la population.
8
Fréquence fi : c’est le nombre d’individu qui vérifie la même modalité dans une population d’effectif total 100.
L’effectif et la fréquence donnent la même information fi= (ni/N)*100
NB : La fréquence est exprimée en pourcentage mais sa valeur est comprise entre 0 et 1 ex : 40%= 0.4 La
fréquence traduit facilement l’information cherchée et cache la réalité.
Ex : A Madagascar, 11 360 480 sont des hommes (pour une population de 20 millions).
En chine 850 000 000 sont des hommes pour une population de 1.7 milliards. Soit, 56.8 % d’homme à Madagascar et 50%
d’hommes en chine. Il y a donc plus d’homme à Madagascar qu’en Chine.
Ex2 : Un commercial a comme salaire 0.1% de commission de vente. Le commercial est-il bien payé ?
Ex3 : Une entreprise fait un bénéfice de 0.01% de ses chiffres d’affaires. L’entreprise est-il performante ?
L’échantillon est une partie de la population. Dans la pratique, les études statistiques se portent sur des
échantillons car la population est très vaste (crée un manque de moyen : matériel, humain, financier et
temporel). D’où la nécessité de procéder à l’étude de statistique inférentielle c’est-à-dire rechercher
l’information de la population à partir des informations des échantillons obtenues.
Comment présenter les résultats d’observation des caractères 9
statistique?
On présente d’une manière générale les résultats dans des tableaux (lorsqu’on trouve des superpositions des
lignes et des colonnes). On distingue 3 types de tableaux statistiques :
Le tableau d’individu variable (TIV) appelé également base des données;
Le tableau des effectifs ou fréquences (TE) ;
Le tableau à double entrées (TDE) ;
1) Le tableau individu variable (TIV) :
10
Le TIV représente à la fois tous les individus observés, tous les caractères étudié et tous les
résultats obtenus.
Forme générale du TIV :
Variables Caractère 1 K1 Caractère 2 K2 Caractère 3 K3 Caractère Kp
…….
Individus
1
2
3
,
N=137
TIV : Base de données (BD).
2) Le tableau des effectifs : 11
Appelé également tableau des fréquences ou distribution des effectifs ou des fréquences est un tableau à 2
colonnes ou 2 lignes qui présentent les résultats d’observation d’un caractère. La première colonne est
associée au caractère et ses modalités, la deuxième colonne représente les effectifs.
NB : le tableau des effectifs est déduit du TIV.
Forme générale : Exemple:
Caractère (xi) Effectif (ni) Sexe (xi ) Effectif (ni) Fréquence (fi)
Garçon 4 29%
Modalités Chiffres
Fille 10 71%
Total N TOTAL 14 100%
3) Tableau à double entrée (TDE) : 12
Présente les résultats de deux caractères.
Forme générale :
Deuxième caractère (yj) Modalités de y Total
Prenier caractère (xi)
Modalités de x Effectifs de x et y Effectifs de x
Total Effectifs de y Effecyif total = N
13
Exemple: Distribution des étudiants en L1 selon la filière et le sexe
Filière (yj) Economie Gestion SSAD Droit Total
Sexe (xi )
Fille 20 25 12 80 137
Garçon 10 15 8 30 70
TOTAL 30 40 20 110 N=200
Le chiffre 137 signifie le nombre de fille en L1 ;
Le chiffre 20 désigne le nombre des filles en Economie de L1 ;
Le chiffre 40 indique le nombre des étudiants en gestion en L1;
Comment faire des analyses statistiques ? 14
On distingue 3 grandes techniques d’analyses statistique : l’analyse univariée (AU), l’analyse bivariée
(AB), l’analyse multivariée (AM).
NB : La technique d’analyse statistique dépend du nombre des caractères dont sont issus les résultats.
Comment faire une analyse univariée ?
L’analyse univariée étudie les résultats d’observation d’un caractère appelés distribution ou répartition ou
série statistique à une variable
Quels sont les objectifs de l’analyse univariée ?
L’analyse univariée a pour objectifs:
De déterminer la tendance des résultats ;
D’analyser la dispersion des résultats ;
La tendance : 15
C’est un résultat qui représente un ensemble de résultats.
Comment chercher la tendance ?
C’est déterminer les paramètres de positions ou les caractéristiques de tendance centrale de la série
statistique dénommé également indicateur de tendance ou de position.
Les indicateurs de tendance le plus utilisés sont :
Le mode ;
Les quantiles ;
La moyenne ;
Le mode : c’est le résultat qu’on observe le plus grands nombres de fois. Il est associé au plus grand
effectif.
L’analyse de la dispersion du résultat 16
Analyser la dispersion des résultats, c’est savoir si les résultats observés sont proches ou éloigner de la
moyenne.
Comment analyser la dispersion ?
Analyser la dispersion c’est déterminer les indicateurs de dispersion tels : l’étendue, la variance et l’écart
type, le coefficient de variation.
Dispersion : dispersion (étendue, variance, écart type et coefficient de variation) et concentration
les indicateur de dispersion : 17
Etendue :
La différence entre la plus grande et la plus petite valeur observe.
L’étendue est peu utilisé car sa valeur est très influencer par les extrêmes.
Ex : soit les note : 3, 10, 10, 11, 10, 2, 11, 10, 20
L’étendu est de 20-2 : 18. Les notes sont donc dispersées.
L’étendue est utilisée 2 série de même nature (utilisé pour comparer)
La variance et l’écart type :
Variance : pour savoir si les résultats sont proches ou près de la moyenne (moyenne des distances).
Lorsque la variance est élevée, on dit que la série est dispersée.
La variance est la moyenne arithmétique pondérée des écarts aux distances au carrées des valeurs observées
par rapport à la moyenne.
VARIANCE= (∑ (xi – x barre) ² * ni)/ N
18
Ecart type : Par définition, c’est la racine carrée de la variance.
σ = √V(x)
Interprétation : dans la pratique, on n’interprète pas la variance mais l’écart type.
- Si l’écart type est élevé, on dit que la série est dispersée, dans ce cas, la moyenne ne doit pas être
interpréter.
- Si l’écart type est faible, on dit que la série est non-dispersée, dans ce cas, la moyenne peut être interpréter.
NB. L’ordre de grandeur de l’écart type dépend du caractère étudier. 19
Soit la série des notes de moyenne x barre=10 et écart type σ=8. Donc les notes varient de 2 à 18. La série est
dispersée car les notes sont très éloignées de la moyenne.
Pour une autre série de salaires des employés de moyenne x barre= 50 000 et d’écart type σ= 10 000, on
déduit que les salaires des employés varient de 40 000 à 60 000. Les salaires ne sont pas dispersés.
NB : Pour faciliter l’analyse de la dispersion, on calcule :
Le Coefficient De Variation : Par définition le coefficient de variation CV= σ/x barre.
Interprétation :
- Si CV inférieur ou égale à 0,1 la série est compacte (non dispersée) ;
- Si CV est compris entre 0,1 et 0,5 la série est homogène (non dispersé) ;
- Si CV est compris entre 0,5 et 1, la série est non dispersée ;
- Si CV est supérieur à 1, la série est dispersée (dans ce cas on étudie la concentration, c’est le fait de
dégager la tendance).
les indicateurs de concentration 20
le coefficient d’asymetrie ᴕ1 :
Par définition, ᴕ1= (M3/ σ3) -1 avec M3= (∑ (xi – x barre) 3 * ni)/N
Interprétation
ᴕ1 >0 la plupart des résultats sont > à la moyenne ;
ᴕ1 <0 ² la plupart des résultats sont < à la moyenne ;
Ex : on a relevé au cours d’un examen les notes de 2 étudiants : E1 et E2 sont dispersées avec une moyenne
identique de 10 et un coefficient d’asymétrie de 0,54 pour E1 et -1,13 pour E2. Au vu de ces résultats
lesquels de ces étudiants à un niveau plus élevé que l’autre.
le coefficient d’aplatissement ᴕ2 :
Cet indicateur sert à comparer la hauteur de la distribution (effectif) par rapport à la distribution de
référence normale (cf. licence 2). Comment calculer la variance à partir d’un tableau des effectifs ?
ANALYSE BIVARIÉE 21
L’analyse bivariée consiste à étudier les résultats d’observation de 2 caractères appelés « série statistique ou
distribution statistique à 2 variables ».
Quels sont les objectifs de l’analyse bivariée ?
L’analyse bivariée a pour but d’étudier la dépendance entre les 2 caractères et éventuellement une
élaboration une prévision.
Comment présenter les résultats d’observation de 2 caractères (x, y) ?
On utilise le tableau simple dans le cas où le nombre d’observation est assez faible (moins de 15) ou
généralement on utilise un tableau à double entrée.
forme générale du tableau simple :
Xi : résultat du premier caractère yi: résultat du deuxième caractère
X1, x2, x3,… Y1, y2, y3,…
Exemple de caractère qui peut être dépendant : note et nombre d’absence ; le poids et la taille ;
22
- l’âge de l’époux et l’âge de l’épouse ;
- nombre d’année d’expérience et revenu ;
- dépense et revenu ;
- l’âge le poids ;
- la distance parcouru et la quantité l‘essence consommé
forme générale du TDE:
2 K r (yj) Modalité de y Total
1 Kr (xi)
Modalité de x Effectif de x et y Effectif de x
Total Effectif de y N
Du TDE, on définit la distribution marginale de x et la distribution marginale de y.
Comment montrer que 2 caractères quantitatives sont dépendants linéairement ?
23
On utilise soit le nuage de points ou on calcule le coefficient de corrélation.
Le Nuage De Point : C’est l’ensemble des points Mi (xi ; yi) xi valeur du premier caractère x, yi valeur
du deuxième caractère y, représenter dans un repère (o, x, y).
NB : Le nuage des points est généralement établi à partir d’un tableau simple. Ex : soit la distribution à 2
variables entre la note de statistique et la note de français.
Notes de français xi Notes de statistique yi
10 12
05 14
Tracer les nuages de point associé à
13 10 cette distribution.
14 16 Un ajustement linéaire est-il réel ?
08 06
12 15
11 14
13 17
TOTAL TOTAL
24
indication : Placer les points par ordre croissant de valeur de x.
cas particulier : Si l’un des 2 caractères étudiés est le facteur temps, la série statistique à 2 caractères est appelé série
chronologique ou série temporelle. Dans ce cas la variable ou le caractère temps est représenté par son rang
Ex : Le tableau ci-dessous présente les effectifs en L1 de l’UCM des 5 dernières années.
Année Nombre d’étudiants
2009 90
2010 98
2011 120
2012 140
2013 155
A partir du nuage des points associé à la distribution, peut-on établir de prévision des effectifs des
étudiants pour les 5 années à venir ?
25
Dans une série à 2 variables, il y a toujours un caractère dépendant et un caractère indépendant. Le
dépendant est noté généralement par y.
trouve généralement en y.
Nombre d’étudiants
2
0
10 1
1
5 1 5
4
10 9 2 5
9 0
0 8 0
0
05
0
0
2 2 2 2 2
0 0 0 0 0
0 1 1 1 1
9 0 1 2 3
le coefficient de corrélation r :
26
Définition :
C’est un réel compris entre -1 et 1 qui évalue le degré de dépendance linéaire entre 2 caractères
quantitatifs. Par définition, r = (Cov(x ; y))/ (σ(x)*σ(y))
Où cov(x ; y) est la covariance entre x et y plus précisément la moyenne arithmétique (pondérée ou non)
des produis des valeurs centrés de x et de y.
Cov (x ; y)= (∑ (xi-x barre) (yi- y barre)/N
Cov (x ; y)= (∑ (xi*yi)/N – (x barre * y barre) pout tableau simple ;
Cov (x ; y)= (∑ (xi-x barre) (yi- y barre) nij)/N pour tableau à double entrée ;
Cov (x ; y)= (∑ (xi*yi*nij/N – (x barre * y barre) pour tableau à double entrée ;
interprétation de valeur de r :
- Si r tend vers 1 ou -1, on dit que les 2 caractères sont corrélés Si r tend vers 1, on dit que x et y varient
dans le même sens. Les deux caractères sont corrélé négativement si r tend vers -1, dans ce cas x et y
varient dans le sens contraire. La prévision peut être élaborée dans ce cas.
- Si r tend vers 0, les 2 caractères son indépendants et on évite à des procédés de prévisions.
Comment calculer le coefficient corrélation (ou la covariance) à partir d’un tableau simple ?
27
Règle : On établit le tableau simple et on crée les colonnes de :
- Xi² pour le calcul de la variance de x ;
- Yi² pour le calcul de la variance de y ;
- Xi*yi pour le calcul de la covariance ;
- On établit les formules (sous forme de tableau) et on fait les applications numériques.
Ex : soit la distribution des notes de français et de statistiques de 6 étudiants.
Notes de français xi Notes de statistiques yi
10 12
09 06
13 15
11 10
05 08
12 09
La maitrise du français contribue-t-elle à la compréhension de la statistique ?
Notes de Notes de Xi² Yj² Xi*yi
français xi statistiques yi 28
10 12 100 144 120
09 06 81 36 54
13 15 169 225 195
11 10 121 100 110
05 08 25 64 40
12 09 144 81 108
Paramètre de x Paramètre de y
X barre= (∑xi)/N Y barre= (∑yi)/N
V(x)= (∑xi²)/N-(x barre) ² V(y)= (∑yi²)/N-(y barre) ²
σ(x)= √v(x) σ(y)= √v(y)
Covariance :
Cov (x ; y)= (∑ (xi-yi)/N – (x barre * y barre)
Coefficient de corrélation : r= (Cov(x ; y))/ (σ(x)*σ(y))
29
Notes de Notes de Xi² Yj² Xi*yi
français xi statistiques yi
10 12 100 144 120
09 06 81 36 54
13 15 169 225 195
11 10 121 100 110
05 08 25 64 40
12 09 144 81 108
x barres y barre v(x) v(y) écart-type écart-type cov (x) r
de x y
10 10 6,66666667 8,33333333 2,5819889 2,88675135 4,5 0,60373835
Conclusion : Il y a une corrélation moyenne entre les notes de statistique et les notes de français. La
compréhension de français ou la maitrise est un de facteur de compréhension de la statistique.
Covariance :
30
Cov (x ; y)= (∑ (xi-yi)/N – (x barre * y barre)
Coefficient de corrélation :
r= (Cov(x ; y))/ (σ(x)*σ(y))
x barres y barre v(x) v(y) écart-type écart-type y cov (x) r
de x
41,5 30,375 421,5 192,734375 20,5304652 13,8828806 54,1875 0,1901169
On peut constater que la corrélation entre les 2 caractères assez éloigné de 1, il y a donc très faible
corrélation entre âges d’époux et l’âge d’épouse. L’âge ne fait pas donc partie de critères de choix
d’épouse.
Comment calculer le coefficient de corrélation à partir d’un TDE ?
31
Règle :
On établit le tableau à double entré et on déduit :
- La distribution marginale de x pour le calcul x barre, v(x)
- La distribution marginale de y pour le calcul de y barre, v(y)
- On établit les formules paramètre x à gauche (x barre, v(x), σ(x)) et paramètre y à droite (y barre, v(y),
σ(y)) ;
NB : on doit mettre les formules pour x barres, v (x), σ (x), y barres, v (y), σ (y).
Pour le calcul de la covariance, la démarche est explicitée à partir d’un exemple.
Exemple: soit la distribution des notes de français et de statistique.
Notes de [00 ; 10[ [10 ; 20[ TOTAL
statistiques yi Notes de français xi
[00 ; 10[ 3 5 8
[10 ; 20[ 11 1 12
TOTAL 14 6 20