100% ont trouvé ce document utile (1 vote)
119 vues73 pages

Support Stat

Transféré par

projectsacademy2021
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
119 vues73 pages

Support Stat

Transféré par

projectsacademy2021
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

ECOLE TECHNIQUE D’AGRICULTURE DE BAFANG

B.P. 63 TEL. 33-48-63-17

UTILISER LES OUTILS STATISTIQUES POUR ANALYSER ET METTRE EN FORME DES INFORMATIONS

CYCLE DE BTS EN ENTREPRENARIAT AGROPASTORAL

PREPARE ET PRESENTE PAR : HANDY JACQUES JOSEPH INGENIEUR AGRONOME PHYTOTECHNICIEN

PROMOTION DE 2012-2014

« L’UNIVERS EST ECRIT EN LANGAGE MATHEMATIQUE : IL VAUT MIEUX ETRE LE PREMIER A SE TROMPER
QUE LE DERNIER A COMPRENDRE CAR UN PROBLEME SANS SOLUTION EST UN PROBLEME MAL POSE. »
COURS DE STATISTIQUE POUR L’ENTREPRENEUR AGROPASTORAL

DEUXIEME PROMOTION ANNEES 2012-2014


DEFINITION :

Pour les objectifs à atteindre dans notre exposé, nous définirons la statistique comme étant une science
mathématique ayant pour objet l’étude de la collecte, l’analyse et l’interprétation des ensembles
d’observations nombreux classifiables relatives à un même phénomène et susceptible d’être caractérisé
par un même nombre. Nous en agronomie, ce sont le poids, le rendement d’une variété de plantes, la
prolificité d’une race d’animaux, les étudiants EAP du niveau 1 de l’ETA de Bafang. La statistique est
également une méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles
nombreux, puis à analyser, à commenter et à critiquer ces données.
Il ne faut pas confondre la statistique qui est la science qui vient d’être définie et une statistique qui est un
ensemble de données chiffrées sur un sujet précis.
Cette étude s’effectue au moyen de techniques appropriées de collecte et d’analyse de données d’une part
et des méthodes d’interprétation d’autres parts.
Les premières statistiques correctement élaborées ont été celles des recensements démographiques. Ainsi
le vocabulaire statistique est essentiellement celui de la démographie. Bien que le nom de statistique soit
relativement récent – l'origine du nom date du XVIII e siècle et vient de l'allemand STAATSKUNDE – cette
activité semble exister dès la naissance des premières structures sociales. Les premiers textes écrits
retrouvés étaient des recensements du bétail, des informations sur son cours et des contrats divers.
Les ensembles étudiés sont appelés population. Les éléments de la population sont appelés individus ou
unités statistiques. La population est étudiée selon un ou plusieurs caractères.
Les statistiques descriptives peuvent se résumer par le schéma suivant :

Population Echantillon Caractéristiques de


l’échantillon
Echantillonnage Déduction
Aléatoire

La statistique a pour but de déduire et non d’expliquer ; c’est donc un moyen d’étude et non une fin. La
statistique est un outil de connaissance, un moyen d’expression qui permet d’appréhender, d’en mesurer
les phénomènes, d’en dessiner les contours, de mettre en lumière certains de leurs aspects. La statistique
facilite l’exercice du jugement lui-même.
 Nombre, langage numérique (méthode quantitative) :

Le langage chiffré permet de séparer l’observation de l’appréciation. Le statisticien élabore des résultats
qu’il communique à l’utilisateur et cet utilisateur peut les confronter avec sa propre échelle de valeur qui
est très souvent subjective et variable d’un utilisateur à l’autre. Cependant une appréciation libre et
véritable nécessite au préalable la compréhension des règles et concepts utilisés. La statistique s’applique
sur des ensembles nombreux et importants ; elle s’intéresse donc aux faits collectifs et non aux faits
élémentaires. La statistique cherche à ressortir les permanences et si elle travaille sur les ensembles
nombreux, elle vise à simplifier, à résumer et à synthétiser :

-Classer ;

-Grouper les ressemblances ;

-Dégager les disparités.

TYPOLOGIE :

La statistique se divise en trois grands groupes :

-La statistique descriptive (univariée et bivariée) ;

-Le calcul des probabilités ;

-La statistique mathématique ou inférentielle (test, estimation).

TYPOLOGIE, CHAMP D’APPLICATION ET METHODE SCIENTIFIQUE

- TYPOLOGIE :

La statistique descriptive a pour but de décrire les caractéristiques d’une population ou de comparer les
caractéristiques de plusieurs populations au moyen des techniques graphiques et numériques.

La probabilité est l’étude basée sur des expériences aléatoires répétés ou non, indépendants ou non.

La statistique inférentielle ou inductive a pour objet d’étudier les rapports qui existent entre les
caractéristiques de la population et celle d’échantillons.

Exemple : Sondage, la plupart des études tels que les sondages politiques sont essentiellement inductives ;
on procède à l’examen d’un échantillon dans le but d’induire les conclusions sur la population entière. Il
s’ensuit que les inductions faites à partir d’un échantillon n’ont de chance de se vérifier que si l’échantillon
est représentatif de la population entière.

- CHAMP D’APPLICATION :
Les domaines d’application de la statistique sont multiples :
 En Agronomie, les études comparatives des engrais, de rations alimentaires, les races d’animaux,
les variétés des plantes, les techniques culturales.
 En Foresterie, ils auront à faire des inventaires qui permettent d’évaluer l’accroissement des
volumes de bois et d’étudier la dynamique des populations fauniques.
 En Biologie, la biostatistique préfère l’application des méthodes statistiques dans l’étude des
mécanismes de l’hérédité et dans l’élaboration des modèles de croissance.
 En médecine (Vétérinaire), les études épidémiologiques destinées à déterminer la répartition
géographique, la prévalence des maladies et le taux d’infestation font appel aux méthodes
statistiques.

 En géophysique : pour les prévisions météorologiques (la climatologie…), la pollution, les études
des rivières et des océans ;
 En démographie : le recensement permet de faire une photographie à un instant donné d'une
population et permettra par la suite des sondages dans des échantillons représentatifs ;
 En sciences économiques et sociales et en économétrie : l'étude du comportement d'un groupe de
population ou d'un secteur économique s'appuie sur des statistiques, emploi, conjoncture
économique ;
 En marketing : le sondage d'opinion devient un outil pour la décision ou l'investissement ;
 En physique : l'étude de la mécanique statistique et de la thermodynamique statistique (cf.
Physique statistique) permet de déduire du comportement de particules individuelles, un
comportement global (passage du microscopique au macroscopique) ;
 En métrologie : pour tout ce qui concerne les systèmes de mesure et les mesures elles-mêmes ;
 En psychologie et en médecine: tant pour le comportement des maladies que leur fréquence
(épidémiologie) ou la validité d'un traitement ou d'un dépistage ;
 En archéologie : appliquée aux vestiges (céramologie...) ;
 En écologie : pour l’étude des communautés végétales et des écosystèmes ;
 En assurance et en finance : pour le calcul des risques...
- METHODE SCIENTIFIQUE
Quelque soit le champ d’application, la démarche statistique passe par les mêmes étapes :

1) Savoir ce que l’on va mesurer ;


2) Etablir une échelle de mesure, définir l’unité ;
3) Recueillir les données (collecter les données) ;
4) Ordonner les observations obtenues ;
5) Traiter les données recueillies ;
6) Interpréter et représenter les résultats.
PREMIERE PARTIE : Statistique descriptive univariée

GENERALITES SUR LE VOCABULAIRE STATISTIQUE


1) Savoir ce que l’on doit (va) mesurer

Il est indispensable de définir avec précision l’objectif de l’étude.


a) La population statistique

Tout comme le mathématicien, le statisticien doit d’abord définir avec précision l’ensemble des références
sur lesquelles doit porter les observations, références appelé univers statistique ou population. Autrement
dit la collection d’objets ou d’êtres vivants (animaux, plantes ou hommes) sur lesquels porte l’étude
statistique est la population ou univers.

Exemple 1 : Ensemble des animaux d’un troupeau, d’une race ou d’une localité.

Exemple 2 : Ensemble des fruits, des feuilles d’un arbre ;

Exemple 3 : Ensemble des employés d’une entreprise ;

Exemple 4 : Ensemble des plantes d’une espèce.

b) L’échantillon ou sous-population ou lot

Très souvent le nombre d’élément de la population statistique est très grand, il n’est alors plus possible de
réaliser toutes les mesures souhaitées. On est alors amené à ne considérer qu’un seul ensemble de cette
population. L’ensemble de ces individus de cet sous ensemble est appelé échantillon ou sous population
ou lot et le nombre du sous ensemble est la taille de l’échantillon.

Exemple : Les animaux de sexe mâle ou femelle, les feuilles dentelées, les arbres de taille comprise entre
18 et 25 m.

REMARQUE : L’échantillon est aléatoire lorsque son prélèvement dans la population a été soumis aux lois
du hasard.

c) L’unité statistique ou individu

Une unité ou membre d’une association est appelé une unité statistique ou encore un individu. C’est
l’élément de l’ensemble que l’on veut étudier. On l’appelle aussi unité expérimentale.

Exemple : L’unité peut être un secteur, une bande, une parcelle de dimensions données.

d) Le caractère et la variable

Le trait déterminé commun à toutes les unités de la population et sur lequel porte l’étude statistique est
appelé caractère. L’expression caractère se rapporte généralement au phénomène qualitatif.

Exemple 1 : La forme ou la constitution d’un organe ; la présence ou l’absence d’une certaine particularité :
les cornes.

Exemple 2 : la couleur des yeux, le sexe, le statut civil, etc.


L’expression variable se rapporte aux phénomènes quantitatifs c’est-à-dire des phénomènes mesurables.
Lorsqu’un caractère est quantitatif ses modalités sont mesurables ou repérables ; c’est-à-dire à chaque
modalité correspond un nombre. Ce nombre variable d’une modalité à l’autre est appelé variable
statistique.

Exemple : Le poids, la taille, l’âge, etc.

Les caractères statistiques


Définition
On appelle caractère statistique simple toute application :
X:PR
avec P un ensemble fini appelé population ; tout élément i de P s’appelle un individu.
Le caractère désigne une grandeur ou un attribut, observable sur un individu et susceptible de varier
prenant ainsi différents états appelés modalités.
Remarque : Seuls les caractères quantitatifs ont valeurs dans R, les caractères qualitatifs s’y ramenant par
un codage.
Exemple : Lors des recensements, les caractères étudiés sont l’âge, le sexe, la qualification professionnelle,
etc. Le caractère « sexe » présente deux modalités (M, F) alors que pour la qualification professionnelle, le
nombre de modalités va dépendre de la précision recherchée.
 Les caractères qualitatifs
Mesurées dans une échelle nominale, les modalités sont exprimables par des noms et ne sont pas
hiérarchisées. Un caractère nominal peut être dichotomique s’il ne peut prendre que deux modalités.
C’est une variable statistique qualitative si ses valeurs, ou modalités s’expriment de façon littérale ou par
un codage sur lequel les opérations arithmétiques telles que moyenne, somme,…, n’ont pas de sens.
Exemple: la couleur du pelage, les groupes sanguins, les différents nucléotides de l’ADN, la présence ou
l’absence d’un caractère (dichotomique), état du temps constaté à un endroit donné chaque jour
(pluvieux, neigeux, nuageux, venteux, beau,…), etc.
Mesurées dans une échelle ordinale: les modalités traduisent le degré d’un état caractérisant un individu
sans que ce degré ne puisse être défini par un nombre qui résulte d’une mesure. Les modalités sont alors
hiérarchisées.
Exemple: le stade ou la gravité ou le taux d’infestation d’une maladie.
Certains tests permettent de profiter de cette information et sont alors plus puissants que des tests sur
variable nominale.
 Les caractères quantitatifs
Ce sont des nombres sur lesquels des opérations arithmétiques telles que somme, moyenne,…, ont un
sens.
Caractères discontinus ou discrets

Ce sont des grandeurs qui ne peuvent prendre que certaines valeurs déterminées ou entières ou même
des valeurs isolées. Autrement dit un caractère est discret s’il peut prendre seulement certaines valeurs
dans un intervalle donné. En général il résulte d’un comptage ou dénombrement.

Exemple 1 : nombre d’étamines d’une fleur, nombre d’œufs contenu dans une poule.

Exemple 2 : le nombre de petits par portée, le nombre de cellules, de fleurs ou de fruits d’une culture ou
plante, le nombre d’accidents pour une période donnée, etc.
Remarque : Attention, un caractère quantitatif discret peut résulter de la transformation d’un caractère
nominal (ex. comptage des individus porteurs ou non d’un caractère).

Caractères continus

Ce sont des grandeurs qui peuvent avoir des valeurs numériques quelconques dans un certain intervalle.
Autrement dit un caractère est continu s’il peut théoriquement prendre n’importe quelle valeur dans un
intervalle donné. En général il résulte d’une mesure.
Exemple 1 : la longueur, le poids, le salaire.

Exemple 2 : le poids, la taille, le taux de glycémie, le rendement, PNB, PIB, espérance de vie, etc.
Remarque : En réalité le nombre de valeurs possibles pour un caractère donné dépend de la précision de la
mesure. On peut considérer comme continu un caractère discret qui peut prendre un grand nombre de
valeurs.
Exemple : la quantité de sève dans une plante, le nombre de globules blancs ou rouges par ml de sang, le
nombre de nucléotides A dans une très longue séquence d’ADN (plusieurs Mégabases).

e) Modalité

Les différentes situations où les individus peuvent se trouver à l’égard du caractère étudié sont appelé
modalités ; ce sont aussi les différentes variantes que peut présenter un caractère.
On appelle modalité toute valeur :
xi € X (P)
telle que : X (P) = {x1, x2, x3,….., xi,…., xk} avec k nombre de modalités différentes de X.
Exemple : Sexe masculin et féminin chez l’Homme ou mâle et femelle chez l’animal (M, F) ; une pièce ou un
organe défectueux.

f) Valeur observée

C’est celle d’un caractère quantitatif résultant d’une observation ou d’un essai. Dans une série de n
résultats d’observations ou d’essai, les valeurs observées peuvent être distinctes ou non ; si la valeur Xi est
observée ni fois, ni est appelé l’effectif de cette valeur particulière.

g) Classe et classe modale

Dans le cas d’un caractère quantitatif, on observe souvent un groupement d’observation à priori ou à
postériori en partageant l’intervalle total en un intervalle partiel jointif appelé classe. Toutes les
observations se situant dans une même clase sont ensuite considéré comme ayant la même valeur. Celle-ci
est généralement le centre de la classe ou Ci.
Exemple : [750 - 900 [, [900 - 1 500 [, [1 500 - 2 250 [ , [2 250 - 3 000 [

h) Limites de classe

Ce sont les valeurs qui définissent les bornes inférieures et supérieures d’une classe.

Exemple : classes 20 – 25 (classification normale)

25 – 30

30 – 35

Remarque : Chaque classe contiendra toutes les valeurs égales ou supérieures à la limite mais strictement
inférieures à la limite supérieure.

L’intervalle ne doit être ni trop petit ni trop grand sous peine dans le premier cas de faire apparaître des
variations de fréquences sans signification et dans le second cas d’en faire disparaître des réelles
fréquences.

i) Centre de classe (Ci)

C’est la moyenne arithmétique des limites inférieures et supérieures d’une classe.

Exemple : le centre de classe de 35 à 40 est 37,5.

j) L’écart

C’est la valeur absolue de la différence entre deux valeurs.

k) L’effectif

C’est le nombre d’individus d’un ensemble ou d’un sous ensemble. Autrement dit, c’est la taille de la
population noté N ou de l’échantillon noté n (effectif total).

Exemple : On notera par N l’effectif de la population étudiée et n celui de l’échantillon étudié.

l) Fréquence

Si ni est l’effectif d’une modalité d’une valeur particulière d’une classe et N ou n est l’effectif observé (total)
alors la fréquence est ni / N = f. C’est le nombre de fois où une modalité apparaît (effectif ou fréquence
absolue).

La fréquence relative (FR) associée à une modalité d’un caractère est le rapport de la fréquence absolue
(FA) de cette modalité à l’effectif total (ET) de la population de cet échantillon.
FR= FA / ET

La proportion ou pourcentage associée à cette modalité d’un caractère est la fréquence relative exprimée
en pourcentage.

Une série relative ou distribution statistique associée à un caractère est l’ensemble des modalités avec en
regard des effectifs correspondants.

Exemple : On fait une observation sur 10 étudiants et le caractère observé est genre.

E1 E2 E3 E4 E5 E6 E7 E8 E9 E10

M F M M F M F M M M

Population = ensemble de 10 étudiants EAP donc l’effectif de la population est n = 10 ;

Caractère = sexe donc nombre de caractères = 1 ;

Modalité = mâle et femelle donc nombre de modalités = 2.

Sexe Effectif (n) Proportion ou Fréquence (f)


M 7 70 %
F 3 30 %
Total 10 100 %

Les observations individuelles d’une variable statistique continue sont généralement regroupées en
intervalles des points successifs et contigus qu’on appelle classes ou intervalles. Les nombres entre
lesquels sont rangés les valeurs d’une classe sont appelés les limites ou extrémités de la classe. Les valeurs
observées des caractères qui appartiennent à une classe donnée sont généralement remplacée par le
milieu ou le centre de la classe. Très souvent on est amené à calculer les limites réelles d’une classe surtout
lorsque les extrémités de ces classes ne sont pas contigus (liés ou semblables).

Exemple :

Modalité (âge) Effectif Limites réelles


15 – 19 6 14,5 - 19,5
20 – 24 27 19,5 – 24,5
25 – 29 38 24,5 – 29,5
30 – 34 21 29,5 – 34,5
35 - 39 8 34,5 – 39,5
Total 100

m) Evaluation des erreurs

On a trois échantillons E1, E2, E3, la somme des échantillons a pour erreur la somme des erreurs E 1 + E2 + E3 ou
E1 – E2 – E3.

NOTATION

Pour désigner un caractère statistique, on utilise généralement des lettres majuscules.


Exemple : X, T, H…etc.

Les modalités sont désignées avec des lettres minuscules du même type que les caractéristiques mais avec
un indice qui permet de compter le nombre de modalité.

Exemple : x, t, h…etc.

L’effectif total de la population est noté N et la taille d’un échantillon est généralement noté n. L’effectif de
la modalité xi est noté ni.

N=∑ n

i=1

La fréquence relative de la modalité xi est notée fi. La proportion de la modalité xi est notée pi.

fi = ni / N , pi = ni / N x 100 et ∑ pi = 100 ; ∑ fi = 1 ; ∑ ni / N = 1 / N ∑ ni =N/N=1

i=1 i=1 i=1 i=1

Lorsque les données sont regroupées en classe, la i ème classe est noté [ei-1 , ei [ donc l’amplitude de la ième
classe est notée ai = ei – ei-1

Le centre d’une classe noté Ci est noté Ci = ei – ei-1 / 2

NB : Le calcul des limites réelles ne modifie pas le sens des classes.

La hauteur ou effectif corrigé de la classe numéro i est notée hi = ni./ ai

Classe d’âge Centre de classe (Ci) Limites réelles


19 – 24 21.5 18.5 - 24.5
25 – 30 27.5 24.5 - 30.5
31 – 36 33.5 30.5 - 36.5
37 – 42 39.5 36.5 - 42.5
43 – 48 45.5 42.5 - 48.5

METHODE STATISTIQUE

La méthode statistique comprend trois grandes phases :

I. -La phase de collecte

Elle est surtout descriptive et consiste donc à recueillir un certain nombre de données, les empiler, les
dépouiller méthodiquement pour produire des résultats numériques sur lesquels on va faire l’analyse.

II. -La phase d’analyse

Il s’agit dans cette phase de substituer à l’aide des données qui ont été apportées un petit nombre de
résultats. On peut dans cet état comparer les résultats numériques à des résultats théoriques.

III. -La phase d’interprétation


C’est la phase qui consiste à tirer les conclusions du travail d’analyse qui a été fait ; c’est la phase la plus
importante parce que c’est elle qui va déterminer l’action et la prise des décisions.

C’est le domaine d’application qui justifie le choix de la méthode et l’interprétation des résultats ; c’est
pour dire qu’il peut arriver que les conclusions erronées soient tirées d’une analyse. Il ne faut pas réduire
la statistique à l’application des formules mathématiques car le travail statistique ne se réduit pas au travail
mathématique.

En statistique l’expérimentation n’est pas toujours permise parce qu’ayant fait des observations des
conditions déterminées, il est souvent impossible de reprendre ou de faire varier l’une de ces observations.

I- QUELQUES NOTIONS SUR LA COLLECTE DES DONNEES

Il existe deux principales sources de données statistiques :

-les plans d’expériences : On nomme plan d'expériences la suite ordonnée d'essais d'une
expérimentation, chacune permettant d'acquérir de nouvelles connaissances en contrôlant un ou plusieurs
paramètres d'entrée pour obtenir des résultats validant un modèle avec une bonne économie (nombre
d'essais le plus faible possible, par exemple). On peut le faire dans les stations de recherches, en milieu réel
comme chez le paysan. Un plan d'expériences permet donc de réduire le nombre d'essais à ce qui est
strictement nécessaire pour prendre une décision, ce qui peut sauver du temps, de l'argent et des vies.

-les sondages et enquêtes

En raison d’une logistique limitée (moyens de transport) la collecte de l’information est souvent partielle
au lieu d’être exhaustive. Le relevé exhaustif s’étend à toutes les unités de la population : on l’appelle
recensement ou inspection à 100%.

Le sondage ou échantillonnage est un relevé partiel dans lequel la fraction touchée est relativement faible
mais choisie de telle sorte qu’elle soit représentative et que les informations recueillies puissent être
répandues à l’ensemble de la population.

L'enquête par questionnaire : Pour obtenir des réponses, rien n’est plus naturel que de poser des
questions. L’enquête par questionnaires est, à ce titre, un moyen pratique pour collecter rapidement des
informations et un outil efficace d’aide à la décision. Même s’il n’y a pas de recette miracle pour réaliser
une bonne enquête et obtenir à tous les coups des résultats pertinents, il existe des règles incontournables
à respecter à chaque étape.

Il existe deux grandes formes d'enquête :

 L'enquête quantitative

 L'enquête qualitative

Une enquête quantitative s'adresse à un échantillon représentatif de la population étudiée et permet


d'obtenir des informations généralisables à l'ensemble de la population.

Pour une enquête qualitative, l’objectif des études est qualitatif et vise à comprendre précisément les
besoins, les usages ou l'opinion d'un groupe restreint de personnes.

A la différence des résultats d'une enquête quantitative, les résultats ne peuvent pas être extrapolés à
l'ensemble de la population car l'échantillon est beaucoup trop faible.

Méthodes de prélèvement direct et indirect des données statistiques


- Exploitation des données
Dépouillement
Le dépouillement s’effectue en deux étapes :
1°- Le contrôle des questionnaires et des données qui consistent à vérifier la cohérence et les omissions
éventuelles des informations. A l’issu de ce contrôle, on peut requérir un complément d’informations
auprès des enquêtées ou de l’essai si le besoin se fait ressentir.
2°- La codification qui consiste à définir le label ou le signe sur lequel les variables seront introduites dans
la machine (ordinateur ou calculatrice…)
Exemple :
Tribus des élèves de 1e année 2009 de l’ETA de Bafang :
- Bamiléké = 1
- Béti = 2
- Bassa = 3
a-) Dépouillement d’une variable quantitative
a1-) Dépouillement d’une variable quantitative discontinue ou discrète
Exemple : Nombre de frère et sœur des élèves de 1e année 2009 de l’ETA de Bafang.
7 – 36 – 7 – 9 – 6 – 6 – 2 – 4
6 – 7 – 1 – 12 – 9 – 8 – 8 – 7
6–7–6–3–2–5–3–2–8
a2-) Dépouillement d’une variable quantitative continue
Exemple : Taille des élèves de 1e année 2009 de l’ETA de Bafang.
1,67m – 1,68m – 1,64m – 1,83m – 1,76m
1,67m – 1,72m – 1,76m – 1,70m – 1,70m
1,87m – 1,70m – 1,56m – 1,80m – 1,85m
1,81m – 1,73m – 1,64m – 1,68m – 1,74m
1,75m – 1,74m – 1,76m – 1,78m – 1,74m
b-) Dépouillement d’un caractère qualitatif
Exemple : Tribus des élèves de 1e année 2009 de l’ETA de Bafang.
Bamiléké – Bassa – Bamiléké – Bamiléké – Bassa
Boulu – Maka – Bamiléké – Yambassa – Béti
Eton – Banem – Bamiléké – Boulu – Boulu
Béti – Maka – Béti – Bassa – Yambassa
Eton – Eton – Eton – Béti – Béti
Arrangement pour les caractères quantitatifs et qualitatifs
a-) Arrangement d’une variable quantitative
a1-) Arrangement d’une variable quantitative discontinue ou discrète
Exemple : Nombre de frère et sœur des élèves de 1e année 2009 de l’ETA de Bafang.
1–2–2–2–3–3–4–5
6–6–6–6–6–7–7–7
7 – 7 – 8 – 8 – 8 – 9 – 9 – 12 – 36

1 6 36
2 7
3 8
4 9
5 12

a2-) Arrangement d’une variable quantitative continue


Exemple : Taille des élèves de 1e année 2009 de l’ETA de Bafang.
1,56m – 1,64m – 1,64m – 1,67m – 1,67m
1,68m – 1,68m – 1,70m – 1,70m – 1,70m
1,72m – 1,73m – 1,74m – 1,74m – 1,74m
1,75m – 1,76m – 1,76m – 1,76m – 1,78m
1,80m – 1,81m – 1,83m – 1,85m – 1,87m

1,56m 1,72m 1,78m 1,87m


1,64m 1,73m 1,80m
1,67m 1,74m 1,81m
1,68m 1,75m 1,83m
1,70m 1,76m 1,85m

b-) Arrangement d’un caractère qualitatif


Exemple : Tribus des élèves de 1e année 2009 de l’ETA de Bafang.
Bamiléké – Bamiléké – Bamiléké – Bamiléké – Bamiléké
Bassa – Bassa – Bassa – Boulu – Boulu
Boulu – Eton – Eton – Eton – Eton
Maka – Maka – Banem – Yambassa – Yambassa
Béti – Béti – Béti – Béti – Béti

Béti Yambassa
Maka Bamiléké
Eton Banem
Boulu Bassa

Présentation des résultats

1- Tableaux statistiques
Ils constituent le moyen le plus sûr de pouvoir répondre aux questions posées de par leur
systématisme. Sauf cas exceptionnels, les données statistiques sont présentées sous forme de tableau.
D’une part, cela permet d’appréhender l’information qui est synthétisée et d’autre part facilite ou rend
possible les calculs.
De manière générale, un tableau statistique se présente comme suit :
Modalité du caractère Effectif de chaque Fréquences (fi) Pourcentage
modalité
x1 n1 ni/N fi x 100
x2 n2
… …
xk nk

a-) Cas d’un variable quantitative


a1-) Variable quantitative continue
Exemple : Taille des élèves de 1e année 2009 de l’ETA de Bafang.
Tailles des Taille Amplitude Effectif Fréquence Pourcentage
élèves moyenne de de la classe (Nombre
la classe d’élèves)
[1,55 ; 1,60[ 1,575 0,05m 1 0,04 4%

[1,60 ; 1,65[ 1,625 0,05m 2 0,08 8%

[1,65 ; 1,70[ 1,675 0,05m 5 0,2 20%

[1,70 ; 1,75[ 1,725 0,05m 8 0,32 32%


[1,75 ; 1,80[ 1,775 0,05m 4 0,16 16%

[1,80 ; 1,85[ 1,825 0,05m 3 0,12 12%

[1,85 ; 1,90[ 1,875 0,05m 2 0,08 8%

Total - - 25 1 100

a2-) Variable quantitative discontinue ou discrète


Exemple : Nombre de frère et sœur des élèves de 1e année 2009 de l’ETA de Bafang.
Nombre de frères et Effectif (Nombre Fréquence Pourcentage
sœurs d’élèves)
1 1 0,04 4%
2 3 0,12 12%
3 2 0,08 8%
4 1 0,04 4%
5 1 0,04 4%
6 5 0,2 20%
7 5 0,2 20%
8 3 0,12 12%
9 2 0,08 8%
12 1 0,04 4%
36 1 0,04 4%
Total 25 1 100

b-) Cas d’un caractère qualitatif


Exemple : Tribus des élèves de 1e année 2009 de l’ETA de Bafang.
Tribus des élèves Effectif Fréquence Pourcentage
(Nombre d’élèves)
Bamiléké 5 0,2 20%
Bassa 3 0,12 12%
Boulu 3 0,12 12%
Maka 2 0,08 8%
Yambassa 2 0,08 8%
Béti 5 0,2 20%
Eton 4 0,16 16%
Banem 1 0,04 4%
Total 25 1 100

2- Représentation graphique
Les graphiques permettent de donner une synthèse visuelle de la distribution d’une variable et de
percevoir l’éventuelle relation entre les variables, cette section en présente quelques exemples. Les
représentations peuvent être spécifiques à un type de variable ou de caractère. Sauf indication contraire
tous les graphiques sont réalisables en effectifs ou en fréquences, ils sont superposables à l’échelle près.
Les graphiques constituent ; pour les pourcentages, un moyen simple de comparer sur une base
unique des données de valeurs différentes. Les taux permettent de suivre l’évolution de grandeurs. Les
graphiques permettent de mieux percevoir une relation entre des variables, ce chapitre présente quelques
exemples.
NB : Le choix des représentations graphiques dépend pour une large part du type du caractère statistique :
caractère qualitatif, variable statistique discrète, variable statistique continue.

2.1- Représentations des caractères qualitatifs


Le diagramme en tuyaux d’orgue ou en barres est constitué d’une suite de rectangles dont les
hauteurs sont proportionnelles à l’effectif (ou à la fréquence) de la variable et dont les bases sont
identiques. La représentation peut être horizontale ou verticale.
Le diagramme en secteurs ou en « camembert » visualise la part relative des catégories de la
variable sur une population. Le cercle représente l’ensemble de la population, les différentes modalités
seront représentées par des secteurs dont la surface est proportionnelle aux effectifs ou aux fréquences.
Une telle représentation n’est significative que si le total des fréquences est de 100 %. Un demi-cercle peut
jouer le même rôle.
La représentation en secteurs visualise bien l’importance relative des différentes modalités. Cette
représentation permet, pour des comparaisons dans le temps et dans l’espace, de rendre sensible les
différences en valeur absolue. Les aires des cercles seront proportionnelles aux effectifs de chacune des
populations. C’est-à-dire :

Ai = r2

Avec :

Ai = aire de la modalité i du caractère qualitatif

fi = fréquence
r2 = surface du cercle

Pour trouver l’angle de chaque aire, on pose la formule suivante :

θi = fi x 360° ou θi = fi x 360°/ f ou N

Avec :

fi = fréquence ; f ou N = effectif absolu

Exemple : Tribus des élèves de 1e année 2009 de l’ETA de Bafang.


1- Représentation en tuyaux d’orgue de la distribution de la classe de 1e année 2009 de l’ETA de Bafang
6
5 5
5
4
4
3 3
3
2 2 Effectif (Nombre d’élèves)
2
1
1

0
ké a u a a ti on
ilé ss ul ak ss Bé Et ne
m
m Ba Bo M ba Ba
Ba m
Ya

2- Représentation en secteur de la distribution de la classe de 1e année 2009 de l’ETA de Bafang

4 5
1 Bamiléké
Bassa
Boulu
3 Maka
Yambassa
5 2 Béti
2 Eton
Banem
3

2.2- Représentations des variables quantitatives


Dans certains cas, la représentation des variables quantitatives peut faire appel aux représentations
décrites ci-dessus. Deux représentations graphiques retiendront plus particulièrement notre attention : la
courbe cumulative des fréquences et l’histogramme. Les nuages constituent une représentation où les
modalités sont en abscisses et les effectifs ou les fréquences en ordonnées.
a-) Variable quantitative discrète
Le diagramme en bâtons est la représentation graphique des effectifs ou des fréquences d’une
variable discrète. À chaque valeur (xi) en abscisse on fait correspondre un segment vertical de longueur
proportionnelle soit à l’effectif (ni), soit à la fréquence (fi) de cette modalité.
Ce graphique différentiel se distingue du diagramme intégral ou cumulatif qui représente les
fréquences cumulées. Le graphique intégral représente la fonction cumulative ou fonction de répartition
définie par F(xi) = Fi , qui est une fonction étagée pour une variable discrète pour xi < x ≤ xi+1.
Exemple : Nombre de frère et sœur des élèves de 1e année 2009 de l’ETA de Bafang.
1°- Diagramme en bâtons de la distribution de la classe de 1 e année 2009 de l’ETA de Bafang suivant le
nombre de frère et sœur des élèves.
Nombre d’élèves

5
4
3
2
1
Nombre de frères et sœurs
1 2 3 4 5 6 7 8 9 12 36

2°- Diagramme en bâtons cumulés de la distribution de la classe de 1 e année 2009 de l’ETA de Bafang
suivant le nombre de frère et sœur des élèves.
Nombre d’élèves

25

20
15

10

5
Nombre de frères et sœurs
1 2 3 4 5 6 7 8 9 12 36
b-) Variables continues
Deux représentations graphiques retiendront plus particulièrement notre attention : l’histogramme
et la courbe cumulative des fréquences.
L’histogramme est réservé aux séries groupées en classes. Pour visualiser l’importance relative des
classes, on préfère les représenter par des surfaces en construisant un histogramme. L’histogramme est
une représentation graphique de la distribution des effectifs ou des fréquences d’une variable statistique
continue ou considérée comme telle. À chaque classe de valeurs en abscisses, on fait correspondre un
rectangle dont l’aire est proportionnelle à l’effectif de la classe (ou à la fréquence) : en abscisse l’amplitude
de la classe, en ordonnée l’effectif (ou la fréquence) par unité d’amplitude.
NB : Soit une distribution {[bi ; bi+1[ ; ni } d’une variable statistique continue, pour chaque classe,
l’histogramme associe un rectangle de largeur ai = bi+1 − bi et de hauteur hi = fi ai.
Exemple : Taille des élèves de 1e année 2009 de l’ETA de Bafang
1°- Histogramme de la répartition de la classe de 1e année 2009 de l’ETA de Bafang selon la taille des
élèves.

Nombre d’élèves

8
7
6
5
4
3
2
1
Taille des élèves
1,50 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95

POPULATION – ECHANTILLON - Caractéristiques d’Echantillonnage - Déduction


Echantillonnage statistique
Pour recueillir des informations sur une population statistique, l’on dispose de deux méthodes:
 la méthode exhaustive ou recensement où chaque individu de la population est étudié selon le ou
les caractères étudiés.
 la méthode des sondages ou échantillonnage qui conduit à n’examiner qu’une fraction de la
population, un échantillon.

L’échantillonnage représente l’ensemble des opérations qui ont pour objet de prélever un certain nombre
d’individus dans une population donnée.
Pour que les résultats observés lors d’une étude soient généralisables à la population statistique,
l’échantillon doit être représentatif de cette dernière, c’est à dire qu’il doit refléter fidèlement sa
composition et sa complexité. Seul l’échantillonnage aléatoire assure la représentativité de l’échantillon.
Un échantillon est qualifié d’aléatoire lorsque chaque individu de la population a une probabilité connue
et non nulle d’appartenir à l’échantillon.
Le cas particulier le plus connu est celui qui affecte à chaque individu la même probabilité d’appartenir à
l’échantillon.

 L’échantillonnage aléatoire simple


L’échantillonnage aléatoire simple est une méthode qui consiste à prélever au hasard et de façon
indépendante, n individus ou unités d’échantillonnage d’une population à N individus.
Chaque individu possède ainsi la même probabilité de faire partie d’un échantillon de n individus et
chacun des échantillons possibles de taille n possède la même probabilité d’être constitué.
L’échantillonnage aléatoire simple assure l’indépendance des erreurs, c’est-à-dire l’absence
d’autocorrélations parmi les données relatives à un même caractère. Cette indépendance est
indispensable à la validité de plusieurs tests statistiques.
Exemple :
Les données météorologiques ne sont pas indépendantes puisque les informations recueillies sont d’autant
plus identiques qu’elles sont rapprochées dans le temps et dans l’espace.

Il existe d’autres techniques d’échantillonnage que nous ne développerons pas dans un premier temps
dans ce cours comme l’échantillonnage systématique, l’échantillonnage stratifié, l’échantillonnage avec
probabilité proportionnelle à la taille, échantillonnage à plusieurs degrés et la méthode utilisant des
informations supplémentaires qui répondent à des problématiques biologiques spécifiques.
 L’échantillonnage stratifié
 Le massif forestier est initialement divisé en strates, chacune d’elles étant plus homogènes que le
massif forestier entier (même formation végétale, partie de forêt d’accessibilité facile, etc.) ;
chaque strate est alors échantillonnée indépendamment.
 L’échantillonnage avec probabilité proportionnelle à la taille
Lorsque les unités d’échantillonnage sont de tailles variables, il est plus efficace de les tirer avec des
probabilités proportionnelles à leur taille.
 L’échantillonnage à plusieurs degrés (2 ou 3 en général)
Au premier degré, on tire de grandes unités dites unités du premier degré exemple blocs de 5000 ha
environ).
Au deuxième degré, on tire dans chaque unité du premier degré des unités plus petites (unités de
deuxième degré : par exemple des blocs de 100 ha) et ainsi de suite.
L’intérêt de ce type de sondage est de concentrer le travail sur le terrain limitant ainsi le déplacement donc
les coûts.
 Les méthodes utilisant des informations supplémentaires
Ces méthodes utilisent habituellement la technique mathématique de régression. Elles sont
particulièrement utiles lorsque la mesure directe du caractère y étudié (par exemple, le volume à l’ha
d’une espèce de taille donnée) est difficile ou revient très cher, alors qu’un autre caractère x plus simple à
mesurer (par exemple, la surface terrière à l’ha) lui est très lié. Dans un tel cas, on mesure x sur un grand
échantillon et y sur un petit échantillon. Les techniques de régression qui exploitent la liaison entre x et y
permettent d’estimer y à partir de x.
 Sondage ou échantillonnage systématique

Très utilisée dans les inventaires forestiers, il consiste essentiellement à choisir les unités de sondage non
pas au hasard mais d’une certaine façon systématique : un arbre sur 10 arbres, des parcelles équidistances
sur des layons équidistants, etc. Le terrain est simplifié mais l’estimation de la précision du sondage ne
peut pas se faire à l’aide des formules statistiques classiques.

Les méthodes de collecte sont nombreuses et peuvent être classées suivant différents critères.

A. Relevés directes

Le berger peut faire le décompte de son troupeau.

B. Relevés indirectes

Le planteur qui exprime sa récolte à partir des surfaces et des rendements unitaires.

C. Relevés continus, périodiques ou occasionnels

Exemple : l’apparition des éléphants dans un voisinage donné.

D. Le Questionnaire

C’est l’ensemble de questions auxquelles l’enquêté doit répondre destiné à fournir des renseignements
nombreux et exacts. La rédaction doit être l’objet des plus grands soins.
a) Le problème du coût doit être pris en considération
b) Le questionnaire doit être adapté au niveau des personnes consultées
c) Le questionnaire doit être complet et concis
d) Les questions posées doivent être simples et conduire à des réponses précises et courtes.

II- LA MISE EN FORME OU TRAITEMENT DES DONNEES

Elle comprend le dépouillement et le groupement des données.

1- Le dépouillement

Il est constitué de deux étapes :

a) Le contrôle des questionnaires et des informations statistiques (données)

Il consiste à vérifier la cohérence et les omissions éventuelles d’informations.

b) La codification

Elle consiste à définir des labels ou des signes.

Exemple : Chez les animaux, on peut identifier trois sexes au lieu de deux à savoir (mâle, femelle, castré) ou
(M, F, C) sur lesquels des variables seront introduites dans la machine (ordinateurs, calculatrices).

2) Le groupement des données

Les informations contenues dans le questionnaire sont souvent présentées sous forme d’un tableau
donnant la liste des modalités (catégories), la liste des valeurs ou des classes et leur effectif ou leur
fréquence.

A- Le groupement qualitatif

Ici les informations sont définies qualitativement. On peut aussi regrouper les individus selon la variété, la
race, la couleur, le teint, le genre, la répartition géographique, etc.

Exemple 1: Le sexe (caractère) des nouveaux nés (population) dans une maternité (unité stat.)

Modalité Fréquences absolues Fréquences relatives Pourcentages


(Sexe) (f) (f/n) (f/n x100)
Garçons 2180 0.5148 51.48
Filles 2055 0.4852 48.52
N 4235 1.0000 100

Exemple 2 : La situation matrimoniale (caractère) de 20 enseignants (population).

Modalité Codification Dépouillement Effectif absolu


Veuf
1 6
Célibataire
3 4
Marié
2 5
Divorcé
4 5

Ensemble : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Fréquence: 4 1 2 3 4 1 1 2 3 4 1 2 3 4 2 1 3 4 1 2

B- Le groupement quantitatif
a) Sériation et constitution des classes

Le premier travail à faire consiste à sérier les nombres obtenus c’est-à-dire à les ranger par ordre
numérique croissant ou décroissant. Aussi convient-il souvent de réunir ces résultats en classes contenant
chacune les observations comprises entre les limites déterminées.

i. Variables continues

On repartit les mesures d’abords en classe primaire dont l’intervalle est égal à la précision des mesures.

Exemple 1 : si les mesures des longueurs sont faites avec une précision de 1mm, on choisit les intervalles
de1mm précises. S’il est utile les classes primaires sont réunies en nombres égales en classes secondaires.

Exemple 2 : A l’ occasion d’une compétition où 20 athlètes ont des poids en unité de kg, on enregistre 20
observations qui constituent l’ensemble de la population ou la série statistique suivante :

77.45 ; 81.29 ; 56.41 ; 52.2 ; 63.23 ; 67.82 ; 63.22 ; 63.10 ; 71.28 ; 54.93 ; 71.37 ; 61.33 ; 68.78 ; 59.93 ;
71.44 ; 77.82 ; 67.41 ; 61.80 ; 78.52 ; 71.86.

Supposons qu’on choisisse les classes d’amplitudes constantes de 5kg.

Classe dépouillemen effectifs fréquences fréquences Pourcentage


t absolus absolues relatives
50-55 2 idem 0.10 10

55-60 2 idem 0.10 10

60-65 5 idem 0.25 25

65-70 3 idem 0.15 15

70-75 4 idem 0.20 20

75-80 3 idem 0.15 15

80-85 1 idem 0.05 5

ii. Les variables discontinues ou discrètes


Si les valeurs discontinues sont également espacées le groupement primaire se fait de lui-même en
rangeant les valeurs par ordre numérique avec l’indication pour chacun de nombre de mesure
correspondant. Si les valeurs discontinues ne sont pas également espacées, on les reparti dans les classes
d’intervalles constants comme pour les variables continues. Elles peuvent être en plus réparties en classes
secondaires regroupant plusieurs classes primaires.

Exemple de variable discontinu :

-le nombre d’œufs pondus par une poule.

-le nombre de tubercule produit par une plante.

-la longueur de la grande nervure d’un lot de feuilles de patate.

Classes primaires Fréquences (4cm) Classes secondaires Fréquences (9cm)


100 - 104 1 100- 109 1
105 -109 0 110- 119 6
110 -114 3 120- 129 6
115 -119 3 130- 139 9
120 -124 2 140- 149 15
125 -129 4 150- 159 17
130 -134 5 160- 169 10
135 -139 4 170- 179 8
140 -144 6 180- 189 3
145 -149 9 190- 199
150 -154 10 200- 209
155 -159 7 210- 219
160 -164 6 220- 229
165 -169 4 230- 239
170 -174 5 240- 249
175 -179 3 250- 259
180 -184 2 260- 269
185 -189 1 270- 279
18 classes 75 mesures 18 classes 75 mesures

NB : classes médianes primaires et classes médianes secondaires (on additionne les extrêmes et divise par
deux).

Distribution de fréquence

La liste des classes avec l’indication des fréquences correspondantes constitue une distribution de
fréquence qu’on présente souvent sous forme de tableau de fréquence.

Fréquence Absolue, fréquence relative et effectif cumulée

 On appelle effectif ou fréquence absolue f, le nombre d’individus ou de mesures appartenant à une


catégorie définie.

Exemple : le nombre de grains de mais, de gousses de haricot, de fleurs de gombo, etc.


 On appelle fréquence relative f/n, où n est le nombre total, où le quotient est obtenu en divisant
l’effectif par le nombre total.

 On appelle effectif cumulée d’une valeur xi, la somme des effectifs de toutes les valeurs inférieures
ou égales à xi.

Exemple : le diamètre à hauteur de la poitrine de 60 arbres.

Classes fréquences Fréquences ou Fréquences Fréquences


effectifs cumulés relatives en % cumulées en %
0.724-0.728 5 5 8.33 8.33
0.728-0.732 9 14 15.00 23.33
0.732-0.736 20 34 33.33 56.66
0.736-0.740 15 49 25.00 81.66
0.740-0.744 8 57 13.33 95
0.744-0.746 3 60 5.00 100

REPRESENTATION DES DONNEES


Il existe plusieurs niveaux de description statistique : la présentation brute des données, des présentations
par tableaux numériques, des représentations graphiques et des résumés numériques fournis par un petit
nombre de paramètres caractéristiques.
 Séries statistiques
Une série statistique correspond aux différentes modalités d’un caractère sur un échantillon d’individus
appartenant à une population donnée.
Le nombre d’individus qui constituent l’échantillon étudié s’appelle la taille de l’échantillon.

Exemple :
Afin d’étudier la structure de la population de gélinottes huppées (Bonasa umbellus) abattues
par les chasseurs canadiens, une étude du dimorphisme sexuel de cette espèce a été entreprise.
Parmi les caractères mesurés figure la longueur de la rectrice centrale (plume de la queue).
Les résultats observés exprimés en millimètres sur un échantillon de 50 mâles juvéniles sont notés dans la
série ci-dessus :

153 165 160 150 159 151 163


160 158 149 154 153 163 140
158 150 158 155 163 159 157
162 160 152 164 158 153 162
166 162 165 157 174 158 171
162 155 156 159 162 152 158
164 164 162 158 156 171 164
158

 Tableaux statistiques
Le tableau de distribution de fréquences est un mode synthétique de présentation des données. Sa
constitution est immédiate dans le cas d’un caractère discret mais nécessite en revanche une
transformation des données dans le cas d’un caractère continu.
-Fréquences absolues, relatives et cumulées
A chaque modalité du caractère X, peut correspondre un ou plusieurs individus dans l'échantillon de taille
n.
Remarque : Parfois on peut rencontrer le terme de fréquence absolue pour les effectifs.
On appelle fréquence de la modalité xi, le nombre fi tel que fi = ni/n.

Remarque : Parfois on peut rencontrer le terme de fréquence relative pour les fréquences.
Le pourcentage est une fréquence exprimée en pour cent. Il est égal à 100 fi.

L’emploi des fréquences ou fréquences relatives s’avère utile pour comparer deux distributions de
fréquences établies à partir d’échantillons de taille différente.

On appelle fréquences cumulées ou fréquences relatives cumulées en xi, le nombre fi cum tel que
k

fi cum = ∑ fP

p=1

k k
Remarque : On peut noter que ∑ ni = n, taille de l’échantillon et ∑ fi = 1
i=1 i=1

- Caractères quantitatifs discrets


Exemple : La cécidomyie de l’eucalyptus provoque sur les feuilles de cet arbre des galles dont la
distribution de fréquences observées est la suivante :

Caractère X : xi : nombre de ni : nombre de feuilles fi : fréq. relative fi cum. : fréquence


galles par feuille portant xi galles relative cumulée
0 182 0,485 0,485
1 98 0,261 0,746
2 46 0,123 0,869
3 28 0,075 0,944
4 12 0,032 0,976
5 5 0,013 0,989
6 2 0,005 0,994
7 1 0,003 0,997
8 0 0 0,997
9 1 0, 003 1
10 0 0 1

La taille de l’échantillon étudié est n =375 feuilles.

-Caractères quantitatifs continus


Dans le cas d'un caractère quantitatif continu, l’établissement du tableau de fréquences implique
d’effectuer au préalable une répartition en classes des données. Cela nécessite de définir le nombre de
classes attendu et donc l’amplitude associée à chaque classe ou intervalle de classe.
En règle générale, on choisit des classes de même amplitude. Pour que la distribution en fréquence est un
sens, il faut que chaque classe comprenne un nombre suffisant de valeurs (ni).
Diverses formules empiriques permettent d’établir le nombre de classes pour un échantillon de taille n.
La règle de STURGE : Nombre de classes = 1 + (3,3 log n)
La règle de YULE : Nombre de classes = 2,5 ∜ n
L'intervalle entre chaque classe est obtenu ensuite de la manière suivante :
Intervalle de classe = (X max - X min) / Nombre de classes avec X max et X min, respectivement la plus
grande et la plus petite valeur de X dans la série statistique.
A partir de X min on obtient les limites de classes ou bornes de classes par addition successive de
l’intervalle de classe. En règle général, on tente de faire coïncider l’indice de classe ou valeur centrale de la
classe avec un nombre entier ou ayant peu de décimales.
Exemple :
Dans le cadre de l’étude de la population de gélinottes huppées (touffe de plumes sur la tête de certains
oiseaux), les valeurs de la longueur de la rectrice principale (plume de la queue des oiseaux) peuvent être
réparties de la façon suivante :
• définition du nombre de classes :
Règle de STURGE : 1 + (3,3 log 50) = 6,60
Règle de YULE : 2,5 = 6,64 les deux valeurs sont très peu différentes (écrire 50 puis 2nde fonction yx
enfin 4 = résultats des calculs).
• définition de l’intervalle de classe :
IC = 174 -140/6,6 = 5,15 mm que l’on arrondit à 5 mm par commodité
• Tableau de distribution des fréquences
Exemple : Longueur de la rectrice centrale.

Longueur de la Valeur médiane nombre d’individu Fréquence fréquence relative cumulée


rectrice (xi) des classes (Ci) par (ni) relative (fi) (fi cum.)

[140-145[ 142,5 1 0,02 0,02

[145-150[ 147,5 1 0,02 0,04

[150-155[ 152,5 9 0,18 0,22

[155-160[ 157,5 17 0,34 0,56

[160-165[ 162,5 16 0,32 0,88

[165-170[ 167 ,5 3 0,06 0,94

[170-175[ 172,5 3 0,06 1

Représentation Graphique (Des Distributions De Fréquences)

Le traitement graphique constitue une première étape de la synthèse des données. Les représentations
graphiques ont l’avantage de renseigner immédiatement sur l’allure générale de la distribution. Elles
facilitent l’interprétation des données recueillies.
Il existe 12 types de diagrammes dont l’usage dépend de la variable étudiée. Cependant tous utilisent le
principe de proportionnalité entre les effectifs et les aires représentées.
Les Variables qualitatives

On peut représenter la distribution d’une variable qualitative au moyen des diagrammes en barres ou en
tuyaux d’orgue et au moyen du diagramme en secteur ou en camembert.

Le diagramme en barres (ou en tuyaux d'orgue) : Diagramme représentant la distribution d'une variable
qualitative : les modalités sont placées en abscisse, formant des bases de rectangles égales et
équidistantes, et les effectifs (ou fréquences) en ordonnée, suivant une échelle arithmétique. Les surfaces
des rectangles obtenus sont proportionnelles aux effectifs (ou aux fréquences).

Le diagramme en tuyau consiste à représenter chaque modalité de la variable par un rectangle de base
constante et de hauteur égale à l’effectif ou à la fréquence de la modalité.

Le diagramme circulaire (ou à secteurs circulaires, ou en camembert) : Diagramme permettant de


représenter la distribution d'une variable qualitative : les modalités sont représentées par des portions de
disque proportionnelles à leur effectif, ou à leur fréquence. Le diagramme en secteur consiste à
représenter l’effectif de l’échantillon par un cercle divisé en plusieurs secteurs correspondant chacun à une
modalité du caractère. L’angle du cercle du secteur qui représente la i ème modalité est Ɵ = 360 x fi / 100 où
fi est la fréquence de la modalité.

Exemple : l'angle  est proportionnel à


l'effectif, où à la fréquence
par exemple pour représenter
15 % :

 = 0.15 x 360 = 54°

Exemple : Tableau de fréquence des causes de décès des volailles dans le Haut-Nkam.

Modalité (maladie) Effectif (f) Fréquence (%) = f / n x 100


Newcastle 37 42.5
Salmonella 26 29.9
Coccidiose 14 16.1
Autres causes inconnues 10 11.5
Total 87 100

C'est l'inventaire des modalités ou valeurs rencontrées dans la série, avec les effectifs correspondants.

Diagramme circulaire ou en secteur illustré ci-dessous à l’aide d’un tableau statistique simple :
Situation Nombre de personnes
familiale dans cette situation

célibataire 150
marié 120
divorcé 10
veuf 80

(2) (1) x (3)

Les variables quantitatives x x x x

-diagrammes de points (1) xx xx x x x

x x

-diagrammes en bâtons (2)

On tire les bâtons vers l’axe des abscisses à partir des points.

-polygones de fréquence (3)

Si l’on joint par des segments de droite des points par le diagramme de points en adjoignant de parts et
d’autres une classe adjacente pour laquelle la classe est nulle, on forme un polygone de fréquence.

-histogramme

Pour construire un histogramme, on marque les limites de classes sur l’axe des abscisses et on y élève des
perpendiculaires dont la hauteur est égale à la fréquence de la classe comprise entre deux de ces
perpendiculaires. Les extrémités de ces dernières sont ensuite reliées par des traits parallèles à l’axe des
abscisses (x).

Remarque : Combien de classes un histogramme doit-il comporter et quel doit être les intervalles de
classe ? Si celles-ci sont très nombreuses l’histogramme sera irrégulier et pourra comporter des trous. Le
choix d’un nombre restreint de classes risque de donner une bonne partie des détails intéressants.

En règle général, il faut au moins 8 classes et au plus lorsque les données sont particulièrement
nombreuses. Il convient de choisir les intervalles de classes de sorte que les bornes inférieures soient des
chiffres ronds aussi simples que possibles. Les intervalles de classes ne doivent pas se chevaucher, ils
doivent de préférence être égaux.
Types d’histogrammes

1-histogramme symétrique

La plus grande partie des données est groupée en son centre et les extrémités en queue peuvent s’écrire
approximativement.

2-histogramme asymétrique 4) 5) 3)

1)

On peut avoir la symétrie qui est à droite ou à gauche. 2) droite 2) gauche

3-histogramme en forme de J

4-histogramme en forme de J inversé

5-histogramme en forme de U 6) 7)

6-histogramme bimodale

7-histogramme multimodale

-Caractères quantitatifs discrets


Pour les caractères quantitatifs discrets, la représentation graphique est le diagramme en bâtons où la
hauteur des bâtons correspond à l’effectif ni associé à chaque modalité du caractère xi. Diagramme
représentant la distribution d'une variable quantitative discrète : les valeurs sont placées en abscisse, les
effectifs (ou fréquences) en ordonnée, au moyen de segments verticaux.
Exemple :

Autre Exemple :
Effectif : ni
X : nombre de galles par feuille
Dans l’exemple de la cécidomyie de l’eucalyptus, la distribution des fréquences observées du nombre de
galles par feuille peut être représentée par un diagramme en bâtons avec en ordonnée les effectifs ni et
en abscisse les différentes modalités de la variable étudiée.
-Caractères quantitatifs continus
Pour les caractères quantitatifs continus, la représentation graphique est l’histogramme où la hauteur du
rectangle est proportionnelle à l’effectif ni. Ceci n’est vrai que si l’intervalle de classe est constant. Dans ce
cas l’aire comprise sous l’histogramme s’avère proportionnelle à l’effectif total. En revanche lorsque les
intervalles de classe sont inégaux, des modifications s’imposent pour conserver cette proportionnalité.
Dans ce cas, en ordonnée, au lieu de porter l’effectif, on indique le rapport de la fréquence sur l’intervalle
de classe. Ainsi la superficie de chaque rectangle représente alors l’effectif associé à chaque classe.
Exemple :
Dans l’exemple de la longueur de la rectrice centrale des individus mâles de la gélinotte huppée, la
distribution des fréquences observées est représentée par un histogramme avec en ordonnée les effectifs
ni et en abscisse les limites de classe de la variable étudiée.

NOTATION DES SIGNES STATISTIQUES


- Les signes conventionnels
Dans un tableau statistique, certaines informations sont absentes, remplacées par des signes
conventionnels qu’il est utile de connaître.
'' ......................... Le résultat n’existe pas faute d’enquête ou ne peut être obtenu
… ...................... Résultat non disponible (pas encore publié, pas encore parvenu)
/// .................................................. Absence de résultat due à la nature des choses
– ............................................................................... Résultat rigoureusement nul
C ............ Résultat confidentiel par application des règles sur le secret statistique
ε .................................................. Résultat inférieur à la moitié de l’unité choisie
e ......................................................................................... Estimation, évaluation
r .................................................................................................... Nombre rectifié
p .............................................................................................. Nombre provisoire
• ................................................................................................... Rupture de série

- LES NOTATIONS INDICEES


La notation somme (ou l’opérateur somme)
Soient les effectifs n1, n2, . . ., nk de la distribution du caractère, nous noterons n la somme des
effectifs.
n = n1 + n2 + . . . + nk
Cette écriture est peu maniable, nous remplacerons la somme précédente par la notation suivante :

Ou si la sommation est sans ambiguïté :


∑ ¿=n
Le symbole ∑ ❑se lit sigma et signifie somme des effectifs des k modalités de la distribution.

La notation produit (opérateur produit)


De façon analogue à la notation somme, nous écrivons le produit de n nombres sous une forme
abrégée.

Indicateurs numériques

Remarque :

Pour un histogramme des effectifs, la hauteur de rectangle correspondant à la classe i est donc donnée
par :

(On appelle hi la densité d’effectif).

– L’aire de l’histogramme est égale à l’effectif total n, puisque l’aire de chaque rectangle est égale à
l’effectif de la classe i : ai × hi = ni.
Pour un histogramme des fréquences on a :

– On appelle di la densité de fréquence.

– L’aire de l’histogramme est égale à 1, puisque l’aire de chaque rectangle est égale à la fréquence de la
classe i : ai × di = fi.
Si [c-i ; c+i [désigne la classe i, on note de manière générale :
– c-i la borne inférieure de la classe i,
– c+i la borne supérieure de la classe i,
– ci = (c+i + c- i) / 2 le centre de la classe i,
– ai = c+i - c-i l’amplitude de la classe i,
– ni l’effectif de la classe i,
– Ni l’effectif cumulé de la classe i,
– fi la fréquence de la classe i,
– Fi la fréquence cumulée de la classe i.

INDICATEURS NUMERIQUES
Le dernier niveau de description statistique est le résumé numérique d’une distribution statistique par des
indicateurs numériques ou paramètres caractéristiques.
Remarque : Ces derniers représentent une transition entre la statistique purement descriptive et
l’estimation des paramètres qui caractérisent les distributions de probabilité.

INDICATEURS OU INDICES DE POSITION OU CARACTERISTIQUES DE TENDANCE CENTRALE


Ces paramètres ont pour objectif dans le cas d'un caractère quantitatif de caractériser l’ordre de grandeur
des observations (l’ensemble des valeurs de la variable).

 La moyenne Arithmétique

NB : xi est le centre de classe Ci et on peut aussi utiliser la fréquence fi à la place de ni pour calculer la
moyenne arithmétique à partir des valeurs groupées.

Remarque : La moyenne obtenue après regroupement des données en classe dans l’exemple de la
longueur de la rectrice centrale diffère légèrement en raison d’une perte d’information.
Si l’échantillonnage n’est pas de type aléatoire simple, les deux moyennes peuvent être très différentes.
NB : La moyenne ne peut être définie que sur une variable quantitative.

 La moyenne géométrique
Si , on appelle moyenne géométrique la quantité :

On peut écrire la moyenne géométrique comme l’exponentielle de la moyenne arithmétique des


logarithmes des valeurs observées.

La moyenne géométrique s’utilise, par exemple, quand on veut calculer la moyenne du taux d’intérêt.

 Moyenne harmonique

Exemple : Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de 10
km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a été sa vitesse moyenne ?

– Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en 3h20, la
troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400km en

10h + 3h20 + 2h30 + 5h = 20h50 = 20.8333h, sa vitesse moyenne est donc


– Si on calcule la moyenne arithmétique des vitesses, on obtient

– Si on calcule la moyenne harmonique des vitesses, on obtient

La moyenne harmonique est donc la manière appropriée de calculer la vitesse moyenne.

Remarque : Il est possible de montrer que la moyenne harmonique est toujours inférieure ou égale à la
moyenne géométrique qui est toujours inférieure ou égale à la moyenne arithmétique

 Moyenne pondérée

Dans certains cas, on n’accorde pas le même poids à toutes les observations. Par exemple, si on calcule la
moyenne des notes pour un programme d’étude, on peut pondérer les notes de l’´etudiant par le nombre
de crédits ou par le nombre d’heures de chaque cours.
Si wi > 0, i = 1, . . ., n sont les poids associés à chaque observation, alors la moyenne pondérée par wi est
définie par :

Exemple : Supposons que les notes soient pondérées par le nombre de crédits, et que les notes de
l’étudiant soient les suivantes :
La moyenne pondérée des notes par les crédits est alors

 Le mode ou dominante
Remarque : Le mode est aussi la valeur la plus probable. Si on considère les classes d’intervalles finis alors
on parle de classes modales. Pour les distributions en cloche symétrique, la moyenne arithmétique, la
médiane et le mode sont confondus. Mais il n’est pas de même pour les distributions en cloche
dissymétrique.

 La médiane
La médiane (Me) est la valeur du caractère pour laquelle la fréquence cumulée est égale à 0,5 ou 50%. Elle
correspond donc au centre de la série statistique classée par ordre croissant, ou à la valeur pour laquelle
50% des valeurs observées sont supérieures et 50% sont inférieures. C’est la valeur de la variable qui
partage les observations ou mesures en 2 effectifs égaux lorsque les observations sont supposées être
rangées par ordre décroissant ou croissant.
Exemples :

-Si n est impair et égal à 75 (n = 75).

Trouvons le niveau de l’effectif où est située la médiane :

On a n + 1 / 2 = 75 + 1 / 2 = 38 ; la médiane Me ici est donc la valeur de la 38ème observation ou mesure.

-Si n est pair, il n’y a pas d’observation médiane mais on a pour valeur médiane, la moyenne arithmétique
qui est n / 2 ou n + 2 / 2 de ces observations ou mesures.

Si n est pair et égal à 74, on a n / 2 = 37 et n + 2 = 38 ; supposons la valeur de la 37ème mesure correspond à


149mm et que celle de la 38ème mesure à 150mm.

La médiane est alors Me = 149mm + 150mm / 2 = 149,5mm

-Application : Moyenne approximative-Médiane approximative

Classes Fi Fi xi fixi
10-20 1 1 15 15
20-30 3 4 25 75
30-40 9 13 35 315
40-50 13 26 45 585
50-60 24 50 55 1320
60-70 26 76 65 1690
70-80 25 101 75 1875
80-90 31 132 85 2635
90-100 18 150 95 1710
100-110 10 160 105 1050
110-120 3 163 115 345
120-130 2 165 125 250
Total 165
X = ∑ fixi / ∑ fi = 11865/165

d’où X = 71,9.
Il y a donc 165 mesures ou observations impliquant que la valeur de la médiane M e sera située à (n+1 / 2 =
165 +1/2 = 83) la 83ème observation. On a donc :

- 76 observations entre 60-70 et

- 7 observations dans l’intervalle ou la classe 70-80 et aussi 25 observations en supposant que 83 = 76 + 7.

La médiane approximative mesure donc 72,8

d’où Me = 72,8.

L’application ici peut être de déterminer la taille médiane approximative c’est-à-dire de trouver le
troupeau qui se trouve à la 83ème position soit 83 = 76 + 7.

Il s’agit de trouver le 7ème troupeau de taille médiane dans l’intervalle [70-80]. Si les troupeaux sont
uniformément répartis à l’intérieur du rectangle c’est-à-dire la présence d’un troupeau à chaque 10/25 =
0,4 unités, le 7ème troupeau se trouve donc à 7 x 0,4 unités au-dessus de la valeur inférieure du rectangle
c’est-à- dire 70 + 2,8 qui est notre médiane.

Remarque : Sauf indication spéciale, lorsque nous parlerons de la moyenne, ce sera la moyenne
arithmétique.

Les distributions plurimodales ou bimodales peuvent être interprétées comme la superposition de


plusieurs distributions simples.

 Comparaison des indicateurs de position

Exemples : Représentation graphique des trois indices de position sur l’exemple de la distribution de la
longueur de la rectrice centrale de la gélinotte huppée.
INDICES OU INDICATEURS OU PARAMETRES DE DISPERSION

Les valeurs typiques sont insuffisantes à elles seules pour caractériser une distribution et d’autres
indications sont nécessaires pour préciser de quelle façon les observations sont concentrées autour de la
valeur centrale. Ces paramètres ont pour objectif dans le cas d'un caractère quantitatif de caractériser la
variabilité des données dans l’échantillon.

Les indicateurs de dispersion fondamentaux sont la variance observée et l’écart-type observé.

 Etendue de la dispersion e (domaine occupé par les observations)

L’étendue d’une série de mesures ou d’une série statistique est la différence entre la plus grande et la plus
petite valeur observée dans la série.

Exemple : 3, 15, 6, 9, 15. Ici l’étendue e = 15 - 3 = 12.

C’est un enseignement fréquent utilisé en systématique par la mention des limites inférieures et des
limites supérieures.

Exemple : Festuca violacea.

 Ecart moyen

Pour obtenir une grandeur numérique qui représente l’allure de l’ensemble des écarts, on ne peut avoir
recours à leur somme arithmétique puisque celle-ci est toujours nulle. A cet effet, on peut totaliser les
écarts sans tenir compte de leur signe et l’on appelle écart moyen, la moyenne arithmétique de la valeur
absolue ou module des écarts.

Remarque : Il est très peu utilisé en agriculture.

 Les quantiles
La notion ne peut être généralisée en considérant les valeurs auxquelles une proportion quelconque
d’observations est inférieure ou égale. Les termes voisins portent le nom générique de quantile.

On appelle quantiles d’ordre α notés xα tel que 0 ≤ α ≤ 1, la valeur de la variable telle qu’une proportion α
de l’observation soit ≤ xα (α ≤ xα).

Parmi les quantiles remarquables, on définit les trois valeurs qui font la distribution en quatre séries
contenant chacune ¼ de l’effectif total. Pour cette raison, ces valeurs sont appelées Quartiles et notées Q1,
Q2 et Q3 ou x1/4, x2/2 et x3/4. Le deuxième quartile Q2 est régulièrement la médiane. De manière analogue,
on défini les 9 Déciles et les 99 Centiles qui divisent la distribution respectivement en 10 et 100 classes
d’effectif. La différence Q3 - Q1 encore appelée écart interquartile donne l’étendue de la classe qui contient
la quantité d’observation située au centre de la distribution dont 25% à gauche et 25% à droite.

Recherche des quantiles :

Exemple 1 : Soit la série de mesures 5, 8, 9, 11, 12, 14, 15, 17, 19, 20, 21.

-Déterminer 0,40 quantile :

Il s’agit de trouver le quatrième décile 4 x N / 10 = 4,4.

-Si x0, 40 = 1,1

La proportion des nombres inférieurs à 11 est 3/11 = 0,27

La proportion des nombres supérieurs à 11 est 7/11 = 0, 63

Soit 0,40/ 0,27 ≤0,40 x0, 40 0,60/ 0,63 ¿ 0,60 donc11 ne satisfait pas

car 0,63 n’est pas ¿ 0,60 alors que 0,27 ≤ 0,40 vérifie le théorème.

-Si x0, 40 = 12

La proportion des nombres inférieures à 12 est 4/11 = 0,36 et 0,36 ¿ 0,40

La proportion des nombres supérieures à 12 est 6/11 = 0,54 et 0,54 ¿ 0,60

donc 12 est le quatrième quartile.

-Si x0, 40 = 14

Vérifier si x0, 40 remplie les conditions de votre quatrième décile :

La proportion des nombres supérieures à 14 = 5/14 = 0,45 ¿ 0,60

La proportion des nombres inférieures à 14 = 5/4 = 0,45 ¿ 0,40

x0, 40 ne vérifie pas les conditions de notre quatrième décile.

Exemple 2: Soit la série statistique 64, 66, 66, 74, 77, 81, 86, 86.

-Déterminer le 0,5 quantile :

Avec Q = 0,5 ou 5/10 x N, revient à trouver le 5ème décile.


-Si x0, 5 = 74 et 5/10 x 8 = 4

La proportion des nombres inférieures à 74 est 3/8 = 0,37 ¿ 0,5

La proportion des nombres supérieures à 74 est 4/8 = 0,5 = 0,5

x0, 5 = 74 vérifie les conditions.

-Si x0, 5 = 77

Idem………..inférieurs à 77 est 4/8 = 0,5 ≤ 0,5

Idem………..supérieurs à 77 est 3/8 = 0,37 ¿ 0,5

x0, 5 = 77 vérifie aussi les conditions.

Exemple 3: Soit la série statistique suivante 3, 3, 3, 5, 7, 14, 19.

-Trouver Q = 0,2 quantile (2/10 x N = 2/10 x 7 = 1,4 est le deuxième décile).

-Si x0, 2 = 3

Proportion des nombres inférieurs à 3 = 0

Proportion des nombres supérieurs à 3 = 4/7 = 0,57

0 ¿ 0,20

0,57¿0,80 donc x0, 2 vérifie les conditions du théorème.

Exercice TD : Le salaire en dollars de 65 employés d’une compagnie.

Salaire en dollars % Nombre d’employés


50.00-59.99 0.08 8
60.00-60.99 0.1 10
70.00-79.99 0.16 16
80.00-89.99 0.14 14
90.00-99.99 0.1 10
100.00-109.99 0.05 5
110.00-119.99 0.02 2

1) Déterminer le premier, le deuxième et le troisième quartile.

2) Déterminer du premier au neuvième décile.

 La variance observée

Soit un échantillon de n valeurs observées x1, x2, …., xi,…., xn d’un caractère quantitatif X et soit x sa
moyenne observée. On définit la variance observée notée s2 comme la moyenne arithmétique des carrés
des écarts à la moyenne.
Dans le cas de données regroupées en k classes d'effectif ni (variable continue regroupée en classes ou
variable discrète), la formule de la variance est la suivante :

Pour des commodités de calcul, on utilisera la formule développée suivante :

NB : δ2 est la variance qui correspond à la population et son effectif est N-1 ; à la place d’i=1 dans les
formules ci-dessus on remplace par n=1 et il s’agit en ce moment là de N classes.

 L’écart-type observé

Il est aussi appelé écart unité ou écart étalon ou écart quadratique moyen ou déviation standard ou
déviation type ou déviation unitaire. Il correspond à la racine carré de la variance.

NB : δ est l’écart-type de la population

Exemple :

Dans le cas de l’étude du dimorphisme sexuel de la gélinotte huppée, la variance observée de la longueur
de la rectrice centrale du mâle juvénile est :

- cas des données non groupées :

-cas des données groupées :

Remarque : De part sa définition, la variance est toujours un nombre positif. Sa dimension est le carré de
celle de la variable. Il est toutefois difficile d’utiliser la variance comme mesure de dispersion car le recours
au carré conduit à un changement d’unités. Elle n’a donc pas de sens biologique direct contrairement à
l'écart-type qui s’exprime dans les mêmes unités que la moyenne.
 Coefficient de variation

La variance et l’écart-type observée sont des paramètres de dispersion absolue qui mesurent la variation
absolue des données indépendamment de l’ordre de grandeur des données.
Le coefficient de variation noté C.V. est un indice de dispersion relatif prenant en compte ce biais et est
égal à :
Population : C.V = δ / μ x 100

Echantillon : C.V =

Exprimé en pour cent, il est indépendant du choix des unités de mesure permettant la comparaison des
distributions de fréquence d’unité différente.

Exemple : Le coefficient de variation des longueurs de la rectrice centrale des gélinottes huppées mâles
juvéniles est égal à :

Exemple :

Le poids moyen et l’écart-type des poids des toisons d’un troupeau de moutons sont respectivement
égalent à 10,3 et 1,5 kg. Quant à leur valeur commerciale, les valeurs de l’écart-type sont respectivement
5,1 et 0,7 unités.

-Quel est entre les deux caractères le plus variable ?

Pour le poids : CV = 1,5 / 10,3 x 100 = 14,6%

Pour la valeur commerciale : CV = 0,7 x 100 = 13,7%

Le poids a le CV le plus grand donc il est le plus variable.

Remarque : L’écart-type est exprimé avec la même unité que la variance et représente une mesure de
même nature que la variance.

Pour comparer la dispersion des diverses distributions par exemples d’organes analogues chez les espèces
de tailles différentes ou de divers éléments de n individus, on utilise la dispersion relative c’est-à-dire le CV.
Le CV est un nombre pur sans dimension, indépendant des unités employées.

Remarque sur les faits de groupement : Correction de Sheppard

Le groupement des variables en classes a pour effet de substituer à chacun des résultats effectivement
obtenus par l’observation du point médian de la classe à laquelle il appartient. Ainsi les observations d’une
classe de fréquence sont ainsi remplacées par f valeur égale au point médian. Il en résulte que les
paramètres calculés à partir de cette nouvelle grandeur ne sont pas exactement les mêmes que ceux qui
seraient obtenus directement mais plus péniblement à partir des données originales

-si la fréquence n’est pas modifiée

-si la moyenne est peu affectée par le groupement.


Lorsqu’une distribution est représentée par une courbe en cloche peu dissymétrique et que les fréquences
extrêmes sont petites, on peut apporter à la variance une correction dit de Sheppard. Cette correction
consiste à retrancher de la variance le 12ème du carré de l’intervalle de classe.

δ2i = δ2 – i2 / 12 (δ2 = variance ; i = intervalle de classe ; δ2i = variance corrigée)

Si les données sont groupées, la variance est:

δ2 = ∑ fi (Xi – X)2 / n – 1 ( Xi = Ci = centre de classe)

Exemple : Taille des troupeaux

-Calculer la variance de la distribution de cette taille de troupeau.

Classes Fréquences absolues (effectifs) Xi Xi2 fiXi


60- 62 5 61 3721 305
63- 65 18 64 4096 1152
66- 68 42 67 4489 2814
69- 71 27 70 4900 1880
72- 74 8 73 5329 584
Total 6745

δ2= ∑ fiXi2 / ∑ fi - (∑ fiXi)2 = 455103 / 100 – (6745 / 100)2 = 68.97 d’où δ = 8.30.

 La distance interquartile

La distance interquartile est la différence entre le troisième et le premier quartile notée


IQ = Q3 - Q1 ou IQ = x3/4 – x1/4.

PARAMETRES DE FORME

 Coefficient d’asymétrie de Fisher (skewness)

Le moment centré d’ordre trois est défini par :

Il peut prendre des valeurs positives, négatives ou nulles. L’asymétrie


se mesure au moyen du coefficient d’asymétrie de Fisher noté par :

(Où s3X est le cube de l’écart-type).

 Coefficient d’asymétrie de Yule

Le coefficient d’asymétrie de Yule est basé sur les positions des 3 quartiles (1er quartile, médiane et
troisième quartile), et est normalisé par la distance interquartile :
 Coefficient d’asymétrie de Pearson

Le coefficient d’asymétrie de Pearson est basé sur une comparaison de la moyenne et du mode, et est
standardisé par l’écart-type :

Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si la distribution est symétrique,
négatifs si la distribution est allongée à gauche (left asymmetry), et positifs si la distribution est allongée à
droite (right asymmetry) comme montré dans la Figure ci-dessous :

Figure : Asymétrie d’une distribution.

Remarque : Certaines variables sont toujours très asymétriques à droite, comme les revenus, les tailles des
entreprises, ou des communes. Une méthode simple pour rendre une variable symétrique consiste alors à
prendre le logarithme de cette variable.
DEUXIEME PARTIE : Statistique descriptive bivariée
Série statistique bivariée :

On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur les n unités d’observation. Pour
chaque unité, on obtient donc deux mesures. La série statistique est alors une suite de n couples des
valeurs prises par les deux variables sur chaque individu :

(x1, y1), . . . , (xi, yi), . . . , (xn, yn).

Chacune des deux variables peut être, soit quantitative, soit qualitative. On examine deux cas.

– Les deux variables sont quantitatives.

– Les deux variables sont qualitatives.

Deux variables quantitatives :

- Représentation graphique de deux variables

Dans ce cas, chaque couple est composé de deux valeurs numériques. Un couple de nombres (entiers ou
réels) peut toujours être représenté comme un point dans un plan

(x1, y1), . . . , (xi, yi), . . . , (xn, yn).

Exemple : On mesure le poids Y et la taille X de 20 individus.

Figure : Le nuage de points.


Analyse des variables

Les variables x et y peuvent être analysées séparément. On peut calculer tous les paramètres dont les
moyennes et les variances :

Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes marginales,
écarts-types marginaux, quantiles marginaux, etc.. . .

 Covariance

La covariance est définie par :

Remarque :

– La covariance peut prendre des valeurs positives, négatives ou nulles.


– Quand xi = yi, pour tout i = 1, . . . , n, la covariance est égale à la variance.
Théorème : La covariance peut également s’écrire :

 Corrélation

Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux :

 Détermination

Le coefficient de détermination est le carré du coefficient de corrélation :

Remarque :

– Le coefficient de corrélation mesure la dépendance linéaire entre deux variables:


– Si le coefficient de corrélation est positif, les points sont alignés le long d’une droite croissante.

– Si le coefficient de corrélation est négatif, les points sont alignés le long d’une droite décroissante.

– Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de dépendance linéaire. On peut
cependant avoir une dépendance non-linéaire avec un coefficient de corrélation nul.

S'il est proche de + 1 ou - 1, X et Y sont bien corrélées, c'est-à-dire qu'elles sont liées entre elles par une
relation presque affine ; le nuage de points est presque aligné le long d'une droite (croissante si r = + 1,
décroissante si r = - 1). S'il n'y a aucun lien entre X et Y, ce coefficient est nul, ou presque nul.

Droite de régression

La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des moindres carrés.
On considère que la variable X est explicative et que la variable Y est dépendante. L’équation d’une droite
est y = a + bx.
Le problème consiste `a identi.er une droite qui ajuste bien le nuage de points.
Si les coefficients a et b étaient connus, on pourrait calculer les résidus de la régression définis par :
ei = yi - a - bxi.
Le résidu ei est l’erreur que l’on commet (voir Figure 3.3) en utilisant la droite de régression pour prédire yi
à partir de xi. Les résidus peuvent être positifs ou négatifs.

Figure 3.3 – Le nuage de points, le résidu.

Pour déterminer la valeur des coefficients a et b on utilise le principe des moindres carrés qui consiste à
chercher la droite qui minimise la somme des carrés des résidus :

Théorème : Les coefficients a et b qui minimisent le critère des moindres carrés sont donnés par :

En identifiant les deux paramètres, on a :

On devrait en outre vérifier qu’il s’agit bien d’un minimum en montrant que la matrice des dérivées
secondes est définie positive. La droite de régression est donc :

Ce qui peut aussi s’écrire :


Remarque : La droite de régression de y en x n’est pas la même que la droite de régression de x en y.

Figure : La droite de régression

Deux variables qualitatives :

 Données observées

Si les deux variables x et y sont qualitatives, alors les données observées sont une suite de couples de
variables (x1, y1), . . . , (xi, yj), . . . , (xn, yn), chacune des deux variables prend comme valeurs des modalités
qualitatives.

Les valeurs distinctes de x et y sont notées respectivement

x1, . . . , xj , . . . , xJ

et

y1, . . . , yk, . . . , yK.

 Tableau de contingence

Les données observées peuvent être regroupées sous la forme d’un tableau de contingence :
Exemple : On s’intéresse à une éventuelle relation entre le sexe de 200 personnes et la couleur des yeux.
Le Tableau ci-dessous reprend le tableau de contingence.

Table : Tableau des effectifs njk

Tableau des fréquences

Le tableau de fréquences s’obtient en divisant tous les effectifs par la taille de l’´echantillon :

Le tableau de fréquences s’obtient en divisant tous les effectifs par la taille de l’´echantillon :
Le tableau des fréquences est :

Exemple : Le tableau ci-dessous reprend le tableau des fréquences.

Table : Tableau des fréquences

 Profils lignes et profils colonnes

Un tableau de contingence s’interprète toujours en comparant des fréquences en lignes ou des fréquences
en colonnes (appelés aussi profils lignes et profils colonnes).

Les profils lignes sont définis par :

Les profils colonnes sont définis par :

Exemple : Le Tableau 3.3 reprend le tableau des profils lignes, et le Tableau 3.4 reprend le tableau des
profils colonnes.

Table 3.3 – Tableau des profils lignes


Table 3.4 – Tableau des profils colonnes

Effectifs théoriques et khi-carré

On cherche souvent une interaction entre des lignes et des colonnes, un lien entre les variables. Pour
mettre en évidence ce lien, on construit un tableau d’effectifs théoriques qui représente la situation où les
variables ne sont pas liées (indépendance). Ces effectifs théoriques sont construits de la manière suivante :

Les effectifs observés njk ont les mêmes marges que les effectifs théoriques .

Enfin, les écarts à l’indépendance sont définis par :

– La dépendance du tableau se mesure au moyen du khi-carré défini par :

– Le khi-carré peut être normalisé pour ne plus dépendre du nombre d’observations.

On définit le phi-deux par :

– Le V de Cramer est définit par :

Le V de Cramer est compris entre 0 et 1. Il ne dépend ni de la taille de l’échantillon ni de la taille du


tableau. Si V 0, les deux variables sont indépendantes. Si V = 1, il existe une relation fonctionnelle entre
les variables, ce qui signifie que chaque ligne et chaque colonne du tableau de contingence ne contiennent
qu’un seul effectif différent de 0 (il faut que le tableau ait le même nombre de lignes que de colonnes).
Exemple : Le Tableau 3-5 reprend le tableau des effectifs théoriques, le Tableau 3.6 reprend le tableau des
écarts à l’indépendance. Enfin, les sont présentés dans le tableau 3.7.

– Le khi-carré observé vaut

– On a V = 0.123. La dépendance entre les deux variables est très faible.

ETUDE DES TAUX DE NATALITE, TAUX DE MORTALITE ET TAUX DE CROISSANCE :

Taux de Natalité = Nombre de Naissance x 1000 / Population Totale ;


Taux Mortalité = Nombre de Décès x 1000 / Population Totale ;
Taux de Croissance = Taux de Natalité - Taux de Mortalité.
TROISIEME PARTIE : CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES
Liens des concepts statistiques avec les concepts probabilistes :
Les concepts qui viennent d’être présentés sont les homologues de concepts du calcul des probabilités et
il est possible de disposer en regard les concepts homologues (voir table ci-dessous).

Probabilités Statistique
Espace fondamental Population
Epreuve Tirage (d’un individu), expérimentation
Evènement élémentaire Individu, observation
Variable aléatoire Caractère
Epreuves répétées Echantillonnage
Nombre de répétitions d’une épreuve Taille de l’échantillon, effectif total
Probabilité Fréquence observée
Loi de probabilité Distribution observée ou loi empirique
Espérance mathématique Moyenne observée
Variance Variance observée

Ainsi la notion de caractère se confond avec celle de variable aléatoire.

1 Probabilités

1.1 Evénement

Une expérience est dite aléatoire si on ne peut pas prédire a priori son résultat. On note ω un résultat
possible de cette expérience aléatoire. L’ensemble de tous les résultats possibles est not´e Ω. Par exemple,
si on jette deux pièces de monnaie, on peut obtenir les résultats

Ω = {(P, P), (F, P), (P, F), (F, F)}, avec F pour “face” et P pour “pile”. Un événement est une assertion logique
sur une expérience aléatoire comme “avoir deux fois pile” ou “avoir au moins une fois pile”. Formellement,
un événement est un sous-ensemble de Ω.

– L’événement “avoir deux fois pile” est le sous ensemble {(P, P)}.

– L’événement “avoir au moins une fois pile” est le sous ensemble {(P, P), (F, P), (P, F)}.

L’ensemble Ω est appelé événement certain, et l’ensemble vide ∅ est appelé événement impossible.

1.2 Operations sur les événements

Sur les événements, on peut appliquer les opérations habituelles de la théorie des ensembles.

L’union

L’évènement A∪B est réalise d`es que A ou B est réalise. Dans un lancer de dé, si l’événement A est
“obtenir un nombre pair” et l’évènement B “obtenir un multiple de 3”, l’évènement A ∪ B est l’évènement
“obtenir un nombre pair OU un multiple de 3”, c’est-a-dire {2, 3, 4, 6}.
L’intersection

L’évènement A ∩ B est réalisé d`es que A et B sont réalisés conjointement dans la même expérience. Dans
un lancer de dé, si l’évènement A est “obtenir un nombre pair” et l’évènement B “obtenir un multiple de
3”, l’évènement A ∩ B est l’´ev´enement “obtenir un nombre pair ET multiple de 3”, c’est-à-dire {6}.

La différence

L’évènement A\B est réalisé quand A est réalisé et que B ne l’est pas.

- La différence symétrique de A et B (notée A Δ B) est l'ensemble des éléments appartenant à A ou à


B exclusivement! Donc A ∆ B = (A U B) – (A ∩ B).

Exemple : l’évènement « l’entrepreneur agropastoral aime soit le plantain soit le macabo », revient à
trouver l’évènement noté A ∆ B.

Remarque : A ∆ B = (A ∩ B) U (B ∩ A)

Le complémentaire

Le complémentaire de l’´ev´enement A est l’´ev´enement Ω\A. Le complémentaire est noté A.

Exemple : L’expérience peut consister à jeter un dé, alors Ω = {1, 2, 3, 4, 5, 6}, et un évènement, not´e A,
est “obtenir un nombre pair”. On a alors A = {2, 4, 6} et A = {1, 3, 5}.

1.3 Relations entre les évènements

Evènements mutuellement exclusifs

Si A ∩ B = ∅ on dit que A et B sont mutuellement exclusifs, ce qui signifie que A et B ne peuvent pas se
produire ensemble.

Exemple : Si on jette un dé, l’évènement “obtenir un nombre pair” et l’événement “obtenir un nombre
impair” ne peuvent pas être obtenus en même temps. Ils sont mutuellement exclusifs. D’autre part, si l’on
jette un dé, les événements A : “obtenir un nombre pair” n’est pas mutuellement exclusif avec
l’évènement B : “obtenir un nombre inferieur ou égal à 3”. En effet, l’intersection de A et B est non-vide et
consiste en l’évènement “obtenir 2”.

Inclusion

Si A est inclus dans B, on écrit A ⊂ B. On dit que A implique B.

Exemple : Si on jette un dé, on considère les événements A “obtenir 2” et B “obtenir un nombre pair”.

A = {2} et B = {2, 4, 6}.

On dit que A implique B.

1.4 Ensemble des parties d’un ensemble et système complet

On va associer à Ω l’ensemble A de toutes les parties (ou sous-ensembles) de Ω.

Exemple : Si on jette une pièce de monnaie alors Ω = {P, F}, et A = {∅, {F}, {P}, {F, P}.
1.5 Axiomatique des Probabilités

Définition 2 : Une probabilité P(.) est une application de A dans [0, 1], telle que :

– Pr(Ω) = 1,

– Pour tout ensemble dénombrable d’´ev´enements A1, .., An mutuellement exclusifs (tels que Ai ∩ Aj = ∅,
pour tout i ̸= j),

Pr (A1 ∪ A2 ∪ A3 ∪ · · · ∪ An) = Pr(A1) + Pr(A2) + Pr(A3) +· · ·+ Pr(An).

A partir des axiomes, on peut déduire les propriétés suivantes :

Propriété 1 : Pr(∅) = 0.

Propriété 2 : Pr(A) = 1 − Pr(A).

Démonstration :

On sait que

A ∪ A = Ω et A ∩ A = ∅. Et Pr (∅ ∪ ∅) = Pr(∅) + Pr(∅).

A ∪ A = Ω et A ∩ A = ∅.
Ainsi, on a que
Pr(Ω) = Pr (A ∪ A) = Pr(A) + Pr(A).

Mais, par la définition d’une probabilité, Pr(Ω) = 1. Donc, Pr(A) + Pr(A) = 1

On en déduit que Pr(A) = 1 − Pr(A).

Propriété 3 : Pr(A) ≤ Pr(B) si A ⊂ B.

Démonstration

Comme A ⊂ B, on a B = (B ∩ A) ∪ A.

Mais on a que (B ∩ A) ∩ A = ∅.

Ainsi, on a Pr(B) = Pr (B ∩ A) + Pr(A).

Or une probabilité est à valeur dans [0,1], donc Pr (B ∩ A) ≥ 0. On a alors Pr(B) ≥ Pr(A).

Propriété 4 : Pr (A ∪ B) = Pr(A) + Pr(B) – Pr (A ∩ B).

Démonstration

On a: A ∪ B = A ∪ (B ∩ A), et A ∩ (B ∩ A) = ∅.

Donc Pr (A ∪ B) = Pr(A) + Pr (B ∩ A).

Il reste à montrer que Pr (B ∩ A) = Pr(B) – Pr (A ∩ B)

En effet, B = (B ∩ A) ∪ (B ∩ A) avec (B ∩ A) ∩ (B ∩ A) = ∅
Donc Pr(B) = Pr (B ∩ A) + Pr (B ∩ A), ce qui donne Pr (B ∩ A) = Pr(B) – Pr (A ∩ B).

1.6 Probabilités conditionnelles et indépendance

Définition 3 : Soient deux événements A et B, si Pr(B) > 0, alors Pr(A|B) =Pr (A ∩ B)/Pr(B)
Exemple : Si on jette un dé, et que l’on considère les deux évènements suivants :
– A l’évènement ‘avoir un nombre pair’ et
– B l’évènement ‘avoir un nombre supérieur ou égal à 4’.
On a donc
– Pr(A) = Pr ({2, 4, 6}) =1/2,
– Pr(B) = Pr ({4, 5, 6}) =3/6=1/2,
– Pr (A ∩ B) = Pr ({4, 6}) =2/6=1/3,
– Pr(A|B) =Pr (A ∩ B)/Pr(B)=1/3 /1/2=2/3.
Définition 4 : Deux évènements A et B sont dits indépendants si Pr(A|B) = Pr(A).
On peut montrer facilement que si A et B sont indépendants, alors Pr (A ∩ B) = Pr(A) Pr(B).
1.7 Théorème des probabilités totales et théorème de Bayes
Théorème 1 : (des probabilités totales) Soit A1, . . . , An un système complet d’évènements, alors
Pr(B) =Σ Pr(Ai) Pr(B|Ai)
En effet, Σ Pr(Ai) Pr(B|Ai) = Σ Pr(B ∩ Ai).
Théorème 2 : (de Bayes) Soit A1, . . . , An un système complet d’évènements, alors
Pr(Ai|B) = Pr(Ai)Pr(B|Ai) / Σ Pr(Aj)Pr(B|Aj).
En effet, par le théorème des probabilités totales,
Pr(Ai)Pr(B|Ai)/ Σ Pr(Aj)Pr(B|Aj) = Pr(B ∩ Ai)/ Pr(B) = Pr(Ai|B).
Exemple: Supposons qu’une population d’adultes soit composée de 30% de fumeurs (A1) et de 70% de
non-fumeurs (A2). Notons B l’évènement “mourir d’un cancer du poumon”. Supposons en outre que la
probabilité de mourir d’un cancer du poumon est égale à Pr(B|A1) = 20% si l’on est fumeur et de Pr(B|A2)
= 1% si l’on est non-fumeur. Le théorème de Bayes permet de calculer les probabilités a priori, c’est-à-dire
la probabilité d’avoir ´et´e fumeur si on est mort d’un cancer du poumon. En effet, cette probabilité est
notée Pr(A1|B) et peut être calculée par :

Pr(A1|B) = Pr(A1) Pr(B|A1) / Pr(A1) Pr(B|A1) + Pr(A2) Pr(B|A2)


= 0.3 × 0.2 / 0.3 × 0.2 + 0.7 × 0.01
= 0.06 / 0.06 + 0.007 ≈ 0.896.
La probabilité de ne pas avoir été non-fumeur si on est mort d’un cancer du poumon vaut quant à elle :

Pr(A2|B) = Pr(A2) Pr(B|A2) / Pr(A1) Pr(B|A1) + Pr(A2) Pr(B|A2)

= 0.7 × 0.01 / 0.3 × 0.2 + 0.7 × 0.01

= 0.07 / 0.06 + 0.007 ≈ 0.104.


2 Analyse combinatoire

2.1 Introduction

L’analyse combinatoire est l’étude mathématique de la manière de ranger des objets. L’analyse
combinatoire est un outil utilisé dans le calcul des probabilités.

2.2 Permutations (sans répétition)

Une permutation sans répétition est un classement ordonné de n objets distincts.

Considérons par exemple l’ensemble {1, 2, 3}. Il existe 6 manières d’ordonner ces trois chiffres :

{1, 2, 3}, {1, 3, 2}, {2, 1, 3}, {2, 3, 1}, {3, 1, 2}, {3, 2, 1}.

Si on dispose de n objets, chacun des n objets peut être place à la première place.

Il reste ensuite n − 1 objets qui peuvent être places `a la deuxième place, puis n−2 objets pour la troisième
place, et ainsi de suite. Le nombre de permutations possibles de n objets distincts vaut donc n × (n − 1) × (n
− 2) × · · · × 2 × 1 = n!.

La notation n! se lit factorielle de n (voir tableau 5.3).

Tableau : Factorielle des nombres de 1 à 10

n 0 1 2 3 4 5 6 7 8 9 10

n! 1 1 2 6 24 120 720 5040 40320 362880 3628800

2.3 Permutations avec répétition

On peut également se poser la question du nombre de manières de ranger des objets qui ne sont pas tous
distincts. Supposons que nous ayons 2 boules rouges (notées R) et 3 boules blanches (notées B). Il existe 10
permutations possibles qui sont :

{R,R,B,B,B}, {R,B,R,B,B}, {R,B,B,R,B}, {R,B,B,B,R}, {B,R,R,B,B}, {B,R,B,R,B}, {B,R,B,B,R}, {B,B,R,R,B}, {B,B,R,B,R},


{B,B,B,R,R}.

Si l’on dispose de n objets appartenant `a deux groupes de tailles n1 et n2, le nombre de permutations
avec répétition est n! / n1!n2!
Par exemple si l’on a 3 boules blanches et 2 boules rouges, on obtient

n!/n1!n2! = 5!/2!3! =120/2 × 6 = 10.

Si l’on dispose de n objets appartenant à p groupes de tailles n1, n2, . . . , np, le nombre de permutations
avec répétition est n!/n1!n2! × · · · × np! .

2.4 Arrangements (sans répétition)


Soit n objets distincts. On appelle un arrangement une manière de sélectionner k objets parmi les n et de
les ranger dans des boîtes numérotées de 1 à k. Dans la première boîte, on peut mettre chacun des n
objets. Dans la seconde boîte, on peut mettre chacun des n − 1 objets restants, dans la troisième boîte, on
peut mettre chacun des n − 2 objets restants et ainsi de suite. Le nombre d’arrangements possibles est
donc égal à :
Akn = n × (n − 1) × (n − 2) × · · · × (n − k + 1) = n!/ (n − k)!

2.5 Combinaisons
Soit n objets distincts. On appelle une combinaison une manière de sélectionner k objets parmi les n sans
tenir compte de leur ordre. Le nombre de combinaisons est le nombre de sous-ensembles de taille k dans
un ensemble de taille n. Soit l’ensemble {1, 2, 3, 4, 5}. Il existe 10 sous-ensembles de taille 3 qui sont :
{1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 3, 4}, {1, 3, 5}, {1, 4, 5}, {2, 3, 4}, {2, 3, 5}, {2, 4, 5}, {3, 4, 5}.
De manière générale, quel est le nombre de combinaisons de k objets parmi n ? Commençons par calculer
le nombre de manières différentes de sélectionner k objets parmi n en tenant compte de l’ordre : c’est le
nombre d’arrangements sans répétition Akn. Comme il existe k! manières d’ordonner ces k éléments, si l’on
ne veut pas tenir compte de l’ordre on divise Akn par k!. Le nombre de combinaisons de k objets parmi n
vaut donc Akn / k! = n! / k!(n − k)!.
Le nombre de combinaisons de k objets parmi n s’´ecrit parfois
(n k) et parfois Ckn :
(n k) = Ck n = n!/k!(n − k)!
Par exemple, si on cherche à déterminer le nombre de combinaisons de 3 objets parmi 5, on a (53) = C35 =5! /
3!(5 − 3)! = 120 / 6 × 2 = 10.

3 Variables aléatoires
3.1 Définition
La notion de variable aléatoire formalise l’association d’une valeur au résultat d’une expérience aléatoire.
Définition : Une variable aléatoire X est une application de l’ensemble fondamental Ω dans R.
Exemple : On considère une expérience aléatoire consistant à lancer deux pièces de monnaie. L’ensemble
des résultats possibles est Ω = {(F, F), (F, P), (P, F), (P, P)}.
Chacun des éléments de Ω a une probabilité 1/4. Une variable aléatoire va associer une valeur à chacun
des éléments de Ω. Considérons la variable aléatoire représentant le nombre de “Faces” obtenus :
0 avec une probabilité 1/4
X = 1 avec une probabilité 1/2
2 avec une probabilité 1/4.
C’est une variable aléatoire discrète dont la distribution de probabilités est présentée dans la Figure
suivante :
0.5
0.4

0.3

0.2

0.1

0.0

0 1 2

Figure : Distribution de “faces” obtenus.


4 Variables aléatoires discrètes

4.1 Définition, espérance et variance

Une variable aléatoire discrète prend uniquement des valeurs entières (de Z).

Une distribution de probabilités pX(x) est une fonction qui associe à chaque valeur entière une probabilité.

pX (x) = Pr(X = x), x ∈ Z.

La fonction de répartition est définie par


FX(x) = Pr(X ≤ x) =Σz≤x pX(z).
L’espérance mathématique d’une variable aléatoire discrète est définie de la manière suivante:
μ = E(X) =Σx∈ Z xpX(x),
et sa variance
σ2 = var(X) = E [{X − E(X)}2] =Σx∈ Z pX(x)(x − μ)2 = Σx∈ Z pX(x) x2 − μ2.

La variable indicatrice X de paramètre p ∈ [0, 1] a la distribution de probabilités suivante :


4.2 Variable indicatrice ou bernoullienne

1 avec une probabilité p


X=
0 avec une probabilité 1 − p.

L’espérance vaut
μ = E(X) = 0 × (1 − p) + 1 × p = p,
et la variance vaut
σ2 = var(X) = E(X − p) 2 = (1 − p)(0 − p)2 + p(1 − p)2 = p(1 − p).

Exemple : On tire au hasard une boule dans une urne contenant 18 boules rouges et 12 boules blanches. Si
X vaut 1 si la boule est rouge et 0 sinon, alors X a une loi bernoullienne de paramètre p = 18 / (18 + 12) =
0.6.

4.3 Variable binomiale


La variable aléatoire binomiale de paramètres n et p correspond à l’expérience suivante. On renouvelle n
fois de manière indépendante une épreuve de Bernoulli de paramètre p, où p est la probabilité de succès
pour une expérience élémentaire. Ensuite, on note X le nombre de succès obtenus. Le nombre de succès
est une variable aléatoire prenant des valeurs entières de 0 à n et ayant une distribution binomiale.
Une variable X suit une loi binomiale de paramètre 0 < p < 1 et d’exposant n, si
Pr(X = x) = (nx) pxqn−x, x = 0, 1, . . . , n − 1, n,
où q = 1 − p, et
(nx) = n! / x!(n − x)!

X ∼ B (n, p).
De manière synthétique, si X a une distribution binomiale, on note :

Rappel Cette variable est appelée binomiale car sa distribution de probabilités est un terme du
développement du binôme de Newton (p + q)n.
(p + q) 0 = 1
(p + q) 1 = p + q = 1
(p + q) 2 = p2 + 2pq + q2 = 1
(p + q) 3 = p3 + 3p2q + 3pq2 + q3 = 1
(p + q) 4 = p4 + 4p3q + 6p2q2 + 4pq3 + q4 = 1
……………………………………………..
(p + q)n =Σnx=0 (nx) pxqn−x = 1.

La somme de ces probabilités vaut 1. En effet


Σnx=0 Pr(X = x) = Σnx= 0(nx)pxqn−x = (p + q)n = 1.

L’espérance se calcule de la manière suivante :


E (X) =Σnx= 0 x Pr (X = x) = Σnx=0 x (nx) px qn−x = np.
Théorème : La variance est donnée par
Var (X) = npq.

Exemple : On tire au hasard avec remise et de manière indépendante 5 boules dans une urne contenant 18
boules rouges et 12 boules blanches. Si X est le nombre de boules rouges obtenues, alors X a une loi
binomiale de paramètre p = 18 / (18 + 12) = 0.6, et d’exposant
n = 5. Donc,
Pr(X = x) = (5x) 0.6x 0.45−x, x = 0, 1, . . ., 4, 5,
Ce qui donne
Pr(X = 0) =5! / 0!(5 − 0)! 0.60 × 0.45−0 = 1 × 0.45 = 0.01024
Pr(X = 1) =5!/1!(5 − 1)! 0.61 × 0.45−1 = 5 × 0.61 × 0.44 = 0.0768
Pr(X = 2) =5!/2!(5 − 2)!0.62 × 0.45−2 = 10 × 0.62 × 0.43 = 0.2304
Pr(X = 3) =5!/3!(5 − 3)! 0.63 × 0.45−3 = 10 × 0.63 × 0.42 = 0.3456
Pr(X = 4) =5!/4!(5 − 4)! 0.64 × 0.45−4 = 5 × 0.64 × 0.41 = 0.2592
Pr(X = 5) =5!/5!(5 − 5)! 0.65 × 0.45−5 = 1 × 0.65 = 0.07776.

La distribution de probabilités de la variable X est présentée dans la Figure ci-dessous :

0.30

0.15

0.00

0 1 2 3 4 5

Figure : Distribution d’une variable aléatoire binomiale avec n = 5 et p = 0.6.


Exemple : Supposons que, dans une population d’´electeurs, 60% des électeurs s’apprêtent à voter pour le
candidat A et 40% pour le candidat B et que l’on sélectionne un échantillon aléatoire de 10 électeurs avec
remise dans cette population. Soit X le nombre de personnes s’apprêtant à voter pour le candidat A dans
l’échantillon. La variable X a une distribution binomiale de paramètres n = 10 et p = 0.6 et donc

Pr(X = x) = (10x) 0.6x (0.4)10−x, x = 0, 1, . . . , n − 1, n.

4.4 Variable de Poisson

En un certain sens, cette loi n’est qu’un cas particulier de la loi binomiale ; elle s’applique lorsque le
nombre d’épreuves n devient très grand et que la probabilité de l’un des deux (2) évènements est très
petite. C’est pourquoi on l’appelle souvent « la loi des petites probabilités ». D’une façon générale, on
pourra y avoir recours pour obtenir des approximations des termes de la loi binomiale lorsque p est petit
et n est assez élevé ou assez grand. Le calcul de ses termes est facile et il existe d’ailleurs des tables pour
certaines valeurs de λ. Cette loi ne dépend qu’un seul paramètre (λ) et ainsi la connaissance d’un seul de
ses termes entraine théoriquement celle du paramètre λ.

La variable X suit une loi de Poisson, ou loi des événements rares, de paramètre λ ∈ R + si

Pr(X = x) = (e− λ λx) / x! , x = 0, 1, 2, 3, . . . .


λ = est une constante positive = np

e = est la base du logarithme népérien = 2.71 (aussi appelé exponentiel)

On note alors X ∼ P(λ). La somme des probabilités est bien égale à 1, en effet

Σ∞x=0 Pr(X = x) =Σ∞x=0 e−λ λx / x! = e−x Σ∞x=0 λx / x! = e−λ e λ = 1.


Cette loi exprime la probabilité de l’occurrence d’un nombre d’évènements dans un laps de temps fixe si
ces évènements se produisent avec un taux moyen connu (λ) et indépendamment du temps d’occurrence
du dernier évènement. L’espérance et la variance d’une loi de Poisson sont égales au paramètre λ.

En effet, E(X) = Σ∞x=0 x Pr(X = x) = Σ∞x=0 x e−λ λx / x! = λ.

En outre, il est possible de montrer que Var (X) = λ.

Présentation de la loi :

Dans le cas par exemple, de certaines expériences où interviennent les virus qu’on ne peut pas compter et
dont on peut seulement distinguer la présence ou l’absence. Les nombre de virus étant distribués au
hasard entre les cultures, il suffit de connaître la fréquence de cultures indemnes c’est-à-dire fo pour
connaître le nombre moyen λ de virus.

Cas pratiques :

Le nombre d’insectes par sacs de haricots ; le nombre d’hématies par cases d’hématimètres.

Soit X une variable aléatoire. On dit que X suit une loi de Poisson si elle est susceptible de prendre les
valeurs entières Xk = k ≥ 0 avec la probabilité Pk :
proba [X = k] = Pk = e−m x mk / k!
où m est un paramètre arbitraire, positif et 0! = 1 (par définition).

On calcule la moyenne et la variance de X :

X = m = E(X) et V(X) = m

La distribution de probabilités d’une variable de Poisson P (λ = 1) est présentée dans la Figure ci-dessous :

0.4

0.2

00

0 1 2 3 4 5 6 7

Figure : Distribution d’une variable de Poisson avec λ = 1.

5. Variable aléatoire continue (Lois à densité)

Introduction :

Lorsque l’on s’intéresse à la durée d’une communication téléphonique, à la durée de vie d’un composant
électronique ou à la température de l’eau d’un lac, la variable aléatoire X associée au temps ou à la
température, peut prendre une infinité de valeurs dans un intervalle donné. On dit alors que cette variable
X est continue (qui s’oppose à discrète comme c’est le cas par exemple dans la loi binomiale).

On ne peut plus parler de probabilité d’événements car les événements élémentaires sont en nombre
infini. La probabilité d’une valeur isolée de X est alors nulle.

On contourne cette difficulté en associant à la variable X un intervalle de R et en définissant une densité de


probabilité.

On appelle densité de probabilité d’une variable aléatoire continue X, la fonction f continue et positive sur
un intervalle I ([a; b], [a;+∞[ou R ) telle que :

P(X ∈ I) =∫ f (t )dt = 1


(I)

Pour tout intervalle J = [α , β], on a : P(X ∈ J) = ∫ f (t) dt


β


α

 La fonction F définie par : F(x) = P(X ≤ x) est appelée la fonction de répartition de la variable
X
x

F(x) = ∫ f (t) dt
a

5.1 Définition, espérance et variance

Une variable aléatoire continue prend des valeurs dans R ou dans un intervalle de R .

La probabilité qu’une variable aléatoire continue soit inferieure à une valeur particulière est donnée par sa
fonction de répartition.

Pr(X ≤ x) = F(x).

La fonction de répartition d’une variable aléatoire continue est toujours :


– dérivable,
– positive : F(x) ≥ 0, pour tout x,
– croissante,
– lim x→∞ F(x) = 1,
– lim x→−∞ F(x) = 0.

On a, Pr (a ≤ X ≤ b) = F(b) − F(a).

La fonction de densité d’une variable aléatoire continue est la dérivée de la fonction de répartition en un
point

f (x) = dF(x) / dx

Une fonction de densité est toujours :

– positive : f(x) ≥ 0, pour tout x,

– d’aire égale à un :

∫ f ( x ) dx = 1.
−∞

On a évidemment la relation :
b

F (b) = ∫ f ( x ) dx.
−∞

La probabilité que la variable aléatoire soit inférieure à une valeur quelconque vaut :
a

Pr (X ≤ a) = ∫ f ( x ) dx = F(a).
−∞

La probabilité que la variable aléatoire prenne une valeur comprise entre a et b vaut
a

Pr (a ≤ X ≤ b) =∫ f (x ) dx = F(b) − F(a).
b
Si la variable aléatoire est continue, la probabilité qu’elle prenne exactement une valeur quelconque est
nulle :

Pr (X = a) = 0.

L’espérance d’une variable aléatoire continue est définie par :


μ = E(X) = ∫ x f (x ) dx ,
−∞

et la variance

σ = var(X) = ∫ (x −μ)2 f(x) dx.


2

−∞

5.2 Variable uniforme

Une variable aléatoire X est dite uniforme dans un intervalle [a, b] (avec a < b), si sa répartition est :

0 si x < a
F(x) = (x − a) / (b − a) si a ≤ x ≤ b
1 si x > b.

Sa densité est alors :

0 si x < a

f (x) = 1 / (b − a) si a ≤ x ≤ b

0 si x > b.

On peut calculer l’espérance et la variance :

Résultat 1

μ = E(X) = b + a / 2

Résultat 2

σ2 = var(X) = (b − a)2 / 12

5.3 Variable normale

La distribution binomiale, distribution continue est d’un emploi difficile dans les applications statistique car
il faut en calculer séparément les termes. Ainsi, on a cherché à remplacer par redistributions continues qui
en sont voisines mais qui présentent l’avantage d’être définies par une unique expression analytique et se
prête beaucoup mieux aux calculs. La distribution normale s’est ainsi introduite comme limite de la
distribution binomiale dont elle constitue une approximation souvent pour passer du système des X au
système des Z de la loi normale réduite qui est Z = X – μ / δ où Z s’appelle variable normale réduite
exprimée en unité standard.

Une variable aléatoire X est dite normale si sa densité vaut


où μ ∈ R et σ ∈ R + sont les paramètres de la distribution. Le paramètre μ est appelé la moyenne et le
f μ ; σ2 (x) =1 / σ√2π exp−1/2 (x – μ / σ)2,

paramètre σ l’écart-type de la distribution.

De manière synthétique, pour noter que X suit une loi normale (ou gaussienne, d’après Carl Friedrich
Gauss) de moyenne μ et de variance σ2 on écrit :

X ∼ N (μ, σ2).

La loi normale est une des principales distributions de probabilité. Elle a de nombreuses applications en
statistique. Sa fonction de densité dessine une courbe dite courbe de Gauss. On peut montrer (sans
démonstration) que

E(X) = μ, et var(X) = σ2.


x

Fμ; σ
2
(x) = ∫ 1 / σ√2π exp−1/2 (u – μ / σ) 2 du.
−∞

5.4 Variable normale centrée réduite


La variable aléatoire normale centrée réduite est une variable normale, d’espérance nulle,
μ = 0, et de variance σ2 = 1. Sa fonction de densité vaut
f0;1(x) = 1√2π exp−x2/2.

Et sa répartition vaut
x

Φ(x) = F 0;1(x) = ∫ 1 /√2π exp− (u2 / 2) du


−∞

Du fait de la symétrie de la densité, on a la relation

Φ (− x) = 1 − Φ(x),
De plus, le calcul de la répartition d’une variable normale de moyenne μ et de variance σ2 peut toujours
être ramené à une normale centrée réduite.

Résultat

F μ ; σ2 (x) = Φ (x – μ / σ) = Φ (z).
Les tables de la variable normale ne sont données que pour la normale centrée réduite. Les tables ne
donnent Φ(x) que pour les valeurs positives de x, car les valeurs négatives peuvent être trouvées par la
relation de symétrie.

Relation entre distribution binomiale et distribution normale

Si N (nombre des essais) est large et p ou q est ≠ 0 (différent de 0), la distribution binomiale peut être
évaluée approximativement par une distribution normale avec une variable standardisée

Z = (X – Np) / √ Npq
Où μ = Np moyenne de la loi binomiale
σ = √ Npq
5 Distribution exponentielle

Soit une variable aléatoire X qui définit la durée de vie d’un phénomène ou d’on objet. Si la durée de vie
est sans vieillissement, c’est-à-dire la durée de vie au-delà d’un instant T est indépendante de l’instant T,
alors sa fonction de densité est donnée par :

f (x) = λ exp− (λx), si x > 0

0 sinon

On dit que X suit une loi exponentielle de paramètre λ positif. De manière synthétique, on écrit :

X ∼ ε (λ).

Quand x > 0, sa fonction de répartition vaut :


x x

F(x) =∫ f(u) du = ∫ λe− λu du = [−e− λu] x0 = 1 - e− λx.


0 0

On peut alors calculer la moyenne :

Résultat E(X) = 1 / λ
Il est également possible de montrer que la variance vaut :

var (X) =1 / λ2.


6 Autres variables aléatoires

6.1 Variable khi-carrée

Soit une suite de variables aléatoires indépendantes, normales centrées réduites, X1, . . . ,Xp, (c’est-à-dire
de moyenne nulle et de variance égale à 1), alors la variable aléatoire

χ2p = Σpi=1 X2i est appelée variable aléatoire khi-carrée a p degrés de liberté.

Il est possible de montrer que E (χ2p) = p,

Et que var (χ2p) = 2p.

6.2 Variable de Student

Soit une variable aléatoire X normale centrée réduite, et une variable aléatoire khi-carrée χ2p à p degrés de
liberté, indépendante de X, alors la variable aléatoire

tp =X √ χ2p / p est appelée variable aléatoire de Student à p degrés de liberté.

6.3 Variable de Fisher


Soient deux variables aléatoires khi-carrées indépendantes χ2p, χ2q, respectivement à p et q degrés de
liberté, alors la variable aléatoire
Fp ; q = χ2p / p / χ2q/q est appelée variable aléatoire de Fisher à p et q degrés de liberté.
Remarque : Il est facile de montrer que le carrée d’une variable de Student à q degrés de liberté est une
variable de Fisher à 1 et q degrés de liberté.

Exercice 1 : Soit Z ∼ N (0, 1). Déterminez :


Exercices

1. Pr [Z ≤ 1, 23] ;

3. Pr [Z ∈ [0, 36; 1, 23]] ;


2. Pr [Z ≤ −1, 23] ;

4. Pr [Z ∈ [−0, 88; 1, 23]] ;


5. Pr [Z > 2, 65 ou Z ≤ −1, 49].
Solution :

1. Pr [Z ≤ 1, 23] = F (1, 23) = 0, 8907

2. Pr [Z ≤ −1, 23] = 1 – F (1, 23) = 0.1093

3. Pr [Z ∈ [0, 36; 1, 23]] = F (1, 23) – F (0, 36) = 0, 8907 − 0, 6406 = 0, 2501

4. Pr [Z ∈ [−0, 88; 1, 23] = F (1, 23) – F (− 0, 88) = 0, 8907 − (1 – F (0, 88))

= 0, 8907 − 0, 1894 = 0, 7013

5. Pr [Z > 2, 65 ou Z ≤ −1, 49] = Pr [Z > 2, 65] + Pr [Z ≤ −1, 49] = 1 – F (2, 65) + F (−1, 49)

= 1− F (2, 65) +1− F (1, 49) = 2− 0, 9960− 0, 9319 = 0, 0721

Exercice 2 : Déterminez les valeurs j de la variable normale centrée réduite Z telles que :

1. Pr [Z ≤ j] = 0, 9332 ;

2. Pr [−j ≤ Z ≤ j] = 0, 3438 ;

3. Pr [Z ≤ j] = 0, 0125 ;

4. Pr [Z ≥ j] = 0, 0125 ;

5. Pr [j ≤ Z ≤ 3] = 0, 7907.

Solution :

Lecture inverse de la table.

1. Pr [Z ≤ j] = 0, 9332 ⇒ F(j) = 0, 9332 ⇒ j = 1, 5

2. Pr [−j ≤ Z ≤ j] = 0, 3438 ⇒ F(j) −F (−j) = F(j) −1+F(j) = 2F(j) −1 = 0, 3438 ⇒ F(j) = 0, 6719 ⇒ j = 0, 45

3. Pr [Z ≤ j] = 0, 0125 ⇒ F(j) = 0, 0125(j est négatif) ⇒ 1− F(− j) = 0, 0125 ⇒ F (−j) = 0, 9875 ⇒ j = −2, 24

4. Pr [Z ≥ j] = 0, 0125 = 1 − F(j) ⇒ F(j) = 0, 9875 ⇒ j = 2, 24

5. Pr [j ≤ Z ≤ 3] = 0, 7907 = F(3) − F(j) ⇒ 0, 7907 = 0, 9987− F(j) ⇒ F(j) = 0, 2080 (négatif) ⇒ F (− j) = 0, 7920
⇒ − j = 0, 81 ⇒ j = −0, 81.
Exercice 3 : Soit une variable aléatoire X ∼ N (53; σ2 = 100) représentant le résultat d’un examen pour un
étudiant d’une section. Déterminez la probabilité pour que le résultat soit compris entre 33,4 et 72,6.

Soit X ∼ N (53, 100) ⇒ Z = X – 53 / 10


Solution

∼ N (0, 1)
Pr [33, 4 ≤ X ≤ 72, 6]
= Pr [33, 4 – 53/10 ≤ X – 53/10 ≤ 72, 6 – 53/10]
= Pr [−1, 96 ≤ Z ≤ 1, 96]
= 2F (1, 96) − 1 = 2 0, 975 − 1
= 0, 95.

Vous aimerez peut-être aussi