Université de m’Hamed Bougera Boumerdes
Faculté des Sciences
Département de Biologie
Filière : Science Alimentaire
Spécialité : Master 1, Nutrition et Science des Aliments
Cour de Biostatistique
Réalisé par Mme BEKRI Meriem
Rappels sur certaines notions statistiques :
La distribution de fréquence :
On appelle série statistique la suite des valeurs prises par une variable X sur les unités
d’observation. Le nombre d’unités d’observation est not´ e n. Les valeurs de la variable X sont
notées
x1,...,xi,...,xn.
Variable qualitative nominale :
Effectifs, fréquences et tableau statistique :
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent pas être ordonnées. On
note J le nombre de valeurs distinctes ou modalités. Les valeurs distinctes sont notées :
x1,...,xj,...,xJ.
On appelle effectif d’une modalité ou d’une valeur distincte, le nombre de fois que cette modalité
(ou valeur distincte) apparaît. On note nj l’effectif de la modalité xj.
La fréquence d’une modalité est l’effectif divisée par le nombre d’unit´ es d’observation.
fj = nj n ,j = 1,...,J.
Présentation graphique :
Le tableau statistique d’une variable qualitative nominale peut être représenté par deux types de
graphique. Les effectifs sont représentés par un diagramme en barres et les fréquences par un
diagramme en secteurs.
Diagramme en secteur
Diagramme en barre
Variable qualitative ordinale
Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce qu’on écrit
x1 ≺ x2 ≺··· ≺xj−1 ≺ xj ≺··· ≺ xJ−1 ≺ xJ.
La notation x1 ≺ x2 se lit x1 précède x2.
Si la variable est ordinale, on peut calculer les effectifs cumulées : j ∑ Nj = k=1 nk,j = 1,...,J.
On a N1 =n1 et NJ =n.
On peut également calculer les fréquences cumulées Fj = Nj n = j ∑ k=1 fk,j = 1,...,J.
Exemple :
On peut avoir une étude statistique et faire un tableau statistique sur le niveau académique, et les
classés selon cette variable.
Dernier diplôme obtenu Xi
Sans diplôme SD
Primaire P
Secondaire Se
Supérieure non-universitaire Su
Universitaire U
La représentation statistique :
Diagramme en secteur
Diagramme en barres des effectifs
Diagramme en barres des effectifs cumulés
Variable quantitative discrète
1.4.1 Le tableau statistique
Une variable discrète a un domaine d´dénombrable.
Exemple : Un quartier est composé de 50 ménages, et la variable Z représente le nombre de
personnes par ménage. Les valeurs de la variable sont
11111222222222333333333333333444444444455555566688
Comme pour les variables qualitatives ordinales, on peut calculer les effectifs, les effectifs
cumulés, les fréquences, les fréquences cumulées. A nouveau, on peut construire le tableau
statistique :
Xi ni N fi Fi
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1
Total 50 1
Représentation statistique :
Diagramme en bâtons :
Variable quantitative continue
Le tableau statistique
Une variable quantitative continue peut prendre une infinité de valeurs possibles. Le domaine de
la variable est alors R ou un intervalle de R. En pratique, une mesure est limitée en précision. La
taille peut être mesurée en centimètres, voire en millimètres. On peut alors traiter les variables
continues comme des variables discrètes. Cependant, pour faire des représentations graphiques et
construire le tableau statistique, il faut procéder `a des regroupements en classes. Le tableau
regroupé en classe est souvent appelée distribution groupée. Si [c − j ; c + j [ designe la classe j, on
note, de manière générale :
-c − j la borne inferieure de la classe j,
-c + j la borne supérieure de la classe j,
- cj = (c + j + c − j )/2 le centre de la classe j,
- aj = c + j − c − j l’amplitude de la classe j,
- nj l’effectif de la classe j,
- Nj l’effectif cumulé de la classe j,
- fj la fréquence de la classe j,
- Fj la fréquence cumulée de la classe j.
Représentation graphique :
Histogramme des effectifs
Histogramme des effectifs cumulés
Paramètres de position :
Le mode :
Le mode est la valeur distincte correspondant a l’effectif le plus ´élève ; il est noté Xm . Si on
reprend la variable ‘Etat civil’, dont le tableau statistique est le suivant :
xi ni fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
Total 20 1
le mode est C : célibataire.
Remarque :
– Le mode peut être calculé pour tous les types de variable, quantitative et qualitative.
– Le mode n’est pas nécessairement unique.
– Quand une variable continue est découpée en classes, on peut définir une classe modale (classe
correspondant a l’effectif le plus élevé).
La moyenne :
La moyenne est la somme des valeurs observées divisées par leur nombre, elle est notée X¯ :
x¯ = x1 + x2 + · · · + xi + · · · + xn/ N
x¯= 1/n ∑ xi .
La moyenne peut être calculée a partir des valeurs distinctes et des effectifs
x¯ = 1/n ∑ ni xj .
La médiane :
La médiane, notée X1/2, est une valeur centrale de la série statistique obtenue de la manière
suivante :
– On trie la série statistique par ordre croissant des valeurs observées. Avec la série observée :
3 2 1 0 0 1 2,
on obtient :
0 0 1 1 2 2 3.
– La médiane x1/2 est la valeur qui se trouve au milieu de la série ordonnée :
0 0 1 1 2 2 3.
On note alors x1/2 = 1.
Nous allons examiner une manière simple de calculer la médiane. Deux cas doivent être
distingués.
– Si n est impair, il n’y a pas de problème (ici avec n = 7), alors x1/2 = 1 :
0 0 1 1 2 2 3.
-Si n est pair, deux valeurs se trouvent au milieu de la série (ici avec n = 8)
00112234
La médiane est alors la moyenne de ces deux valeurs :
Paramètres de dispersion :
La variance :
La variance est la somme des carrés des écarts `a la moyenne divisée par le nombre
d’observations :
L’écart-type
L’écart-type est la racine carrée de la variance :
Statistique descriptive bivariée:
Série statistique bivariée:
On s'intéresse à deux variables x et y.
Ces deux variables sont mesurées sur les unités d’observation.
Pour chaque unité, on obtient donc deux mesures. La série statistique est alors une suite de n
couples des valeurs prises par les deux variables sur chaque individu : (x1, y1), . . ,(xi , yi), . . . ,(xn,
yn).
Chacune des deux variables peut être, soit quantitative, soit qualitative. On examine deux cas.
– Les deux variables sont quantitatives.
– Les deux variables sont qualitatives.
Deux variables quantitatives:
Représentation graphique de deux variables:
Dans ce cas, chaque couple est composé de deux valeurs numériques. Un couple de nombres
(entiers ou réels) peut toujours être représentée comme un point dans un plan (x1, y1), . . . ,(xi ,
yi), . . . ,(xn, yn).
Exemple:
On mesure le poids Y et la taille X de 19 individus.
X 15 16 15 17 16 16 16 17 17 17 18 17 17 17 17 17 18 18 18
i 5 2 7 0 4 2 9 0 8 3 0 5 3 5 9 5 0 5 9
Y 60 61 64 67 68 69 70 70 72 73 75 76 78 80 85 90 96 96 98
j
nuage de point
Covariance:
La covariance est définie:
Ou
Remarque:
- La covariance peut prendre des valeurs positives, négatives ou nulles.
- Quand xi = yi, pour tout i = 1, . . . , n, la covariance est égale a la variance.
la Corrélation:
Le coefficient de corrélation est la covariance divisée par les deux écart-types
marginaux :
R=cov(xy)/[Link]
Le coefficient de détermination est le carrée du coefficient de corrélation est R²
Remarque:
– Le coefficient de corrélation mesure la dépendance linéaire entre deux variables :
– −1 ≤ R ≤ 1,
– 0 ≤ R² ≤ 1.
– Si le coefficient de corrélation est positif, les points sont alignés le long
d’une droite croissante.
– Si le coefficient de corrélation est négatif, les points sont alignés le long
d’une droite décroissante.
– Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de
dépendance linéaire. On peut cependant avoir une dépendance non-linéaire
avec un coefficient de corrélation nul
Exemples de nuages de points et coefficients de corrélation
Caractéristique des séries marginales :
Dans le cas d’une variable statistique à deux dimensions X et Y , les moyennes sont données
respectivement par
Nous définissions maintenant la variance de X et la variance de Y comme suit,
Les écarts-type de X et de Y sont donnés, respectivement, par
Série conditionnelle :
La notion de série conditionnelle est essentielle pour comprendre l’analyse de la régression. Un
tableau de contingence se compose en autant de séries conditionnelles suivant chaque ligne et
chaque colonnes.
Série conditionnelle par rapport à X :
Elle est notée par X/yj (ou Xj ) et on dit que c’est la série conditionnelle de X sachant que Y = yj .
Nous calculons dans ce cas la fréquence conditionnelle fi/j (fi sachant j), pour i = 1, ..., k, par
Nous avons aussi la moyenne conditionnelle xj , c’est à dire la moyenne des valeurs de X sous la
condition yj , elle est définie par
Pour l’écart-type conditionnel, nous avons
Série conditionnelle par rapport à Y
Elle est notée par Y /xj (ou Yj ) et on dit que c’est la série conditionnelle de Y sachant que X = xi
. Nous calculons aussi dans ce cas la fréquence conditionnelle fj/i (fj sachant i), pour j = 1, ..., l, par
Nous avons aussi la moyenne conditionnelle yi , c’est à dire la moyenne des valeurs de Y sous la
condition xi , elle est définie par
Pour l’écart-type conditionnel, nous avons
La droite de la régression :
L’idée est de transformer un nuage de point en une droite. Celle-ci doit être la plus proche
possible de chacun des points. On cherchera donc à minimiser les écarts entre les points et la
droite.
La droite la plus proche possible de chacun des points.
Pour cela, on utilise la méthode des moindres carrées. Cette méthode vise à expliquer un nuage de
points par une droite qui lie Y à X, c’est à dire, Y = aX + b,
telle que la distance entre le nuage de points et droite soit minimale. Cette distance matérialise
l’erreur, c’est à dire la différence entre le point réellement observé et le point prédit par la droite.
Si la droite passe au milieu des points, cette erreur sera alternativement positive et négative, la
somme des erreurs étant par définition nulle. Ainsi, la méthode des moindres carrés consiste à
chercher la valeur des paramètres a et b qui minimise la somme des erreurs élevées au carré.
Université de Boumerdes
Faculté des sciences
Département de biologie
Science alimentaire
Master1 : nutrition et science alimentaire Réalisé par Mme. BEKRI. M
TD biostatistique : Série 02
Exercice 01 :
On observe 100 fois le nombre d’arrivées (variable X) de clients à un bureau de poste pendant un
intervalle de temps (10 minutes) et on obtient les valeurs suivantes :
11111111111111122222222222222222222222223333333333333333
33333333334444444444444444444455555556666666
a. Dresser le tableau statistique de la distribution de la variable X (effectifs cumulés, …).
b. Calculer: la moyenne, variance, l’écart type.
c. déterminer le mode et la médiane.
d. Tracer le diagramme en bâtons.
Exercice 02 :
Dans un centre de renseignements téléphoniques, une enquête est effectuée sur un échantillon de
320 clients, afin de diminuer le temps d’attente subi par la clientèle. Les résultats sont consignés
dans le tableau suivant :
Temps seconde 0-5 5-10 10-15 15-20 20-25 25-30 30-35 Total
Nmbr clients ni 32 56 74 78 36 30 14
Quelle est la population et le caractère étudiée?
Complétez le tableau
Calculez la moyenne la variance et l’écart type ?
Déterminer la classe modale et la médiane de cette série.
Représenter la série statistique graphiquement .
Exercice 03 :
X 1 2 3
Y 3 2 1
1- Calculer la moyenne 𝑋̅
2- Calculer la moyenne 𝑌̅
3- Calculer la variance V(x) et l’écart type (x).
4- Calculer la variance V(y) et l’écart type (y).
5- Calculer la covariance Cov (X, Y)
6- Calculer le coefficient de corrélation R
7- Fixer le nuage de points
8- Calculer « a » et « b » de la droite de régression Tracer la droite de régression
Exercice 04 :
Nous considérons 10 joueurs et soient :
– Y la variable qui représente le nombre de jeux auquel un joueur joue.
– X la variable qui représente le gain ou perte (+1 s’il gagne 10 Da et −1 s’il perd 10
Da et 0 sinon).
1. Donnez le tableau de contingence
2. Calculez la cov(x,y)
Exercice 05 :
Une expérience a été réalisée sur 250 personnes pour étudier la relation qui existe entre l’âge X et le temps
de sommeil Y.
le tableau suivant a été obtenu :
Yj 5-7 7-9 9-11 11-15
Xi
1-3 0 0 2 36
3-11 0 3 12 26
11-19 2 8 35 16
19-31 0 26 22 3
31-59 22 15 6 0
1. Calculer les moyennes marginales et les écarts types marginaux de X et Y,
2. Déterminer la covariance et le coefficient de corrélation linéaire,
3. Déterminer la droite de régression de Y en fonction de X
4. Estimer le temps de sommeil d’une personne de 66 ans
Université de Boumerdes
Faculté des sciences
Département de biologie
Science alimentaire
Master1 : nutrition et science alimentaire Réalisé par Mme. BEKRI. M
TD de biostatistique
Exercice 01 :
On veut savoir si la résistance moyenne de composants produits dans un usine est 400Ω, on considère que la
distribution des résistances est normale, et on mesure 16 composants, les valeurs sont les suivantes :
392, 396, 386, 389, 388, 387, 403, 397, 401, 391, 400, 402, 394, 406, 406, 400.
Donner les estimations par intervalle de confiance de 95% des moyennes et des variances.
Peut-on considérer au seuil de signification α=5% que le lot respecte la norme de 400Ω.
Exercice 02 :
Dans un échantillon de 18 sujets normaux. La valeur moyenne de cholestérol est de 5.11mml/l et s=1.08. Pour
trouver l’intervalle de confiance à 95% de la moyenne u du cholestérol plasmatique dans la population des
sujets normaux.
Peut- on estimer à 95% la moyenne de la population ?
Combien doit on effectuer pour obtenir une marge d’erreur de 1
Exercice 03 :
Lors d’une enquête sur la durée de sommeil des enfants de 2 à 3 ans dans une wilaya en Algérie, on a trouvé
une moyenne du temps de sommeil par nuit égal à 10.2 heures dans un groupe de 40 enfants. L’écart–type s
est de 2.1 heures. La moyenne attendue de sommeil est de 11.7 heures chez les enfants de cet âge.
Les enfants examinés dorment–ils autant que ceux de la population ? (𝛼 = 0.05).
TABLE 1 : DE LA LOI NORMAL CENTRE REDUITE
1
TABLE 2 : TABLE DE LA LOI DE STUDENT
TABLE 3 :
2
3
TABLE 5 :