Cours Biométrie Forestire FOR3
Cours Biométrie Forestire FOR3
Tel : 75085663
Email : bobokadiris@[Link]
I. INTRODUCTION
I.1. Définitions de base
En statistique, il faudra aussi étudier les caractéristiques associées à un groupe d’objets
communément appelés Unités ou Sujets.
Les unités pourront être des travailleurs migrants dont les niveaux d’éducation sont d’un intérêt.
Les éléments à étudier ne doivent toujours pas être des personnes.
Une Population est une collection de tous les objets qui sont d’un intérêt pour le statisticien.
Dans la plupart des cas, la population est extrêmement large, et il serait très difficile sinon
impossible d’investiguer les caractéristiques d’intérêt de chaque unité de la population.
Un échantillon est une portion finie de la population qu’on utilise pour étudier les
caractéristiques d’intérêt dans une population.
La caractéristique étudiée et qui associée à chaque unité de la population est appelée une
Variable.
Les valeurs correspondantes collectées de l’échantillon sont appelée Données.
Une Variable est toute caractéristique qui peut être mesurées sur chaque unité de la population.
Une Observation est une valeur qu’une variable assume pour une unité individuelle dans
l’échantillon.
L’expérimentation étant une tentative pour déterminer une relation de cause à effet entre deux ou
plusieurs variables.
La collecte des données peut sembler facile, mais peut être la plus difficile.
Chacun peut interviewer une proportion du public et avoir des réponses, mais est ce que les
réponses obtenues représentent vraiment les attitudes de la population entière d’où les données
proviennent ?
Il est judicieux de passer beaucoup de temps pour déterminer la meilleure procédure de collecte
des données à telle enseigne qu’elles puissent être représentatives de la population.
I.2. Echantillonnage
Définitions
Un échantillon est une portion présentée comme évidence de la qualité d’une population à partir
de laquelle il a été tiré.
C’est l’ensemble d'individus extraits d'une population étudiée de manière à ce qu'il soit
représentatif de cette population, au moins pour l'objet de l'étude.
Dans la vie de tous les jours, un médecin peut diagnostiquer une maladie seulement à partir
d’une goutte de sang ou d’une section microscopique de tissus, avec l’espoir que ceci va donner
une figure réaliste de tout le sang ou de tous les tissus d'un organisme.
Dans la plupart des travaux en foresterie, nous avons à faire à l’estimation de la hauteur de
l’arbre, du volume, de la valeur du bois, des coûts et des risques.
Ainsi, l’échantillonnage est une technique nécessaire, utilisée pour des raisons économiques et
techniques lors de la préparation de la plupart des inventaires forestiers.
Les populations à inventorier en forêt, quelle que soit la raison, sont généralement très larges
pour être totalement énumérées.
Elles sont généralement utilisées pour l’estimation des surfaces forestières et la mesure des
paramètres comme le diamètre, la hauteur et le volume.
L’échantillonnage doit être objectif afin d’éviter es biais (erreur systématique) dans les
estimations.
Beaucoup de méthodes systématiques sont objectives et peuvent toujours donner des estimations
non biaisées.
Le seul danger des échantillons systématiques est que leur caractère non-aléatoire empêche
l’utilisateur d’appliquer des théories d’échantillonnage statistique et d’obtenir des estimations
non-biaisées de l’erreur d’échantillonnage.
Si nous pensons aux arbres individuels comme des unités, à la fois la sélection de l’échantillon et
la projection de l’échantillon à la population peuvent s’avérer être très difficiles.
Ce sont :
La valeur du paramètre telle que estimée à partir d’un échantillon, sera appelée simplement
estimation.
Les annotations suivantes sont utilisées pour représenter les paramètres estimés de la population :
- L’écart-type estimé ( S x ) ;
Biais : c’est une erreur systématique d’une valeur qui peut être positive ou négative. Le biais
peut exister dans des estimations basées sur des échantillons aléatoires.
Une estimation sans biais ou qui a très peu de biais est dite exacte.
- la technique d’estimation d’un paramètre (ex : si la valeur moyenne par hectare est
estimée en prenant la valeur arithmétique simple de l’estimation de la moyenne du
volume de deux surfaces, la moyenne résultante va être sérieusement biaisée si une
surface est 100 ha et l’autre seulement 10 ha).
x1 x 2
x 12
2
Une estimation améliorée du volume moyen des deux surfaces devrait être obtenue en
faisant des compensations suivant les superficies des deux surfaces comme ci-après :
10 . x 1 100 . x 2
x 12
10 100
Le biais n’est pas désiré. Si possible, on doit l’éliminer. Souvent, une élimination complète des
biais peut être coûteux en terme de temps, argent et de précision. On peut être forcé à le garder. Il
est donc important de :
- La précision fait référence au regroupement des valeurs échantillons par rapport à leur
propre moyenne (valeur moyenne de l’échantillon).
Si la valeur moyenne d’un échantillon est biaisée ou contient une erreur systématique, ça ne peut
pas être la vraie valeur.
Ainsi, l’exactitude ou la proximité de la vraie valeur peut être absent à cause du biais, ou du
manque de précision, ou des deux.
I.5. Variables
La variation naturelle est un fait de la vie. Sans variation, il n’y aurait pas de problèmes
d’échantillonnage, pas de statisticiens, et ainsi pas d’inventaire forestier.
Une variable est une caractéristique qui peut varier d’une unité à une autre d’une population
donnée.
Dans une population d’arbres, la hauteur de l’arbre est une variable. Les autres variables sont le
diamètre, la surface terrière, le volume, la classe de forme, l’espèce, la classe de dégât, …
Dans une population de parcelles, les variables peuvent être le volume, la surface terrière, la
hauteur moyenne des arbres dans les parcelles, la composition en espèces des parcelles…
On distingue deux types de variables dont les variables continues et les variables discrètes.
Variables continues : Elles sont caractérisées par leur relation avec une échelle numérique de
mesure, où chaque intervalle peut être subdivisé en un nombre infini de valeurs. La longueur, la
hauteur, la surface et le volume sont des exemples de variables continues.
Variables discrètes : Ce sont des variables qualitatives qui sont représentées par des valeurs
intégrales ou des ratios de valeurs intégrales. Les classes de dégâts, l’espèce, le nombre de plants
par hectare sont des exemples de variables discrètes.
La distinction est faite entre ces deux types de variables parce que les deux types de données
peuvent requérir différentes procédures d’analyses statistiques, les procédures recommandées
pour les variables discrètes étant généralement plus complexes.
Variable quantitative
Variable qualitative
II. FONCTIONS DE DISTRIBUTION
Une fonction de distribution montre la fréquence avec laquelle les différentes valeurs d’une
variable apparaissent dans une population donnée. Si nous connaissons la fonction de
distribution, nous pouvons déterminer quelle proportion d’individus est confinée dans une
certaine limite de grandeur. Chaque population a sa propre fonction de distribution. Il y a
cependant certaines fonctions de distribution qui apparaissent fréquemment. Les plus communes
sont :
- la distribution normale ;
- la distribution de Student (t) ;
- la distribution binomiale ;
- la distribution de Poisson.
La plus importante des distributions de probabilité est sans aucun doute la distribution normale,
tellement importante que beaucoup l'appellent « loi normale ». La distribution normale est une
distribution symétrique en forme de cloche qui est modélisée mathématiquement (figure II.1.).
Elle est intéressante parce que la très grande majorité des phénomènes naturels tendent vers cette
distribution quand on prend un grand nombre de mesures. On observe la distribution normale
partout dans la nature. On l'observe généralement presque partout lorsque l'on prend des
mesures. L'évasement de la courbe correspond à l'écart-type.
La surface sous une courbe de distribution normale représente la probabilité qu'un phénomène se
produise dans cet intervalle. La surface totale sous la courbe vaut toujours 1. Dans le monde des
probabilités, 1 signifie la certitude qu'un phénomène se produise et 0 l'impossibilité. Entre 0 et 1,
c'est la probabilité qu'un évènement se produise.
Ex : Les distributions du diamètre, la hauteur ou le volume des arbres dans une forêt naturelle
respectent toutes cette distribution.
Un graphique de la distribution normale ressemble un peu à une cloche. Dans une distribution
normale, la moyenne arithmétique, la médiane et le mode sont égaux.
Écart type et probabilité : Il est plus commode de calculer la probabilité en fonction de l'écart-
type autour de la moyenne qu'en fonction du phénomène mesuré parce que la relation entre la
probabilité et l'écart-type est fixe. Quitte, par la suite, à convertir dans les unités du phénomène
mesuré en multipliant par l'écart-type.
Relation entre écart-type et probabilité : Par exemple, 68 % des cas observés ont des valeurs
comprises entre la moyenne arithmétique moins 1 écart-type et la moyenne arithmétique plus 1
écart-type. Cela se vérifie pour tout phénomène ayant la distribution normale (figure II.2.).
Figure II.2. : Relation entre écart-type et probabilité pour 68% des cas.
Pour rassembler 99 % des cas, on doit sélectionner 2.6 écarts types autour de la moyenne (figure
II.4.).
Figure II.4. : Relation entre écart-type et probabilité pour 99% des cas.
Pour tout phénomène respectant la distribution normale, le tableau suivant vous donne la
probabilité selon l'écart-type.
Tableau II.1. : Probabilité selon l’écart-type pour toute distribution normale
Écart Probabilité
-1 a 1 68 %
-2 à 2 95 %
-2,6 à 2,6 99 %
-3 à 3 99,7%
La distribution-t est étroitement liée à la distribution normale standard. Elle est importante dans
le calcul de l’intervalle de confiance de moyennes estimées et pour tester certaines hypothèses.
Sa formule est définie par :
x x
t
Sx
On appelle les deux résultats possibles: «succès» et «échec» : Le succès est le résultat pour
lequel on désire déterminer la distribution de probabilité, alors que l'échec est l'autre résultat.
En foresterie, la distribution binômiale est associée aux données où un nombre fixe d’individus
sont observés pour chaque unité et où l’unité est caractérisée par le nombre d’individus
possédant ou ne possédant pas un certain attribut. Cette distribution est souvent rencontrée
lorsqu’on travaille avec des variables discrètes comme la proportion des dégâts ou l’état sanitaire
des arbres.
Pour la plupart des données en foresterie, la variance est donnée par la formule :
N
(x i x )2
2 i 1
avec : xi = la valeur de l’unité i de la population ;
N
N
x i
x = la valeur moyenne de la population : 1
;
N
N= La taille de la population.
Malgré le fait qu’on a besoin d’une mesure complète de la population, on ne connaît
généralement pas la valeur exacte de la variance de la population. Ceci doit être estimé à partir
d’un échantillon de la population. L’estimation de la variance d’un échantillonnage aléatoire
simple est donnée par la formule :
n n
( xi ) 2
( xi x ) 2 x 2
i 1
n
S x2 i 1
i 1
avec : x = Moyenne arithmétique de l’échantillon ;
n 1 n 1
n = Taille de l’échantillon.
Exemple II.1.:
Un block forestier va être inventorié pour estimer le volume total de bois et la variance de la
population. L’unité d’échantillonnage est une parcelle carrée de 0,1 ha (1000 m2), où le volume
de bois (en m3) sera observé. Les valeurs unitaires des volumes sont données pour la population
entière de N = 600 parcelles. Les valeurs des paramètres de la population (valeurs vraies) ont été
calculées à l’ordinateur (voir tableau II.2.).
Question : Estimons les paramètres de la population entière à partir d’un échantillon de volume
de 25 parcelles (tableau II.3.) pris au hasard et comparons avec les vrais paramètres de la
population.
Solution II.1. :
n
n n
( xi ) 2
( xi x ) 2 x 2
i 1
n
Calcul de la variance S x2 i 1
i 1
n 1 n 1
25
880
xi = 16 + 57 + 36 +…..+ 62 = 880 m3 ;
1
x
25
35,2 m3/0,1 ha ;
25
x
1
2
i 16 2 57 2 ... 62 2 41068 (m3/0,1 ha)2
(800) 2
41068
S x2 25 420,5 (m3/0,1 ha)2
25 1
S x2 S
sont donnés par la formule : S 2
x
et S x x avec :
n n
S x2 = la variance de l’échantillon ;
S x = l’écart-type de l’échantillon ;
et n = la taille de l’échantillon.
Dans l’exemple II.1., les limites supérieures et inférieures de la moyenne de l’échantillon sont
alors de :
35,2 m3/0,1 - 4,1 m3/0,1 ha = 31,1 m3/0,1 ha ;
35,2 m3/0,1 + 4,1 m3/0,1 ha = 39,5 m3/0,1 ha ;
La vraie valeur de la moyenne x = 37,72 m3/0,1 ha se situe bien à l’intérieur de ces limites.
La valeur-t peut être obtenue de la table de Student. C’est un tableau à deux entrée dont les
colonnes correspondent aux niveaux de probabilité ( ) et les lignes, les degrés de liberté (ddl ou
df). Dans un échantillonnage aléatoire simple, et dans beaucoup de méthodes d’échantillonnage
classiques, le ddl = n-1.
Tableau II.5. : Valeur-t pour les plus importants niveaux de probabilité (n>30)
Niveau de probabilité Risque d’erreur t
0,68 0,32 i.e. 1 sur 3 cas 1,00
0,90 0,10 i.e. 1 sur 10 cas 1,64
0,95 0,05 i.e. 1 sur 20 cas 2,00
0,99 0,01 i.e. 1 sur 100 2,68
La Covariance est une mesure de comment les deux variables (ex : x et y) varient l’un par
rapport à l’autre. Le degré d’association linéaire entre les deux variables est appelé Covariance.
Elle peu être positive ou négative. Elle sera négative si les grandes valeurs de x sont couplées
aux petites valeurs de y. Comme la variance, la covariance est un paramètre de la population.
(x i x ).( y i x )
xy 1
N
Pour des échantillons aléatoires simples, basés sur un échantillons de ’’n’’ paires d’observations
de x et y, la Covariance est estimée comme suit :
n n
n n x . yi i
(x i x).( y i y ) x .y i i i 1 i 1
n
S xy i 1
= i 1
n 1 n 1
Exemple II.2.
Les volumes d’un échantillon de 10 arbres, en 0,1 m3 comme unité, étaient estimés à l’œil et
étaient aussi mesurés :
Volume dans 0,1 m3
x (à l’œil) 30 25 15 10 35 25 40 20 25 10
y (mesuré) 27 21 18 17 33 26 42 15 23 9
La Covariance entre les estimations faites à l’œil et les mesures exactes de volumes est donc
estimée comme suit :
10 10 10
xi = 235 ;
1
yi = 231 ;
1
x y1
i i = 6225 ;
n n
n n xi . yi
( xi x).( yi y) x .y i i i 1 i 1
n
6225
235.231
10 =88,50
S xy i 1
= i 1
=
n 1 n 1 10 1
La valeur positive de la covariance indique que les grandes valeurs de x tendent d’être
linéairement associées aux grande valeurs de y.
Co var iance( x, y ) xy
=
(var iancedex)(var iancedey) x2 . y2
r=
S xy
=
( x x)( y y)
i i
S .S 2
x
2
y ( x x) . ( y y)
2 2
Le coefficient de corrélation estimé ’’r’’ est une estimation non biaisée du coefficient de
corrélation de la population correspondante ( ).
Le coefficient de corrélation peut varier entre -1 et +1, dépendant du degré de relation linéaire
entre les deux variables. Une valeur négative indique que les grandes valeurs de x sont couplées
aux petites valeurs de y. Une valeur positive indique que les grandes valeurs de x sont couplées
aux grandes valeurs de y. Si x et y sont des variables indépendantes, i.e. la valeur de x ne dépend
pas de la valeur de y, alors le coefficient de corrélation est nulle. Donc, des coefficients de
corrélations qui sont proche de zéro (0) suggèrent peu ou pas de relation linéaire entre les deux
variables. Des coefficients de corrélation proches de -1 ou de +1 indiquent une relation linéaire
forte entre les deux variables.
Dans l’exemple II.2. :
10 10
xi = 235 ;
1
y
1
i = 231 ;
10 10
x x2 = 6425
1
y
1
2
i = 6147 ;
235 2 2312
6425 6147
S x2 10 100,28 S y2 10 90,10
9 9
S xy 88,50 (voir plus haut)
S xy 88,50
r= = 0,931
2 2
S .S
x y
100,28.90,1
Le fait que le coefficient de corrélation est proche de 1 indique que la relation linéaire entre les
deux variables est très forte. Le fait qu’il soit positif indique que la corrélation entre les deux
variables est positive.
Le coefficient de corrélation simple est une mesure de la relation linéaire entre deux variables.
Une valeur ’’r’’ proche de zéro ne veut pas nécessairement dire qu’il n’y a pas de relation entre
des variables, mais plutôt elle montre une relation linéaire faible. Il peut normalement exister une
relation non-linéaire.
La fiabilité d’un coefficient de corrélation augmente avec la taille de l’échantillon. Le coefficient
de corrélation peut être testé pour sa significance. Le test peut être utilisé pour tester l’hypothèse
= k 0, i.e. est égal à une constante k différente de zéro.
La valeur significative ’’r’’ peut être prise de la table des valeurs de ’’r’’ à certains niveaux de
probabilité (généralement à 95%, 99% et 99,1%). C’est une table à deux entrées, avec une entrée
(colonne) correspondant au niveau de probabilité et l’autre (ligne), au degré de liberté qui dans
ce cas est ddl = n-2 (voir table des valeurs de ’’r’’).
Le coefficient de corrélation estimé ’’r’’ est significatif ( 0) à une certaine probabilité, si la
valeur estimée est plus grande que ou égale à la valeur significative de la table des valeurs de
’’r’’.
Ex : si une certaine méthode requiert une relation linéaire entre deux variables, c’est souvent
nécessaire de transformer soit l’une ou l’autre variable, ou soit les deux pour satisfaire cette
condition. Par ex. la relation entre le diamètre à hauteur de poitrine et la hauteur de l’arbre est
non linéaire. Par une transformation logarithmique de la valeur des diamètres, on peut établir une
relation linéaire entre deux variables afin de construire la droite (linéaire) de la hauteur sur le
diamètre (voir exemple 2.7.). Une droite de la hauteur sur le diamètre est facile à construire
qu’une courbe de la hauteur sur le diamètre. La droite de la hauteur sur le diamètre pourrait être
utilisée pour déterminer la hauteur moyenne d’une parcelle de forêt.
Une condition de base commune est que la variabilité doit être indépendante de la moyenne.
Nous savons que certaines variables tendent d’avoir une variance qui est reliée à la moyenne. La
transformation met les données originales sur une échelle où la variabilité est indépendante de la
moyenne.
Une application valide du test statistique de significance dans l’analyse de la variance requiert
que les erreurs expérimentales doivent être indépendantes ou normalement distribuées, avec la
variance normale.
Transformer les données implique que les erreurs expérimentales sont normalement distribuées
sur l’échelle transformée.
Une variable peut aussi être transformée pour convertir sa distribution en une distribution
normale. Ceci est important vu que beaucoup de méthodes ou tests statistiques sont basées sur
une distribution normale.
Exemple II.3. :
Le nombre de plantes, compté dans des parcelles circulaires de 10 m2, et dont les valeurs
transformées sont données dans le tableau ci-après :
Le pourcentage d’arbres détruits, pris dans un échantillon de 100 arbres, et les données
transformées sont données dans le tableau suivant :
Si les pourcentages sont compris entre 30 et 70%, la transformation peut ne pas être nécessaire.
Quand une transformation est opérée, toutes les estimations d’intervalles de confiance sont faites
suivant l’échelle transformée.
III. TEST DES HYPOTHESES
III.1. Définitions
Depending on the formulation of alternative hypothesis Ha, there exists one tail and two tail tests
as follows:
-Usually, one tail tests are found when Ha refers to > or <
-Usually, two tails tests are found when Ha refers to
III.2. Steps in testing statistical hypothesis
Sample consistency:
-When our hypothesis is accepted, then we say that the sample which we use in testing
hypothesis is consistent with hypothesis.
-When our hypothesis is rejected, then this implies that the sample which we use is nonconsistent
with hypothesis.