Hydrologie Statistique pour Master 1
Hydrologie Statistique pour Master 1
Atmane Allouache
HYDROLOGIE
Pour les étudiants de Master 1
POLYCOPIÉ
1ère.Éditon
BEJAIA 2014
TABLE DES MATIÈRES
1. INTRODUCTION
3. MODELISATION EN HYDROLOGIE
1. INTRODUCTION
2. REGRESSION SIMPLE
3. REGRESSION MULTIPLE
1. INTRODUCTION
stochastique (aléatoire). Les méthodes statistiques, c´est á dire probabilistes, étudient les
stochastique (probabiliste). Leur base mathématique est la théorie des probabilités avec toutes
hydrologie est due au caractère aléatoire des évenements naturels comme par exemple, les
Il faut rappeler que l´utilisation mécanique des statistiques, sans compréhension des
phénomènes auxquels elles s´appliquent, peut mener á des résultats erronés, illogiques et
parfois même dangereux (mauvais dimensionnement d´un évacuateu de crues par exemple !).
des probabilités. Nous décrirons ensuite briévement quelques lois statistiques couramment
utilisées en hydrologies et nous indiquerons pour chacune d´elles pour quel type de données
elles sont souvent utilisées. Quelques tests d´ajustement de ces lois aux distributions
Le chapitre 3 sera consacré aux relations entre variables aléatoires. Concrètement, les
principales. Une conclusion générale sur le module enseigné sera donnée en fin du polycopié.
- Population statistique
C´est un ensemble d´individus ou d´unités statistiques. Elle peut être finie ou infinie,
dénombrable ou non dénombrable. Du point de vue strictement théorique, une population est
infinie et non dénombrable. Par un artifice, on peut remplacer une population finie par une
population infinie (tirage avec remplacement). Par exemple, l´ensemble des habitants sur la
Terre peut être assimilé à une population statistique et l´ensemble des habitants de Béjaia est
L´ensemble des êtres vivants sur la Terre (et encore plus sur l´univers) peut être considéré
Les séries de variables hydroclimatologiques avec lesquelles nous travaillons ne sont que des
- Échantillon
est un ensemble d´individus tirés d´une population, c´est donc un ensemble (une partie) d´une
échantillon aléatoire. Par exemple, vous avez tiré en TD des échantillons (débits et
constituent les éléments d´une population ou d´un échantillon statistique. Chaque individu ou
unité statistique est décrit selon une ou plusieurs caractéristiques désignés par variable,
caractère ou attribut. Tous les individus d´une population (ou échantillon) doivent avoir au
moins un caractère (attribut ou variable) commun. Par rapport à ce caractère la population
(l´échantillon) est homogène. Elle peut ne pas l´etre par rapport aux autres !
On désigne sous ce terme les différentes caractéristiques d´une variable. Chaque individu ne
- Pour une variable quantitative continue, les données, si elles sont nombreuses, peuvent être
regroupées en classes.
continue X, notée f(x) représente la limite du rapport fi/Δx lorsque n tend vers ∞ ( fi tend
est la
F(x) est la fréquence relative cumulée des individus dont la valeur est inférieure ou égale à x.
C´est donc une probabilité selon la définition statistique de la probabilité, autrement dit
telle que G(x)= 1 – F(x) est la fréquence relative cumuléedes individus dont la valeur est
supérieure à x, c´est aussi une probabilité et donc G(x)= P(X > x), appelée probabilité au
dépassement.
o Période de retour
Les hydrologues utilisent souvent la notion de période de retour. Celle-ci est
dépassement). Soit une variable aléatoire quelconque X qui prend ses valeurs
avec le pas de temps annuel ( par ex. débits moyens annuels, débits maximum
Et la Prob(Q T) = F(QT)=
A titre d‘exemple, le débit, noté Q10, de période de retour T égale à 10 ans est
appelé «débit décennal» et le débit centennal Q100 est le débit dont la période
toutes les T années. Alors qu‘ en réalité qu’il ne s’agit que d’une espérance
que plusieurs crues par ex. centennales se produisent en peu de temps ou qu‘
probabilité au non-dépassement !
de répartition F(x).
Nous avons vu (cf. Cours Hydrologie statistique – 3.A LMD HU) que
f(x)= lim((ni/n)/dx) quand n tend vers ∞. Ainsi donc pour une population
infinie l´histogramme et le polygone des fréquences tendent vers la courbe
représentée par f(x) lorsque le nombre de classes tend vers n et dx tend vers
0 (Figure 1).
Une variable aléatoire peut également être caractérisée par ses paramètres
écart-type, …etc.).
Distribution Totaux pluviométriques annuels [Link] (Bejaia).n=61 ans
y = 61 * 128,343 * normal (x; 770,5213; 204,749)
16
14
i
12
fréquences absolues n
10
0
<= 459,843 (588,186;716,529] (844,871;973,214] > 1101,557
(459,843;588,186] (716,529;844,871] (973,214;1101,557]
Classes Totaux pluviométriques annuels en mm
Figure 1. Histogramme (1), polygone (2) et courbe (3) des fréquences des totaux
pluviométriques d´El Kseur.
Les quantiles constituent une autre catégorie de paramètres pouvant caractériser la
variable aléatoire. Les quantiles sont déduis de la fonction de la fonction quantile qui
est la fonction inverse à la fonction de distribution F(x). Soit donc une fonction de
que 0<α<1, alors la valeur xα, telle que F(xα)=α est appelée α-quantile de la
Nous savons (cf. Cours hydrologie statisque – 3.A LMD ) que les deux
formes (originale et standardisée ) de la fonction de densité des probabilités
de la loi normale est symétrique. Cette symétrie implique pour les quantiles
1) Loi normale
Synonyme : loi de Gauss, loi de Gauss-Laplace)
( )
Pour la v.a. X, sa f.d.p. est f(x)= .
√
f(u) = .
√
F(u)=∫ ( )
̅
pour un échantillon tiré d´une population qui suit la loi normale u=
Les tables statistiques ne donnent pas toutes les valeurs des quantiles uF
de poche :
UF = w - (2.2.1)
Avec
W=√
( )
droite d´Henry pour cette loi servira à calculer les quantiles rares ( non
débits moyens annuels des cours d´eau des régions tempérées, les
méditerranéennes).
Exemple d´application :
Nous savons en TD que la série des totaux pluviométriques annuels de la station d´El Kseur
suit la loi de Gauss (normale).
asymétriques. Les débits des cours d´eau algériens suivent en général la loi
( ( ) )
paramètres m et σ - est f(x)=
√
( )
u=
Classez cette série en ordre croissant et calculez pour chaque débit Qi de la série
classée les probabilités au non-dépassement Fi correspondantes selon la formule de
Tchégodayev
Portez les points Qi, Fi sur le diagramme des probabilités de la loi Lognormale
Que concluez-vous ?
Calculez le débit de période de retour 125 000 ans
Réponse : si vous avez bien porté vos points sur le diagramme, ceux-ci (vous le
remarquez ! ) devraient s´aligner plus ou moins autour d´une droite (droite d´Henri)
ayant pour équation yF = m +UF * s
avec m=moyenne des Ln(Qi) et s=écart-type des Ln(Qi)
les calculs donnent m= 1,714 et s= 0,704
mais yF = Ln (QF) ( ou resp. y1-F = Ln(Q1-F)
la période de retour T=125 000 donc probabilité au dépassement 1-F=1/T = 8.10-6 , et
probabilité au non-dépassement est F=1-8.10-6 ce qui donne pour UF = - 2,457
donc U1-F = 2,457 , soit y1-F = 1,714 + 0,704 * 2,457 = 3,444
Q1-F = exp (y1-F) = 31,30 m car F étant la probabilité au non-dépassement, donc 1-F
est la probabilité au dépassement et Q1-F étant le débit dépassé en moyenne 1 fois
tous les 125 000 ans !
m=moyenne des Ln(xi -a ) et σ est l´écart-type des Ln(xi -a) (s= écart-
( )
u=
Le quantile xF =a +
étudié, sinon il est à déterminer par essais successifs jusqu´à ce que les
points (F, (xi- a)) s´alignent suivant une droite dans le diagramme de la loi
une forte asymétrie). En Algérie, cette loi est utilisée aussi bien pour les
16
14
fréquences absolues
12
10
(10;12]
(12;14]
(14;16]
(16;18]
(18;20]
(20;22]
(8;10]
0
<= 0
> 22
(0;2]
(2;4]
(4;6]
(6;8]
3
Débits moyens annuels en m /s
3) Loi de GUMBEL
(ou Loi des Valeurs Extrêmes de type I)
̂ ̂
posant pour la variable réduite u = (ou u = pour un
Comme il a été dit plus haut, La loi de Gumbel est souvent utilisée pour
Pearson III sont utilisées en hydrologie. La loi Pearson III est plus connue et
plus largement utilisée que le type I. Nous décriront donc brièvement ici que
La loi de Pearson type III a pour fonction de densité des probabilités pour la
c´est une loi asymétrique, limitée d´un seul côté et d´habitude de forme
la relation :
Cs =
v.a. prend ses valeurs à partir de la valeur 0. Donc la v.a. prend ses
f(u) =
( )
Pour la représentation graphique de la loi Pearson III on utilise le
diagramme des probabilités de la loi binomiale avec indication de
5) Loi de Weibull
Une autre loi statistique pour l´analyse des valeurs extrêmes est
extrêmes de type III proposée par Weibull est utilisée pour l´analyse
distribution avec limite inférieure. C´est pour cette raison qu´elle est
( )
f(x) = ( )
( )
( )
P(x) =
diagramme de Fréchet)
Ln(x-x0) = Ln(q-x0) +
̂
u= où ̂ est le mode et σ l´écart-type
Algériennes.
Petite conclusion :
hydrologues n´excèdent pas en général deux cents ans d´observations et dans les pays
dizaines. Il est par conséquent, très risqué d´extrapoler à partir des courbes empiriques
de distribution des probabilités vers des valeurs d´évènements très rares (crues de
période de retour 10000 ans, 100000 ans par ex. pour lesquelles des ouvrages de
protection sont dimensionnés). Ce sont les lois statistiques théoriques qui nous
choisie peut être vérifiée visuellement, soit à partir du graphe donnant en même temps
l´histogramme des fréquences et la courbe f.d.p. (courbe rouge en Fig. 1), soit à partir
des diagrammes des lois statistiques où sont portés les points empiriques et la droite
d´Henri.
dont est issu l´échantillon étudié, ne nous permet pas souvent de conclure à une
Cette incertitude peut être levée en procédant à une comparaison quantitative, donc à
Kolmogorov-Smirnov.
En général, pour tester la validité d´une affirmation, on utilise les tests d´hypothèses –
( )
Le critère de test est la variable aléatoire χ
2
=∑
χ2 < χ
2
Si α,f , alors l´hypothèse H0 sur la concordance de la distribution empirique
détriment de H1. Nous pouvons ainsi affirmer que notre échantillon provient de la
population ayant la distribution théorique choisie et que les différences ni –ni´ sont
>χ
2 2
purement aléatoires. Dans le cas contraire (χ α,f ), nous rejetons l´hypothès H0
distribution théorique.
2
Le test χ n´est applicable que si les fréquences absolues théoriques
ni´ dans les classes sont > 5 pour le nombre de classes k>5 et
ni´ > 10 pour k<5. Dans le cas où ce critère n´est pas rempli, on
peut fusionner les classes voisines à avoir ni´ > 5.
Exemple d´application:
h= = =128,3 mm
h = 128 mm
La figure 1 nous indique déjà que la loi normale épouse bien la distribution de
l´échantillon de totaux annuels pluviométrique d´El Kseur. Elle pourrait donc être la
̅=∑ = = 770,5 mm
∑ ( ̅̅̅̅
)
s=√ =√ = 204,8 mm
2
Le tableau [Link] donne les calculs complets pour le test χ .
χ2 < χ
2
1,53 < 9,5 donc 5%,4 nous pouvons donc accepter l´hypothèse H0 et
affirmer que notre échantillon observé provient d´une population de loi statistique de
Gauss (normale).
2
Formulons, comme pour le test χ , les hypothèses de bonne concordance H0 et H1.
H0 : ni = ni´ et H1 : ni ni´
n= taille de l´échantillon
test de Kolmogorov-Smirnov:
Tableau [Link] Test d´ajustement des totaux annuels pluviométriques à la loi normale
χ2 = ∑ = 1,53
Tableau [Link] Test d´ajustement de la loi normale série pluvio. D´ElKseur – Test Kolmogorov-Smirnov.
Dans notre cas 0,1 < 0,17 (Dn < Dα,n ), donc la loi normale s´ajuste bien à notre
échantillon !
A un échantillon donné, peuvent s´ajuster plusieurs lois statistiques mais l´une d´elles est
meilleure que les autres et c´est elle qu´il faudra choisir ! (donc celle qui donnera la plus
la nature même du phénomène et parfois du manque de données fiables sur eux. Certains
phénomènes sont liés entre eux par des relations de cause à effet. Il arrive donc qu´on
connaisse relativement assez bien la cause (phénomène (s) Xi) et relativement mal le(s)
phénomène(s) Yi) (Par exemple relation Pluie – débit). En hydrologie, il arrive rarement
qu´on étudie les phénomènes comme des variables aléatoires isolées, c´est-à-dire sans prise
en compte de leur dépendance vis à vis d´autres phénomènes ou facteurs. D´habitude, nous
mesurons les grandeurs hydrologiques et autres afin de déterminer leurs rapports et leur
des modèles mathématiques qui décrivent les liaisons (si elles existent !) entre ces
En général, on peut recherche une liaison mutuelle entre m variables aléatoires. On parle
comme dépendante (syn. : expliquée, endogène) et les autres variables comme indépendantes
Nous nous intéresserons ici qu´aux régressions linéaires car certaines régressions non
linéaires peuvent etre ramenées aux régressions linéaires par linéarisation et changement de
variables ( log,..etc.).
aléatoires. Nous obtenons alors n couples de résultats de mesure (xi , yi ). Si nous portons les
points (xi , yi ) sur un système orthogonal X, Y, nous obtenons un nuage de points qui
a) tous les points sont alignés sur une ligne continue (droite) qu´on peut exprimer par
correspond une et une seule valeur de la variable aléatoire dépendante Y est appelée relation
35
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7
Rayon d´un cercle en cm
b) Les points (xi, yi ) sont dispersés à l´intérieur d´un cercle. Aux différentes valeurs d´une
variable correspond différentes valeurs d´une autre variable. Dans ce cas, nous parlons
5
variable y
0
0 1 2 3 4 5 6
variable x
c) Les points (xi, yi ) s´alignent de part et d´autre d´une droite (Fig.3.c).
1400
Précipitations annuelles en mm
1200
1000
800
600
400
200
0
0 200 400 600 800 1000 1200 1400 1600
Altitude en m
corrélation que nous décrirons ci-après est égal à r=1 (resp. r= -1),
donc r=0 ;
- Le troisième cas concerne une liaison plus ou moins marquée, 0 < r < 1 pour
une liaison directe et -1 < r < 0 pour une liaison indirecte ( c´est à dire lorsque
700
600
500
400
300
200
100
0
0 500 1000 1500 2000
Altitude en m
certaine dépendance entre les deux variables, Il est possible d´estimer au mieux la valeur
prise par l´une des variables en fonction d´une valeur donnée de l´autre variable. Cette
estimation s´appelle régression. Lorsque la dépendance entre les deux variables X et Y est
exprimée par une fonction linéaire, il s´agit alors de régression linéaire simple.
Nous pouvons donc exprimer les droites de régression des deux variables par :
yx = a0 + a1 x la droite de y en x (f1)
xy = b0 + b1 y la droite de x en y (f2)
Nous nous intéresserons ici qu´au premier type de dépendance, soit la dépendance de y en
fonction de x.
Toute valeur de la variable aléatoire de Y est entachée d´une certaine erreur, notée e, telle que
y = yx + e (f3)
ou
y = a0 + a1 x + e (f4)
La régression linéaire simple consiste donc à estimer les paramètres a0 et a1 de l´équation de
La régression linéaire multiple (qui sera présenté plus bas) consistera à estimer les paramètres
a0, a1, a2, ....ap de la fonction linéaire de la relation entre Y et p variables aléatoires (X1 ,X2,
yx = = a0 + a1 x1 + a2 x2 + ....... + ap xp (f5)
L´estimation des paramètres a0 et a1 de l´équation (f4) se fait par la méthode des moindres
carrés. Le principe consiste à minimiser la somme des carrés des résidus ei ( ou écarts) (yx(i) –
d´où :
E(a0, a1, xi) = ∑(a02 + a12 xi2 + yi2 + 2a0a1xi – 2a0yi – 2a1xiyi ) = min (f8)
()
=0 donc ∑(2a0 + 2a1 xi – 2yi ) = 0 (f9)
Et
()
=0 donc ∑(2a1 xi2 + 2a01xi –2xiyi ) = 0 (f10)
n ∑xi a0 ∑yi
= (f15)
n ∑xi
∑xi ∑xi2
Mais d´habitude, on n´estime par la méthode des moindres carrés que le paramètre a1 car
La quantité
Et la quantité
yx - ̅ = ([Link]/sx) (x - ̅ ) (f21)
ou
yx - ̅ = Ry/x (x - ̅ ) (f22)
Le coefficient de corrélation rxy (on le notera r pour simplifier) mesure le degré de l´intensité
de la liaison entre X et Y.
régression.
En observant l’équation f(21) et f(22), nous remarquons que la droite de régression passe par
le point ( ̅ ̅ ) qui est le centre de gravité du nuage de points (xi, yi) . D’ ailleurs la droite de
196 1278 917 1650 150 124 1451 1100 330 140 1450 1300 1050 1040 1220 1000 908
stations pluviométriques :
118 470 277 532 92 134 455 327 159 100 306 354 273 410 484 451 500 515 270 680
Réponse : oui
600
400
200
0
0 500 1000 1500 2000
Altitudes en m.n.m
- S’il existe une régression linéaire simple entre ces deux séries, trouvez les
20 16942 a0 6907
a0 = 131,37
a1 = 0,25
sx = 493,3 sy = 167,8
entre elles (ou très peu), nous sommes alors en face d’une régression multiple. Si cette
ou
Les coefficients de régression a0, a1, a2, …., ap peuvent etre également estimés par la méthode
des moindres carrés. Mais c’est surtout a1, a2, …., apqui sont estimés de cette façon ; le
Où
X1 et X2 est égal à :
r0.12 = √
L’utilisation de la régression linéaire multiple suppose que les variables indépendantes soient
très peu corrélées entre elles. Si ce n’est pas le cas, on réduit le nombre de variables
indépendantes par la méthode dite de l’analyse en composantes principales (ACP) qui fera l’
Parmi les caractéristiques du régime hydrologique d´un cours d´eau et d´un bassin
versant, les plus importantes sont ses extrêmes, soient les débits maxima et minima et les
conséquences catastrophiques fréquentes. C´est pourquoi, une attention particulière est prêtée
par le passé par les hydrologues aux débits maxima qui ont lieu pendant les crues. Ces
dernières décennies, les débits minima ont également reçu de la part des hydrologues un
interêt tout particulier en raison des sécheresses á répéticion qui ont lieu. Ces débits minima
surviennent pendant les périodes de sécheresse et c´est aussi pendant ces périodes que les
concentrations élevées d´ímpuretés de l´eau dans les rivières ont lieu. Ceci a des
La détermination des extrêmes est l´une des tâches les plus importantes et en même
L´étude des crues peut être approchée de différentes manières; soit par l´utilisation des
l´hydrogramme unitaire.
Parmi les méthodes statistiques les plus utilisées pour la détermination du débit maximal
o La méthode des maxima annuels qui consiste à choisir un débit maximal par année et
o La méthode dite de «Renouvellement» qui consiste à chosir non pas un seul débit par
o La méthode du gradex qui repose sur la connaissance des débits et des précipitations
o Méthode régionales
Les débits et les niveaux d´eau les plus élevés sont atteints pendant les crues. Une crue est
augmentation temporaire du niveau d´eau dans la rivière au-dessus du niveau des berges. On
appelle onde de crue la courbe des débits (surtout la variation des débits en fonction du
temps) ou hydrogramme á un profil donné du cours d´eau. Cet hydrogramme est caractérisé
par la forme, le volume et le sommet qui est le débit maximal instantané au cours d´une crue.
La courbe simple de l´hydrogramme est une courbe asymptotique et a une forme en cloche
décrue,
Du point de vue de la durée de la crue, il est utile d´éclaircir les caractéristiques suivantes:
a) la durée de de montée tm est le temps compris entre le début d´une augmentation claire
de l´écoulement superficiel (niveau d´eau) dans le profil donné et le débit maximal
de l´écoulement superficiel
distance entre le point le plus éloigné du BV et le profil considéré. Cette durée peut être
déterminée comme le temps qui s´écoule entre la fin de la pluie efficace à la fin de
l´écoulement superficiel
l´hydrologue américain K. Sherman en 1932. La méthode est très utilisée aux USA, mais
exemple le débit maximal instantané. La méthode s´applique aux petits et moyens bassins
versants (jusqu´à 5000 km2). La méthode de l´hydrogramme unitaire est une méthode de
l´écoulement q(t)- hydrogramme unitaire en débits Q(t). L´hydrogramme unitaire est une
Le terme de basses eaux est utilisé pour les débits les plus bas enregistrés pendant la période
Les débits des basses eaux ( ou débits d´étiages) sont considérés comme des débits extrêmes.
Les débits d´étiages sont étudiés en relation avec leur durée. Donc, l´étude des débits
d´étiages consistera toujours á estimer et les débits minima et leurs durées. Donc la varible
Le débit minimal absolu est le débit moyen journalier le plus faible observé
Le débit minimal pour une durée choisie est le débit moyen journalier le plus
Le débit minimal moyen pour une durée choisie est la moyenne des débits
d´étiages
Le degré d´équilibre des débits d´étiages.
5.1 INTRODUCTION
Parmi les méthodes de l´analyse factorielle, l´analyse en composantes principales (abr. ACP)
occupe une place prépondérante. L´ACP est une méthode de réduction de variables. L´ACP
indépendantes qui ont leur interprétation objective. Donc le but principal est la réduction par
L´objectif d´une ACP est de : à partir d’une matrice rectangulaire de données de p variables
représenter graphiquement ces unités et ces variables et de pouvoir ensuite les interpréter. On
cherchera donc si l’on peut distinguer des groupes dans l’ensemble des unités ou l´ensemble
des variables en regardant quelles sont celles qui se ressemblent ou celles qui se distinguent
ou bien pour les variables celles qui sont correlées entre elles de celles qui ne le sont pas.
quantitatifs qu´on doit mesurer (ou observer) sur chaque unité (individu). On fait également
le choix sur le nombre d´unités à prendre en compte. Supposons, à titre d´exemple, d´étudier
d´étudiants et Xp les matières prises en compte ( xij – la note de l´étudiant i et de la matière j).
Un autre exemple peut etre n bassins versants sur lesquels on mesure p caractéristiques
Soit donc la matrice X formée de données obtenues par des mesures effectuées sur n unités
statistiques (u1, u2, .....un). Les mesures effectuées sur ces unités concernent p variables (X1,
X1 X2 X3 ..........Xj.........Xp
X= . . . . .... . ..... .
. . . . ..... . ..... .
sa diagonale principale les variances empiriques des p variables, et ailleurs, les covariances