0% ont trouvé ce document utile (0 vote)

38 vues28 pages

Text 4

Le document traite de l'étude des valeurs extrêmes univariées, un domaine statistique essentiel pour modéliser des événements rares comme les inondations ou les crises financières. Il présente les lois de valeurs extrêmes, des méthodes d'estimation et des applications pratiques sur des données réelles. La théorie des valeurs extrêmes, développée depuis le début du XXe siècle, vise à analyser les comportements des observations situées dans les queues des distributions de probabilité.

Transféré par

4fzdvqhycg

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

38 vues28 pages

Text 4

Transféré par

4fzdvqhycg

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Étude des valeurs extrêmes univariées

El Mazzouji Wahel, Mariac Damien, Condamy Fabian

29 avril 2025

1
Table des matières
1 Introduction 3

2 Les lois de Mn 3
2.1 Quelques notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Paramètre bn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Paramètre an . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Les lois limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4.1 Nature du support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4.2 Si γ > 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4.3 Si γ < 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4.4 2. Cas γ = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Quelques exemples numériques 8

3.0.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.0.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.0.3 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.0.4 Loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

4 Méthodes d’estimation de l’indice de valeurs extrêmes 11

4.1 Estimateur de Pickands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.2 Représentation graphique de l’estimateur de Pickands . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2.1 Loi de Pareto (α = 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2.3 Loi uniforme [0, 1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2.4 Loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.2.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Construction de l’estimateur de Pickands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.4 Estimateur de Hill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5 La construction de l’estimateur de Hill 17

5.1 Le choix du nombre de statistiques d’ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2 Comportement empirique de l’estimateur de Hill . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

6 Méthode des maxima par blocs 20

7 Méthode des excès 20

7.1 Loi de Pareto généralisée (GPD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7.2 Théorème de Balkema–de Haan–Pickands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

8 Application sur des données réelles 22

8.1 Méthode de dépassement de seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
8.1.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
8.1.2 Application sur les données de Rain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
8.1.3 Estimation de γ plus approfondie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
8.1.4 synthèse sur la méthode de dépassement de seuil . . . . . . . . . . . . . . . . . . . . . . . 24
8.2 Méthode des maxima en bloc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8.2.2 Application sur les données de Rain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8.2.3 quantile de retour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
8.2.4 synthèse sur la méthode des maxima en bloc . . . . . . . . . . . . . . . . . . . . . . . . . 25

9 Annexe 26
9.1 Méthode de Nelder-Mead . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
9.2 Codes R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2
1 Introduction
Les événements extrêmes tels que les inondations, les crues, les canicules, les crises financières ou encore
les krachs boursiers sont certes rares, mais peuvent avoir des conséquences considérables. Leur modélisation
statistique constitue aujourd’hui un enjeu majeur dans des domaines aussi variés que la climatologie, l’assurance,
la finance ou encore l’ingénierie.
Bien que de tels phénomènes ne puissent pas toujours être évités, la société peut mettre en œuvre des
stratégies préventives afin d’en limiter les impacts. C’est dans cette optique que s’inscrit la théorie des va-
leurs extrêmes (TVE), un outil statistique essentiel dédié à l’analyse et à la prédiction des événements rares.
Développée dès le début du XXe siècle grâce aux travaux fondateurs de Fréchet (1927), Fisher et Tippett (1928),
puis formalisée par Gnedenko (1943), cette théorie vise à modéliser les observations situées dans les queues des
distributions de probabilité.
Dans la plupart des approches statistiques classiques, l’accent est mis sur le comportement global d’un
échantillon, notamment par l’étude de ses moments (moyenne, variance, etc.). Ces méthodes reposent en grande
partie sur le théorème central limite (TCL), énoncé par Pierre-Simon de Laplace en 1809, qui stipule que la
somme (ou la moyenne) normalisée d’un grand nombre de variables aléatoires indépendantes et identiquement
distribuées converge en loi vers une distribution normale.
Toutefois, le TCL ne donne aucune information sur le comportement des valeurs extrêmes, les plus grandes
ou les plus petites observations qui sont pourtant cruciales dans les situations de risque. Il est donc naturel de
se demander s’il existe un résultat asymptotique analogue au TCL pour les extrêmes d’un échantillon.
Pour cela, on considère un échantillon de variables aléatoires i.i.d. (X1 , X2 , . . . , Xn ), et l’on s’intéresse au
comportement du maximum :
Mn = max{X1 , X2 , . . . , Xn }.
La théorie des valeurs extrêmes cherche à étudier la convergence en loi de Mn (après normalisation éventuelle),
ainsi que les conditions sous lesquelles cette convergence a lieu. Elle permet d’identifier les lois limites possibles
pour les maxima (ou minima), qui sont : la loi de Fréchet, la loi de Gumbel et la loi de Weibull, chacune
correspondant à un type de comportement de la queue de distribution.
Remarque : L’étude du minimum est entièrement analogue, il suffit d’examiner − min(X1 , . . . , Xn ).
La théorie des valeurs extrêmes trouve des applications concrètes dans de nombreux domaines. Elle est utilisée
en :
— Hydrologie, pour prévoir les crues et protéger les zones inondables ;
— Climatologie, pour modéliser les épisodes météorologiques extrêmes ;
— Assurance, pour estimer la probabilité de sinistres rares et coûteux ;
— Finance, pour évaluer les risques extrêmes liés aux variations de marché ;
— Ingénierie, pour garantir la fiabilité des structures face à des sollicitations exceptionnelles.
En fournissant un cadre théorique rigoureux pour l’analyse des queues de distribution, la TVE permet
d’anticiper la fréquence et l’intensité des événements rares, et ainsi d’aider à la prise de décision dans des
contextes à fort enjeu.

2 Les lois de Mn
2.1 Quelques notations
On commence par faire une remarque sur la fonction de repartion de Mn en utilisant le fait que les Xi sont
i.i.d :
En effet, si on note FMn la fonction de repartition de Mn , et FXi la fonction de repartition de Xi on a :

∀t ∈ R FMn (t) = P(Mn < t) = P(X1 < t, ..., Xn < t) = P(X1 < t)n = FX
n
1
(t)

Dans la suite, on notera F (t), la fonction de repartition des Xi .

Mais on rencontre un probleme ici, puisque si n → +∞, F (t)n converge vers 0 (ou 1 si t est la borne sup
du support des Xi ).

L’idée est donc d’introduire 2 suites (bn ) et (an ) (avec an > 0 pour tout n) afin de pouvoir contrôler Mn .

3
Puis étudier la loi de la limite de Mna−b
n
n
. Comme la fonction de repartition caracterise la loi, il nous suffit
d’étudier la fonction G définie pour tout t dans le support des Xi comme :

M n − bn
P < t −−−−−→ G(t)
an n→+∞

Si il existe de tel suite an et bn alors on dit que F est dans le domaine d’attraction de G.

à ce stade la, il nous faut donc trouver les distributions G qui peuvent apparaı̂tre comme limite dans l’équation
ci-dessus.

Pour ce faire, nous allons utiliser le théoreme suivant :

Théorème (méthode de la fonction muette) : Soit Yn une variable aléatoire de fonction de répartition
L
Fn , et soit Y une variable aléatoire de fonction de répartition F . Alors Yn −
→ Y si et seulement si pour toute
fonction z réelle, bornée et continue :
E[z(Yn )] → E[z(Y )].
Mn −bn
En prenant ici Yn = an , on obtient :
∞
M n − bn x − bn
Z
E[z( )] = z( ) n F n−1 (x)dF (x)
an −∞ an

L’astuce ici va être de faire un changement de variable astucieux. On va poser :

1
x = Q(1 − ) = K(y) avec Q la fonction quantile
y

n
Z ∞ x − b Z n K v − bn v n−1
n n−1
Donc, z nF (x) dF (x) = z 1− dv. (1)
−∞ an 0 an n

Rn R +∞
Or, on a limn→∞ (1 − nv )n−1 = e−v , et on a limn→∞ 0
= 0
.

2.2 Paramètre bn
On en déduit une bonne valeur pour bn . En effet,

Mn − bn
P < t −−−−−→ G(t) ∈]0 : 1[
an n→+∞

⇐⇒ F n (an t + bn ) −−−−−→ G(t)

n→+∞

⇐⇒ n ln(F (an t + bn )) −−−−−→ ln(G(t))

n→+∞

ln(1 − x)
⇐⇒ n(−F (an t + bn ) + 1) −−−−−→ ln(G(t)) (car lim = −1)
n→+∞ x→0 x
⇐⇒ n P(X1 > an t + bn ) −−−−−→ −ln(G(t))
n→+∞

On obtient alors pour paramètre d’échelle :

1
nP(X1 > bn ) = 1 ⇐⇒ P(X1 < bn ) = 1 −
n
1
⇐⇒ F (bn ) = 1 −
n
1
bn = Q(1 −
) = K(n)
n
Dans la dernière équivalence, on a composé par la fonction quantile.

4
2.3 Paramètre an
Avec le parametre bn définie au dessus et en posant u = v1 on obtient alors une condition, il faut qu’il existe
une fonction a tel que limx→∞ K(xu)−K(x)
a(x) converge vers une fonction h(u).

Proposition :
Les limites possibles sont données par :
u
uγ − 1
Z
c hγ (u) = c v −γ−1 dv = c . (2)
1 γ
Nous interprétons h0 (u) = log(u) lorsque γ = 0.
Mn −bn
Remarque : On ne veut pas que c = 0, car il conduit à une limite dégénérée pour an . Ensuite, le cas
c > 0 peut être ramené au cas c = 1 en incorporant c dans la fonction a.

Preuve de la Proposition
Soient u, v > 0. Alors :

K(xuv) − K(x) K(xuv) − K(xu) a(xu) K(xu) − K(x)

= + . (2.3)
a(x) a(xu) a(x) a(x)

Si la limite dans F est dans le domaine d’attraction de G (ce qu’on suppose depuis le début), alors le rapport
a(ux)
a(x) converge vers g(u).

De plus,
a(xuv) a(xuv) a(xv)
= .
a(x) a(xv) a(x)
Par passage à la limite pour x, la fonction g satisfait l’équation fonctionnelle de Cauchy :

g(uv) = g(u) g(v).

Les solutions de cette équation sont de la forme g(u) = uγ avec γ un réel.

Donc, on a limx→∞ a(ux) γ
a(x) = x l(x), on dit dans ce cas que a est une fonction à variation régulière.

En réécrivant l’expression (2.3) avec cette convergence, on en déduit que la fonction limite est de la forme

uγ − 1
hγ (u) = c ,
γ

avec la convention h0 (u) = ln u.

Ainsi, nous concluons que
uγ − 1
hγ (u) = (avec h0 (u) = ln u),
γ
□

2.4 Les lois limites

En reprenant (2.3) et en utilisant ce qui précède, on obtient :

K(xuv) − K(x)
lim = uγ h(v) + h(u)
x→∞ a(x)

autrement dit : hγ (uv) = uγ hγ (v) + hγ (u)

On fait alors une disjonction de cas sur la valeur de gamma.

5
2.4.1 Nature du support
En reprenant l’équation (2), on obtient :
1 (1/v)γ − 1 v −γ − 1
hγ = =
v γ γ
v −γ −1
Posons u = γ . On résout alors pour v :

v −γ = 1 + γu =⇒ v = (1 + γu)−1/γ

Le changement de variable de v à u permet de réécrire l’intégrale limite sous la forme

Z n h o
−1/γ
z(u) d exp − (1 + γu) ]
u∈Sγ

ce qui conduit à identifier la loi limite par

n o
−1/γ
Gγ (u) = exp − (1 + γu)

Il reste alors à étudier la nature du support Sγ , mais celui-ci dépend du signe de γ :

2.4.2 Si γ > 0
L’inversion montre que v ∈ [0, 1] correspond à u > − γ1 .

De plus, pour de grandes valeurs x on a :

h −1/γ i
S(x) ≈ exp − 1 + γx

−1/γ
Or, par un développement asymptotique, 1 + γx est proportionnel à x−1/γ pour x grand. On obtient alors

S(x) ≈ exp −C x−1/γ

(pour une constante C > 0).

Par croissance comparé, comme x−1/γ tend vers 0 moins vite que exp(−αx). On a alors :

S(x) ∼ K x−1/γ (pour x → ∞),

ce qui caractérise une queue lourde : la probabilité d’observer des valeurs très grandes est plus élevée que dans
un modèle à décroissance exponentielle.

2.4.3 Si γ < 0
Pour γ < 0, la loi est définie quand :
1
1 + γu > 0 =⇒ u<−
γ

Cela signifie que la distribution a son support dans ] − ∞, − γ1 [

On pose alors xmax = − γ1 .
Par conséquent, la fonction de survie S(x) = 1 − G(x) = 0 pour x ≥ − γ1 .

Autrement dit, il n’y a aucune probabilité d’observer une valeur au-delà de xmax . Dans ce cas, on dit que
la distribution est à queue bornée.

On dit alors que que queue de distribution est bornée.

6
2.4.4 2. Cas γ = 0
Lorsque γ = 0, on a posé h0 (u) = ln u.
Donc, le changement de variable s’adapte :
1 1
u = h0 = ln = − ln v,
v v
ce qui implique
v = e−u .
Le changement de variable transforme alors l’intégrale limite en
Z ∞ n h io
z(u) d exp −e−u ,
−∞

et la loi limite est alors donnée par

n o
G0 (u) = exp −e−u , u ∈ R,

On retrouve ici une queue à décroissance exponentielle, ce qui est caractéristique d’une queue légère : la
probabilité d’observer des valeurs extrêmes est faible.

2.5 Résumé
Les lois limites qui s’imposent dependent d’un parametre γ et sont les suivantes :

— Si γ > 0 (loi de Fréchet) :

n
−1/γ
o 1
Gγ (u) = exp − (1 + γu) , u>− .
γ

— Si γ = 0 (loi de Gumbel) :
G0 (u) = exp −e−u ,

u ∈ R.
— Si γ < 0 (loi de Weibull) :
n
−1/γ
o 1
Gγ (u) = exp − (1 + γu) , u<− .
γ

La loi se généralise pour toute valeur de gamma et on l’appelle GEV (Generalized Extreme Value), et donne :
n −1/γ o
Gµ,σ,γ (x) = exp − 1 + γ u .

7
3 Quelques exemples numériques
Voici maintenant quelques applications numériques sur des lois usuelles de ce que nous avons vu dans cette
section. Pour chacune des représentations suivantes, nous avons simulé 1000 fois chaque loi puis ensuite effectué
10000 simulations pour le maximum afin d’avoir une précision correcte.

3.0.1 Loi uniforme

Pour la loi uniforme sur [0,1], on peut montrer théoriquement que la limite du max est une loi exponentielle de
paramètre 1 (loi de Weibull bien particulière).
Soient U1 , U2 , . . . , Un des variables aléatoires indépendantes et identiquement distribuées selon la loi uniforme
sur [0, 1].
On a, pour x ∈ [0, 1] :

P (Mn ≤ x) = P (U1 ≤ x, . . . , Un ≤ x)
= P (U1 ≤ x)n par indépendance des Ui
= xn

Nous allons maintenant effectuer le changement de variable x = 1 − y/n avec y > 0 pour examiner la queue de
la distribution :

P (Mn ≤ 1 − y/n) = (1 − y/n)n .

Pour n grand, on a : (1 − y/n)n ≈ e−y . Donc, P (Mn ≤ 1 − y/n) ≈ e−y .
Or, par définition, la loi exponentielle de paramètre 1 a pour fonction de répartition : P (Y ≤ y) = 1−e−y , y>
0.
Ainsi, on a donc montré que :

P (n(1 − Mn ) ≤ y) → P (Y ≤ y) = 1 − e−y ,
ce qui établit la convergence en loi :
L
Yn = n(1 − Mn ) −
→ E(1).
Ainsi, on trouve que an = n1 et bn = 1.
Avec notre machine, nous obtenons le graphe suivant :

Remarquons que l’on obtient une loi de Gumbell, ce qui est assez logique au vu du fait que ce soit une loi à
queue très légère (elle n’en a tout simplement pas car son support est borné).

8
3.0.2 Loi exponentielle
Pour une loi exponentielle de paramètre 1, la loi limite est une loi de Gumbel. Théoriquement, on trouve an = 1
et bn = log(n).

Cette fois-ci, on avait une loi à queue fine, et on obtient loi de Gumbel, ce qui était attendu.

3.0.3 Loi normale

Pour maintenant une loi normale centrée-réduite, on peut montrer que la loi limite est encore une fois une loi
de Gumbel. On trouve les paramètres généralisés an = √ 1 et bn = a1n − log(log(n))+log(4∗pi)
√ .
(2∗log(n) 2∗ 2∗log(n)

Notons ainsi que l’on a la même loi limite que pour la loi exponentielle de paramètre 1, les graphes sont quasiment
identiques.

3.0.4 Loi de Cauchy

Enfin, pour une loi de Cauchy (de paramètres 0 et 1 ici), la loi limite est une loi de Fréchet. On a les coefficients
suivants : an = pi et bn = n.

9
Enfin ici, on avait une loi à queue lourde, et on obtient bien la loi de Fréchet attendue.

10
4 Méthodes d’estimation de l’indice de valeurs extrêmes
Dans cette section, nous nous intéressons aux différentes méthodes d’estimation du paramètre γ, intervenant
dans la distribution des valeurs extrêmes généralisée.
D’une part, des approches non paramétriques sont dédiées à l’estimation de l’indice de queue, notamment les
estimateurs de Hill et de Pickands. D’autre part, des méthodes paramétriques ont été développées, parmi les-
quelles la méthode du maximum de vraisemblance, la méthode des moments et les approches bayésiennes.

Définition : On appelle statistique d’ordre la permutation aléatoire de l’échantillon X1 , . . . , Xn , qui ordonne

les valeurs de l’échantillon par ordre croissant :

X(1) ≤ X(2) ≤ · · · ≤ X(n)

Définition : On dit qu’une suite (kn )n≥0 d’entiers est intermédiaire si :
kn
lim kn = ∞ et lim =0
n→∞ nn→∞

Définition : On dit qu’un estimateur γˆn est convergent s’il converge en probabilité vers γ, soit :

lim P (|γˆn − γ| > ϵ) = 0 ∀ϵ > 0

n→∞

4.1 Estimateur de Pickands

L’estimateur de Pickands est construit à partir de trois statistiques d’ordre dans un échantillon. Il constitue
l’un des premiers estimateurs non paramétriques proposés pour estimer l’indice des valeurs extrêmes γ. Son
principal avantage réside dans le fait qu’il est valide quel que soit le domaine d’attraction de la loi sous-jacente :
Fréchet (ξ > 0), Gumbel (ξ = 0) ou Weibull (ξ < 0). Il n’est donc pas restreint à une famille particulière de
distributions et reste applicable dans un cadre très général.
Néanmoins, cet estimateur est connu pour être assez sensible à la taille de l’échantillon, et en particulier
au choix du paramètre intermédiaire k, ce qui peut entraı̂ner une certaine instabilité dans les estimations. Cela
limite parfois sa robustesse, en particulier pour des tailles d’échantillon modestes.
En 1975, Pickands a démontré la consistance faible de son estimateur, c’est-à-dire la convergence en proba-
bilité vers le vrai paramètre lorsque la taille de l’échantillon tend vers l’infini. Plus tard en 1989, Dekkers et de
Haan ont établi la convergence forte ainsi que la normalité asymptotique de cet estimateur sous des conditions
plus générales.
Définition. Soit X1 , . . . , Xn une suite de variables aléatoires i.i.d. de loi F , appartenant à l’un des domaines
d’attraction des lois de valeurs extrêmes. On note X1,n ≤ · · · ≤ Xn,n les statistiques d’ordre croissantes. Soit
(kn )n≥1 une suite intermédiaire telle que kn → ∞ et kn /n → 0, l’estimateur de Pickands est défini par :

1 Xn−k+1,n − Xn−2k+1,n
γ̂k,n = ln
ln(2) Xn−2k+1,n − Xn−4k+1,n

L’estimateur de Pickands repose sur l’idée que, dans les queues d’une distribution extrême, les plus grandes
observations suivent un comportement régulier. En considérant des statistiques d’ordre décroissantes, on peut
approximer la structure de la queue à l’aide de différences successives entre grandes valeurs. L’utilisation d’une
transformation logarithmique permet alors d’isoler l’indice de queue γ, sous des conditions d’attraction à une
loi limite.
Propriété de consistance. Si (kn ) est une suite intermédiaire, alors :
P
γ̂k,n −
→γ lorsque n → ∞.

De plus, sous hypothèses régulières, l’estimateur est asymptotiquement normal :

√ L
→ N (0, σ 2 (γ))
k (γ̂k,n − γ) −

où la variance asymptotique est donnée par :

√
γ 22γ+1 + 1
σ(γ) = .
2(2γ − 1) ln(2)

11
Cette formule théorique permet de construire des intervalles de confiance pour l’estimation de γ, bien qu’en
pratique la variance soit souvent estimée par simulation.
Enfin, une version généralisée de cet estimateur existe, introduisant deux paramètres u, v > 1, permettant
une plus grande flexibilité :
Xn−k+1,n − Xn−[uk]+1,n

1
γ̂(k,u,v) = ln
ln(v) Xn−[vk]+1,n − Xn−[uvk]+1,n

Cette généralisation permet d’ajuster la stabilité de l’estimation. On retrouve l’estimateur de Pickands classique
en prenant u = v = 2.

4.2 Représentation graphique de l’estimateur de Pickands

Afin d’illustrer le comportement de l’estimateur de Pickands dans différents contextes, nous l’appliquons
à des échantillons simulés de taille n = 40 000, issus de quatre lois représentatives : la loi de Pareto, la loi
exponentielle, la loi uniforme sur [0, 1], et la loi de Cauchy. Ces lois permettent de couvrir les trois domaines
d’attraction des lois de valeurs extrêmes, avec des indices théoriques respectifs de queue γ valant 0.5, 0, −1, et
1.
Les figures ci-dessous présentent l’évolution de l’estimateur γ̂k,n en fonction de k, c’est-à-dire du nombre
d’observations extrêmes utilisées dans le calcul. Une ligne rouge horizontale indique la valeur théorique de γ
pour chaque distribution, afin de visualiser la qualité de convergence.

4.2.1 Loi de Pareto (α = 2)

Figure 1 – Estimateur de Pickands pour la distribution de Pareto (shape = 2).

La figure 1 illustre l’estimateur de Pickands appliqué à un échantillon simulé selon une loi de Pareto de
paramètre α = 2, ce qui correspond à un indice de queue γ = 1/α = 0.5. L’estimateur converge clairement
vers cette valeur lorsque k augmente, ce qui confirme la bonne performance de l’estimateur dans le cas d’une
distribution à queue lourde.

12
4.2.2 Loi exponentielle

Figure 2 – Estimateur de Pickands pour la distribution exponentielle.

Dans la figure 2, on observe que l’estimateur de Pickands reste proche de zéro, en accord avec l’indice
théorique γ = 0 de la loi exponentielle. Ce résultat est cohérent avec le fait que cette loi appartient au domaine
d’attraction de Gumbel.

13
4.2.3 Loi uniforme [0, 1]

Figure 3 – Estimateur de Pickands pour la distribution uniforme sur [0, 1].

Comme le montre la figure 3, l’estimateur décroı̂t vers γ = −1, valeur attendue pour la loi uniforme qui
possède une queue bornée. La plus grande instabilité observée est due au fait que cette loi n’a pas de queue
lourde, ce qui affecte la stabilité de l’estimation.

14
4.2.4 Loi de Cauchy

Figure 4 – Estimateur de Pickands pour la distribution de Cauchy.

La figure 4 présente l’estimateur de Pickands appliqué à un échantillon de loi de Cauchy. Cette loi est
caractérisée par une queue extrêmement lourde et appartient au domaine d’attraction de Fréchet, avec un
indice de queue théorique γ = 1.
Le comportement de l’estimateur est ici particulièrement intéressant. Pour les faibles valeurs de k, l’estima-
teur est très instable, ce qui est attendu compte tenu de la nature explosive des grandes valeurs dans une loi de
Cauchy. À partir d’un certain seuil (environ k = 500), une phase de stabilisation est visible, avec une estimation
qui reste relativement proche de la valeur attendue.
Cependant, on note qu’au-delà de k ≈ 4000, l’estimateur décroı̂t significativement. Cela s’explique par le
fait que l’inclusion d’observations moins extrêmes perturbe la qualité de l’estimation. Ainsi, le cas de la Cauchy
montre bien les limites pratiques de l’estimateur, malgré sa validité théorique.

4.2.5 Synthèse
Ces représentations graphiques montrent que l’estimateur de Pickands parvient globalement à capturer
l’indice de queue γ pour différentes familles de distributions. Il converge correctement pour les cas classiques
(Pareto, exponentielle), mais présente une instabilité accrue pour les queues bornées ou très lourdes. Ces résultats
illustrent à la fois les points forts et les limites de l’estimateur, notamment sa sensibilité au choix de k.

4.3 Construction de l’estimateur de Pickands

Proposition : (Caractérisations de D(Hγ ))
Pour γ ∈ R, les affirmations suivantes sont équivalentes.
(a) F ∈ D(Hγ )
(b) Pour une certaine fonction positive c(t) = a 1t :

( γ
x −1
U (tx) − U (t) γ si γ ̸= 0,
lim = pour x > 0.
t→0 c(t) log(x) si γ = 0,

15
La dernière affirmation est équivalente à :
xγ −1
(
U (sx) − U (s) y γ −1 si γ ̸= 0,
lim = log(x)
s→0 U (sy) − U (s) si γ = 0.
log(y)

pour x, y > 0 et y ̸= 1.

Lemme A : Soit X1 , . . . , Xn des variables aléatoires indépendantes et de fonction de répartition F . Soit

U1 , . . . , Un des variables aléatoires indépendantes de loi uniforme [0, 1]. Alors F −1 (U1,n ), . . . , F −1 (Un,n ) a même
loi que (X1,n , . . . , Xn,n )
Preuve de la construction de l’estimateur de Pickands :
On déduit de la proposition précédente que pour γ ∈ R et α on a avec le choix t = 2s, x = 2 et y = 12 ,

U (t) − U (t/2)
lim = 2γ .
t→∞ U (t/2) − U (t/4)
En fait, en utilisant la croissance de U qui se déduit de la croissance de F , on obtient
U (t) − U (tc1 (t))
lim = 2γ
t→∞ U (tc1 (t)) − U (tc2 (t))

dès que limt→∞ c1 (t) = 21 et limt→∞ c2 (t) = 14 . Il reste donc à trouver des estimateurs pour U (t).
Soit k(n), n ≥ 1 une suite d’entiers telle que 1 ≤ k(n) ≤ n4 et limn→∞ k(n) n = 0 et limn→∞ k(n) = ∞.
Soit (V1,n , . . . , Vn,n ) la statistique d’ordre d’un échantillon de variables aléatoires indépendantes de loi de
Pareto. On note FV (x) = 1 − x−1 , x ≥ 1.
On déduit avec certains résultats de bases liés à (V1,n , . . . , Vn,n ) que les suites
k 2k 4k
Vn−k+1,n , Vn−2k+1,n , Vn−4k+1,n
n n n
pour n ≥ 1 convergent en probabilité vers 1.
On en déduit en particulier, les convergences en probabilité suivantes :
Vn−2k+1,n 1 Vn−4k+1,n 1
Vn−k+1,n → ∞, → , → .
Vn−k+1,n 2 Vn−k+1,n 4
Donc la convergence suivante a lieu en probabilité :
U (Vn−k+1,n ) − U (Vn−2k+1,n )
→ 2γ .
U (Vn−2k+1,n ) − U (Vn−4k+1,n )

Remarquons que si x ≥ 1, alors U (x) = F −1 (FV (x)). On a donc

(U (V1,n ), . . . , U (Vn,n )) = (F −1 (FV (V1,n )), . . . , F −1 (FV (Vn,n ))).

Or FV est la fonction de répartition de la loi de Pareto.

On déduit de la croissance de FV que (F −1 (FV (V1,n )), . . . , F −1 (FV (Vn,n ))) a la même loi qu’une suite de n
variables aléatoires uniformes sur [0, 1] indépendantes.
On déduit du lemme A que le vecteur aléatoire (F −1 (FV (V1,n )), . . . , F −1 (FV (Vn,n ))) a la même loi que
(X1 , . . . , Xn ).
U (Vn−k+1,n )−U (Vn−2k+1,n )
Donc la variable aléatoire U (Vn−k+1,n )−U (Vn−4k+1,n ) a la même loi que :

Xn−k+1,n − Xn−2k+1,n
Xn−k+1,n − Xn−4k+1,n
Ainsi cette quantité converge en loi vers 2γ quand n tend vers l’infini.

4.4 Estimateur de Hill

Cet estimateur a été introduit par Hill en 1975 dans le but d’estimer, de manière non paramétrique, le
paramètre de queue des lois appartenant au domaine d’attraction de Fréchet. Il offre une estimation de l’indice
de queue généralement plus efficace que celle fournie par l’estimateur de Pickands. La construction de cet
estimateur repose sur l’utilisation des kn plus grandes statistiques d’ordre de l’échantillon.

16
5 La construction de l’estimateur de Hill
Soient αn et βn deux suites de nombres positifs, la construction de l’estimateur de Hill basée sur la relation
suivante :
γ
αn
qβn ≃ qαn . (1.6)
βn
Passons au logarithme dans l’équation (1.6), ce qui donne :

αn
log(qβn ) − log(qαn ) ≃ γ log .
βn
On choisit αn = kn /n et on considère plusieurs valeurs pour βn , βn = i/n avec i = 1, . . . , kn − 1 tout en
ayant βn < αn . On obtient alors :

log(qi/n ) − log(qkn /n ) ≃ γ log(kn /i).

Ainsi, en estimant les quantiles par leurs équivalents empiriques, on obtient :

log(Xn−i+1,n ) − log(Xn−kn +1,n ) ≃ γ log(kn /i).

En sommant de part et d’autre sur i = 1, . . . , kn − 1, on obtient :
n −1
kX
log(Xn−i+1,n ) − log(Xn−kn +1,n )
i=1
γ= .
n −1
kX
log(kn /i)
i=1

Le dénominateur se réécrit log(knkn −1 /(kn − 1)!). En utilisant la formule de Stirling, il est équivalent à kn au
voisinage de l’infini. On obtient alors l’estimateur de Hill.
Soit (kn )n≥1 une suite d’entiers avec 1 ≤ kn ≤ n, l’estimateur de Hill est défini par :
n −1
kX
1
γ̂kHn = log(Xn−i+1,n ) − log(Xn−kn +1,n ).
kn − 1 i=1

L’estimateur de Hill satisfait la propriété de consistance faible. Plus précisément, si (kn )n≥1 est une suite
intermédiaire, alors l’estimateur γ̂kHn converge en probabilité vers le paramètre de queue γ, c’est-à-dire :

P
γ̂kHn −
→ γ.

5.1 Le choix du nombre de statistiques d’ordre

Dans la pratique, déterminer une valeur appropriée pour le paramètre kn , c’est-à-dire le nombre de plus
grandes observations à retenir, constitue une étape délicate. Il faut en effet trouver un compromis entre la
variance et le biais : utiliser suffisamment de données pour obtenir une estimation fiable, tout en s’assurant que
ces données proviennent bien de la queue de la distribution. Diverses approches ont été développées dans la
littérature pour guider ce choix.

5.2 Comportement empirique de l’estimateur de Hill

Nous présentons ci-dessous des représentations graphiques de l’estimateur de Hill appliqué à des échantillons
de taille n = 40000 générés à partir de quatre lois différentes : Pareto, exponentielle, uniforme et Cauchy. Pour
chacune d’elles, nous comparons les valeurs estimées de l’indice de queue γ à leur valeur théorique.

17
Figure 5 – Estimateur de Hill — Loi de Pareto (γ = 0,5)

Loi de Pareto : Dans ce cas, la loi suit un comportement de queue lourde avec un indice théorique γ = 0.5,
ce qui correspond parfaitement aux hypothèses de l’estimateur de Hill. Comme le montre la Figure, l’estimation
converge de manière satisfaisante vers la valeur théorique pour un intervalle raisonnable de seuils k. On observe
une certaine instabilité pour les petites valeurs de k, mais une fois la courbe stabilisée, elle oscille autour de la
vraie valeur. Ce comportement valide l’efficacité de l’estimateur dans ce cadre.

Figure 6 – Estimateur de Hill — Loi exponentielle (γ = 0)

Loi exponentielle : La loi exponentielle appartient au domaine de Gumbel, avec un indice de queue γ = 0.
L’estimateur de Hill n’est pas adapté à ce domaine. Le graphique le confirme clairement : la courbe estimée
commence avec des valeurs très élevées, puis décroı̂t lentement sans jamais converger vers la valeur théorique
nulle. L’absence de convergence met en évidence l’inadéquation de l’estimateur dans ce contexte.

18
Figure 7 – Estimateur de Hill — Loi uniforme (γ = −1)

Loi uniforme : Cette loi présente une queue bornée, avec un indice γ = −1, ce qui sort du domaine d’ap-
plication de Hill. L’estimateur suppose en effet que γ > 0. Le graphique montre une estimation extrêmement
instable, avec des valeurs incohérentes, souvent très grandes ou très faibles, indiquant que le modèle n’est pas
du tout approprié à ce type de données.

Figure 8 – Estimateur de Hill — Loi de Cauchy (γ = 1)

Loi de Cauchy : La distribution de Cauchy, avec un indice γ = 1, est dans le domaine de Fréchet, donc en
principe bien adaptée à l’estimateur de Hill. Le graphique montre une bonne estimation dans les faibles valeurs
de k, la courbe noire se stabilisant autour de la valeur théorique. Cependant, dès que k devient trop grand,
l’estimation chute fortement, trahissant un biais introduit par l’inclusion d’observations moins extrêmes. Ce
phénomène illustre la sensibilité de l’estimateur au choix du seuil k.
En résumé, ces observations soulignent la pertinence de l’estimateur de Hill pour les lois à queue lourde
(Pareto, Cauchy), et son inadéquation manifeste pour les lois à queue légère ou bornée (exponentielle, uniforme).
Le choix judicieux du paramètre k demeure également crucial pour obtenir une estimation fiable.

19
6 Méthode des maxima par blocs
L’approche des maxima par blocs (en anglais Blocks Maxima) consiste à diviser les N observations en n blocs
de taille k. Concrètement, la suite X1 , ..., Xn est divisée en N blocs, le premier bloc est X1 , ..., Xk , le second
Xk+1 , ..., X2k , etc. On obtient ainsi une suite de maxima M1 , ..., Mn définis sur chacun des blocs.
En général, on considère une période temporelle, comme une journée ou bien une année pour refléter le sens des
observations.
On peut alors déterminer la loi limite des maxima, en vertu du théorème de Fisher-Tippett-Gnedenko c’est une
distribution GEV classique de la forme :
n −1/γ o
Gµ,σ,γ (x) = exp − 1 + γ u .

De la même manière que ce que l’on avait sans les blocs, il faut alors déterminer les valeurs des paramètres en
les approximant par des méthodes comme le maximum de vraisemblance. Des auteurs comme Ferreira et de
Haan (2006 et 2015) ont alors démontré l’existence d’estimateurs pertinents pour cette méthode, nommés PWM
(pour ”probability weighted moment”). Pour les définir, on part de la statistique suivante, soient X1,k , ..., Xk,k
les observations ordonnées du bloc X1 , ..., Xk , on définit :
k
1 X (i − 1)...(i − r)
βr = Xi,k pour r = 1, 2, 3, ..., k > r
k i=1 (k − 1)...(k − r)

A partir de βr , on peut ensuite définir les trois estimateurs PVM suivants pour γ, an et bn qui possèdent de
bonnes propriétés asymptotiques sous certaines conditions (Γ est la fonction gamma bien connue).
3γ̂k,m −1 3β2 −β0
Pour γ : γ̂k,m est solution de 2γ̂k,m −1 = 2β1 −β0
γ̂k,m 2β1 −β0
Pour an : âk,m = 2γ̂k,m −1 · Γ(1−γ̂k,m )
1−Γ(1−γ̂k,m )
Pour bn : b̂k,m = β0 + âk,m · γ̂k,m

Sous certaines conditions, on peut enfin démontrer que les quantiles élevés sont facilement estimables par cette
méthode. On a ainsi : √
k X̂k,m − Xn d γ−
→ ∆ + (γ − )2 B − γ − Λ − λ −
−
an qγ (cn ) γ +ρ
où :
— X̂k,m est l’estimateur du quantile extrême
— Xn est le vrai quantile à estimer
— an est le paramètre d’échelle
— ∆, Λ, λ sont des paramètres issus de la théorie asymptotique de Ferreira et de Haan (2015)
— B est un pont brownien Rt
— qγ (cn ) est une fonction définie par qγ (t) = 1 sγ−1 log s ds
— γ − = min(0, γ)

Cette approche possède tout de même un défaut car lorsque l’on prend le maximum sur un bloc, on fait
potentiellement disparaı̂tre des valeurs élevées, on perd des données intéressantes.

7 Méthode des excès

La méthode des excès, également appelée approche par dépassement de seuil (en anglais Peaks Over Thre-
shold, ou POT), a été introduite par Pickands en 1975. Elle constitue une alternative à l’approche classique par
blocs pour modéliser les phénomènes extrêmes.
Le principe est de ne conserver que les observations excédant un seuil élevé u. Si ce seuil est bien choisi
(suffisamment grand), la distribution des excès définis par :

Yi = Xi − u pour Xi > u

peut être approximée par une distribution de Pareto généralisée (GPD).

20
Cette approche repose sur un résultat fondamental de Balkema et de Haan (1974), et de Pickands (1975),
selon lequel, pour une grande classe de lois de probabilité F , la loi des excès conditionnels au-delà d’un seuil
élevé converge vers une loi de Pareto généralisée lorsque le seuil u tend vers la borne supérieure de F .
Formellement, on considère une suite de variables aléatoires i.i.d. X1 , . . . , Xn de fonction de répartition F ,
et xF le point terminal de F . Pour tout seuil u < xF , on définit la fonction de répartition des excès par :

F (x + u) − F (u)
Fu (x) := P(X − u ≤ x | X > u) = , pour 0 ≤ x ≤ xF − u.
1 − F (u)
Et sa version en fonction de survie :
F (x + u)
F u (x) := P(X − u > x | X > u) = .
F (u)

Lorsque le seuil u est suffisamment élevé, Fu peut être bien approchée par une distribution de Pareto
généralisée Gγ,β(u) , définie comme suit :

7.1 Loi de Pareto généralisée (GPD)

La fonction de répartition de la GPD est donnée par :
 −1/γ
γy
1 − 1 + , si γ ̸= 0,


Gγ,β (y) = β
y
1 − exp −

 , si γ = 0,
β
avec y ≥ 0, sous la condition 1 + γy/β > 0. Le paramètre β > 0 représente l’échelle et γ le paramètre de forme
(indice de queue).
Exemple (cas exponentiel).
Soit F (x) = 1 − e−x la loi exponentielle standard. On a pour tout y > 0 :

e−(u+y)
P(X − u > y | X > u) = = e−y .
e−u
On retrouve donc une loi exponentielle, qui correspond à une GPD avec γ = 0 et β = 1. Cela montre que
l’exponentielle est un cas particulier de GPD.

7.2 Théorème de Balkema–de Haan–Pickands

Le résultat central qui justifie l’utilisation de la GPD pour modéliser les excès est le suivant :
Soit F une fonction de répartition appartenant au domaine d’attraction d’une loi de valeur extrême
Hγ . Alors, lorsque u → xF , il existe une fonction β(u) telle que :

sup Fu (x) − Gγ,β(u) (x) → 0.

0≤x≤xF −u

Autrement dit, plus le seuil u est élevé, plus la loi des excès au-dessus de ce seuil est bien approchée par une
GPD.
Cette propriété est essentielle en statistique des valeurs extrêmes, car elle permet d’exploiter pleinement les
données situées dans les queues de distribution, sans se limiter au maximum d’un bloc.

21
8 Application sur des données réelles
Afin d’illustrer les méthodes d’estimation de l’indice de valeurs extrêmes, nous allons appliquer ces techniques
sur des données réelles. Nous allons utiliser les données du package ismev de R. Plus précisément wooster et
rain. Wooster contient les données de température minimale (en Fahrenheit) annuelle à Wooster de 1983 à 1988.
Tandis que Rain contient les données de pluie journalière dans en Angleterre de 1914 à 1962.
Nous allons utiliser deux méthodes d’estimation sur les paramètres an , bn et γ afin de d’estimer la valeur
extrême.

8.1 Méthode de dépassement de seuil

8.1.1 Principe
Cette méthode consiste à fixer un seuil u et de considérer les données qui dépassent ce seuil. C’est à dire Xi
tel que Xi > u. Ensuite, on stocke les excès Xi − u. Cela nous donne un jeu de données positifs. La clé de cette
méthode est que pour un seuil u bien choisi, les excès suivent une loi de Pareto de paramètres σ (échelle) et γ
(le gamma qu’on estime dans toute la théorie). C’est alors qu’on ajuste les paramètres σ et γ par maximum de
vraisemblance.

8.1.2 Application sur les données de Rain

L’objectif sur ces données est de savoir s’il existe (et le cas échéant de le calculer) un seuil tel que les pluies
ne puissent pas dépasser. Chercher cette valeur seuil serait utile en agriculture par exemple pour savoir si les
pluies ne sont pas trop élevées pour les cultures.

On remarque dans un premier temps que les données sont concentrées autour de 0 mais qu’elles sont ca-
pables de prendre des valeurs très élevées jusqu’à 90. Il est alors raisonnable de penser qu’après estimation, on
va obtenir une valeur de gamma positive ou nulle. En effet, il n’apparait pas de cassure dans la distribution des
données. De plus, les données prennent des valeurs grandes mais perdent rapidement en densité pour celle-ci.
Ce qui suggèrerait une valeur de gamma proche de 0.

Après estimation numérique, on obtient : σ = 7.94 et γ = 0.034.

Une valeur de gamma aussi proche de 0 doit nous conduire à une étude plus approfondie. Plusieurs méthodes

22
s’offrent à nous pour améliorer l’estimation de gamma.

1) On peut faire varier le seuil u et juger de l’impact sur l’estimation de gamma.

2) On peut chercher les valeurs des paramêtres via une autre méthode (présentée plus bas).

3) Ou alors de façon plus arbitraire, on peut considérer la valeur de gamma en fonction du type de donnée
qu’on étudie et de la cohérence que cela apporte.

Pour notre exemple, on considère que γ > 0.

8.1.3 Estimation de γ plus approfondie

On assume que γ > 0 et on va estimer la valeur de γ via l’estimateur de Hill. En effet, comme on s’attend
à avoir une valeur de γ positive ou nul apres avoir fait une première estimation, on peut estimmer γ avec
l’estimateur de Hill. De plus, cela concorde avec la nature des données.

En traçant le Hill-plot, on obtient :

Dans un tel graphique, on cherche un ou des plateaux, c’est-à-dire un intervalle sur lequel la courbe noire
est horizontale et stable, et idéalement à l’intérieur des bandes de confiance rouges.
On remarque notament que pour k entre 50 et 200 on a un plateau mais aussi pour k entre 400 et 600. On
essaye de trouver un juste milieu entre biais et variance.

23
Ainsi, pour k = 125, on obtient γ̂ = 0.204.
Pour k = 500, on obtient γ̂ = 0.388.

8.1.4 synthèse sur la méthode de dépassement de seuil

Pour Hill marche pas ? Sans doute parce que avoir un gamma trop proche de 0 est pas bon.

8.2 Méthode des maxima en bloc

8.2.1 Principe
La première étape consiste à subdiviser nos données en blocs de taille k et de calculer le maximum sur
chaque bloc. Le paramètre k est choisit en fonction de l’interprétation des données. (par exemple, si on a des
données journalières, on peut choisir k = 365 pour avoir des maximums annuels). Ensuite, pour chaque bloc on
calcule le maximum. Cela nous donne une suite de maximum. Une fois les maximums obtenus, on estime an ,bn
et γ en utilisant la méthode du maximum de vraisemblance.
Afin de comparer les deux méthodes et de se conforter aux valeurs estimmer, on va utiliser les mêmes données
que précédemment.

8.2.2 Application sur les données de Rain

Les données étant journalières, on va choisir des blocs de taille 365, comme les données vont de 1914 à 1962,
on se retrouve avec 48 blocs de 365 jours.

Via le package evd, on obtient avec la fonction fgev les paramètres suivants :
µ = 40.8, σ = 9.73 et γ = 0.107.
L’estimation des paramètres sont calculées par l’algorithme de Nelder-Mead (voir annexe). On peut pousser
l’estimation des paramètres notamment γ via la méthode de Hill afin d’avoir une valeur plus précise. D’autant
plus que dans le cas de la méthode par depassement de seuil, on a vu que la valeur de γ était aussi positive.
Cela nous conforte dans l’idée d’une valeur de gamma positive.

24
Le graphique ci-dessus montre la distribution de Frechet en blue avec les paramètres estimés superposant
l’histogramme des maximums par année.

On suppose alors que γ > 0, donc il n’existe pas de valeur maximale finie : la probabilité de très gros maxima
décroı̂t lentement, selon un comportement polynomial plutôt que exponentiel ce qui est embettant dans le cas
pratique surtout quand on cherche des seuils rarement atteints.

8.2.3 quantile de retour

On peut néamoins donner une valeur ”seuil” qui nous assurerait que la probabilité de dépasser cette valeur
est très faible.
On introduit alors le quantile de retour. On pose zT la valeur que l’on dépasse en moyenne une fois tous les
T ans.
Dans notre cas, on a intérêt à prendre une grande valeur pour T pour être sûr de dépasser cette valeur que
rarement. Prenons pour la suite T = 100.
En particulier, zt est solution de l’équation suivante :
1
P M ≤ zT = Gµ,σ,γ (zT ) = 1 − ,
T
où Gµ,σ,γ est la fonction de répartition de la GEV. En résolvant cette équation que l’on admet, on obtient
σh
 i
µ +
 (− ln(1 − 1/T ))−γ − 1 , γ ̸= 0,
zT = γ
µ − σ ln − ln(1 − 1/T ),

γ = 0.

Dans notre cas, on obtient alors : zt = 98.636. C’est à dire que la probabilité de dépasser cette valeur est de
1/100.
Autrement dit, une fois tous les 100 ans, on peut s’attendre à avoir une pluie de plus de 98.636 mm.

8.2.4 synthèse sur la méthode des maxima en bloc

Quand on dispose des données sur une longue période, la méthode des maxima en bloc est efficace. D’autant
plus quand on a des données temporelles (journalières, mensuelles, annuelles). En revanche, elle est moins
efficace que la méthode de dépassement de seuil car elle utilise moins de données. En effet, on ne garde que les
maximums et on perd donc une partie des données qui peuvent etre consequents en fonction du choix de k.

25
9 Annexe
9.1 Méthode de Nelder-Mead
Le package ”evd”, que nous avons utilisé pour réaliser les méthodes de dépassement de seuil et des maxima en
bloc, utilise l’algorithme de Nelder-Mead pour calculer les paramètres de la fonction limite et ainsi savoir dans
quel cas où se trouve : Fréchet, Gumbel ou Weibull.

Nelder-Mead est un algorithme d’optimisation non linéaire, il consiste en la chose suivante dans le cadre des
valeurs extrêmes :
— Etape 1 : on commence par choisir 3 premiers points x1 , x2 , x3 par une rapide estimation des paramètres
σ, µ et γ de nos données. Ce seront nos points de départs de l’algorithme et ils définissent notre premier
simplexe (triangle ici) dans R2 .
— Etape 2 : on calcule ensuite la valeur de la fonction en ces 3 points : f est la fonction GEV généralisée
(à définir plus précisément) et on les trie par valeurs décroissantes.
— Etape 3 : on cherche le centre de gravité x0 de nos premiers points : x0 = x1 +x32 +x3 .
— Etape 4 : on fait ensuite une réflexion en calculant xr = x0 +α(x0 −x3 ) où α > 0 est appelé le coefficient
de réflexion
— Etape 5 : si f (x1 ) ≤ f (xr ) ≤ f (x3 ) : on remplace x3 par xr et on retourne à l’étape 2.
— Etape 6 : si f (xr ) ≤ f (x1 ) : on procède à une expansion du simplexe, on calcule x3 = x0 + γ(xr − x0 )
où γ > 1. Si f (xe ) ≤ f (xr ), on remplace x3 par xe sinon on remplace x3 par xr et on retourne à l’étape
2
— Etape 7 : si f (xr ) ≥ f (x3 ) : on procède à une contraction du simplexe, on cherche xc = x0 + ρ(x3 − x0 )
où 0 < ρ < 0.5 . Si f (xc ) ≤ f (x3 ), on remplace x3 par xc et on retourne à l’étape 2, sinon on continue
jusqu’à l’étape 8.
— Etape 8 : on effectue une homothétie de rapport ω et de centre x1 : on remplace ainsi xi par x1 +ω(xi −x1 )
où 0 < ω < 1et on retourne à l’étape 2 q
Pn+1 (fi −f¯)2 Pn+1
On répète cela jusqu’à atteinte du critère d’arrêt, en général : i=1 n < ϵ où f¯ = n+1
1
i=1 fi et ϵ est
un réel proche de 0.

9.2 Codes R
Voici un exemple de code R utilisé dans la première section :
1 # Param è tres
2 n <- 1000 # Taille de l ’ é chantillon pour la simulation des lois uniformes
3 N <- 10000 # Nombre de simulations pour le maximum
4
5 # Simulation des maxima de lois uniformes (0 ,1)
6 set . seed (123) # fixation de l ’ al é a
7 M _ n <- replicate (N , max ( runif ( n ) ) ) # M _ n = max / X _ n = runif
8
9 # Normalisation pour observer la convergence
10 Y _ n <- n * (1 - M _ n )
11
12 # Histogramme des valeurs transform é es
13 hist ( Y _n , breaks = 50 , probability = TRUE ,
14 col = " lightblue " , border = " white " , ylab = " Densit é " ,
15 xlab = expression ( Y _ n ) , main = " Max ␣ de ␣ 1000 ␣ lois ␣ uniformes " )
16
17 # Densit é th é orique de la loi exponentielle ( param è tre = 1)
18 curve ( dexp (x , rate = 1) , col = " red " , lwd = 2 , add = TRUE )
19
20 # L é gende
21 legend ( " topright " , legend = c ( " Simulation " , " Densit é ␣ th é orique ␣ : ␣ exp (1) " ) ,
22 fill = c ( " lightblue " , NA ) , border = c ( " white " , NA ) ,
23 lty = c ( NA , 1) , col = c ( NA , " red " ) , lwd = c ( NA , 2) )

1 # # # # # # # # # # # # # # # # # # # # CODE POUR WOOSTER # # # # # # # # # # # # # # # # # # # #

2 library ( ismev )
3 library ( evd )
4 data ( " wooster " )
5
6 gev _ fit <- fgev ( wooster )

26
7
8 mu <- as . numeric ( gev _ fit $ param [1])
9 sigma <- as . numeric ( gev _ fit $ param [2])
10 gamma <- as . numeric ( gev _ fit $ param [3])
11
12 # estimation de gamma avec pickands ( juste pour comparer )
13
14 x <- sort ( wooster )
15 n <- length ( x )
16 k <- floor (0.1 * length ( wooster ) )
17 X1 <- x [ n - k + 1]
18 X2 <- x [ n - 2 * k + 1]
19 X3 <- x [ n - 4 * k + 1]
20 pickands _ est <- (1 / log (2) ) * log (( X1 - X2 ) / ( X2 - X3 ) )
21 print ( pickands _ est )
22
23
24 # gamma est < 0 donc on calcule la borne max
25 x _ max <- mu - sigma / gamma
26
27 # D é finir la densit é de la loi ( pour gamma < 0)
28 dgev <- function (x , mu , sigma , gamma ) {
29 t <- 1 + gamma * (( x - mu ) / sigma )
30 dens <- ifelse ( t > 0 ,
31 (1 / sigma ) * t ^( -1 / gamma - 1) * exp ( - t ^( -1 / gamma ) ) ,
32 0)
33 return ( dens )
34 }
35
36 xseq <- seq ( min ( wooster ) , max ( wooster ) , length . out = 200)
37
38 # PLOT
39
40 hist ( wooster , main = " Histogram ␣ de ␣ wooster " , breaks = 60 , probability = TRUE , col = "
lightgray " )
41
42 lines ( xseq , dgev ( xseq , mu , sigma , gamma ) , col = " blue " , lwd = 2)
43
44
45 abline ( v = x _ max , col = " red " , lwd = 2 , lty = 2)
46 legend ( " topright " , legend = paste ( " x _ max ␣ = " , round ( x _ max , 2) ) , col = " red " , lwd = 2 ,
lty = 2)
47
48 # plot plus d é taill é
49 plot ( gev _ fit )

1 # # # # # # # # # # # # # # # # # # # # CODE POUR RAIN # # # # # # # # # # # # # # # # # # # #

2 library ( ismev )
3 library ( evd )
4 data ( rain )
5 rain _ data <- rain
6
7 # seuil
8 threshold <- quantile ( rain _ data , probs = 0.95)
9 gpd _ result <- gpd . fit ( rain _ data , threshold )
10
11 # on stocke la parametre d ’ é chelle et de forme
12 sigma <- gpd _ result $ mle [1]
13 gamma <- gpd _ result $ mle [2]
14 SE <- gpd _ result $ se [2]
15 IC <- c ( gamma - 1.96 * SE , gamma + 1.96 * SE ) # contient 0 ( oups )
16
17
18 # On code la fonction de pareto g é n é ralis é e parametre echel sigma et de forme gamma
19 pareto <- function (x , gamma , sigma ) {
20 if ( gamma == 0) {
21 return (1 / sigma * exp ( - x / sigma ) )
22 } else {
23 return (1 / sigma * (1 + gamma * x / sigma ) ^( -1 / gamma - 1) )
24 }
25 }
26
27 # on trace l ’ histogramme des donn é es
28 hist ( rain _ data , breaks = 50 , freq = FALSE , main = " Rain " )

27
29
30 # on trace l ’ histogramme des donn é es en exc é s par rapport au seuil et la loi de pareto
31 hist ( rain _ data [ rain _ data > threshold ] - threshold , breaks = 50 , freq = FALSE , main = "
Rain ␣ Excesses ␣ et ␣ densit é ␣ de ␣ Pareto " )
32
33 # on trace la loi de gpd avec les param è tres estim é s
34 xseq <- seq ( min ( rain ) , max ( rain ) , length . out = 200)
35 lines ( xseq , pareto ( xseq , gamma , sigma ) , col = ’ red ’ , lwd =2)
36
37
38
39 # pour le qq - plot et residus
40 gpd . diag ( gpd _ result )

Vous aimerez peut-être aussi

Poly de Cours Proba
Pas encore d'évaluation
Poly de Cours Proba
82 pages
Cours de Statistique Asymptotique
Pas encore d'évaluation
Cours de Statistique Asymptotique
56 pages
Cours de Statistique Mathématique 2023
Pas encore d'évaluation
Cours de Statistique Mathématique 2023
74 pages
M.Mat - PS. 03-18
Pas encore d'évaluation
M.Mat - PS. 03-18
81 pages
Statistiques pour Étudiants en Licence
Pas encore d'évaluation
Statistiques pour Étudiants en Licence
148 pages
Statistiques Fondamentales
100% (1)
Statistiques Fondamentales
98 pages
Estimation Statistique et Lois de Probabilité
Pas encore d'évaluation
Estimation Statistique et Lois de Probabilité
51 pages
Tssi0 Dvi
Pas encore d'évaluation
Tssi0 Dvi
125 pages
STAT XPoly - Marchoffman
Pas encore d'évaluation
STAT XPoly - Marchoffman
225 pages
Rammah2 PDF
Pas encore d'évaluation
Rammah2 PDF
225 pages
7H55 Le 20 Avril 2020
Pas encore d'évaluation
7H55 Le 20 Avril 2020
26 pages
Statistique Inferentielle Licence 2
Pas encore d'évaluation
Statistique Inferentielle Licence 2
75 pages
(Mathématiques) (Cours) (FR) Probabilités Et Statistiques
100% (1)
(Mathématiques) (Cours) (FR) Probabilités Et Statistiques
162 pages
MethodesNumeriques EricGoncalves
Pas encore d'évaluation
MethodesNumeriques EricGoncalves
99 pages
Diallo Sane
Pas encore d'évaluation
Diallo Sane
29 pages
Statistique Inferentielle L 2
Pas encore d'évaluation
Statistique Inferentielle L 2
55 pages
Analyse Num Erique 2 m2180
100% (1)
Analyse Num Erique 2 m2180
205 pages
Polyconcentration
Pas encore d'évaluation
Polyconcentration
75 pages
Simulation de Lois avec Scilab
Pas encore d'évaluation
Simulation de Lois avec Scilab
45 pages
Stabilite de Lois
Pas encore d'évaluation
Stabilite de Lois
70 pages
Statistique Inférentielle Avancée
Pas encore d'évaluation
Statistique Inférentielle Avancée
135 pages
Param
Pas encore d'évaluation
Param
145 pages
Gauss M2
Pas encore d'évaluation
Gauss M2
73 pages
Gauss M2
Pas encore d'évaluation
Gauss M2
73 pages
CMESIREM
Pas encore d'évaluation
CMESIREM
128 pages
Statistique
Pas encore d'évaluation
Statistique
175 pages
Cours de Probabilités: Théorie et Exercices
100% (1)
Cours de Probabilités: Théorie et Exercices
103 pages
Agreg Proba VM
Pas encore d'évaluation
Agreg Proba VM
35 pages
Stat 2e An Reserve
Pas encore d'évaluation
Stat 2e An Reserve
48 pages
Probas Stats1
100% (1)
Probas Stats1
70 pages
Dra Probal3m1
100% (1)
Dra Probal3m1
333 pages
Probabilité Cours
Pas encore d'évaluation
Probabilité Cours
57 pages
Slides TAO
Pas encore d'évaluation
Slides TAO
48 pages
MAT2720 Papier
Pas encore d'évaluation
MAT2720 Papier
196 pages
Principes de Statistique Inférentielle
Pas encore d'évaluation
Principes de Statistique Inférentielle
145 pages
Ensait Stats
Pas encore d'évaluation
Ensait Stats
49 pages
Les Leçons de Mathématiques À L'oral Du CAPES - Session 2013
100% (2)
Les Leçons de Mathématiques À L'oral Du CAPES - Session 2013
765 pages
Leçons de mathématiques CAPES 2013
100% (1)
Leçons de mathématiques CAPES 2013
765 pages
Théorie des Valeurs Extrêmes et Risques
Pas encore d'évaluation
Théorie des Valeurs Extrêmes et Risques
103 pages
Modaleat
Pas encore d'évaluation
Modaleat
39 pages
Poly
Pas encore d'évaluation
Poly
127 pages
livreMathsIng 09
Pas encore d'évaluation
livreMathsIng 09
391 pages
LNF 0 (Maliqu8: Mathématique
Pas encore d'évaluation
LNF 0 (Maliqu8: Mathématique
120 pages
Calcul Stochastique
100% (1)
Calcul Stochastique
88 pages
Martingale Prolongée en Calcul Stochastique
Pas encore d'évaluation
Martingale Prolongée en Calcul Stochastique
96 pages
Math Fi Bon
Pas encore d'évaluation
Math Fi Bon
88 pages
Cours Statistique Ensam (3A)
Pas encore d'évaluation
Cours Statistique Ensam (3A)
49 pages
FPR L3
100% (1)
FPR L3
58 pages
Statistique Inférentielle DataScience
Pas encore d'évaluation
Statistique Inférentielle DataScience
58 pages
Regression (1) - 250914 - 170601
Pas encore d'évaluation
Regression (1) - 250914 - 170601
147 pages
MTH160
100% (1)
MTH160
113 pages
Exercices de Probabilités en Biostatistiques
Pas encore d'évaluation
Exercices de Probabilités en Biostatistiques
2 pages
03 - La Fiabilité 1
100% (1)
03 - La Fiabilité 1
22 pages
TD Couple de Variables Aléatoires
Pas encore d'évaluation
TD Couple de Variables Aléatoires
4 pages
Esperance Conditionnelle Master
100% (1)
Esperance Conditionnelle Master
6 pages
Analyse des variables aléatoires continues
Pas encore d'évaluation
Analyse des variables aléatoires continues
2 pages
Distribution
Pas encore d'évaluation
Distribution
155 pages
Voici Un Cours Structuré Sur La Loi de Poisson
Pas encore d'évaluation
Voici Un Cours Structuré Sur La Loi de Poisson
2 pages
Densité et Répartition Uniforme de A
Pas encore d'évaluation
Densité et Répartition Uniforme de A
6 pages
Probabilite Taoukif
Pas encore d'évaluation
Probabilite Taoukif
32 pages
Mesures de Tendance Centrale en Statistique
Pas encore d'évaluation
Mesures de Tendance Centrale en Statistique
90 pages
Correction Série TD 6
Pas encore d'évaluation
Correction Série TD 6
7 pages
La Fiabilite Des Systemes de Production
100% (1)
La Fiabilite Des Systemes de Production
24 pages
TD 2: Les Variables Aléatoires: Exercice 1
Pas encore d'évaluation
TD 2: Les Variables Aléatoires: Exercice 1
4 pages
g42fc Chap 13 EXERCICES Sommes de Variables Aleatoires
Pas encore d'évaluation
g42fc Chap 13 EXERCICES Sommes de Variables Aleatoires
5 pages
Chapitre 2-Probabilités - Toufik Chaayra
Pas encore d'évaluation
Chapitre 2-Probabilités - Toufik Chaayra
56 pages
Exercices V.A.
Pas encore d'évaluation
Exercices V.A.
7 pages
Rappels Statistiques
Pas encore d'évaluation
Rappels Statistiques
39 pages
Correction de La Série 1 Des TD-Statistique Appliquée-S5 - ENCG Fès - 2020 2021
100% (2)
Correction de La Série 1 Des TD-Statistique Appliquée-S5 - ENCG Fès - 2020 2021
8 pages
Td11 Corrige
Pas encore d'évaluation
Td11 Corrige
8 pages
Variables Aléatoires Continues en BTS
0% (1)
Variables Aléatoires Continues en BTS
9 pages
Introduction aux Probabilités
Pas encore d'évaluation
Introduction aux Probabilités
28 pages
Td2 Lois Usuelles
Pas encore d'évaluation
Td2 Lois Usuelles
2 pages
Théorie Des Probabilités Et Lois Statistiques
Pas encore d'évaluation
Théorie Des Probabilités Et Lois Statistiques
1 page
Lois de Probabilités Classiques en Statistique
Pas encore d'évaluation
Lois de Probabilités Classiques en Statistique
15 pages
Fon Gen Mom-Combiné
Pas encore d'évaluation
Fon Gen Mom-Combiné
46 pages
TD05 Proba Vard Important
Pas encore d'évaluation
TD05 Proba Vard Important
10 pages
TD3 Solution
Pas encore d'évaluation
TD3 Solution
8 pages
Inégalité: Tchebychev Et Markov
Pas encore d'évaluation
Inégalité: Tchebychev Et Markov
17 pages
Corrigé de Lépreuve de Probabilité2 2021 - Sem1
Pas encore d'évaluation
Corrigé de Lépreuve de Probabilité2 2021 - Sem1
7 pages
Que 2eedit Corrige Chap 5-9
Pas encore d'évaluation
Que 2eedit Corrige Chap 5-9
12 pages