0% ont trouvé ce document utile (0 vote)
51 vues48 pages

Statistique des valeurs extrêmes expliquée

Le document présente une introduction à la statistique des valeurs extrêmes, abordant des concepts tels que l'étude des maxima et des excès, ainsi que des approches paramétriques et non-paramétriques. Il discute également des théorèmes des valeurs extrêmes et des domaines d'attraction, en fournissant des exemples pratiques et des méthodes d'estimation des paramètres. Enfin, il souligne l'importance de ces concepts pour l'extrapolation et l'analyse des données extrêmes.

Transféré par

phetegue
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
51 vues48 pages

Statistique des valeurs extrêmes expliquée

Le document présente une introduction à la statistique des valeurs extrêmes, abordant des concepts tels que l'étude des maxima et des excès, ainsi que des approches paramétriques et non-paramétriques. Il discute également des théorèmes des valeurs extrêmes et des domaines d'attraction, en fournissant des exemples pratiques et des méthodes d'estimation des paramètres. Enfin, il souligne l'importance de ces concepts pour l'extrapolation et l'analyse des données extrêmes.

Transféré par

phetegue
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction à la statistique des valeurs extrêmes

Stéphane Girard

INRIA Rhône-Alpes, projet Mistis


http ://mistis.inrialpes.fr/˜girard

avril 2008

1
Plan

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

2
Plan de l’exposé

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

3
Exemple

La hauteur d’une rivière est modélisée par une variable aléatoire X.


On dispose de {X1 , . . . , Xn } un échantillon de hauteurs d’eau
annuelles. On note X1,n ≤ X2,n ≤ · · · ≤ Xn,n l’échantillon
ordonné.

Deux problèmes complémentaires :


Calculer la probabilité p d’une hauteur d’eau h extrême
p = P(X ≥ h) avec h > Xn,n .
Calculer le niveau d’eau h qui est atteint ou dépassé une seule
fois sur T années avec T > n, i.e. résoudre 1/T = P(X ≥ h).

4
Deux problèmes complémentaires

Définition de la fonction de survie :


F̄ (x) = P(X ≥ x) = 1 − F (x) où F est la fonction de répartition.

1) Estimation de la queue de la fonction de survie. Etant


donné h, estimer p = F̄ (h) avec h > Xn,n

2) Estimation de quantiles extrêmes. Etant donné p, estimer h


tel que p = F̄ (h) avec p < 1/n, i.e. estimer h = F̄ −1 (p).

Difficulté commune : La fonction de survie F̄ (x) est inconnue et


difficile à estimer au-delà du maximum (x > Xn,n ).

5
Approche paramétrique

Démarche :
On suppose un modèle paramétrique a priori pour la fonction
de survie : F̄ ∈ {F̄θ , θ ∈ Θ}.
On estime θ par θ̂n .
Problème : Un bon ajustement sur l’échantillon ne garantit pas une
bonne modélisation au-delà du maximum.

6
Illustration

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00

En abscisse : p. En ordonnée, écart relatif entre le quantile d’ordre


p calculé avec un modèle N (0, 1) et Student à 4 degrés de liberté.

7
Approche non-paramétrique

Fonction de survie empirique. On estime P(X ≥ x) par la


proportion d’observations qui dépassent x :
n
1X
F̄ˆn (x) = I{Xi ≥ x}
n
i=1

Problème : F̄ˆn (x) = 0 si x > Xn,n .

8
Plan de l’exposé

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

9
Objectif
Le Théorème de la Limite Centrale (TCL) donne, sous des
conditions standards, la loi asymptotique de la moyenne
n
1X
X̄n = Xi
n
i=1

d’un échantillon {X1 , . . . , Xn } de variables indépendantes et


identiquement distribuées :

 
X̄n − E(X) L
n −→ N (0, 1),
σ(X)

ou en termes de fonctions de répartition (fdr)



   
X̄n − E(X)
lim P n ≤ x = Φ(x),
n→∞ σ(X)

où Φ est la fdr de la loi N (0, 1). Le théorème des valeurs extrêmes


est un résultat similaire pour le maximum. 10
Théorème des valeurs extrêmes

[Gnedenko, 43] Sous des conditions générales sur F , il existe trois


paramètres an , bn et γ tels que :
 
Xn,n − an
lim P ≤ x = Hγ (x),
n→∞ bn

avec, si γ 6= 0,
 
−1/γ
Hγ (x) = exp −(1 + γx)+

où y+ = max(0, y) et H0 (x) = exp (−e−x ) .


Vocabulaire :
Hγ est la loi des valeurs extrêmes (EVD),
γ est l’indice des valeurs extrêmes.
an et bn sont des paramètres de normalisation.

11
Illustration sur une loi normale

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
−3 −2 −1 0 1 2 3

 
Xn,n −an
Comparaison entre Hγ (x), P bn ≤ x avec n = 10 et
 
Xn,n −an
P bn ≤ x avec n = 100
12
Loi des valeurs extrêmes
En pratique,  
x − an
P(Xn,n ≤ x) ' Hγ ,
bn
on a une loi à trois paramètres :
an est un paramètre de position, jouant le rôle de E(X) dans
le TCL,

bn est un paramètre d’échelle, jouant le rôle de σ(X)/ n
dans le TCL,
γ un paramètre de forme, il n’a pas d’équivalent dans le TCL.
On distingue 3 cas (donc 3 types de lois) :
Si γ > 0, on dit que F appartient au domaine d’attraction de
Fréchet,
si γ = 0, on dit que F appartient au domaine d’attraction de
Gumbel,
si γ < 0, on dit que F appartient au domaine d’attraction de
Weibull. 13
Loi des valeurs extrêmes

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
−4 −3 −2 −1 0 1 2 3 4

Exemples de densités associées à la loi des valeurs extrêmes


(γ = 0, γ = 1 et γ = −1).
14
Domaines d’attraction

Fréchet (γ > 0).


Ensemble des lois "à queues lourdes", F̄ (x) → 0 comme une
puissance de x lorsque x → ∞.
Plus précisément, on a la représentation

F̄ (x) = x−1/γ `(x),

où ` est une fonction à variations lentes, i.e.


`(xt)
∀t > 1, lim = 1,
x→∞ `(x)

Suites de normalisation : an = 0 et bn = F̄ −1 (1/n).


Exemples : Cauchy, Student, Pareto.

15
Domaines d’attraction

Gumbel (γ = 0).
Ensemble des lois "à queues légères", F̄ (x) → 0
exponentiellement vite lorsque x → ∞.
Il n’y a pas de représentation simple. Un sous-ensemble
intéressant est donné par les lois de type Weibull
 
F̄ (x) = exp −xθ `(x) ,

où ` est une fonction à variations lentes et θ s’appelle l’indice


de queue de Weibull.
Suites de normalisation : an = F̄ −1 (1/n) et bn compliqué.
Exemples : Normale, Log-normale, Weibull, Gamma,
Exponentielle.

16
Domaines d’attraction

Weibull (γ < 0).


Ensemble des lois "à queue finie", F̄ (x) = 0 pour x > xF ,
appelé point terminal.
On a l’équivalence avec F (xF − 1/x) appartient au domaine
d’attraction de Fréchet.
Exemples : Uniforme, Beta.

17
Domaines d’attraction

Domaine Gumbel Fréchet Weibull


d’attraction γ=0 γ>0 γ<0

Normale Cauchy Uniforme


Loi Exponentielle Pareto Beta
Lognormale Student
Gamma
Weibull

18
Application à l’extrapolation

Comme P(Xn,n ≤ x) = F n (x), on déduit du théorème des valeurs


extrêmes une approximation de F (x) pour les grandes valeurs de
x,  
1/n x − an
F (x) = 1 − F̄ (x) ' Hγ ,
bn
et en passant au logarithme
 
1 x − an
log(1 − F̄ (x)) ' log Hγ .
n bn

Comme x est grand, F̄ (x) est petit, un développement limité au


1er ordre de log(1 + u) donne donc
 
1 x − an
F̄ (x) ' − log Hγ .
n bn

19
Application à l’extrapolation

On a donc une approximation de la fonction de survie en queue :

x − an −1/γ
  
1
F̄ (x) ' 1+γ si γ 6= 0
n bn
 
1 x − an
' exp − si γ = 0
n bn

et de son inverse :
bn 
F̄ −1 (p) ' an + (np)−γ − 1 si γ 6= 0

γ
' an − bn log(np) si γ = 0.

20
Illustration sur une loi normale

0.012

0.010

0.008

0.006

0.004

0.002

0.000
2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0

 
Comparaison entre F̄ (x), n1 exp − x−a
bn
n
avec n = 10 et
 
1 x−an
n exp − bn avec n = 100
21
Illustration sur une loi normale

Ici on a utilisé les valeurs théoriques de an , bn et γ connues pour la


loi normale centrée-réduite.

Problème : Les paramètres an , bn et γ sont inconnus dans la


pratique puisqu’on ne connait pas F , il faut les estimer.

22
Estimation des paramètres de la loi des valeurs
extrêmes

On souhaite estimer les paramètres de la loi des valeurs extrêmes


de fdr
(  )
x − a −1/γ
   
def x−a
Hγ,a,b (x) = Hγ = exp − 1 + γ
b b +

Deux difficultés :
Il faut un échantillon de maxima (parfois difficiles à extraire
des données initiales, petit nombre d’observations utilisées).
Les estimateurs du maximum de vraisemblance ne sont pas
explicites.

23
Estimateurs des moments pondérés

[Hosking, Wallis, Wood, 1985]. Soit {Y1 , . . . , Yk } un échantillon de


k maxima indépendants tous de fdr Hγ,a,b . On peut définir le
moment pondéré d’ordre r par
r
 
µr = E Y Hγ,a,b (Y ) .

Cette quantité existe pour γ < 1 et est donnée par


 
1 b γ
µr = a − {1 − (r + 1) Γ(1 − γ)} ,
r+1 γ

où Γ est la fonction définie par


Z +∞
Γ(t) = xt−1 exp(−x)dx.
0

24
Estimateurs des moments pondérés

Pour calculer a, b et γ, trois moments pondérés suffisent :


b
µ0 = a − {1 − Γ(1 − γ)}
γ
b
2µ1 − µ0 = − (1 − 2γ )Γ(1 − γ)
γ
3µ2 − µ0 1 − 3γ
= .
2µ1 − µ0 1 − 2γ

En inversant ces formules, on obtient (a, b, γ) en fonction de


(µ0 , µ1 , µ2 ). Il reste à estimer ces trois moments.

25
Estimateurs des moments pondérés

On remplace l’espérance par une moyenne empirique


k k
1X r 1X r
µr ' Yi Hγ,a,b (Yi ) = Yi,k Hγ,a,b (Yi,k )
k k
i=1 i=1

en ordonnant les observations. On remplace Hγ,a,b par la fdr


empirique :
k k
i−1 r
 
1X r 1X
µr ' Yi,k F̂k (Yi,k ) = Yi,k .
k k k
i=1 i=1

On obtient alors un estimateur sous forme d’une combinaison


linéaire :
k
i−1 r
 
1X
µ̂r = Yi,k .
k k
i=1

26
Plan de l’exposé

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

27
Définition d’un excès
Plutôt que de se focaliser sur le maximum, on étudie les valeurs
dépassant un seuil donné. L’excès Y de la variable X au dessus
du seuil u est défini par X − u quand X ≥ u.

Xi

Y3
Y1 Y5
Y4
Y2
u

i
1 2 3 4 5 6 7 8 9
28
Fonction de survie d’un excès

La fonction de survie F̄u d’un excès au dessus de u est donnée


pour y > 0 par

F̄u (y) = P(Y ≥ y)


= P(X − u ≥ y|X ≥ u)
P(X ≥ u + y, X ≥ u)
=
P(X ≥ u)
F̄ (u + y)
=
F̄ (u)

Lorsque le seuil est grand, on peut approcher cette quantité par la


fonction de survie d’une loi de Pareto Généralisée (GPD).

29
Loi de Pareto Généralisée

Sa fonction de survie est donnée par


 y −1/γ
Ḡγ,σ (y) = 1+γ si γ 6= 0,
 σy 
= exp − sinon.
σ
Son ensemble de définition est R+ si γ ≥ 0 ou [0, −σ/γ[ si γ < 0.
Elle dépend de deux paramètres :
σ > 0 est un paramètre d’échelle,
γ ∈ R est un paramètre de forme.
Deux cas particuliers :
γ = 0, loi exponentielle d’espérance σ,
γ = −1, loi uniforme sur [0, σ].

30
Théorème de Pickands

[Pickands, 1975] Il y a équivalence entre la convergence en loi du


maximum vers une EVD et la convergence en loi d’un excès vers
une GPD :  
Xn,n − an
lim P ≤ x = Hγ (x),
n→∞ bn
si et seulement si

lim sup |F̄u (y) − Ḡγ,σ(u) (y)| = 0.


u→xF y∈[0,x −u]
F

On remarque que le paramètre de forme γ est le même pour


l’EVD et la GPD.

31
Application à l’extrapolation

En utilisant le théorème de Pickands, on a, pour y ≥ 0,

F̄ (u + y)
F̄u (y) = ' Ḡγ,σ (y).
F̄ (u)

Avec le changement de variable x = u + y on obtient


l’approximation (valable pour x ≥ u) :

F̄ (x) ' F̄ (u)Ḡγ,σ (x − u).

Finalement, on introduit la probabilité α que X dépasse u,


α = F̄ (u), d’où

F̄ (x) ' αḠγ,σ (x − F̄ −1 (α)).

32
Application à l’extrapolation

On a donc une approximation de la fonction de survie en queue :


−1/γ
x − F̄ −1 (α)
 
F̄ (x) ' α 1 + γ 6 0
si γ =
σ
x − F̄ −1 (α)
 
' α exp − si γ = 0
σ

et de son inverse :
 
−1 −1 σ  p −γ
F̄ (p) ' F̄ (α) + − 1 si γ 6= 0
γ α
p
' F̄ −1 (α) − σ log si γ = 0.
α

33
Comparaison avec l’approche EVD

Les expressions sont les mêmes, il y a trois paramètres inconnus :


l’indice des valeurs extrêmes γ,
σ qui joue le rôle de bn dans l’approche EVD,
F̄ −1 (α) qui joue le rôle de an dans l’approche EVD.
Avantages :
Il est plus facile d’avoir un échantillon d’excès que de maxima,
F̄ −1 (α) est un quantile classique, facile à estimer par
inversion de la fonction de survie empirique.
En pratique : on choisit α = k/n, où k est le nombre
d’excès, on estime F̄ −1 (k/n) par Xn−k+1,n ,
Il reste à estimer γ et σ.

34
Estimateurs des moments pondérés

[Hosking, Wallis, 1987]. Soit {Y1 , . . . , Yk } un échantillon de k


excès indépendants tous de fdr Gγ,σ . On peut définir un autre type
de moment pondéré d’ordre s par

νs = E Y Ḡsγ,σ (Y ) .
 

Cette quantité existe pour γ < 1 et est donnée par


σ
νs = .
(s + 1)(s + 1 − γ)

Pour obtenir γ et σ, deux moments suffisent


4ν1 − ν0 2ν1 ν0
γ= et σ = ,
2ν1 − ν0 ν0 − 2ν1
on estime ensuite ν0 et ν1 classiquement.

35
Plan de l’exposé

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

36
Modèle semi-paramétrique

On se restreint au domaine d’attraction de Fréchet où l’on a la


caractérisation
F̄ (x) = x−1/γ `(x),
avec ` une fonction à variations lentes et γ > 0. Ce modèle de
fonction de survie comporte :
une partie paramétrique x−1/γ ne dépendant que d’un
paramètre réel (γ).
une partie non-paramétrique `(x) sur laquelle on sait
seulement que
`(tu)
lim = 1,
u→∞ `(u)

pour t > 1.

37
Application à l’extrapolation

Pour t > 1,
 
F̄ (tu) `(tu)
lim = t−1/γ lim = t−1/γ .
u→∞ F̄ (u) u→∞ `(u)

On en déduit l’approximation

F̄ (tu) ' F̄ (u)t−1/γ .

En posant x = tu et α = F̄ (u), on a
 −1/γ
x
F̄ (x) ' α
F̄ −1 (α)
 p −γ
F̄ −1 (p) ' F̄ −1 (α) ,
α
pour x > u ou de façon équivalente p ≤ α.
38
Application à l’extrapolation

Remarques :
Ces approximations sont des cas particuliers de l’approche
GPD avec σ = γ F̄ −1 (α) ;
F̄ −1 (α) s’estime comme nous l’avons déjà vu par une des
observations ordonnées.
Il reste uniquement à estimer γ, en se basant encore sur
 p −γ
F̄ −1 (p) ' F̄ −1 (α) ,
α
que l’on peut réécrire

log F̄ −1 (p) − log F̄ −1 (α) ' γ log(α/p).

39
Estimation semi-paramétrique de γ

On choisit comme précédemment, α = k/n et on considère


plusieurs valeurs de p = i/n, i = 1, . . . , k − 1. (on doit avoir
p < α). On obtient :

log F̄ −1 (i/n) − log F̄ −1 (k/n) ' γ log(k/i),

et en estimant les fonctions de survies par leurs équivalents


empiriques,

log Xn−i+1,n − log Xn−k+1,n ' γ log(k/i).

Il est possible de vérifier graphiquement cette approximation.

40
Estimation semi-paramétrique de γ

Simulation de n = 500 réalisations d’une loi de Student à 2 degrés


de liberté (γ = 1/2). On a choisi k = 100.

3.5

3.0

2.5

2.0

1.5

1.0

0.5

0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

En abscisse : log(k/i). En ordonnée : y = x/2 et


log Xn−i+1,n − log Xn−k+1,n pour i = 1, . . . , k − 1.
41
Estimation semi-paramétrique de γ

En sommant de part et d’autre sur i = 1, . . . , k − 1, on obtient


k−1
X
log Xn−i+1,n − log Xn−k+1,n
i=1
γ' k−1
X
log(k/i)
i=1

Le dénominateur se réécrit log[k k−1 /(k − 1)!], en utilisant la


formule de Stirling, il est équivalent à k au voisinage de l’infini. On
obtient l’Estimateur de Hill
k−1
1X
γ̂(k) = (log Xn−i+1,n − log Xn−k+1,n ),
k
i=1

[Hill, 1975].
42
Comportement de l’estimateur de Hill

Trois simulations de n = 500 réalisations d’une loi de Student à 2


degrés de liberté (γ = 1/2).

1.4

1.2

1.0

0.8

0.6

0.4

0.2

0.0
0 20 40 60 80 100 120 140 160 180 200

En abscisse : k. En ordonnée : γ̂(k) pour k = 1, . . . , 200.

43
En pratique ...

Le choix de k est difficile :


Si k est petit, γ̂(k) utilise peu d’observations, il a alors une
grande variance.
Si k est grand, le seuil estimé Xn−k+1,n est petit, on sort de
la zône où la fonction de survie est approximativement une
puissance, γ̂(k) a alors un grand biais.

44
Plan de l’exposé

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

45
Recherches actuelles

Approches semi-paramétriques : Réduction du biais (en


précisant la convergence de `(xt)/`(x) vers 1), choix
automatique de k,
Données non-indépendantes,
Présence de covariable,
Extrêmes multivariés.

46
Bibliographie

Article fondateur :
B. Gnedenko (1943), Sur la distribution limite du terme
maximum d’une série aléatoire, The annals of Mathematics,
2nd Ser., 44, 423–453.
Moments pondérés :
J.R.M. Hosking, J.R. Wallis and E.F. Wood (1985),
Estimation of the Generalized Extreme-Value distribution by
the method of probability-weighted moments, Technometrics,
27, 251–261.
J.R.M. Hosking and J.R. Wallis (1987), Parameter and
quantile estimation for the Generalized Pareto Distribution,
Technometrics, 29, 1339–1349.
Premier estimateur de l’indice des valeurs extrêmes :
B.M. Hill (1975), A simple general approach to inference
about the tail of a distribution, The Annals of Statistics, 3,
1163–1174.
47
Bibliographie

Livres de référence :
P. Embrechts, P., C. Klüppelberg, and T. Mikosch (1997),
Modelling extremal events, Springer.

M. Falk, J. Hüsler and R. Reiss (2004), Laws of small


numbers : Extremes and rare events, 2nd edition, Birkhäuser.

R. Reiss and M. Thomas (2001), Statistical analysis of


extreme values, Birkhäuser, Basel.

N. Bingham, C. Goldie and J. Teugels (1987), Regular


variation, Encyclopedia of Mathematics and its Applications,
27, Cambridge University Press.

48

Vous aimerez peut-être aussi