Statistique Spatiale - M Et Modelisation
Statistique Spatiale - M Et Modelisation
net/publication/333667153
CITATIONS READS
0 2,303
1 author:
SEE PROFILE
All content following this page was uploaded by Nasradine Ibrahim Ahmed on 09 June 2019.
Rapport de Recherche
2018-2019
Statistique et Modelisation de
données spatiales
9 juin 2019
TABLE DES MATIÈRES
1 Introduction 4
3 Modélisation geostatistique 11
3.1 Rappels sur les processus stochastiques . . . . . . . . . . . . . . . 11
3.2 Processus stationnaire au second ordre . . . . . . . . . . . . . . . 12
4 Variabilité spatiale 13
4.1 Le variogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.1.1 Processus intrinsèques . . . . . . . . . . . . . . . . . . . . 13
4.1.2 Variogramme d’un processus intrinsèque . . . . . . . . . . 14
4.1.3 Variogrammes usuelles . . . . . . . . . . . . . . . . . . . . 15
4.2 Analyse du correlogramme . . . . . . . . . . . . . . . . . . . . . . 17
4.2.1 Estimation empirique d’un variogramme . . . . . . . . . . 17
1
4.2.2 L’ajustement du variogramme . . . . . . . . . . . . . . . . 18
B bibliographie 46
2
Remerciement
3
CHAPITRE 1
INTRODUCTION
4
ou de l’ajuster pour finalement se servir de l’interpolation par krigeage.
5
CHAPITRE 2
Pour tout type de données ,on lui apporte des méthodes statistiques spéci-
fiques.
6
2.1 Données de type geostatistique
Les données spatiales sont des informations (ou observations) qui nous donnent
à la fois les valeurs mais aussi les localisations geo-référencées .Ces objets geo-
localisés définissent un ensemble des coordonnées spatiales et constituent des
informations riches lors de l’analyse.
Ils sont utiles lorsqu’on analyse la composition chimique du sol ,la qualité
de l’eau ou encore la précipitation des pluies .
7
Figure 2.1 – Les précipitations de la République de Djibouti
La source des données nous provient de l’entreprise Own work .
8
riches. D’abord on s’intéresse les valeurs des observations voisines.
Après une analyse spatiale basée sur les relations entre les observations ,on
obtient cette figure suivante :
9
Une carte présentant la mortalité infantile en Afrique. Plus la couleur est
rouge foncé plus la mortalité infantile du pays est importante. Inversement plus
la couleur est clair moins la mortalité du pays est importante.
Les pays du continent Africain où la mortalité infantile sont les plus impor-
tantes sont le Niger et le Mali avec près de 110 mort pour mille naissances. Au
contraire, les pays où la mortalité infantile est moins la importante sont Mayotte,
l’Ile-Maurice et les Seychelles avec environ 11 mort pour mille naissances.
10
CHAPITRE 3
MODÉLISATION GEOSTATISTIQUE
11
3.2 Processus stationnaire au second ordre
— E [Y (s)] = m(s)
L’invariance de l’espérance par translation entraîne la constance de la
composante déterministe ∀ s ,on a m(s+h) = m(s) .
— La variance est constante : E((Y (s) − m)2 ) = σ 2
— La covariance qui ne dépend que le décalage spatial h
Cov [Y (s + h), Y (s)] = (E [Y (s + h) − m)] (E [Y (s) − m)]= C(h)
12
CHAPITRE 4
VARIABILITÉ SPATIALE
4.1 Le variogramme
Lorsque la notion de stationnarité devient trop forte .Une de ces est sou-
vent quand la moyenne change sur le territoire d’intérêt et que la variance ne
peut pas toujours être borné lorsque cette région d’intérêt s’agrandit .Georges
Matheron établit alors après avoir tiré les conséquences de ces limites de la
stationnarité au second ordre en proposant une encore plus faible : la station-
narité intrinsèque .
13
Cov [Y (s + h), Y (s)] = (E [Y (s + h) − m)] (E [Y (s) − m)]= C(h)
Soit Y un processus spatial ,on dit que Y est continu en moyenne quadratique
si,pour tout s,
2
lim E [(Y (s + h) − Y (s)] = 0 , ∀s, h .
x→0
2
si on note E [(Y (s + h) − Y (s)] = V ar [Y (s + h) − Y (s)]) .Cette quan-
tité mesure alors la dispersion de l’écart entre Y(s+h) et Y(s).
14
Figure 4.1 – Variogramme d’un processus
15
(portée, palier, pépite). Elles doivent aussi gérer le comportement de la fonction
à l’origine (tendance linéaire, tangence horizontale ou verticale).
16
4.2 Analyse du correlogramme
Après avoir détaillé le choix du modèle probabiliste, nous nous sommes fo-
calisés sur un outil indispensable pour la modélisation spatiale des données : le
variogramme. Le variogramme reflète la structure de la régionalisation. On ap-
pelle analyse variographique l’inférence du variogramme à partir de données
expérimentales.
L’analyse variographique constitue une étape cruciale dans une étude géo-
statistique : elle permet postérieurement d’estimer les valeurs inconnues de la
variable régionalisée et d’assortir leur estimation d’une précision.
1 1 Pn
Γ̂(h) = 2 N (h) si −sj=h (Y (si ) − Y (sj )2 )
Preuve
17
Pn
E[Γ̂(h)] = E[ 12 N 1(h) h (Y (si ) − Y (sj ))2 ]
Pn
= N 1(h) E[ 12 h (Y (si ) − Y (sj ))2 ]
1 Pn
= N (h)
[ h 12 V(Y (si ) − Y (sj )]
1 Pn
= N (h) h Γ(h)
= Γ(h)
Ainsi , on va bien que l’estimateur est sans biais car son espérance est égale
à l’expression générale du variogramme.
18
k
ˆ i ) − Γ(hi , θ)2 )
X
θ̂M CO = argmin (Γ(h
θ∈Θ
i=1
k
X N (hi ) ˆ i ) − Γ(hi , θ)2 )
θ̂M CP = argmin (Γ(h
θ∈Θ
i=1
(Γ(hi , θ)2 )
Ces deux méthodes sont utilisées par deux écoles de pensées concernant
l’ajustement automatiques des modèles de variogramme. Certains prétendent
que l’ajustement visuel demeure la meilleure méthode, alors que d’autres pré-
fèrent les méthodes automatiques.
19
CHAPITRE 5
INTERPOLATION PAR KRIGEAGE
20
— Contrainte de linéarité : L’estimé doit etre une combinaison lineaire
des données :
Pn
Yi∗ = i=1 λi Yi
On pourra écrire sous cette forme
Yi∗ = λ1 Y1 + λ2 Y2 + λ3 Y3 + ........
˙ + λn−1 Yi−1 + λn Yi
Proposition On considère Y une variable aléatoire et stationnaire C(h)
sa covariance , et Γ(h) son [Link] Y ∗ une combinaison linéaire
Pn
tel que Y ∗ = i=1 λi Y (xi ) .Les λi sont les poids et les xi représentent
des sites geolocalisé[Link] dit que la combinaison lineaire Y ∗ est admissible
si la somme des poids λi est égale à 0 .On peut voir que sa variance existe
Pn Pn
V(Y ∗ ) = i=1 j=1 λi λj C(xi − xj )
Preuve
Par définition, V(Y ∗ ) = E(Y ∗ − E(Y ∗ ))2 , comme Y est stationnaire
Pn
(E(Y ) = m) on a E(Y ∗ ) = m i=1 λi .
Alors
Pn
V(Y ∗ ) = E( i=1 λi (Y (xi ) − m))2
= λ21 C(x1 − x1 ) + λ22 C(x2 − x2 )
˙ + λ2n C(xn − xn ) + ........
+ ....... ˙ + 2λn−1 λn C(xn−1 − xn )
Notre objectif étant de calculer la variance de la combinaison lineaire,la
variance de la variable aléatoire estimée dans des sites différents et comme
n X
X n
Pn ∗
i=1 λ i = 0 en respectant la condition d’admissibilité ,obtient V(Y ) = λi λj C(xi − xj )
i=1 j=1
∗
Pn Pn
De même on peut écrire , Y = i=1 λi [Y (xi ) − Y (0)]
λi Y (xi ) = i=1
∗
Pn Pn ∗
or on a montrer que la variance de Y est égale à V(Y ) = i=1 j=1 λi λj C(xi − xj )
donc
n
X n
X n X
X n
V( λi Y (xi )) = V( λi [Y (xi ) − Y (0))] = λi λj C(xi − Y (0), xj − Y (0))
i=1 i=1 i=1 j=1
21
= V[Y (xi ) − Y (0)] + V[Y (0) − Y (xj )] − 2C(xi − Y (0), xj − Y (0))
On peut en déduire d’après cette expression en passant la covariance en
fonction des autres variances ,
2C(xi − Y (0), xj − Y (0)) = V[Y (xi ) − Y (0)] + V[Y (0) − Y (xj )] − V[Y (xi ) − Y (xj )]
Ensuite , Il en résulte ,
n
X n X
X n
V λi Y (xi ) = λi λj Γ(xi ) + Γ(xj ) − Γ(xi − xj )
i=1 i=1 j=1
n
X n
X n
X n
X n X
X n
λj Γ(xi ) + λi Γ(xj ) − λi λj Γ(xi − xj )
j=1 i=1 i=1 j=1 i=1 j=1
n
X n X
X n
V λi Y (xi ) = − λi λj Γ(xi − xj )
i=1 i=1 j=1
22
s0 ∈ S représente un site .
— Contrainte d’optimalité : La minimisation de la variance de l’erreur
après le krigeage V[Ŷ (s0 ) − Y (s0 )] s0 ∈ S
Preuve
h i
On écrit , E Ŷ (s0 ) − Y (s0 )
Xn
= µ+ λi E (Y (s0 ) − µ − E Y (s0 ) = µ − µ = 0
i=1 | {z } | {z }
=0 =µ
Après avoir calculé l’espérance de l’erreur de prévision ,on peut aussi expri-
mer
" sa variance : # 2
2
V Ŷ (s0 ) − Y (s0 ) = E (Ŷ (s0 ) − Y (s0 )) − E(Ŷ (s0 ) − Y (s0 ))
| {z }
=0
23
" n #
X
2
=E ( λi (Ŷ (xi ) − µ)) + (µ − Y (s0 )))
i=1
n n n
X X X
= λi λj C(Y (xi ), Y (xj )) − 2 λi C(Y (xi ), Y (x0 )) + C(0)
i=1 j=1 i=1
" # n n n
X X X
V Ŷ (s0 ) − Y (s0 ) = λi λj C(xi − xj ) − 2 λi C(xi − x0 ) + C(0)
i=1 j=1 i=1
" #
X
2
V Ŷ (s0 ) − Y (s0 ) = σE = C(0) + t λ λ − 2λt S0 ≥ 0
P
où est la matrice de variance-covariance et S0 = C(xi − x0 )
24
Pour minimiser la variance de l’erreur de prévision , il suffit d’observer pour
quelle valeur de λ s’annule la dérivée de la variance de l’erreur de prévision ,c’est
2
∂σE
à dire ∂λ
= 0.
P
Comme la matrice est symétrique ,on peut écrire :
" #
∂ C(0) + t λ λ − 2λt S0
P
" #
2
∂σE X
t
X X
= = + λ − 2S0 = 2 λ − 2S0 = 0
∂λ ∂λ
P
Ce qui équivaut à λ = S0
P P
La dérivée seconde est égale à 2 .La matrice hessienne étant semi-
définie et positive ,ce qui assure la convexité de la variance de l’erreur de prévi-
P −1
sion .On peut en conclure que la valeur λ = S0 est le point critique qui
minimise la variance de l’erreur de prévision .
n
X
Ŷ = µ + λ(Y − µ) = µ + λt (Y − µ)
i=1
X t X
−1 t −1
Ŷ = µ + S0 Y − µ = µ + S0 Y −µ
Ce qu’on sait :
" #
X
2
V Ŷ (s0 ) − Y (s0 ) = σE (s0 ) = C(0) + λt λ − 2λt S0
25
Ce qui équivaut à
X X X
2 −1 −1 −1
σE (s0 ) = C(0) + S0t S0 − 2S0t S0 = σ 2 − S0t S0
X
2 −1
σKrigeageSimple = σ 2 − S0t S0
n
X
Ŷi = λi Y i
i=1
26
La variance de l’erreur de prévision du krigeage ordinaire
Petite astuce :
Tout abord on va débuter une petite
astuce pour
calculer la variance de l’erreur
de prévision du krigeage : ∀i, j = 1, ......, n ,on peut écrire :
" #2 " #2
n X
n
Y (xi ) − Y (xj ) n
Y (xi ) − Y (x0 )
X X
− λi λj +2 λi
i=1 j=1
2 i=1
2
n n n X
n n n
X (Y (xi ))2 X X X (Y (xj ))2 X
=− λi λj + λi λj Y (xi )Y (xj ) − λi
i=1
2 j=1 i=1 j=1 j=1
2 i=1
| {z } | {z }
=1 =1
n
X n
X n
X
+ λi (Y (xi )2 − 2 λi Y (xi )Y (x0 ) + (Y (x0 ))2 λi
i=1 i=1 i=1
| {z }
=1
X n
n X n
X
= λi λj Y (xi )Y (xj ) − 2 λi Y (xi )Y (x0 ) + (Y (x0 ))2
i=1 j=1 i=1
n X
X n n
X
λi λj Y (xi )Y (xj ) − 2 λi Y (xi )Y (x0 ) + (Y (x0 ))2
i=1 j=1 i=1
" #2 " #2
n X
n
Y (xi ) − Y (xj ) n
Y (xi ) − Y (x0 )
X X
− λi λj +2 λi
i=1 j=1
2 i=1
2
27
Maintenant ,on peut commencer à calculer la variance de l’erreur de prévision
du krigeage ordinaire :
" # 2 " n !2 #
X
2
V Ŷ (s0 ) − Y (s0 ) = E (Ŷ (s0 ) − Y (s0 )) − E(Ŷ (s0 ) − Y (s0 )) = E λi Y (xi ) − Y (x0 )
| {z } i=1
=0
Grâce à l’égalité obtenue du petite astuce détaillée au dessus,on peut donc écrire
" n
!2 # n X
n n
X X X
E λi Y (xi ) − Y (x0 ) = λi λj E Y (xi )Y (xj ) − 2 λi E Y (xi )Y (x0 ) + E (Y (x0 ))2
i=1 i=1 j=1 i=1
n X
n
E Y (xi ) − Y (xj ) n
E Y (xi ) − Y (x0 )
X X
=− λi λ j +2 λi
i=1 j=1 | 2
{z } i=1 | 2
{z }
Γ(xi −xj ) Γ(xi −x0 )
n X
X n n
X
2
σE =− λi λj Γ(xi − xj ) + 2 λi Γ(xi − x0 )
i=1 j=1 i=1
28
CHAPITRE 6
TESTS D’AUTOCORRELATION SPATIALE
29
de la covariance entre observations contiguës (définies par la matrice d’interac-
tions spatiales) à la variance totale de l’échantillon (Jayet, 2001). L’indice a des
valeurs comprises entre -1 (indiquant une dispersion parfaite) à 1 (corrélation
parfaite). Une valeur nulle signifie que la distribution spatiale de la variable étu-
diée est parfaitement aléatoire dans le territoire. Les valeurs négatives (positives)
de l’indice indiquent une autocorrélation spatiale négative (positive).
Pn Pn
n i=1 j=1 Φij [(Yi − Ȳ ) − (Yj − Ȳ )]
IM ORAN = Pn
m i=1 [(Yi − Ȳ )]
30
6.2 indice de Geary
Une autre alternative pour mesurer l’autocorrélation spatiale est l’indice
de Geary qui est, à un facteur près, égal au ratio de la variance des écarts
entre observations contigües à la variance totale (Jayet, 2001). Si l’indice
de Moran est une mesure de l’autocorrélation spatiale globale, l’indice
de Geary est plus sensible à l’autocorrélation spatiale locale. L’indice de
Geary varie de 0 à l’infini et vaut 1 s’il y a indépendance spatiale. Pour
toute valeur inférieur à l’unité, il y a une autocorrélation spatiale positive,
et inversement pour des valeurs supérieures à l’unité. L’indice de Geary
varie en sens inverse de l’indice de Moran. Comme pour l’indice de Moran,
l’indice de Geary peut être testé statistiquement, par une transformation
en Z- scores et en déterminant son seuil de significativité.
31
La formulation de l’indice de Geary est
Pn Pn
n−1 i=1 j=1 Φij [(Yi − Yj )2 ]
IGEARY = Pn
2m i=1 [(Yi − Ȳ )2 ]
32
CHAPITRE 7
Dans cette partie , nous allons utiliser le logiciel R ,des fonctions permettant
d’effectuer une analyse variographique ainsi que le krigeage.
33
x et y sont les coordonnées géographiques de nos points sur l’espace . La
variable zinc représente la concentration en zinc mesuré à la surface du sol dans
une plaine inondable le long de la rivière Meuse . Ces métaux polluent des
sédiments qui sont transportés par le fleuve et se déposent principalement près
de la rive du fleuve et des zones de faible altitude.
Notre objectif est d’analyser ces données spatiales afin de connaître les en-
droits en forte concentration de zinc.
Lorsqu’on fait une analyse préalable sur la concentration en zinc selon les
cinq premiers coordonnées x et y on obtient :
34
7.2 Analyse variographique
35
— cutoff : Distance maximale entre deux points au-delà de laquelle le va-
riogramme n’est plus calculé.
— cloud : TRUE/FALSE. Si True, cette option calcule la nuée variogra-
phique.
Et elle renvoie ces valeurs suivantes :
Si le cloud = TRUE ,elle renvoie un objet de type "VariogramCloud".Sinon
elle renvoie :
— np : Nombre de paires de points utilisées pour chaque point du vario-
gramme.
— dist :Distance moyenne entre les points d’une paire pour chaque point
du variogramme.
— gamma : Donne les valeurs calculées du variogramme.
Lorsqu’on finit de calculer le variogramme expérimental , il suffit de le
représenter graphiquement. Cette fonction plot(x,...) permet de tracer
le graphique .Elle prend des arguments de types :
— type : Permet de tracer différents types de variogramme.
— identify :TRUE/FALSE : Si on a calculé la nuée variographique (c’est-
à-dire si on ajouté l’option cloud=TRUE dans la fonction variogram()),
cette option permet d’identifier pour chaque point du nuage, quelle paire
de points correspond à ce point.
La variable aléatoire zinc n’étant pas stationnaire ,sa transformation lo-
garithmique est stationnaire c’est à dire log(zinc) .
36
Et sa représentation graphique par la fonction plot est :
37
7.2.2 Modélisation du variogramme
38
On peut représenter graphiquement ensemble le variogramme expérimen-
tal et sa variogramme ajusté (ici le modèle utilisé est le modèle sphérique
).
39
7.3 Le krigeage avec R
Pour pouvoir kriger la variable régionalisée zinc avec R, il faut tout d’abord
créer une grille sur laquelle on pourra effectuer le krigeage.
Une fois la grille créée, on peut effectuer le krigeage sur nos données à l’aide
de la fonction > krige(formula, data,...)
40
les données suivantes :
— les coordonnées des points qui ont été krigés.
— les valeurs prédites en ces points ([Link]).
Pour obtenir une visualisation du krigeage effectué sur nos données, on
utilise la fonction > spplot(obj, ...).
Cette fonction des arguments de type suivants :
— obj : : Objet que l’on veut représenter de type «Spatial».
— xlab :Nommer l’axe x.
— ylab : Nommer l’axe x.
Finalement ,on voici le krigeage qu’on a fait à partir de nos [Link]
figure montre la concentration en zinc sur le sol de la fleuve Meuse de la plus
faible au plus fort.
41
ANNEXE A
LE KRIGEAGE SUR LE LANGAGE R
42
43
44
45
ANNEXE B
BIBLIOGRAPHIE
46