0% ont trouvé ce document utile (0 vote)
80 vues11 pages

Chap 6 Modelisation Des Mesures

Le document traite de la modélisation des mesures, en se concentrant sur l'étude des corrélations entre variables, les types de relations, et les méthodes de calcul des coefficients de corrélation, notamment ceux de Pearson et de Spearman. Il aborde également la régression linéaire simple, en expliquant comment estimer les paramètres de la relation entre deux variables aléatoires. Enfin, il souligne l'importance de la représentation graphique pour analyser les relations entre les variables.

Transféré par

Martial Kabong
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
80 vues11 pages

Chap 6 Modelisation Des Mesures

Le document traite de la modélisation des mesures, en se concentrant sur l'étude des corrélations entre variables, les types de relations, et les méthodes de calcul des coefficients de corrélation, notamment ceux de Pearson et de Spearman. Il aborde également la régression linéaire simple, en expliquant comment estimer les paramètres de la relation entre deux variables aléatoires. Enfin, il souligne l'importance de la représentation graphique pour analyser les relations entre les variables.

Transféré par

Martial Kabong
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

CHAP 6 : MODELISATION DES MESURES

1. Corrélation
Introduction
L'étude des corrélations entre deux variables est un domaine qui peut parfois révéler beaucoup
sur les mécanismes sous-jacents. Par exemple, chez les conducteurs automobiles, il existe une
très forte corrélation entre le fait de posséder un téléphone cellulaire et le nombre d'accident
automobile. Évidemment, la cause de cette corrélation est très simple: les conducteurs qui
parlent dans leur cellulaire sont beaucoup moins attentifs à la route et ont donc des réactions
plus lentes en cas de danger, ce qui augmente la probabilité d'accidents.
On peut presque dire que la possession d'un cellulaire cause un accroissement des accidents.
Cependant, toutes les corrélations ne sont pas aussi faciles à comprendre.
Définition

Étudier la corrélation entre deux ou plusieurs variables, c'est étudier l'intensité de la liaison
qui peut exister entre ces variables. La liaison recherchée est une relation dont la
représentation graphique est une droite. Une mesure de cette corrélation est obtenue par le
calcul du coefficient de corrélation linéaire.

2. Les types de relations entre deux caractères quantitatifs

En amont de toute mesure de corrélation à l'aide de coefficients appropriés, il est nécessaire


de définir la forme d'une éventuelle relation entre deux caractères à l'aide d'une représentation
graphique appropriée. En effet, selon la forme de la relation observée, on ne fera pas les
mêmes hypothèses et on n'utilisera pas les mêmes outils de mesure.

2.1 Le diagramme de corrélation

Pour savoir s'il existe une relation entre deux caractères, on établit un diagramme de
corrélation, c'est à dire un diagramme croisant les modalités de X et de Y. Chaque élément i
est représenté par le point de coordonnées (Xi,Yi). L'ensemble des points forme un nuage de
points dont la forme permet de caractériser la relation à l'aide de trois critères :

- intensité de la relation
- forme de la relation
- sens de la relation

2.1.2L'intensité de la relation

Une relation est forte si les unités ayant des valeurs voisines sur X ont également des valeurs
voisines sur Y, c'est à dire si l'on a la relation suivante

1
Analyse et Modélisation hydrologique Master I : hydraulique urbaine

Xi proche de Xj => Yi proche de Yj

=> le nuage de point prend alors la forme d'une ligne ou d'une courbe dont les points
s'écartent peu.

Une relation est faible si les unités ayant des valeurs voisines sur X peuvent avoir des valeurs
éloignées sur Y, c'est à dire si deux valeurs proches de X peuvent correspondre à deux valeurs
très différentes de Y

=> le nuage de point n'a pas la forme d'une ligne ou d'une courbe, ou seulement de façon très
grossière.

Une relation est nulle si les valeurs de X ne permettent aucunement de prédire les valeurs de
Y

=> le nuage de point a la forme d'un carré, d'un cercle, d'une "patate" sans véritables lignes
directrices.

2.1.3La forme de la relation

a) Une relation est linéaire : si l'on peut trouver une relation entre X et Y de la forme
Y=ax+b, c'est à dire si le nuage de point peut s'ajuster correctement à une droite.

b) Une relation est non-linéaire : si la relation entre X et Y n'est pas de la forme Y=ax+b,
mais de type différent (parabole, hyperbole, sinusoïde, etc). Le nuage de point présente alors
une forme complexe avec des courbures.

c) Une relation non-linéaire est monotone si elle est strictement croissante ou strictement
décroissante, c'est-à-dire si elle ne comporte pas de minima ou de maxima. Toutes les
relations linéaires sont monotones.

2
2.1.4 Le sens de la relation

Une relation monotone (linéaire ou non) est positive si les deux caractères varient dans le
même sens, c'est à dire si l'on observe en général que :

Xi > Xj => Yi > Yj

- les valeurs fortes de X correspondent généralement aux valeurs fortes de Y


- les valeurs moyennes de X correspondent généralement aux valeurs moyennes de Y
- les valeurs faibles de X correspondent généralement aux valeurs faibles de Y

Une relation monotone est négative si les deux caractères varient en sens inverse, c'est à dire
si l'on observe en général que

Xi > Xj => Yi < Yj

- les valeurs fortes de X correspondent généralement aux valeurs faibles de Y


- les valeurs moyennes de X correspondent généralement aux valeurs moyennes de Y
- les valeurs faibles de X correspondent généralement aux valeurs fortes de Y

3. Calcul du coefficient de corrélation

3.1 Le coefficient de corrélation de Pearson

Par exemple, pour calculer le coefficient de corrélation entre deux séries de même longueur
(cas typique : une régression), on suppose qu'on a les valeurs suivants : X(x1,…xn) et
Y(y1,…,yn) pour chacune des deux séries. Alors, pour connaître le coefficient de corrélation
liant ces deux séries, on applique la formule suivante :

3
∑ ( ̅) ( ̅)

√∑ ( ̅ ) √∑ ( ̅)

∑ ( ̅) ( ̅) Est la covariance entre X et Y et

√ ∑ ( ̅) est l'écart-type de X.

√ ∑ ( ̅) est l'écart-type de Y.

Remarque : lorsque deux caractères sont standardisés, leur coefficient de corrélation est égal
à leur covariance puisque leurs écarts-types sont égaux à 1.

3.1.2 Propriétés et interprétation de r (XY)

On peut démontrer que ce coefficient varie entre -1 et +1. Son interprétation est la suivante :

- si r est proche de 0, il n'y a pas de relation linéaire entre X et Y


- si r est proche de -1, il existe une forte relation linéaire négative entre X et Y
- si r est proche de 1, il existe une forte relation linéaire positive entre X et Y

Le signe de r indique donc le sens de la relation tandis que la valeur absolue de r indique
l'intensité de la relation c'est-à-dire la capacité à prédire les valeurs de Y en fonctions de celles
de X.

3.2 Le coefficient de corrélation de rang de Spearman

Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s'il existe une
relation entre le rang des observations pour deux caractères X et Y, ce qui permet de détecter
l'existence de relations monotones (croissante ou décroissante), quelle que soit leur forme
précise (linéaire, exponentiel, puissance, ...). Ce coefficient est donc très utile lorsque

4
l'analyse du nuage de point révèle une forme curviligne dans une relation qui semble mal
s'ajuster à une droite. On notera également qu'il est préférable au coefficient de Pearson
lorsque les distributions X et Y sont dissymétriques et/ou comportent des valeurs
exceptionnelles.

Le coefficient de Spearman est fondé sur l'étude de la différence des rangs entre les attributs
des individus pour les deux caractères X et Y :

∑ , ( ) ( )-

( ) : Rang de dans la distribution

( ) : Rang de dans la distribution

Ce coefficient varie entre -1 et +1. Son interprétation est la même que celui de
Pearson, mais il permet de mettre en évidence des relations non-linéaires lorsqu'elles sont
positives ou négatives.

5
4. Régression

Introduction

L´étude de certains phénomènes hydrologiques s´avère complexe, parfois du fait de la nature

même du phénomène et parfois du manque de données fiables sur eux. Certains phénomènes

sont liés entre eux par des relations de cause à effet. Il arrive donc qu´on connaisse

relativement assez bien la cause (phénomène (s) Xi) et relativement mal le(s) phénomène(s)

Yi) (Par exemple relation Pluie – débit). En hydrologie, il arrive rarement qu´on étudie les

phénomènes comme des variables aléatoires isolées, c´est-à-dire sans prise en compte de leur

dépendance vis à vis d´autres phénomènes ou facteurs. D´habitude, nous mesurons les

grandeurs hydrologiques et autres afin de déterminer leurs rapports et leur dépendance

mutuelle. L´hydrologie et surtout sa branche hydrologie statistique a développé des modèles

mathématiques qui décrivent les liaisons (si elles existent !) entre ces phénomènes

stochastiques (variables aléatoires). Ces modèles sont appelés modèles de régression. On les

divise :

Selon le nombre de phénomènes (variables) mis en liaison en :

 Modèles de régression simple

 Modèles de régression multiple

Chacun de ces types de modèles peut être encore subdivisé en :

o Modèles de régression linéaire

o Modèles de régression non linéaire

En général, on peut rechercher une liaison mutuelle entre m variables aléatoires. On parle

alors de corrélation à m dimensions. Nous considérons une de ces m variables aléatoires

comme dépendante (syn. : expliquée, endogène) et les autres variables comme indépendantes

(syn. : explicatives, exogènes). Dans la pratique hydrologique, il n´arrive que rarement où on

6
est amené à étudier la corrélation multiple (corrélation et régression sont utilisées ici comme

synonymes). Très souvent, le nombre de variables aléatoires étudiées est m ≤ 3. Le cas le

plus courant est la recherche d´une corrélation entre 2 variables aléatoires X et Y.

Nous nous intéresserons ici qu´aux régressions linéaires car certaines régressions non linéaires

peuvent être ramenées aux régressions linéaires par linéarisation et changement de variables (

log,..etc.).

Type des relations

Y = a(x)+b

Y = a log(x) +b

Log (y) = a (x) +b.

4.1 Régression linéaire simple

Considérons un échantillon de n éléments sur lesquels on mesure les valeurs de 2 variables

aléatoires. Nous obtenons alors n couples de résultats de mesure (xi , yi ). Si nous portons les

points (xi , yi ) sur un système orthogonal X, Y, nous obtenons un nuage de points qui

représente une des 3 variantes suivantes :

a) tous les points sont alignés sur une ligne continue (droite) qu´on peut exprimer par

l´équation y= f(x). Cette relation où à une valeur fixe de la variable indépendante X

correspond une et une seule valeur de la variable aléatoire dépendante Y est appelée relation

fonctionnelle. En hydrologie, ce type de relation pratiquement n´apparait pas ;

7
Relation fonctionnelle
40
Périmetre du cercle en cm

35
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7
Rayon d´un cercle en cm

b) Les points (xi, yi) sont dispersés à l´intérieur d´un cercle. Aux différentes valeurs d´une

variable correspond différentes valeurs d´une autre variable. Dans ce cas, nous parlons

d´indépendance statistique des variables X et Y ;

8
Le nuage de points rempli un cercle
8

5
variable y

0
0 1 2 3 4 5 6
variable x

c) Les points (xi, yi ) s´alignent de part et d´autre d´une droite

1400
Précipitations annuelles en mm

1200

1000

800

600

400

200

0
0 200 400 600 800 1000 1200 1400 1600
Altitude en m

9
- Le premier cas a lieu lorsque la liaison est parfaite ; le coefficient de

corrélation que nous décrirons ci-après est égal à r=1 (resp. r= -1),

- Le deuxième cas décrit un manque de liaison (indépendance des v.a. X et Y),

donc r=0 ;

- Le troisième cas concerne une liaison plus ou moins marquée, 0 < r < 1 pour

une liaison directe et -1 < r < 0 pour une liaison indirecte (c´est à dire lorsque

x augmente, y diminue ou le contraire). C´est ce cas qui arrive le plus

couramment en hydrologie et que nous étudierons en détail dans ce polycopié.

800
précipitations annuelles en mm

700
600
500
400
300
200
100
0
0 500 1000 1500 2000
Altitude en m

Lorsqu´on observe dans un diagramme de dispersion de deux variables aléatoires X et Y une

certaine dépendance entre les deux variables, Il est possible d´estimer au mieux la valeur prise

par l´une des variables en fonction d´une valeur donnée de l´autre variable. Cette estimation

s´appelle régression. Lorsque la dépendance entre les deux variables X et Y est exprimée par

une fonction linéaire, il s´agit alors de régression linéaire simple.

Nous pouvons donc exprimer les droites de régression des deux variables par :

yx = a x + b la droite de y en x (f1)

10
4.2.1Coefficient de détermination

∑ ( ̅) ( ̅)
( )
√∑ ( ̅) √∑ ( ̅)

4.2 Estimation des paramètres

L´estimation des paramètres a et b de l´équation (y = ax+b) se fait par la méthode des

moindres carrés. Le principe consiste à minimiser la somme des carrés des résidus ei (ou

écarts) (yx(i) – yi), pour i=1 à n, où n est le nombre de couples (yx(i), yi)

Dy/x => y = ax +b

∑( ̅̅̅) ( ̅̅̅)
a= ∑( ̅̅̅)

b = ̅- a ̅

11

Vous aimerez peut-être aussi