0% ont trouvé ce document utile (0 vote)
294 vues80 pages

Statistiques et Corrélations Visuelles

cours de statistique descriptif qui facilite la comprehension des variables qualitatif et quantitatif .

Transféré par

MouradQadda
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
294 vues80 pages

Statistiques et Corrélations Visuelles

cours de statistique descriptif qui facilite la comprehension des variables qualitatif et quantitatif .

Transféré par

MouradQadda
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPT, PDF, TXT ou lisez en ligne sur Scribd

DISTRIBUTION STATISTIQUE À UNE

VARIABLE Et À DEUX VARIABLES : Corrélation


et Ajustement

1
A. DISTRIBUTION STATISTIQUE À UNE VARIABLE

2
I. TABLEAUX STATISTIQUE ET GRAPHIQUES

.V.D
X Effectifs
x1 n1
. .

. .

. .

. .

. .

. .
X Total
. .
Effectifs
3
Total n
.V.C
Classes Effectifs
[…; …[ n1
.
.
.
.

Total

Classes Total
Effectifs n
4
Qualitative
Exemple : taille de vêtement :

XS < S < M < L < XL < XXL

Il faudra, notamment pour les représentations graphiques, présenter toujours les


modalités dans l'ordre.

Répartition d'une population en fonction de sa taille vestimentaire

5
Représentations graphiques
1. Caractères qualitatifs
1.1. Diagramme en barres (ou en tuyaux d'orgue) :

6
: Diagramme en bâtons .1.2

7
1.3. Diagramme circulaire

8
Graphique figuratif :

Caractère Figure possible


Population humaine Etres humains
Dépenses, recettes Pièces de monnaie ou billets de
banque
Consommations d'un produits Dessins du produit concerné
Importance d'une production Dessins du produit concerné
etc etc

9
Pouvoir d'achat du dollar canadien, 1980 à 2000

10
Consommation d’un produit P par sexe et par tranche d’âges

fi

11
Caractères quantitatifs .2
C. Discrets .2.1
:Diagramme en bâtons

12
2.2. Caractères Continus

13
fi

14
Pb. les amplitudes varient d'une classe à une autre !

Tailles (en cm) amplitudes Nombre d'élèves


[161;165[ 4 3
[165;177[ 12 13
[177;185[ 8 9
Total 25

Soit u = PGCD(4; 12; 8) = 4

S1 3 S 2 13 1 S3 9
h1   3 h2   4  h3   4,5
b1 1 b2 3 3 b3 2

15
2.3. Courbe cumulative croissante et décroissante (fct de
répartition) :
VD

16
17
VC

18
19
Autres représentations graphiques .2.4

2.4.1. Pyramides

La pyramide est un double histogramme horizontal.


L'exemple le plus connu est la pyramide des âges.

20
Exemple : Population active dans une société X à une date donnée

21
: Graphiques à coordonnées polaires .2.4.2
Mois Année 2005
Janvier 60
Février 80
Mars 100
Avril 150
Mai 200
Juin 180
Juillet 40
Août 20
Septembre 80
Octobre 100
Novembre 110
22
Décembre 130
Janvier
200
Décembre Fevrier
150
Novembre 100 Mars

50

Octobre 0 Avril

Septembre Mai

Août Juin
Juillet

23
Les graphiques polaires peuvent être subdivisés en :

• Quatre parts pour les trimestres ;

• Douze parts pour les mois ;

• Vingt-quatre parts pour les heures de la journée;

• Cinquante-deux parts pour les semaines de l’année;

• Etc

24
II. Paramètres de position et de dispersion

La représentations des séries dans des tableaux et des graphiques


permettent une vue d’ensemble mais ne peuvent résumer des tendances
moyennes ou encore des dispersions dans les séries.

La façon la plus commode de résumer une série se fait à partir de :

• la tendance centrale
• et la dispersion de la série

25
Paramètres de position .1
1.1. Mode
Le mode d'un échantillon est la valeur qui se répète le plus souvent,
autrement dit celle qui apparaît avec la fréquence la plus élevée. C'est
pour cela qu'elle est parfois aussi appelée dominante.

: )discrète( Exemple1. Série discontinue

Le nombre de frères et sœurs des élèves d'une classe est indiqué dans
le tableau suivant
Nbre de frères et sœurs 0 1 2 3 4 5 et plus
Nbre d'élèves 5 25 4 3 2 1

Le mode dans cette série est la valeur 1.


26
Exemple2. Détermination du mode dans les séries statistiques continues :
Série comportant des classes d'amplitude égale
Les salariés d'une entreprise ont été classés selon leur rémunération mensuelle dans le
tableau suivant :
Rémunérations [5000;6000 [6000;7000 [7000;8000 [8000;9000 [9000;10000 [10000;11000
mensuelles [ [ [ [ [ [

Nombre de salariés 20 50 60 40 20 10

Le mode se trouve dans la classe [7000; 8000[. Pour connaître la valeur modale exacte,
on prend la VALEUR CENTRALE DE LA CLASSE, soit ici 7500.
[7000 ; 8000[ est la classe modale.

Série comportant des classes d'amplitude inégale :


Dans ce cas c’est le centre de la classe correspondant à la densité relative (di) la plus
importante, avec
ni
di 
ai 27
1.2. Médiane
La médiane est la valeur centrale, autrement dit celle qui partage la série en deux
sous-séries d’effectifs égaux.

Cas de variables discrètes :

Tout d’abord, les valeurs de la variable doivent être rangées par ordre croissant.
Ensuite
si le nombre d’observation est impaire [(2n+1)-observations], alors

Me = (n+1)ième observation

Exemple: soit l’ensemble des notes sur 20 obtenues par 9 étudiants :


E= {13 ; 14 ; 14 ; 15 ; 16 ; 18 ; 18 ; 19 ; 20} Me = 16

si le nombre d’observation est paire (2n-observations), alors


n ième obs.  ( n  1)ième obs.
Me 
2
28
Cas de variables continues :
Soit les 50 notes attribuées par un jury à un examen,
La médiane se
trouve
Notes ni ni↑
[8 ;12[ (classe [0 ; 5[ 10 10
médiane)
[5 ; 8[ 8 18
[8 ; 12[ 12 30
[12 ; 15[ 11 41
[15 ; 20[ 9 50
50
On le détermine par interpolation linéaire :

29
 0,5 - FMe 1 
Me LMe    . aMe
 f Me 
avec
LMe: la limite inférieure de la classe contenant la médiane,

FMe-1: la fréquence relative cumulée jusqu’à la classe médiane (excluant


la fréquence de cette classe),

fMe: la fréquence relative de la classe médiane,

aMe : l’amplitude de la classe médiane,


30
: Exemple

Me  8 25  18

12  8 30  18
Me  8 7
 
4 12
28
 Me 8  10.33
12
31
Graphiquement, la valeur médiane est celle qui correspond au
croisement des courbes des fréquences cumulées croissantes et
décroissante.
Classes en cm ni fi Fi↑ Fi↓
Min Max
155 0 %0 %0
155 à 160 155 160 1 %4 %4 % 100
160 à 165 160 165 6 % 24 % 28 % 96
165 à 170 165 170 6 % 24 % 52 % 72
170 à 175 170 175 5 % 20 % 72 % 48
175 à 180 175 180 2 %8 % 80 % 28
180 à 185 180 185 2 %8 % 88 % 20
185 à 190 185 190 3 % 12 % 100 % 12
190 %0
25 % 100 32
les deux
courbes se
croisent juste
avant 170

Me

33
1.3. Moyenne arithmétique :

C’est le point le plus proche à tous les points de la série statistique.

Soient n1, n2, n3, .........,np les effectifs correspondants aux modalités x1,

, x2, x3, .........,xp., si la série est discrète


.ou les centres den chaque classe, si la série est continue
1 1 n1 x1  n2 x2  ...  n p x p
p
x   xi   ni xi 
n i 1 n 1 n1  n2  ...  n p
N

x i
Si on travaille sur toute la population on la note   i 1
N 34
Exemples :

Série discrète

Série continue

35
Propriétés de la moyenne:

Si yi axi  b alors y ax  b


La moyenne de la série S regroupant les deux séries S1 et S2 est :

nS1 x S1  nS2 x S2
x
.
nS1  nS2
cette propriété se généralise par
nS1 x S1  nS2 x S2  ...  nSk x Sk
x
nS1  nS2  ...  nSk
36
1.4. Moyenne géométrique :
Utilisée dans
• les calculs de certains indices statistiques ;
• calcul de corrélation linéaire;
• la recherche de taux moyens de variation (croissance d’une grandeur économique)
n1 n2 np
MG  x 1 x 2 x n  x 1 x 2
n n
x p
Exemple : la production d’un article A a été la suivante au cours du 1er trimestre : 1er
mois 200000 unités, 2e mois 250000 unités et au 3e mois 360000 unités. Quel est le
?taux moyen mensuel de croissance
Soit Pi le nombre d’unités à la fin du ie mois et ti le taux d’augmentation entre le mois i
et i+1. Donc on a
P3 (1  t 2 )P2 (1  t 1 )(1  t 2 )P1 (1  t m ) 2 P1
 (1  t m ) 2 (1  t 1 )(1  t 2 )  1  t m  (1  t 1 )(1  t 2 )
37
t m  (1  t 1 )(1  t 2 )  1 34.164%
: Moyenne harmonique .1.5
Utilisée dans des cas particuliers : problème de vitesse, de changes
.monétaires, certains indices (indices de Paasche) et problème de prix
1
MH  n
1 1
n

i 1 xi
Exemple1 : dans une entreprise de fabrication 3 ouvriers produisent des
pièces. L’ouvrier A met 10 min par pièce, B 15 min par pièce et C 20
min par pièce.
Amenons la production à 60 minutes
A produit 6 pièces : Le temps de production d’une pièce
B produit 4 pièces
10 min6  15min4  20 min3
C produit 3 pièces 13.85min/ pièce
-------------------------- 13 38

pièces 13
: Avec la formule de MH
3
MH  13.85 min/ pièce
1 1 1
 
10 15 20
Exemple2 : une voiture roule pendant une heure à la vitesse de 80 km/h
et ensuite parcours un tronçon de 60 km à la vitesse de 120 km/h. Quelle
est la vitesse moyenne?
On sait que distance = vitesse x temps
dT= d1 + d2 = 80 + 60 = 140 et tT= 1.5 h
donc vm = 140/1.5 = 93.33 km/h.
Ou bien 80  60
MH  93.33km / h
80 60

80 120 39
Exemple3 : une société marocaine doit régler une dette auprès d’un
fournisseur américain. Elle dispose actuellement de 32000 $ qu’elle a
acquis au cours de 9.25 DH/$. La dette s’élève à 78125$ ce qui nécessite
d’acquérir 46125 $ pour complément dont la contrepartie globale est
440000 DH. A quel cours moyen les opérations de change ont-elles été
réalisées ?
1er change : 32000 X 9.25 = 296000 DH
2e change : 46125 X i = 440000 DH i ≈ 9.54

78125 X im = 736000 DH
donc im = 736000 / 78125 ≈ 9.42 (cours moyen)
9.42 est la moyenne harmonique de 9.25 et 9.54 :
296000 +440000
MH 
296000 440000
 40
9.25 9.54
: Moyenne quadratique .1.5

n p p
1 1
Q  
n i 1
2
xi 
n
n x
i 1
i i
2
 f
i 1
i x i
2

Remarque

MH MG x Q

41
2. Paramètres de dispersion
But: comparer des séries entre elles en étudiant les variations ou
dispersions des données par rapport à la tendance centrale.

2.1. L’étendue de la série (range ou intervalle de variation)


La différence entre les deux valeurs extrêmes d’une série statistique. soit
E x max  x min

Les quartiles .2.2


Les quartiles découpent la série des observations classées en ordre
.croissant en 4 tranche de même effectif. On les note Q1, Q2, Q3 et Q4

42
Exemple : répartition des salaires dans une entreprise
Classes xic ni fi% ni↑ Fi%
[3500,3700[ 3600 21 10.5 21 10.5
[3700,4100[ 3900 49 24.5 70 35
[4100,4300[ 4200 100 50 170 85
[4300,4700[ 4500 24 12 194 97
[4700,5300[ 5000 6 3 200 100
Calcul de Q1 200 100
3700  Q1  4100  50  21
  Q1 3700  (4100  3700) 3936.73
21  50  70  70  21
Calcul de Q2 = Me
4100  Q 2  4300  100  70
  Q 2 4100  (4300  4100) 4160
70  100  170  170  70 43
Calcul de Q 3
4100  Q3  4300  75  35
  Q3 4100  (4300  4100) 4260
35  75  85  85  35

Calcul de Q4
Valeur telle que 100% des observations lui sont inférieures. Donc il
correspond à la modalité maximale soit Q4 = 5300

Etendue interquartile
EIQ = Q3 – Q1
il contient 50% des observations
On peut effectuer une même analyse par déciles. On les note D1, D2,
…, D10
44
Quelques types de boites de dispersion

A : distribution symétrique
B : distribution symétrique peu dispersée
C : distribution étalée vers les valeurs élevées
D : distribution étalée vers les valeurs faibles
45
2.3. Ecart absolu moyen
est la moyenne arithmétique des écarts par rapport à la tendance
centrale, exprimés en valeur absolue.
1 n
1 p p

Ex 
n
 x i
 x 
n
 n i
x i  x  f i x i  x
i 1 i 1 i 1

Variance et écart-type .2.4


.Sont les principaux indicateurs de dispersion utilisés

Echantillon :
n 2 p 2 n
1 1 1
 x   n x 
2
s x  
2

n i 1
i  x 
n i 1
i i  x 
n
x
i 1
i
2
 x

Population : on la note V x  ou  2 x 
46
 V
L’écart-type estime la dispersion ‘moyenne’ autour de la moyenne.

Coefficient de variation .2.5


Le coefficient de variation est une mesure de la dispersion relative (écart
type par rapport à la moyenne) d’une série. Il est donné par

s
Echantillon : CV  100%
x

Population : CV  100%
 47
3. Quelques caractéristiques de formes et de concentration
Peut on deviner l’allure d’une distribution ?
3.1. La forme d’une distribution
3.1.1. La symétrie Deux moyens existent pour repérer la symétrie
(ou asymétrie) d’une distribution :
[Link]. Comparaison de tendances centrales traditionnelles
• Si Mo = Me = Moyenne alors la distribution est symétrique
• Si Mo > Me alors la distribution est étalée vers la gauche
• Si Mo < Me alors la distribution est étalée vers la droite
Symétrie parfaite Etalement à gauche Etalement à droite

48
[Link]. Calcul des coefficients d’asymétrie
• Le coefficient de Yule
basé sur les écarts de quartiles :

(Q3  Me)  ( Me  Q1 )
s
Q3  Q1
Si s = 0, alors il y a symétrie;
Si s > 0 la médiane est plus à Q1, alors la courbe des fréquences est
étalée à droite;
Si s < 0 la courbe est étalée à gauche

49
• Le coefficient de Pearson
basée sur les écarts entre Moyennes et Modes :
série
Si p = 0 la série est symétrique x  Mo unimodale
p
Si p>0 la série est étalée à droite 
Si p<0 la série est étalée à gauche

3 x - Méd  série plurimodale ou


p n’ayant aucun mode
 x 

Si 0 < p < 1 l’asymétrique est moyenne


Si p > 1 la courbe est fortement asymétrique
50
3.1.2. Mesure de l’aplatissement
[Link]. Formes graphiques
Concentrée
Aplatie Normale

platikurtique mésokurtique leptokurtique


[Link]. Coefficients d’aplatissement
On utilise les statistiques de moments centrés d’ordre ‘r’
p r
1
Echantillon : m r  . n i x i  x
n i 1
 
Population : on les note  r 51
• Coefficient de Pearson

m4 m4 Echantillon
2  2
 4
m 2
s
4 4 Population
2  2  4
  2

• Coefficient de Fischer
2 = 2  3
Si β2 = 3 ou γ2 = 0 alors la distribution est mésokurtique
Si β2 > 3 ou γ 2 > 0 alors la distribution est leptokurtique
Si β2 < 3 ou γ 2 < 0 alors la distribution est platikurtique 52
• Coefficient de Kurtosis

0.5 Q 3  Q 2 
K 
D 9  D1

Si K > 0.25 alors la distribution est leptokurtique


Si 0.25 < K < 0.25 alors la distribution est mésokurtique
Si 0 < K < 0.15 alors la distribution est platikurtique

53
3.2. La Concentration d’une distribution
Elle mesure sa répartition ‘observée’ par rapport à une ‘norme’ de
répartition (la répartition à laquelle on s’attend). Donc il s’agit de
comparer deux séries de fréquences cumulées. Elle est souvent
utilisée dans l’analyse des parts distributives des salaires, des
fortunes, des parts de marché des entreprises, etc…

Exemple :
si on observe une distribution des ménages ainsi qu’une distribution
de leurs revenus, on serait tenté de comparer les deux distributions
pour voir si elles évoluent, par quantile, de la même manière :
Si 30% des ménages détiendraient 30% du total des revenues alors
les revenus sont équitablement réparties, etc ….
Par contre, si 30% des ménages détiennent 80% des revenus alors
les revenus sont très inéquitablement réparties (inégalités).
54
Les indicateurs de concentration
• largement utilisés dans la pratique;
• s’appliquent à des données cumulatives.
 la médiale Mle :
elle partage en deux la masse totale (∑nixi) du caractère étudié.
Exemple
Classes Centres xi ni Fi % masses nixi F’i %
[3500 ; 3700[ 3600 21 10.5 75600 9.17
[3700 ; 4100[ 3900 49 35 191100 32.34
[4100 ; 4300[ 4200 100 85 420000 83.27
[4300 ; 4700[ 4500 24 97 108000 96.36
[4700 ; 5300[ 5000 6 100 30000 100
200 824700 55
824700 : total du salaire versé dans l’entreprise
9.17 % représente la part du salaire versé à des salariés touchant une
rémunération comprise entre 3500 et 3700
32.34 % du salaire total est versé à des salariés dont la rémunération est
< 4100
Calcul de la Mle
 0.50 - F 'Mel  1 
Il est similaire à celle de la médiane Mle L Mle    . aMle
 f Mle 
 50 - 32.34 
4100    . 200
 50.93 
4169.35
50 % du salaire total est versé à des individus dont le salaire est < à
4169.35 56
 Courbe de concentration (Lorentz)
Elle permet de comparer à une répartition strictement égalitaire, la
répartition d’une série statistique donnée.

Classes Centres Effectifs Fi % Masses F'i %


[0 ; 20[ 10 4 1,43 40 0,20
[20 ; 40[ 30 36 14,29 1080 5,71
[40 ; 60[ 50 64 37,14 3200 22,04
[60 ; 80[ 70 80 65,71 5600 50,61
[80 ; 100[ 90 58 86,43 5220 77,24
[100 ;
120[ 110 24 95,00 2640 90,71
[120 ;
57
140[ 130 14 100 1820 100
100%
90%
80%
70%
60% ition
r t
F'i 50% u ir ép a
d’ é q
g n e
40% L i
30%
Courbe de Lorentz
20%
10%
0%
0% 20% 40% 60% 80% 100%

Fi

58
Interprétation de la représentation
• Représentation strictement égalitaire :
……
25% des individus détiennent 25% de la masse totale
50% des individus détiennent 50% de la masse totale
etc
• + la courbe de concentration s’éloigne de cette bissectrice, plus la
série des valeurs étudié est inégalitaire et montre une concentration
de plus en plus importante.
Remarque : l’exemple montre une faible concentration.

59
 Indice de concentration (coefficient de Gini)
X

A ire A 
IG  A
A ire OX Z 
B
O Z

Remarques :
• 0 ≤ IG ≤ 1
• la concentration est forte lorsque IG → 1

60
Calcul Pratique :
L’aire sous la courbe est décomposé en triangle et trapèzes.
Dans notre exemple on a 1 triangle et 6 trapèzes.
1.43 0.21
Aire triangle   0.15015
2

Aire 1 trapèze  
er  0.21  5.71
(14.29  1.43) 38.0656
2

Aire 2 trapèze  
e  5.71  22.04 
(37.14  14.29) 317.04375
2

Aire 3 trapèze  
e  22.04  50.61
(65.72  37.14) 1038.1685
2

Aire 4 trapèze  
e  50.61  22.61 77.24
(86.43  65.72) 1323.88675
2
Aire 5e trapèze  719.66575
Aire 6e trapèze  476.775 61
Donc

Aire du carré
Aire  A    Aire B 5000  3913.7555 1086.2445
2

Et par suite

1086.2445
IG  0.22
5000
62
Hauteurs trapèzes Bases trapèzes
Fi % F’i% (Fi-Fi-1)% (F'i+F'i-1)% (Fi-Fi-1)(F'i+F'i-1) ‰
1,43 0,20
14,29 5,71 12,86 5,92 76,09
37,14 22,04 22,86 27,76 634,40
65,71 50,61 28,57 72,65 2075,80
86,43 77,24 20,71 127,86 2648,47
95,00 90,71 8,57 167,96 1439,65
100,00 100,00 5,00 190,71 953,57

7827,99 7827,99
Aire  A  5000  =1086.01
2
Aire  A 
 IG = 0.22 63
5000
B. Distribution statistique à deux Caractères :
Ajustement et Corrélation

64
I. Définitions
Soit X et Y deux variables statistiques quantitatives, discrètes ou continues. .
xi, i = 1, 2, …, I : I modalités (observations)
yj, j = 1, 2, …, J : J observations

1. Tableaux à deux caractères


Y ni.
y1 y2 … yp … yJ
X
x1 n11 n12 n1.
Tableau des effectifs

x2 n21 n2.
… …

xq nq.
… …

xI nI.
n.j n.1 n.2 n.p n.J n.. 65
nij : l’effectif d’individus qui vérifient la ième modalité de X et la jème
modalité de Y.
ni.: le nombre d’individus pour lesquels X = xi
{(xi, ni.)/ 1≤ i ≤ I} est la distribution marginale de la variable X.
{(yj, n.j)/ 1≤ j ≤ J} est la distribution marginale de la variable Y.
L’effectif marginale ni. de la modalité xi , l’effectif marginale n.j de la
modalité yj et l’effectif total sont donnés respectivement par
J I J I
n i .  n ij , n. j  n ij et n..   n ij
j 1 i 1 j 1 i 1

66
Fréquences marginales

Y
y1 y2 … yp … yJ fi.
X
x1 f11 f12 f1. ni j
Tableau des fréquences

fij 
x2 f21 f2. n..
… …
Fréquences marginales

xq fq.
… …

xI fI.
f.j f.1 f.2 f.p f.J f..=1

67
Les effectifs par (sous)-population
Chaque caractéristique correspond à une (sous)-population
S-P

Y y y … yp … yJ ni.
X 1 2

x n n
1 12 1.

x n n
2 21 2.

S-P … …
x n
q q.

… …
x n
I I.

n n n n n n
.j .1 .2 .p .J ..
68
2. Fréquences conditionnelles :
n ij
f j / X x i  : fréquence conditionnelle de la valeur yj sachant xi.
ni .
n ij
f i / Y y j  : fréquence conditionnelle de la valeur xi sachant yj.
n. j
Relation entre les fréquences
Somme des fréquences égal à l’unité :
: Fréquences marginales
ni . 1 n. j 1
 f i .    ni . 1  . j 
f    n. j 1
i i n.. n.. i j j n.. n.. j
: Fréquences conditionnelles
nij 1 nij 1
 fi / j    nij 1  f j / i    nij 1
i i n. j n. j i j j ni . ni . j
Fréquences partielles
1nij 1
  f ij     n. j  n.. 1
i j n.. n.. j n.. 69
j i
Le produit de la fréquence marginale par la fréquence conditionnelle est
égal à la fréquence partielle

f i. f j /i f ij

3. Critères d'indépendance :
Pour que X et Y seront indépendantes, il faut et il suffit que l'on ait :

ni.n. j
nij  , ou bien fij  fi. f. j ,  (i, j)  [1, I] × [1, J].
n..

70
II. Tendances centrales et dispersions dans les séries à deux variables

– chaque variable peut varier indépendamment de l’autre.

– chaque variable d’une série x peut aussi dépendre d’une


modalité de l’autre série y.

71
1. L’expression de la moyenne et de la variance dans des tableaux à
deux caractères

Moyennes (globales) :

1 1
X  . n i .x i Y  . n. j y j
n.. i n.. j

Variances (globales) :

1 1
   
2 2
V (X)  . n i . x i  X V (Y)  . n. j y j  Y
n.. i n.. j

72
Les caractéristiques conditionnelles sont les moyenne et variance de x
selon chaque modalité de y (il s’agit de moyenne et de variance locales
de x)

Moyennes conditionnelles (locales) :

1 1
X. j 
n. j
n x
i
ij i Y i. 
ni.
n ij yj
j

Variances conditionnelles (locales) :

1
x  X  1
2
V (X. j ) 
n. j
n
i
ij i .j V (Yi . )   n ij ( y j  Yi . )2
ni . j

73
2. Relation entre les moyennes
La moyenne marginale est la moyenne pondérée des moyennes conditionnelles.

1 1
X
n..
n .j X. j Y
n..
n Y
i
i. i.
j

3. Relation entre les variances


La variance marginale est la somme de la moyenne pondérée des
variances conditionnelles et de la variance pondérée des moyennes
conditionnelles.
Décomposition de la Variance globale :
1   1 
 
2
V (X)  .   n. jV X. j   .   n. j X. j  X 
n..  j  n..  j 
1   1 
 

2
V (Y)  .   n i V. Yi .   .   n i . Yi .  Y 
n..  i  n..  i  74
4. La covariance
La covariance est une mesure de la variance liée de deux variables.


i j
n ij (x i  X)( y i  Y) 
i j
n ij x i y i
Cov(X, Y)    XY
n.. n..

Propriétés.

Cov(aX  b, cY  d ) abCov( X , Y ) , (a, b, c, d )  IR 4


Cov( X , X ) Var( X )

Remarque. Si X et Y sont indépendantes, leur covariance est nulle. La


réciproque est fausse.

75
III. Relations entre variables : régressions et corrélations

Les courbes de régressions sont un moyen graphique de synthétiser la


liaison existante entre deux variables (ou le nuage de points formé par
ces deux variables).
S'il existe une relation fonctionnelle entre les variables X et Y de X vers
Y et si f est un modèle de cette relation ( Y = f ( X ) ) on dit que X est la
variable explicative et Y la variable expliquée.

76
1. La méthode des moindres carrés (ou encore la régression linéaire)

La méthode des moindres carrés résume un nuage de points par deux


droites possibles qui lient Y à X, tel que la distance entre le nuage de
points et chaque droite est minimale.

Y évolue en fonction D y  y a.x  b


d’une variable X x

X évolue en fonction D x  x a '.x  b '


d’une variable Y y

77
ˆ i  bˆ  D y / x  tel que:   y  est unmimimum
2
Objectif: choix de yˆ i ax i  yˆ i
i

Objectif: choix de xˆ i aˆ ' y i  bˆ '  D x / y  tel que:  x i  xˆ i 


2
est un mimimum
i

Calcul des coefficients .1.1


Cov (X,Y)
ˆ
a et bˆ Y  aˆ X
V ar (Y)

avec x i . y i  X.Y
Cov (X,Y) 
n

De même

Cov (X,Y)
ˆa '  et bˆ ' X  aˆ 'Y
Var (Y)
78
1.2. Coefficient de corrélation et pentes

Cov (X, Y)
r a.a '
1/ 2
  [ 1,1]
 X . Y
Le taux de corrélation r détermine l’intensité de la corrélation (co-dépendance)
.entre la variable X et la variable Y

1.3. Le coefficient de détermination R


est le carré du coefficient de corrélation r. Il mesure le part de la
variabilité totale de Y expliquée par X (ou encore par la droite de
régression) :
Si r2 tend vers 1, alors l’évolution de X décrit bien celle de Y.
Si r2 tend vers 0, alors l’évolution de X semble être indépendante de
celle de Y.

79
Remarque.

Si 0,5 < r2 < 1 on peut dire que l'ajustement du modèle y = f(x) est
satisfaisant (plus r2 est proche de 1, meilleur est l'ajustement).

Si r2 < 0,5 l'ajustement n'est pas parfait. Le modèle ne s'ajuste pas au


nuage de points.

80

Vous aimerez peut-être aussi