Fiche Statistique
Fiche Statistique
𝑘 𝑘
Premier quartile (Q1) : Il correspond à la valeur en dessous de
1 1 𝑓𝑖 ↑ laquelle se trouvent 25 % des données. C’est le 25e percentile.
𝑄 = √ ∑ 𝑛𝑖 𝑥𝑖2 √ ∑ 𝑛𝑖 𝑐𝑖2
𝑁 𝑁 1 Deuxième quartile (Q2) : C’est la médiane. Il sépare la série en
𝑖=1 𝑖=1
Courbe de concentration deux moitiés égales. 50 % des données sont inférieures ou égales
𝑘 𝑘
Courbe de LORENTZ à cette valeur.
𝑄 = √∑ 𝑓𝑖 𝑥𝑖2 𝑄 = √∑ 𝑓𝑖 𝑐𝑖2 Troisième quartile (Q3) : Il correspond à la valeur en dessous de
𝑖=1 𝑖=1
laquelle se trouvent 75 % des données. C’est le 75e percentile.
Moyenne géométrique Détermination : Cf. calcul médiane
En général,
3.3. Intervalle (IQ) et écart interquartile (EQ)
𝑘 𝑘
𝑁 IQ = [Q1; Q3] ↔ EQ = Q3 − Q1
𝑛 𝑓
𝐺 = √∏ 𝑥𝑖 𝑖 = √∏ 𝑥𝑖 𝑖 Cela signifie que 50 % des données se trouvent dans cet intervalle.
𝑖=1 𝑖=1
Borne (boîte) de moustache ou boxplot ou plotbox
1 𝑘 1
∑ ∑𝑘 [𝑄1 − 1,5 ∗ EQ ; Q3 + 1,5 ∗ EQ]
𝐺= 𝑒 𝑁 𝑖=1 𝑛𝑖 ln 𝑥𝑖 𝐺 = 𝑒 𝑁 𝑖=1 𝑛𝑖 ln 𝑐𝑖
𝑘 𝑘
𝐺 = 𝑒 ∑𝑖=1 𝑓𝑖ln 𝑥𝑖 𝐺 = 𝑒 ∑𝑖=1 𝑓𝑖 ln 𝑐𝑖 Toute valeur en dehors de cet intervalle est dite valeur aberrante
1 1
0 1 𝑞𝑖 ↑
∑𝑘 ∑𝑘 ou extrême
𝐺 = 10𝑁 𝑖=1 𝑛𝑖 log 𝑥𝑖 𝐺 = 10𝑁 𝑖=1 𝑛𝑖 log 𝑐𝑖 𝐴𝑖𝑟𝑒 𝑑𝑒 𝑐𝑜𝑛𝑐𝑒𝑛𝑡𝑟𝑎𝑡𝑖𝑜𝑛
𝑘 𝑘 IC = 3.4. Variance
𝐺 = 10∑𝑖=1 𝑓𝑖 log 𝑥𝑖 𝐺 = 10∑𝑖=1 𝑓𝑖 log 𝑐𝑖 1
𝑘
2 Formule par définition
Au cas où les modalités (valeurs prises par le caractère 𝑥𝑖 ) sont 1 1
𝐴𝑖𝑟𝑒 𝑑𝑒 𝑐𝑜𝑛𝑐𝑒𝑛𝑡𝑟𝑎𝑡𝑖𝑜𝑛 = 𝐴𝑖𝑟𝑒 𝑑𝑢 𝑡𝑟𝑖𝑎𝑛𝑔𝑙𝑒 − 𝐴𝑖𝑟𝑒 𝑠𝑜𝑢𝑠 𝑙𝑎 𝑐𝑜𝑢𝑟𝑏𝑒 𝑉(𝑥) = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2
trop élevées, on peut utiliser le changement de base ou d’origine 𝑁
𝐶𝑜𝑡é² 1 𝑖=1
ou encore variable en posant par : 𝑐𝑖 = 𝑎𝑧𝑖 + 𝑏 ↔ 𝑥̅ = 𝑎𝑧̅ + 𝑏 𝐴𝑖𝑟𝑒 𝑑𝑢 𝑡𝑟𝑖𝑎𝑛𝑔𝑙𝑒 = = Formule développée 𝑘
2 2 1
II- Paramètres de concentration (𝐵 + 𝑏) ∗ ℎ 𝑉(𝑥) = ∑ 𝑛𝑖 𝑥𝑖2 − 𝑥̅ 2
𝑁
2.1. Médiale (Mle) 𝐴𝑖𝑟𝑒 𝑠𝑜𝑢𝑠 𝑙𝑎 𝑐𝑜𝑢𝑟𝑏𝑒 = ∑ 𝑇𝑟𝑎𝑝è𝑧𝑒 = 𝑖=1
2 Formule par changement 𝑉(𝑥) = 𝑎²𝑉(𝑧)
La médiale réparti la masse ( 𝑛𝑖 𝑥𝑖 ) de la distribution en deux 𝑘
1 de variable
parties égales. = ∑(𝑓𝑖+1 ↑ −𝑓𝑖 ↑)((𝑞𝑖+1 ↑ +𝑞𝑖 ↑)
2 3.5. Ecart-type : 𝜎𝑥 = √𝑉(𝑥)
𝑞𝑖 ↑≤ 0,5 ≤ 𝑞𝑖+1 ↑ 𝑖=1
𝑘 𝜎𝑥
𝑒𝑖 ≤ Mle ≤ 𝑒𝑖+1 3.6. Coefficient de variation : CV =
𝑥̅
Me − 𝑒𝑖 0,5 − 𝑞𝑖 ↑
IC = 1 − ∑(𝑓𝑖+1 ↑ −𝑓𝑖 ↑)((𝑞𝑖+1 ↑ +𝑞𝑖 ↑) Le CV indique à quel point les données sont dispersées par
= 𝑖=1
𝑒𝑖+1 − 𝑒𝑖 𝑞𝑖+1 ↑ −𝑞𝑖 ↑ rapport à la moyenne :CV faible → les données sont peu
Si IC= 0 → Répartition parfaitement égalitaire (chaque unité
dispersées, donc homogènes.
Interprétation : La moitié de …. gagnent/disposent la masse …. détient la même part)
CV élevé → les données sont très dispersées, donc hétérogènes.
moins de …. Si IC est proche de O : La concentration est faible 1 CV < 15 % Très faible dispersion (série homogène)
2.2. Indice de concentration ou indice de GINI (IC) Si IC est loin de 0 et 1 : La concentration est modérée
Si IC est proche de 1 : La concentration est forte 15 % ≤ CV < 30 % Dispersion modérée
Si IC= 1 → Répartition parfaitement inégalitaire (une seule unité 30 % ≤ CV < 50 % Dispersion importante
détient tout) CV ≥ 50 % Très forte dispersion (série hétérogène)
III- Paramètres de dispersion Important : Le CV n’a de sens que pour des données positives et
3.1. Étendu dans la même unité. Il n’est pas interprétable si la moyenne est
𝑒 = 𝑒𝑚𝑎𝑥 − 𝑒𝑚𝑖𝑛 proche de 0. BREF : Étendue : Écart entre les extrêmes |Écart
3.2. Quartile ou fractile d’ordre 4 interquartile : Dispersion centrale | Variance : Dispersion absolue
C’est la valeur qui divise une série de données triées en quatre |Écart-type : Dispersion moyenne | Coefficient de variation :
parties égales, chaque partie contenant environ 25 % des données. Dispersion relative.
Page 3 sur 4