0% ont trouvé ce document utile (0 vote)
93 vues42 pages

Cours1-SA 2

Transféré par

winam
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
93 vues42 pages

Cours1-SA 2

Transféré par

winam
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

STATISTIQUE

APPLIQUEE
(Outils d’aide à la décision )

Rachid MCHICH
Chap. 1: Rappels mathématiques

I - Statistique descriptive
(Mesures de tendance centrale et de dispersion,
corrélation, …)
I-1 Exemples et définitions :

— Selon une enquête de Jupiter Media, 31 % des hommes


adultes regardent la télévision au moins 10 heures par
semaine. Cette proportion s’élève à 26 % chez les
femmes adultes (The Wall Street Journal, 26-01-04).

— General Motors, leader des ristournes dans le secteur


automobile, a fourni une réduction moyenne de 4 300 $
par véhicule en 2003 (USA Today, 23-01-04) .

— Plus de 40 % des managers de la société X connaissent


une ascension professionnelle au sein de cette société.
Définition :

La statistique est l'ensemble des instruments et de


recherches mathématiques permettant de déterminer
les caractéristiques d'un ensemble de données
(généralement vaste).

Les statistiques sont le produit des analyses reposant


sur l'usage de la statistique.
Définition :

Cette activité regroupe trois principales branches :

• la collecte des données;

• le traitement des données collectées, aussi appelé:


la statistique descriptive ;

• l'interprétation des données, aussi appelée:


l’inférence statistique, qui s'appuie sur la théorie
des sondages et la statistique mathématique.
Objectif :
Le but de la statistique est d'extraire et de
résumer des informations pertinentes d'une liste
de nombres difficile à interpréter par une simple
lecture:
• les statistiques exploratoires : on explore d'abord
les données pour avoir une idée qualitative de
leurs propriétés ;
• les statistiques confirmatoires: on fait des
hypothèses de comportement que l'on confirme
ou que l’on infirme en recourant à d'autres
techniques statistiques.
I-2 Vocabulaire de la statistique descriptive:

1. Population : un ensemble de personnes,


d’objets ou d’événements, base de l’étude
statistique.

2. Individu : Un élément de cette population.


(Exple: population d’employés d’une entreprise,
population de produits d’une usine …etc).
3. Echantillon : c’est un sous-ensemble de la
population, ayant les mêmes caractéristiques
de la population-mère, utilisé en vue d'inférer
quelque chose à propos de cette population.

4. Caractère: c’est une particularité ou


propriété caractéristique de la population.
L’étude statistique porte sur un caractère.
5. Effectif d’une population: c’est le nombre
total des éléments constituant cette
population, noté: N.

6. Fréquence d’un caractère: c’est le nombre


d’individus possédant ce caractère divisé par
l’effectif total de la population: Ni.
Tableaux & Graphiques
vs
Données numériques
I-3 Tableaux et Graphiques :
(ii) Variables continues (VSC)
Dans ce cas, les valeurs du caractère appartiennent à des intervalles, qu’on regroupe en
général dans des classes adjacentes, d’amplitudes pas forcément égales :

Classes Centre des classes Effectifs Fréquences


[X0, X1[ x1=( X0+ X1)/2 n1 f1= n1/N
. . . .
. . . .
. . . .
[Xp-1, Xp[ . nk fk

La représentation se fait alors grâce à un histogramme dont les rectangles sont de largeur
égale à l’amplitude de la classe.
Exemple : Considérons les données
quantitatives indiquant le temps nécessaire (en
jours) pour effectuer l’audit de 20 clients par le
cabinet d’un expert comptable.

12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13
Effectifs et fréquences cumulées croissants et
décroissants

— Pour une VSD :

Soit mi une modalité d’une VSD. L’effectif cumulé croissant


à gauche (resp. décroissant à droite) de mi est le nombre
d’individus pour lesquels la VSD prend des valeurs <= mi
(resp. >=mi ).

Ce nombre est donné par Ncc= N1+…+Ni (resp. Ncd= Ni+


…+Nk).

— Fréquence cumulée croissante à gauche de mi :


fcc= Ncc/N .
— Fréquence cumulée décroissante à droite de mi :
fcd= Ncd/N .
— Pour une VSC : Les modalités sont des intervalles .

— Effectif cumulé croissant à gauche de xi

— Effectif cumulé décroissant à droite de xi

— Fréquence cumulée croissante relative à une


classe Ii

— Fréquence cumulée décroissante relative à une


classe Ii
(iii) Caractère qualitatif

Dans ce cas, les modalités sont des qualités, qui ne


peuvent pas être ordonnées. En général, on fait une
représentation en secteurs.
I-4 Valeurs numériques :

— Lorsque les valeurs numériques sont issues d’un


échantillon, on parle alors de statistiques
d’échantillon.

— Lorsque les valeurs numériques sont issues


d’une population, on parle de paramètres de
la population.
— Statistique d’échantillon : Valeur numérique
utilisée comme mesure d’un échantillon

— Paramètre de la population : Valeur


numérique utilisée comme mesure de la
population

— Estimateur ponctuel : Statistique


d’échantillon utilisée pour estimer le paramètre
correspondant de la population
Ci-dessous certaines notations utilisées:

Statistiques Paramètres de
d’échantillon la population
Moyenne x µ

Variance s2 σ2

Ecart type s σ

Covariance s xy σ xy

Corrélation rxy ρ xy
Mesures de tendance centrale

— Moyenne : Elle est obtenue en sommant la


valeur des observations et en divisant par le
nombre d’observations.

— Moyenne d’échantillon :

x=
∑ x i

— Moyenne de la population :

µ=
∑ x i

N
Mesures de tendance centrale

— Médiane : Il s’agit de la valeur centrale de


l’ensemble des données, classés en ordre
croissant.

— Mode : Défini comme la valeur de l’observation la


plus fréquente.

— Percentile : Valeur telle que, au moins p pour cent


des observations ont une valeur <= à cette valeur
et au moins (100 - p) pour cent des observations
ont une valeur >= à cette valeur. La médiane
correspond au 50e percentile.
— Quartile : Les 25e, 50e et 75e percentiles sont
appelés respectivement premier quartile,
deuxième quartile (médiane) et troisième
quartile. Les quartiles divisent l’ensemble des
données en quatre parties, chacune
contenant environ 25% des données.
Mesures de dispersion

— Etendue : égale à la différence entre la plus grande


et la plus petite valeurs.

— Etendue interquartile (EIQ): égale à la différence


entre le 3e et le 1e quartiles :
EIQ = Q3 − Q1
— Variance : basée sur les écarts au carré des
observations par rapport à la moyenne :

σ2 =
∑ i
(x − µ ) 2

s2 =
∑ i
(x − x ) 2

N n −1
Mesures de dispersion

— Ecart type : égal à la racine carrée de la


variance

σ = σ2 s= s2

— Coefficient de variation : Mesure de


dispersion relative, égale au rapport de
l’écart type à la moyenne, multiplié par 100

Ecart type
*100
Moyenne
I-4 Détection des valeurs singulières :

Définition :

— Va l e u r s i n g u l i è r e : O b s e r v a t i o n
anormalement grande ou petite
◦ Erreur d’enregistrement : à corriger avant toute
analyse
◦ Observation pas correctement incluse dans
l’ensemble des données : à supprimer
◦ Valeur inhabituelle, correctement enregistrée et
qui appartient à l’ensemble des données: à
conserver.
— Forme d’une distribution

Degré d’asymétrie : Mesure de la forme


d’une distribution de données.
◦ Des données biaisées à gauche sont
caractérisées par un degré d’asymétrie négatif.

◦ Des données comportant un biais à droite sont


caractérisées par un degré d’asymétrie positif.
3
µ3 1 k
γ 1 = 3 avec µ3 = ∑ ni (xi − x )
σ n i =1
— Variable centrée réduite z : Valeur
obtenue en divisant l’écart par rapport à
la moyenne (xi − x) par l’écart type s.
xi − x
zi =
s

La variable centrée réduite mesure la


distance, en nombre d’écarts type, entre
l’observation xi et la moyenne.
Exemple :

Nbr d’étudiants Ecart par rapport Valeur de la variable


dans la classe à la moyenne centrée réduite
46
54
42
46
32

x = ?? s = ??
• Théorème de Chebyshev :

Théorème utilisé pour déduire le pourcentage d’observations


qui se situent dans un intervalle de z écarts type de part et
d’autre de la moyenne:

Théorème de Chebyshev :

1
« Au moins (1− 2
) des observations doivent se situer au
z

plus à 1z1écarts types de part et d’autre de la moyenne

(càd. dans l’intervalle "# x − zs, x + zs$% ), avec z >1 ».


Exemple:
Supposons que la moyenne des notes de 100
étudiants de l’ENCGT soit égale à 70 et que
l’écart type est de 5.

1. Combien d’étudiants ont obtenu une note


entre 60 et 80?

2. Combien d’étudiants ont obtenu une note


entre 58 et 82?
— Règle empirique : Règle qui donne le pourcentage
d’observations situées dans les intervalles de un, deux ou
trois écarts type autour de la moyenne, pour une
distribution en forme de cloche (distribution dite normale)

Pour des données ayant une distribution en forme de cloche:


— Environ 68% des observations se situent dans " $
# x − s, x + s%

— Environ 95% des observations se situent dans "# x − 2s, x + 2s$%

— Presque toutes les observations se situent dans "# x − 3s, x + 3s$%


— Analyse exploratoire des données
Résumé en cinq chiffres : Technique d’analyse exploratoire
des données qui utilise cinq chiffres pour résumer les données: la
plus petite valeur, le 1e quartile, la médiane, le 3e quartile et la plus
grande valeur. Par exemple,

7710 7755 7850 7880 7880 7890 7920 7940 7950 8050
8130 8325

1) 7710
2) Q1= 7865
3) Q2=7905
4) Q3= 8000
5) 8325
A peu près 25% des données sont comprises entre 2 valeurs
adjacentes
II - Statistique bivariée
II-1 Mesures de la relation entre 2 variables

— Nuage de points : A chaque couple de données


(xi,yi) est associé un point M dans le plan. On obtient
ainsi ce qu’on appelle un nuage de points
représentant la série statistique.

— Point moyen : G(xG , yG ) où :

1 n
xG = X = ∑ xi
n i=1
1 n
yG = Y = ∑ yi
n i=1
Ajustement affine :

— Ajustement à la règle (en passant par le point


moyen) : méthode très approximative.

— Méthode de Mayer : 2 sous-nuages, puis 2


points moyens formant la droite de Mayer
(passant aussi par le point moyen) : méthode
assez approximative.
II-2 Mesures par la covariance :
Covariance : Mesure de la relation linéaire
entre deux variables.
◦ Des valeurs positives indiquent une relation
linéaire positive.
◦ Des valeurs négatives indiquent une relation
linéaire négative.

∑ (x i − µ x )(yi − µ y )
— Covariance population : σ xy =
N

— Covariance échantillon : s xy =
∑ (x i − x)(yi − y)
n −1
II-3 Mesures par le coefficient de corrélation :
— Coefficient de corrélation : Mesure de la
relation linéaire entre deux variables, dont les
valeurs sont comprises entre -1 et +1:
s xy σ xy
rxy = ou ρ xy =
sx sy σ xσ y
◦ Des valeurs proches de +1 indiquent une forte
relation linéaire positive.
◦ Des valeurs proches de -1 indiquent une forte
relation linéaire négative.
◦ Des valeurs proches de 0 indiquent l’absence de
relation linéaire.
— Méthode des moindres carrés :

- Droite de régression de Y en X , (DY /X ): y = ax + b

σ xy
où a=
(σ x )2
et b =Y - a X

- Droite de régression de X en Y , (D X /Y ): x = a' y + b'

σ xy
où a' = et b'= X - a'Y
(σ y )2

(A noter que les deux droites se coupent au point moyen)


Remarques :
1. Il est possible qu’un lien fort (mais non linéaire)
entre X et Y conduise à une valeur faible de r.
C’est pour cela que « r » est appelé des fois :
coefficient de corrélation de la partie linéaire entre X
et Y.

2. Deux variables dont « r » est proche de 0 sont


dites décorrélées (à ne pas confondre avec
indépendantes).

3. Un fort « r » n’implique pas forcément une


relation de causalité entre X et Y (Existence
possible d’une troisième variable Z).
4. Il existe plusieurs types d’ajustements non
linéaires. Certains types peuvent être ramenés
au cas de l’ajustement linéaire en utilisant la
fonction logarithme népérien. Par exemple :

y = Cx m ou y = Ca x

5. On peut aussi faire un ajustement pour des


V.S.C. en utilisant les centres des intervalles de
modalité.

Vous aimerez peut-être aussi