0% ont trouvé ce document utile (0 vote)
133 vues350 pages

Cours Add Entier

Le document présente un cours sur l'analyse des données, structuré en plusieurs chapitres abordant des méthodes statistiques unidimensionnelles et bidimensionnelles, la régression linéaire, la modélisation par équations structurelles et l'analyse en composantes principales. Il distingue les statistiques exploratoires et inférentielles, et explique l'importance de l'analyse des données pour synthétiser des informations complexes. Les types de données, leur collecte, ainsi que les méthodes descriptives et explicatives sont également discutés, avec un accent sur l'interprétation des résultats à l'aide de logiciels statistiques.

Transféré par

Hiba Hib1
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
133 vues350 pages

Cours Add Entier

Le document présente un cours sur l'analyse des données, structuré en plusieurs chapitres abordant des méthodes statistiques unidimensionnelles et bidimensionnelles, la régression linéaire, la modélisation par équations structurelles et l'analyse en composantes principales. Il distingue les statistiques exploratoires et inférentielles, et explique l'importance de l'analyse des données pour synthétiser des informations complexes. Les types de données, leur collecte, ainsi que les méthodes descriptives et explicatives sont également discutés, avec un accent sur l'interprétation des résultats à l'aide de logiciels statistiques.

Transféré par

Hiba Hib1
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

L’Analyse des données

Réalisé par: Pr M. OUDMANE


Email: [Link]@[Link]

-Analyse des données- PR [Link]


Plan du cours

Chapitre I Analyse Unidimensionnelle et bidimensionnelle

Chapitre II La régression linéaire

Chapitre III La modélisation par équations structurelles (MES)

Chapitre IV L’analyse en Composantes Principales (ACP)

2
Introduction : Statistiques descriptive ➔ Analyse des données ?

• On appelle statistique l’ensemble des méthodes permettant de collecter, organiser, présenter, résumer et analyser
les données des ensembles d’observations. Les statistiques peuvent être vues en fonction de l'objectif fixé, On
distingue deux grandes directions:
➔Les statistiques exploratoires: Elles ont pour but de d´écrire, c’est-`a-dire de résumer ou représenter, par des
statistiques, les données disponibles quand elles sont nombreuses
➔ Les statistiques inférentielles: Les données ne sont pas considérées comme une information complète, mais une
information partielle d’une population infinie. Il est alors naturel de supposer que les données sont des réalisations de
variables aléatoires, qui ont une certaine loi de probabilité

Statistiques Statistique exploratoire


inférentielles Unidimensionnelle
Statistiques
Statistiques Statistique exploratoire
exploratoires Bidimensionnelle

Statistique exploratoire L'analyse des données s'inscrit dans


Multidimensionnelle ➔ ce cadre de la statistique exploratoire
multidimensionnelle.
Généralités : L’analyse des données

• Définition:
« L’analyse des données est un ensemble de techniques pour découvrir la structure, éventuellement
compliquée, d’un tableau de nombres à plusieurs dimensions et de traduire par une structure plus
simple et qui la résume au mieux. Cette structure peut le plus souvent, être représentée graphiquement » J-
P. Fénelon

• Développement des méthodes d’ADD :


→Les méthodes d'analyse de données ont commencées à être développées dans les années 50 poussées par le
développement de l'informatique et du stockage des données qui depuis n'a cessé de croître.

→L'analyse de données fait toujours l'objet de recherche pour s'adapter à tout type de données et faire face à
des considérations de traitements en temps réel en dépit de la quantité de données toujours plus
importante;

→ Aujourd’hui, tout domaine scientifique qui doit gérer de grande quantité de données de type varié ont
recours à ces approches (écologie, linguistique, économie, etc) ainsi que tout domaine industriel
(assurance, banque, téléphonie, etc)
Généralités : L’analyse des données

→ Elles permettent donc la confrontation entre de nombreuses informations, ce qui est infiniment plus riche
que leur examen séparé. Les représentations simplifiées de grands tableaux de données que ces méthodes
permettent d’obtenir s’avèrent un outil de synthèse remarquable.

→ De données trop nombreuses pour être appréhendées directement, elles extraient les tendances les plus
marquantes, les hiérarchisent et éliminent les effets marginaux ou ponctuels qui perturbent la perception
globale des faits.
Analyse multidimensionnelle

• Les méthodes de l'analyse de données doivent donc permettre de représenter synthétiquement de vastes ensembles
numériques pour faciliter l'opérateur dans ses décisions.
• Les méthodes d’analyse multidimensionnelle sont classées selon deux critères:

on distingue :
Les méthodes descriptives ; qui fournissent une information synthétisée ou
résumée.
l’objectif de Des méthodes explicatives qui permettent qui permettent de déceler des
l’analyse relations entre les différentes variables.

le type de mesure ( nominale, ordinale ou échelle) conditionne le choix d’une


méthode.
Nature des
variables
Analyse multidimensionnelle

METHODES DESCRIPTIVES :
➔ L'analyse en composantes principales (ACP) cherche à représenter dans un espace de dimension faible (<< p)
un nuage de points représentant n individus, ou objets, décrits par p variables quantitatives (donc de
dimension p) en utilisant les corrélations existantes entre ces variables.
➔ L'analyse des correspondances (AFC ou ACM) étudie les proximités entre individus décrits par deux ou
plusieurs variables qualitatives ainsi que les proximités entre les modalités de ces variables.
➔ Les méthodes de classification (clustering) ou de typologie procèdent par regroupement des individus en
classes homogènes (classifications hiérarchiques, arbres phylogénétiques, moyennes mobiles (K-means), ...).

METHODES EXPLICATIVES ET PREDICTIVES :


➔ L'analyse discriminante (AFD) étudie la prévision d'une variable qualitative par des variables
numériques. C'est une méthode géométrique en espace réduit.
➔Les arbres de décision et régressions (glm) étudient la prévision d'une variable qualitative ou quantitative
dépendante par une combinaison linéaire de variables explicatives (modèles de régression)
Objectifs du cours:

• L’objectif de ce cours est de présenter les premières méthodes de base de l’analyse de données. Ce sont
des outils indispensables dans tout processus de prise de décision faisant appel à de grandes quantités de
données et d’informations.
• Nous étudions le principe de chaque méthode, ses objectifs et nous mettons l’accent sur le volet
interprétation des résultats via des exemples et études de cas pratiques. Grâce au progrès de l’informatique,
ces résultats peuvent être obtenus facilement à l’aide des logiciels statistiques (SPSS, SAS, SPAD, R, etc.).
• Avant d’introduire la première technique de l’analyse de données, nous rappelons brièvement les principes
et l’intérêt de la statistique descriptive.
Types de données primaires / données secondaires

Données primaires:

• Les données primaires sont des données créées pour la première fois par le chercheur grâce à des efforts
directs et à l'expérience, spécifiquement dans le but de résoudre son problème de recherche. Aussi connu
sous le nom de données de première main ou de données brutes.
• Les données peuvent être collectées par diverses méthodes telles que des enquêtes, des observations, des
questionnaires envoyés par la poste, des questionnaires remplis et envoyés par des enquêteurs, des
entretiens personnels, des entretiens téléphoniques, des groupes de discussion, des études de cas, etc.

9
Types de données primaires / données secondaires ( selon la source)

• Données secondaires:

• Les données secondaires impliquent des informations de seconde main qui sont déjà collectées et
enregistrées par toute personne autre que l'utilisateur dans un but, non lié au problème de recherche
actuel. Il s'agit de la forme facilement accessible de données collectées à partir de diverses sources
telles que les recensements, les publications gouvernementales, les archives internes de l'organisation,
les rapports, les livres, les articles de revues, les sites Web, etc.

10
Types de données primaires / données secondaires

11
Type de données (selon la nature)

i)Données en série temporelles(Time series) : Ensemble d’observation sur les valeurs que prend une ou plusieurs
variables à des points différents dans le temps : Ex PIBt,Const pour t / représentant des années, des trimestres ou des
mois, des jours
ii) Données individuelles (en coupe transversales ou instantanées ) (Cross series) :Données réunies sur
plusieurs variables en un point défini dans le temps : Ex Cons de lait des ménages i dans un quartier, ou Investissement
des entreprises i d’un secteur ; avec i = 1... N
iii) Données de panel (Panel data) : données qui réunissent à la fois la dimension temporelle et la dimension
individuelle ex estimation entre les exportations et l’ouverture commerciale sur 20 ans (le temps) et 15 pays (les
individus), le revenu d’un échantillon de ménages sur plusieurs années, l’évolution du chiffre d’affaires de 30 grandes
surfaces sur 36 mois

12
Vocabulaires statistiques

− Population (ou population statistique) : C’est un ensemble concerné par une étude statistique. On parle aussi
de champ de l´étude.
− Individu (ou unité statistique) : on désigne ainsi tout ´élément de la population considérée
− Echantillon : C’est le sous-ensemble de la population sur lequel sont effectivement réalisées les observations
− Taille de l’´échantillon : c’est le cardinal de l’´échantillon, autrement dit c’est le nombre d’individus qu’il
contient (l´échantillon de taille 800, de taille 1000...).
− Recensement : enquête dans laquelle l’´échantillon observé est en fait la population tout entière (on parle aussi
d’enquête exhaustive)
− Variable (statistique) : c’est une caractéristique (âge, salaire, sexe. . .), définie sur la population et observée sur
l’´échantillon. On distingue les variables quantitatives, sont celles prenant des valeurs numériques; des
variables qualitatives prenant des valeurs non numériques
Chapitre I: Analyse Unidimensionnelle et bidimensionnelle
Analyse Unidimensionnelle

• L’objectif des outils de Statistique descriptive élémentaire est de fournir des résumés synthétiques de séries de
valeurs, adaptés à leur type (qualitatives ou quantitatives), et observées sur une population ou un échantillon.
• Dans le cas d’une seule variable, Les notions les plus classiques sont celles de médiane, quantile, moyenne,
fréquence, variance, écart-type définies parallèlement à des représentations graphiques : diagramme en bâton,
histogramme, diagramme-boîte, graphiques cumulatifs, diagrammes en colonnes, en barre ou en secteurs
Analyse Unidimensionnelle : Variable quantitative discrète

• Une variable quantitative discrète ➔une variable quantitative ne prenant que des valeurs entières
Exemple : On a noté l’âge (arrondi à l’année près) des 48 salariés d’une entreprise :

Les caractéristiques de la série:


➔ Les Mesures de la tendance centrale : ont pour objet de résumer la série d’observations
par une valeur considérée comme représentative. Les mesures les plus utilisées sont
-Le Mode : représente la valeur présentant le plus grand effectif ( la plus grande fréquence)
-La Médiane : La médiane est la valeur de la variable qui partage la série étudiée en deux sous
ensembles d'effectifs égaux
-La Moyenne Arithmétique:

➔ Les Mesures de dispersion: Elles servent à préciser la variabilité de la série, c’est–à–dire


à résumer l’éloignement de l’ensemble des observations par rapport à leur tendance
centrale, les mesures les plus utilisées sont:
- La variance et l’écart type
Analyse Unidimensionnelle : Variable quantitative discrète

• Représentation graphique

Pour une variable discrète, on rencontre essentiellement deux sortes de représentations graphiques, qui sont
en fait complémentaires : le diagramme en bâtons et le diagramme cumulatif (en escaliers)
Analyse Unidimensionnelle : Variable quantitative continue

• Une variable quantitative est dite continue lorsque les observations qui lui sont associées ne sont pas des valeurs
précises mais des intervalles réels
• Exemple: Le tableau ci-dessous donne, pour l’année 1987, la répartition des exploitations agricoles françaises selon la
SAU (surface agricole utilisée) exprimée en hectares (Tableaux Économiques de Midi– Pyrénées, INSEE, 1989, p.
77) ; la SAU est ici une variable quantitative continue comportant 6 classes.
➔ Les Mesures de la tendance centrale :
-Le Mode : représente la valeur présentant le plus grand effectif ( la plus grande fréquence)
-La Médiane : La médiane est la valeur de la variable qui partage la série étudiée en deux sous
ensembles d'effectifs égaux
-La Moyenne Arithmétique:

➔ Les Mesures de dispersion: La variance et l’écart type

Remarque: La moyenne, la variance et l’écart–type d’une variable continue se déterminent de la même


manière que dans le cas discret ; dans les formules, on doit prendre pour xl les centres de classes au lieu des
observations
Analyse Unidimensionnelle : Variable quantitative continue

Représentations graphiques
Les deux graphiques usuels pour la représentation graphique d’une variable quantitative continue sont
l’histogramme et la courbe cumulative

Figure 3: courbe cumulative Figure 4: Histogramme


Analyse Unidimensionnelle : Variable qualitative

• Les observations d’une variable qualitative ne sont pas des valeurs numériques, mais des caractéristiques, appelées
modalités. Lorsque ces modalités sont naturellement ordonnées (par exemple, la mention au bac dans une
population d’étudiants), la variable est dite ordinale. Dans le cas contraire (par exemple, la profession dans une
population de personnes actives) la variable est dite nominale

• Exemple: Le tableau ci–dessous donne la répartition de la population active occupée (ayant effectivement un
emploi) selon la CSP (catégorie socioprofessionnelle), en France, en mars 1988 (Tableaux de l’Économie Française,
INSEE, 1989, p. 59).
Analyse Unidimensionnelle : Variable qualitative

• Les représentations graphiques que l’on rencontre avec les variables qualitatives sont assez nombreuses. Les trois
plus courantes, qui sont aussi les plus appropriées, sont: Le diagramme en colonnes, le diagramme en barre, le
diagramme en secteurs

FIGURE 5 – Diagramme en FIGURE 6 – Diagramme en barre FIGURE 7 – Diagramme en secteurs


colonnes
Analyse bidimensionnelle

• L’objectif de la statistique descriptive à deux variables dite bidimensionnelle est d’étudier simultanément deux
variables X et Y observées sur les mêmes individus.
• Ces deux variables sont mesurées sur les n unités d’observation. Pour chaque unité, on obtient donc deux
mesures. La série statistique est alors une suite de n couples des valeurs prises par les deux variables sur chaque
individu :

• Exemple de relations possibles entre les variables suivantes : taille et poids ; chiffre d’affaire et frais de publicité,
taux de croissance et investissement etc….
➔L’objectif essentiel des méthodes présentées est de mettre en évidence une éventuelle variation simultanée des
deux variables, que nous appelons liaison.
Analyse bidimensionnelle

• La répartition des N observations, ou distribution conjointe, suivant les modalités de X et Y se présente sous forme
d’un tableau à double entrée, appelée tableau de contingence

Notions de dépendance de d'indépendance :

➔ Variables liées : les variations de l'une dépendent des


variations de l'autre.

➔Variables indépendantes : les deux variables varient


indépendamment l'une de l'autre. Dans ce cas : la connaissance
de la valeur prise par l'une des deux variables sur un individu
n'apporte aucune information sur la valeur prise par l'autre
variable sur cet individu
==> Exemple : si le salaire et le sexe sont deux variables
indépendantes, connaître le sexe d'un employé n'apporte aucune
information sur son salaire.
Analyse bidimensionnelle : Etude de liaison entre variables

Deux variables quantitatives Corrélation

Nature des variables Deux variables qualitatives Test d’association de khi deux

Une variable quantitative et


une variable qualitative Test T ou ANOVA
Analyse bidimensionnelle: Cas de deux variables quantitatives

Exemple: • -La covariance: est une méthode mathématique


permettant d'évaluer le sens de variation de deux
variables quantitatives
Dans le tableau ci-dessous, on a relevé les notes de TD ( ´ X) et les notes
de partiel (Y) obtenues en statistique par un groupe de 15 étudiants.

• -La corrélation: permet d’analyser l’intensité de la


relation en la variable X et la variable Y
Analyse bidimensionnelle: Cas de deux variables quantitatives

• TP\corré[Link]
• Représentation graphique : Nuage de points
Analyse bidimensionnelle: Cas de deux variables quantitatives
• Représentation graphique : Nuage de points

(1) nuage très étiré : le nuage a une forme linéaire très marquée. On
observe sur l'échantillon une tendance de X et Y à varier dans le même
sens. La corrélation observée est positive.

(2) nuage modérément étiré (forme linéaire moins marquée) , du haut à


gauche vers le bas à droite : on observe sur l'échantillon une tendance
de X et Y à varier dans des sens opposés ; la corrélation observée est
négative

(3) nuage très arrondi ; pas de relation apparente ;

Forme de référence la plus simple : La droite exprime une relation entre X et Y du type Y = aX + b.
Si la forme du nuage s'apparente à une droite, on parle alors de corrélation linéaire entre les variables. Plus le
nuage est étiré et plus la corrélation linéaire observée est forte.
Analyse bidimensionnelle: Cas de deux variables quantitatives

Test de corrélation de Pearson

1. Hypothèses du test de corrélation de Pearson :


• Hypothèse nulle (H₀) : Il n'y a pas de corrélation linéaire entre les
deux variables, c'est-à-dire que le coefficient de corrélation est égal
à zéro
• Hypothèse alternative (H₁) : Il existe une corrélation linéaire
significative entre les deux variables
• 2. Calcul du coefficient de corrélation de Pearson (r):

3. Calcul de la statistique du test :


• la statistique du test de corrélation suit une distribution
Student (t). La statistique t se calcule ainsi :
4- Déterminer les degrés de liberté :
• Les degrés de liberté (df) pour le test de Pearson sont n−2 où n est le nombre de paires de
données.
5. Comparer avec la valeur critique :
On compare la statistique t obtenue avec la valeur critique de la distribution t de Student pour le seuil
de signification choisi (par exemple, α=0,05) et les degrés de liberté calculés. Si la statistique t est plus
grande que la valeur critique, on rejète l’hypothèse nulle.
6. Calculer la p-value :
Une autre approche consiste à calculer la p-value associée à la statistique t. Si la p-value est inférieure
au seuil de signification (α=0,05\alpha = 0,05α=0,05), on rejète l'hypothèse nulle et on conclus qu'il
existe une corrélation significative entre les deux variables.
• Test khi-deux (χ2): il consiste à tester la signification
Analyse bidimensionnelle: Cas de deux variables qualitatives statistique d’une association de deux variables
qualitatives (nominales ou ordinales).
• Plus précisément, il a pour objet de tester l’indépendance
Exemple: des variables dans un tableau croisé en comparant la
distribution observée (Oij) sur l’échantillon à une
On utilise les données relevées sur un échantillon de 50 enfants distribution théorique (Eij) qui correspond à l’hypothèse
que l’on veut tester.
de 2 à 16 ans souffrant d'un TSPT (trouble de stress post-
traumatique) à la suite d'un accident domestique ou de • Le χ2 observé sur l’échantillon se calcule de la manière
suivante :
circulation.

P : enfants de 2 à 16 ans souffrant d'un TSPT à la suite d'un


accident domestique ou de circulation. Variable X : sexe,
On rejettera l’hypothèse nulle (pas d’association entre les
qualitative à L = 2 modalités (Ai) . variables) si le χ2 calculé est supérieur à la valeur de
Variable Y : type d'accident, qualitative à C = 2 modalités (Bj ). référence du χ2 se trouvant dans la table de khi-deux pour
On veut étudier la relation entre le sexe et le type d'accident n degrés de liberté (lignes) et pour un α (niveau de
survenu. Pour les 50 enfants de l'échantillon, on a relevé le sexe précision donné en colonnes).
et le type d'accident survenu.
Pour interpréter la valeur du χ2, il est préférable également
de se référer au seuil de signification statistique (> 0,05 par
exemple).

Si la P-Value >0,05% on accepte l’hypothèse nulle


Si la P-Value<0,05% on rejette l’hypothèse nulle Ho et on
conclue qu’il y a une dépendance entre les deux variables
Analyse bidimensionnelle: Cas de deux variables qualitatives

Les hypothèses et le niveau du test :


• Pour le degré de liberté (K − 1) × (K’ − 1)= 1
H0 : les variables sont indépendantes
➔ ( nombre de modalités en lignes -1)* (
H1 : les variables sont liées
Nombre de modalités en colonne-1)
α = 5%
• Le Khi deux tabulé au seuil de 5% est égale à
1-On calcule les effectifs théoriques Eij 3,84

➔ Le Khi deux calculé ( 0,363)< Khi deux tabulé


(3,84), on accepte l’hypothèse Ho :

2-On calcule la valeur de la statistique de ` χ 2 : ➔ on ne peut pas conclure qu'il existe un lien
entre le sexe et le type d'accident survenu.
(10-11,02)2/11,02+(19-17,98)2/17,98+ (9-7,98)2/7,98+(12-13,02)2/13,02
=0,363
Autres tests : Le coefficient phi

• Dans le cas particulier des tableaux carrés ou 2 × 2 (2 lignes et 2 colonnes), qui comparent deux variables à deux
modalités, il est recommandé d’appliquer une correction au χ2, ou d’utiliser le coefficient phi (φ). Celui-ci
correspond à la racine carrée du χ2 divisé par la taille de l’échantillon, soit

• le coefficient phi de Pearson varie entre varie entre 0 et 1 :


• ϕ=0 : Aucune association entre les deux variables.
• ϕ=1: Association parfaite.
• ϕ\ proche de 0 : Association faible

38
Autres tests : Le coefficient de contingence

• Le coefficient de contingence (C) peut être appliqué pour des mesures d’association sans contrainte de taille de
tableau.
• L’indicateur oscille entre une borne inférieure de 0 lorsqu’il n’y a aucune association (lorsque χ2 = 0) et
une borne supérieure inférieure à 1. Cette valeur maximale du coefficient dépend de la taille du tableau
(nombre de lignes × nombre de colonnes), raison pour laquelle il ne doit être employé que pour comparer des
tableaux de même taille. On le calcule de la manière suivante :

39
Autres tests : Le coefficient d’association (V de cramer)

• Le V de Cramer est un coefficient normé, c’est-à-dire qu’il peut atteindre 1, quelle que soit la taille du
tableau. Il nous permet d’analyser la force de la relation. Le V de Cramer est toujours compris entre 0
et 1. On peut dire que l’association est très forte si on obtient un V de cramer >=0,8

40
41
42
Analyse bidimensionnelle: Cas d’une variable quantitative et une variable qualitative
• De manière générale, pour évaluer la liaison entre une variable quantitative et qualitative, indépendamment de
l’approche choisie, un concept est généralement utilisé. Celui de regrouper la variable quantitative en fonction
de la variable qualitative.
• Le but est de savoir si les valeurs de la variable quantitative sont significativement différentes d’un groupe à
l’autre.

Approche Graphique
•La boite à moustaches (boxplot)
Une boîte à moustaches est un graphique qui nous permet de résumer l’information qui est contenu dans une
variable quantitative à l’aide de cinq indicateur statistique ( minimum, premier quartile, médiane, troisième quartile,
maximum ). On représente donc une boite à moustache pour chaque groupe en vue de détecter une
différence significative.

•L’histogramme
L’histogramme est un graphique qui présente la répartition d’une variable quantitative. On représente comme dans
le cas de la boite à moustache, un histogramme pour chaque groupe en vue de détecter une différence significative
entre les groupes. On peut également ajouter au tracé de l’histogramme, une courbe de densité de probabilité.
Analyse bidimensionnelle: Cas d’une variable quantitative et une variable qualitative

• Exemple: Pour illustrer tout cela, nous utilisons une partie d’un ensemble de données d’une assurance
•La boite à moustaches (boxplot) •L’histogramme

• On observe une différence significative de la moyenne (points rouges) des charges au sein des deux groupes (fumeur
et non-fumeur). Les charges dans le groupe des fumeurs sont bien plus importantes que dans celui des non-
fumeurs.
• Par contre, pour la variable région, on peut dire que la répartition des charges au sein des quatre groupes se fait de la même façon
c’est-à-dire que les charges ne diffèrent pas d’une région à une autre. On dira qu’il n’y a pas de dépendance ou de liaison apparente
entre les variables charges et région
Analyse bidimensionnelle: Cas d’une variable quantitative et une variable qualitative

• Le rapport de corrélation:
Le rapport de corrélation est un indicateur statistique qui mesure l’intensité de la liaison entre une
variable quantitative et une variable qualitative.
Formulation:
Analyse bidimensionnelle: Tests de comparaison des Moyennes

• Un test t de student porte sur variable qualitative (


ordinale ou nominale) qui contient uniquement deux
modalités. Il s’agit de comparer la moyenne d’une
Avec : A et B deux groupes différents à comparer.
variable continue entre deux sous populations définies
m_A et m_B la moyenne du groupe A et celui du
par un critère du regroupement
groupe B, respectivement
• Le test t de comparaison des moyennes consiste à
vérifier que l’écart de moyenne entre deux groupes est
significative, autrement dit qu’il est bien réel et n’est pas
liée au hasard
Exemple : Le montant moyen dépensé par sexe

Si la statistique T est supérieure à la valeur critique, alors la


différence est significative (autrement dit on rejette H0). Dans le
cas contraire,elle ne l’est pas (autrement dit on accepte H0)
Analyse bidimensionnelle: Tests de comparaison des Moyennes

Exemple:
Les données d'échantillons sont issues d'un groupe d'hommes et de femmes qui se sont rendus dans une salle de sport
trois fois par semaine pendant un an. Ensuite, leur entraîneur a mesuré leur masse grasse. Le tableau ci-dessous montre
les données.
Hommes Femmes
13,3 22
Comment effectuer un test de Student à deux échantillons ?
6 16
20 21,7 Pour chaque groupe, nous avons besoin de la moyenne, de l'écart-
type et de la taille de l'échantillon. Ces valeurs figurent dans le
8 21 tableau ci-dessous.
14 30
19 26
18 12
25 23?2
16 28
24 23 Sans effectuer de tests, nous pouvons constater que les
moyennes des hommes et des femmes dans nos échantillons
15 ne sont pas les mêmes. Mais à quel point sont-elles
1 différentes ?
15
Analyse bidimensionnelle: Tests de comparaison des Moyennes

• La différence de moyennes est égale à : La statistique T est égale à :

• l'écart-type groupé :

Pour évaluer la différence entre des moyennes afin de prendre


une décision concernant les programmes de sport, nous
comparons la statistique de test à une valeur théorique de la
distribution t
Pour trouver cette valeur, nous avons besoin du seuil de
significativité (α = 0,05) et de degrés de liberté. Les degrés de liberté
(df) sont basés sur la taille de l'échantillon. À partir des données de
masses grasses, il s'agit de :

Puisque 2,80 > 2,080, nous rejetons l'hypothèse nulle selon


laquelle la masse grasse moyenne des hommes est égale à
celle des femmes, et nous en concluons que nous avons la
preuve que la masse grasse de la population est différente
chez les hommes et les femmes.
Degré de liberté: définition

• Les degrés de liberté font référence au nombre maximal de valeurs logiquement indépendantes, qui sont des valeurs
qui ont la liberté de varier, dans l’échantillon de données.
• Exemple

• Par exemple si l'on cherche deux nombres dont la somme est 12, aucun des deux nombres ne doit être déterminé par l
'équation X + Y = 12.
• X peut être choisi arbitrairement, mais alors pour Y il n'y a alors plus le choix. Ainsi, si vous choisissez 11 comme vale
ur pour X, Y vaut obligatoirement 1. Il y a donc deux variables aléatoires (X,Y), mais un seul degré de liberté.
Dégré de liberté

• Le degré de liberté (ddl) est un concept statistique qui représente le nombre de valeurs indépendantes qui
peuvent varier dans un calcul statistique. En d'autres termes, c'est le nombre de données qui restent "libres"
après avoir utilisé certaines informations pour les estimer.

➔ Le degré de liberté est le nombre de valeurs qui peuvent varier librement dans un calcul, après avoir pris en
compte les contraintes imposées par les estimations effectuées (comme la moyenne). C'est une notion
essentielle pour les tests statistiques, car elle influence la distribution utilisée pour tirer des conclusions.
Application aux tests statistiques

1. Cas de l'estimation de la variance d'un échantillon


• Quand on calcule la variance d'un échantillon de taille n, on utilise la moyenne de l’échantillon pour le calcul.
La moyenne étant basée sur les n observations, elle "consomme" un degré de liberté.
C’est pourquoi on divise par n−1 au lieu de n dans la formule de la variance de l’échantillon.

2. Cas du test de Student (comparaison de moyennes)


• Pour une seule moyenne estimée → ddl=n−1
• Pour une comparaison de deux moyennes (test t indépendant) → ddl=n−2 car on estime deux moyennes.
Analyse bidimensionnelle: ANOVA

• L’Anova est un test statistique utilisé pour comparer les moyennes de plus de deux échantillons ( si n
est le nombre de catégorie, alors n>2), C’est donc une généralisation du test t ( utilisé quand il y a 2
catégories).
• L’idée est que si la variance entre les groupes est significativement plus grande que la variance
aléatoire au sein de chaque groupe, alors les moyennes sont probablement différentes

Définition: La variation intragroupe mesure l’ampleur de la variation au sein d’un groupe, la


variation intergroupe mesure les variations moyennes entre les différents groupes
Exemple :
Analyse bidimensionnelle: ANOVA

• Le F est calculé de la manière suivante :

La variation intergroupe est 19 fois supérieure à la variation


intragroupe ➔ Les écarts de motivations que l’on observe sont
bien liée au différence de stimulus et non pas au hasard
Analyse bidimensionnelle: ANOVA

F C> F t, il y a bien un écart de moyenne entre les différentes catégories


L’analyse des données
Traitements préalables sur séries statistiques
Déflater une série statistique
Introduction

• Après la phase de spécification et avant l’analyse des données, il est essentiel d’effectuer un traitement
préalable des données. Ces traitements varient en fonction de la nature des données, notamment entre
données chronologiques et données transversales.

• Dans le cas des données transversales, il est souvent nécessaire de construire des ratios pertinents en
lien avec la spécification du modèle, comme l’effort éducatif rapporté aux dépenses totales du ménage.
Il convient également de tester les risques de colinéarité entre certaines variables explicatives, par
exemple dans l’étude des déterminants de l’accès au crédit.

• Quant aux séries chronologiques, des ajustements sont requis, notamment la correction des
variations saisonnières (CVS) et la distinction entre données en volume et données en valeur. Une
transformation courante consiste à déflater une série en valeur par un indice de prix approprié, afin
d’obtenir une série en volume. Cette opération permet de neutraliser l’effet des variations de prix et
d’analyser l’évolution réelle d’une grandeur économique.
Introduction

• L’inflation, en influençant les prix, peut fausser l’interprétation des tendances économiques. Par
exemple, une augmentation du chiffre d’affaires d’une entreprise peut résulter
uniquement de la hausse des prix et non d’une réelle progression des ventes. D’où
l’importance d’exprimer les données en termes réels, pour une analyse économique plus
pertinente et objective.

• On se focalisera ainsi sur ces traitements préalables, en mettant un accent particulier sur les séries
chronologiques et leur ajustement pour une interprétation fiable des tendances économiques.
Comment procéder pour déflater une série statistique ?
• Pour observer l’évolution réelle d’une grandeur (chiffre d’affaires, dépenses, exportations…), il faut écarter
l’effet de la variation des prix.
• L’indice le plus connu concerne les prix à la consommation. Il s’agit du taux d’inflation qui mesure
l’évolution des prix des biens de consommation ainsi que les prix des services.
• Mais il y a beaucoup d’autres indices, comme l’indice des prix des prix des biens d’équipement qui pourrait
servir à déflater une série relative à l’investissement, l’indice des prix de gros…
• Pour montrer comment utiliser les indices de prix, nous allons recourir à des exemples, en distinguant le cas
d’une grandeur simple et celui d’une grandeur composite.
Travail sur une grandeur : Les indices simples

Dans le tableau suivant, nous avons, pour un bien A (Matière première par ex), les quantités vendues et les prix,
sur deux périodes T et T+1

T T+1
Px Qtés Px Qtés CAt CAt +1
Bien A 10 300 12 290 3000 3480
Pour apprécier / analyser l’évolution du chiffre d’affaires, nous pouvons dire que :

Entre T et T+1, en terme nominal, le CA a augmenté de 16% ((3480/3000) x 100)) ; par contre les quantités
vendues (volume des ventes) ont baissées de 3.3% ((290/300) –1 ) x 100))

Nous pouvons aussi mesurer les variations du CA en terme réel en écartant l’effet de l’inflation ; ce
faisant, nous allons alors déflater, c'est-à-dire « corriger » le CA en dh courants par l’indice des prix, et obtenir un
CA en dh constants.
Travail sur une grandeur : Les indices simples
On rappelle que IP t/0 = (Pt / P0 ) * 100

Ainsi :
 Pour l’année T :
Le CA de l’année T va rester le même, puisque l’indice des prix est égal à 100 pour cette année ((10 / 10) X
100 = 100).

Pour T+1 :

12
IPT+1/T = × 100 = 120
10
CA en dhs courantsT+1 3480
CA en dhs constantsT+1 = × 100 = × 100 = 2900
IPT+1/T 120

CA en dh CA de T+1, CA de T+1 ∆ du CA ∆ du CA ∆ des qtés


Crt (T) en dhCrts en en dh crt en dh cst produites
dhCst
Bien A 3000 3480 2900 16% -3.33% -3.33%
L’égalité entre la variation du CA en dh constants et la variation des quantités vendues tient au fait que nous
avons éliminé l’effet des prix, entre T et T+1. Mathématiquement parlant, on peut la démontrer par la formule
Suivante :

CA en dhs constantsT+1 Q T+1 × PT Q T+1


= × 100 = × 100 = IQ T+1/T
CA en dhs constantsT Q T × PT QT

Lorsque nous travaillons sur une seule grandeur (le CA par exemple), raisonner sur les quantités ou sur la série
en DH constants revient au même.
Les indices synthétiques: l’indice de Laspeyres
Quand il s’agit de plusieurs grandeurs à la fois (par exemple, le CA réalisé par la vente de plusieurs biens, le
passage par les indices synthétiques s’impose. On ne peut en effet pas ajouter des Kg de tomates avec des litres
gasoil ou encore des souliers ou des chemises…

T0 T
Δ du CA en
Produits
Dh courant
Prix Qtés CA Px Qtés CA

C 5 20 100 4.5 25 112.5 12.5%

F 12 30 360 18 24 432 20%

H 9 40 360 11 36 396 10%

Total 820 940.5 14.7%

Laspeyres est la moyenne arithmétique PONDEREE des indices élémentaires. Les coefficients de pondération utilisés
sont obtenus à partir du poids de chaque bien dans le CA de l’année de base.
Donc :
Pit
Lt/t0 = σi=1 αit0 .
Pit0
Pit0 Qit0
avec αit0 =
σ Pit0 Qit0
Les indices synthétiques: l’indice de Laspeyres

T0 T Pit / Pit0 αit0


Produits 1x2
Qtés Px CA Qtés Px CA 1 2
E 20 5 100 25 4.5 112.5 90 0.12 10.8

F 30 12 360 24 18 432 150 0.44 66

H 40 9 360 36 11 396 122 0.44 53.68

Total 820 940.5 1 130.48

D’où : Lt/0 P = 130.48

Ainsi, le CA de l’année T en dh Cst (de l’année t0) est égal :


(940.5 / 130.48) x 100 = 720.80
Formule simplifiée
Numérateur Σ Pit Qi0 Dénominateur
Les Pit Qi0 Σ Pi0 Qi0
P Qit0 Pit 4,5 X 20 90 5 X 20 = 100
• Lt/t0 P = σi=1 σ Pit0 .
it0 Qit0 Pit0 18 X 30 540 12 X 30 = 360
• 11 X 40 440 9 X 40 = 360
σP Q 1070 820
• = σ P it Qit0 × 100
it0 it0

ILP t/t0 (P) = (1070 / 820 ) x 100 = 130,48

Le résultat est le même que celui obtenu précédemment en appliquant la formule de


définition.

Ainsi le Chiffre d’Affaires relatif à l’année T, et exprimé en dirhams constants de l’année T0


est : (940,5 / 130,48) x 100 = 720,80
• Nous pouvons donc dire que la variation du chiffre d’affaires global en T par rapport à T0 est de :

• * 14,695 %, en terme nominal (ou encore, c’est la variation du CA sur la base des données exprimées en
dirhams courants).
• ((940,5 – 820) / 820) x 100 = 14,695 %

• * - 12,097 % en terme réel (ou encore, c’est la variation du CA sur la base des données exprimées en
dirhams constants).
• ((720,80 – 820) / 820) x 100 = - 12,097 %
Exercice d’application
Le tableau suivant donne le niveau des exportations de 3 produits d’un pays pour 3 années 2014, 2019
et 2024

Produits Phosphates Tomates Chemises


Années
Quantités Prix Quantités Prix Quantités Prix
(en 1000 (DH/T) (en 103 (103 (milliers (106 DH /1000
tonnes) Tonnes) DH/T) d’unités) unités))
2014 250 20 10 50 400 10
2019 290 18 8 78 500 11
2024 220 28 14 52 650 15

1) Calculer les taux de variations des quantités exportées pour chaque produit en 2019 par rapport
à 2014 et en 2024 par rapport à 2014
2) Calculer les recettes d’exportations pour chaque produit, pour les années 2014, 2019 et 2024
3) Calculer pour chaque produit les taux de variations des recettes d’exportations en dirhams
courants en 2019 par rapport à 2014 et en 2024 par rapport à 2014
4) Calculer les indices de prix pour chaque bien, avec 2014 comme année de base
5) Calculer les recettes d’exportations, en DH constants de l’année 2014, pour chaque produit et
chaque année
Exercice d’application

6) Calculer pour chaque produit les variations en termes réels des recettes d’exportation, en
2019 par rapport à 2014 et en 2024 par rapport à 2014
7) Commentez les résultats
8) Calculez les recettes globales des exportations et les taux de variations de ces recettes en
2019 par rapport à 2014 et en 2024 par rapport à 2014

9) Calculer la valeur globale des recettes des exportations, pour l’année 2024, en dirhams
constants de 2014 (année de base).
• a. Pourquoi est-il nécessaire de passer par un indice synthétique des prix ?
• b. Calculer l’indice synthétique des prix des exportations
• c. Déflater la série des exportations

10) Calculer les taux de variations en termes réels, des exportations globales de ce pays
11) Commentez les résultats
Correction

Exercice [Link]
Traitements préalables sur série chronologique
Série chronologique: Définition/exemple:
▪ Une série temporelle ou encore chronique est une succession d’observations au cours
du temps représentant un phénomène économique (prix, ventes…) ; par hypothèse,
le pas du temps des observations est considéré constant : l’heure, le jour, le mois, le
trimestre, l’année.
▪ Les exemples des données de série chronologique incluent les cours des actions, la
masse monétaire, l’indice de prix à la consommation, le produit intérieur brut, les
chiffres d’affaires ou les coûts relatifs à une activité…... etc. Dans cette conception,
le temps est considéré comme une variable clé dans l’analyse des phénomènes
économiques
Série chronologique: Définition/exemple
Composantes d’une série chronologique

▪ La tendance Ct : correspond à l’évolution à long terme de la série, l’évolution fondamentale de la série. C’est ainsi
qu’en économie la tendance contient des cycles longs de Kondratieff , (cycle apériodique de 40 à 60 ans), de Kuznets (20
ans), des cycles de Juglar (cycle de crise de 10 ans)…
▪ La composante cyclique notée Ct. En conjoncture, elle est représentée parle cycle de Kitchin d’une période de 3 à 5
ans. Dans la plupart des travaux sur les séries temporelles, la tendance et le cycle sont regroupés
▪ La composante saisonnière : Elle est relative à des fluctuations périodiques à l’intérieur d’une année, et qui se
reproduisent de façon plus ou moins permanente d’une année sur l’autre.
▪ Une composante aléatoire ou imprévisible εt : Les variations accidentelles sont des fluctuations irrégulières et
imprévisibles.
• Exemple:

➢La plupart des phénomènes connaissent et subissent l’influence de la saisonnalité:


➢La consommation de lait augmente pendant le Ramadan
➢ Les prix des fruits et légumes fluctuent selon les saisons
➢Le taux de chômage augmente en Hiver et diminue en été
• Intérêt de la désaisonnalisé

L étude de la saisonnalité est un préalable au traitement d'une série chronologique. En


effet, lorsque cette composante existe, il convient de l'isoler afin de pouvoir analyser les
autres caractéristiques. désaisonnalisation systématique, sans tester l'existence de cette
composante, peut créer un « bruit » parasite nuisible à l'analyse de la chronique et
donc dégrader la qualité de la prévision
Etapes de la désaisonnalisation

2- Calculer les 4-Pondérer les


3-Déterminer les
1- Déterminer le rapports ou les données brutes à
coefficients
Trend écarts par rapport l’aides des
saisonniers
au trend coefficients obtenus
1-Le Trend d’une série chronologique

On peut approcher le trend ou tendance générale d’une série chronologique par une droit
d’ajustement de plusieurs façons :
Par la méthode des moindres carrés:
σ𝑛 ഥ
𝑖=1 𝑡𝑖−𝑡 𝑦𝑖−𝑦 ത
➢ 𝑎ො = 𝑛
σ𝑖=1 𝑡𝑖−𝑡ҧ ²
➢ 𝑏෠ = 𝑦ത − 𝑎ො 𝑡ҧ
Par la méthode des moyennes échelonnées :
Une fois on détecte une périodicité dans la série chronologique remplace les observations par la
moyenne arithmétique.
Par méthode des moyennes mobiles:
Une moyenne mobile pour une période de temps, est une moyenne arithmétique simple
des valeurs de cette période et celles avoisinantes
Application 1 :
Considérons la série des indices de livraison trimestrielle d’essence au Maroc pour 4 années
consécutives: Déterminer le trend en utilisant la méthode des moindres carrés, des moyennes
mobiles et la méthode des moyennes échelonnées:

Années 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre


1974 109 108 137 114
1975 111 119 140 122
1976 115 122 140 130
1977 125 125 150 137
Représentation graphique de la série:
Lissage par les moyennes échelonnées:

• On réalise des groupements de points consécutifs et on représente chaque


groupe par la moyenne des points qui le composent. On pratique ensuite une
interpolation linéaire entre les moyennes ainsi définies pour chaque date
comprise entre les moyennes extrêmes.
Trimestre Indices observés Indices calculés
1 109 1/4 (109+108+137+114)= 117
2 108
3 137
4 114
5 111 1/4 (111+119+140+122)= 123
6 119
7 140
8 122
9 115 1/4 (115+122+140+130)= 126,75
10 122
11 140
12 130
13 125
¼ (125+125+150+137)= 134,25
14 125
15 150
16 137
Lissage par les moyennes mobiles:

▪ La méthode des moyennes mobiles permet de lisser les irrégularités que présentent une série

chronologique. Elle consiste à remplacer une valeur yi par la moyenne Yk’ de cette observation et

des 2n observations qui l’entoure et de suivre le travail en reprenant toujours n-1 éléments de la

moyenne précédente

▪ La formule de la moyenne mobile d’ordre 3 se présentent comme suit:

yj :=xj−1 + xj + xj+1
3
Détermination du trend à l’aide moyennes
mobiles:
Trimestre Indices observés Valeurs du Trend
T1 109 -
T2 108 1/3 (109+108+137)=118
T3 137 1/3(108+137+114)=119,7
T4 114 1/3(137+114+111)=120,7
T5 111 1/3(114+111+119)=114,7
T6 119 1/3(111+119+140)=123,3
T7 140 1/3(119+140+122)=127
T8 122 1/3(140+122+115)=125,7
T9 115 1/3(122+155+122)=119,7
T10 122 1/3(115+122+140)=125,7
T11 140 1/3(122+140+130)=130,7
T12 130 1/3(140+130+125)=131,7
T13 125 1/3(130+125+125)=126,7
T14 125 1/3(125+125+150)=133,3
T15 150 1/3(125+150+137)=137,3
T16 137 -
Détermination du Trend à l’aide des MCO:
t1 yi Ti-t- Yi-y- (ti-t)2 (ti-t-)(yi-y-)
1 109 -7,5 -16,25 56,25 121,875
2 108 -6,5 -17,25 42,25 112125
3 137 -5,5 11,25 30,25 -64625
4 114 -4,5 -11,25 20,25 50625
5 111 -3,5 -14,25 12,25 49875
6 119 -2,5 -6,25 6,25 15625
7 140 -1,5 14,75 2,25 -22165
8 122 -0,5 -3,25 0,25 1625
9 115 0,5 -10,25 0,25 -5125
10 122 1,5 -3,25 0,25 -4875
11 140 2,5 14,75 6,25 36875
12 130 3,5 4,75 12,25 16625
13 125 4,5 -0,25 20,25 -1125
14 125 5,5 -0,25 30,25 -1375
15 150 6,5 24,75 42,25 160875
16 137 7,7 11,75 56,25 88125
Détermination du Trend à l’aide des MCO:

σ ti−tҧ yi−ഥy
aො = σ ti−tҧ 2
et b෠ = yത − aෝ tҧ
On trouve :
aො = (555/340) = 1,63 ; et b෠ = 125.25 – 1,63x8,5 = 111.4
• Donc :
yො = 1,63t + 111,4
Modèle additif vs Modèle multiplicatif: Forme d’équation

La technique de décomposition- reconstitution repose, bien évidemment, sur un modèle qui l’autorise.
Ce modèle porte le nom de schéma de décomposition:

▪ Le modèle additif: qui suppose l’orthogonalité (indépendance) des différentes composantes. Il s’écrit
: xt = Et + St + Rt. Dans ce schéma la saisonnalité est rigide en amplitude et en période.

▪ Le modèle multiplicatif: xt = Et × St × Rt (interaction générale des trois composantes). Il est


actuellement le plus utilisé en économie.
Comparaison des deux modèles :

1. Modèle additif :

o Les variations saisonnières sont constantes : peu importe si les ventes sont faibles
ou élevées, l'effet saisonnier est toujours le même.

o Exemple : si la saisonnalité est de +200 ou -200, c'est toujours le même montant


ajouté ou soustrait.

2. Modèle multiplicatif :

o Les variations saisonnières sont proportionnelles à la tendance. Cela veut dire que
la saisonnalité devient plus importante lorsque la tendance est élevée.

o Exemple : si la tendance de vente est élevée, l'effet saisonnier (comme la variation


de l'hiver) sera plus grand, car il est proportionnel à la tendance (ex : +20% de plus
en hiver).
Exemple avec un modèle additif :

Imaginons que vous vendez des parapluies. Chaque année, les ventes augmentent en hiver et
diminuent en été. Si vous utilisez un modèle additif, cela signifie que la variation saisonnière reste la
même chaque année, peu importe si vous vendez beaucoup ou peu de parapluies. Par exemple :

• La tendance de vente des parapluies en hiver est de 1000 unités par mois.

• La saisonnalité en hiver est +200 unités (augmentation en hiver).

• La saisonnalité en été est -200 unités (baisse en été).

Donc, l'ajustement saisonnier est constant chaque année. La série observée peut être décomposée
comme suit :

• Hiver : 1000+200=1200 ventes par mois.

• Été : 1000−200=800 ventes par mois.


Imaginons maintenant que vos ventes de parapluies suivent une forte tendance à la hausse. Si vous
appliquez un modèle multiplicatif :

• La tendance de vente des parapluies en hiver est de 1000 unités par mois.

• Mais en hiver, la saisonnalité n'est pas simplement de +200 unités. Elle est proportionnelle à
la tendance : par exemple, un facteur saisonnier de 1,2 (cela veut dire que les ventes
augmentent de 20 % en hiver).

• En été, la saisonnalité est de 0,8 (les ventes diminuent de 20 % en été par rapport à la
tendance).

Donc, l'ajustement saisonnier dépend de la tendance :

• Hiver : 1000×1,2=1200 ventes par mois (augmentation de 20 % par rapport à la tendance).

• Été : 1000×0,8=800 ventes par mois (réduction de 20 % par rapport à la tendance).


La sélection du schéma:

▪ Deux techniques permettent de sélectionner le schéma de la

décomposition:

▪ La méthode graphique et la méthode analytique


La méthode graphique:

La procédure de la bande consiste à partir de l'examen visuel du graphique de l'évolution de la série brute à
relier, par une ligne brisée, toutes les valeurs « hautes » et toutes les valeurs « basses » de la chronique. Si les
deux lignes sont parallèles, la décomposition de la chronique peut se faire selon un schéma additif dans le cas
contraire, le schéma multiplicatif semble plus adapté.

CA (en milliers de Dhs)


180
160
140
120
100
80 CA (en milliers de Dhs)
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Méthode analytique: le test de Buys et Ballot

• Cette méthode consiste, à partir de la série des données brutes, à calculer pour
chaque période la moyenne et l'écart-type des données. Si les écart-types sont
approximativement constants d’une période à l’autre, le modèle est additif, sinon il est
multiplicatif.
Le schémas de la série

1974 1975 1976 1977


Moyenne 117 123 126,75 134,25
Ecart type 11,76 10,60 9,31 10,32

On constate que les écart-types ne sont pas constants d’une période (année) à l’autre : Le modèle est
multiplicatif.
Etape de correction de variations saisonnière:

▪ Modèle additif:
1ère étape : on calcule, pour chaque date t, l'écart saisonnier est :
est = yt – gt
2ème étape : on calcule, pour chaque saison j, la moyenne arithmétique des écarts saisonniers
correspondant à cette saison et on note Sj cette moyenne. C'est le coefficient saisonnier de la saison
j.
3e étape : on s'assure que le principe de neutralité de l'influence des variations saisonnières sur
1
chaque période est bien vérifié, c'est-à-dire que : σPj=1 Sj = 1
P
4ème étape : correction des variations saisonnières (désaisonnalisation), en appliquant cette
formule :
YtCVS =Ytobs- Sj
j : étant la saison associée à la date t.
Etape de correction de variations saisonnière:

▪ Modèle multiplicatif:
1ère étape : on calcule, pour chaque date t, le rapport saisonnier rst, ou rapport à la tendance.
rst = yt/ gt

2ème étape : on calcule, pour chaque saison j, la moyenne arithmétique des rapports saisonniers
correspondant à cette saison et on note Sj cette moyenne. C'est le coefficient saisonnier de la saison
j.
3e étape : on s'assure que le principe de neutralité de l'influence des variations saisonnières sur
chaque période est bien vérifié, c'est-à-dire que 1/𝑝 ∑1_(𝑗=1)^𝑝▒𝑆j=1.
4ème étape : la correction des variations saisonnières (désaisonnalisation) en appliquant cette
formule :
YtCVS = Ytobs /Sj
j : étant la saison associée à la date t
Ti yi Valeurs du trend ^yi Yi/yi^*100
1 109 113,03 96,43
2 108 114,66 94,12
3 137 116,29 117.8
4 114 117,92 96,67
5 111 119,55 92,84
6 119 121,18 98,2
7 140 122,81 113,99
8 122 124,44 98
9 115 126,07 91,21
10 122 127,7 95,53
11 140 129,33 108,25
12 130 130,96 99,26
13 125 132,59 94,27
14 125 134,22 93,13
15 150 135,48 110,71
16 137 137,52 99,61
• Chaque coefficient Sj est égal à la moyenne des écarts saisonniers du
trimestre correspondant :
• S1= (es1 + es5 + es9 + e13) /4 = (96,43+92,84+91,21+94,27)/4 = 93,68
• S2 = (es2 + es6 + es10 + es14)/4=(94,12+98,2+95,53+93,13)/4 =95,24
• S3= (es3 +es7 +es11 + es15)/4 =(116,29+122,81+129,33+110,71/4 =
112,68
• S4= (es4 + es8 + es12 + es16)/4 =(96,67+98+99,26+99,61)/4 = 98,38
Ti yi Série désaisonnalisée
1 109 (109/93,68)*100=116,35
2 108 (108/95,24)*100=113,39
3 137 (137/112,68)*100=121,58
4 114 (114/98,38)*100=115,87
5 111 (111/93,68)*100=118,48
6 119 (119/95,24)*100=126,27
7 140 (140/112,68)*100=124,24
8 122 (122/98,38)*100=124
9 115 (115/93,68)*100=122,75
10 122 (122/95,24)*100=128,09
11 140 (140/112,68)*100=124,24
12 130 (130/98,38)*100=132,14
13 125 (125/93,68)*100=133,43
14 125 (125/95,24)*100=132,62
15 150 (150/112,68)*100= 133,12
16 137 (137/98,38)*100=139,25
Application2:

• Le résultat net trimestriel (en milliers de dirhams) d’une entreprise a


évolué de la manière suivante entre 2008 et 2011. Dessaisonnalisez la
série en déterminant le trend par les moyennes mobiles d’ordre 4
On constate que les écart-types ne sont pas constants d’une période (année) à l’autre : donc le modèle est
multiplicatif.
Rappel:
• Pour calculer les coefficients saisonniers, il faut d’abord déterminer
les valeurs de la tendance. Elles sont évaluées dans le tableau suivant
par des moyennes mobiles centrées d’ordre 4.

• Chaque coefficient Sj est égal à la moyenne des écarts saisonniers du
trimestre correspondant ;
• S1=(0.897+0.901+0.916)/3 = 0.905 ; S2=(0.994+0.994+1.007)/3 =
0.998
• S3=(1.127+1.106+1.102)/3 = 1.112 ; S4=(0.987+1.004+0.983)/3 =
0.991
• La somme de ces coefficients est égale à 4.006. Leur moyenne est
égale à 1.0015 donc légèrement différente de 1. Il faut corriger ces
coefficients en divisant chacun d’eux par cette moyenne. On obtient :
• S1= 0.904 ; S2*= 0.996 ; S3* =1.110 ; S4* = 0.990
Logiciels de traitement des données d’enquêtes
Logiciels de traitement des données d’enquêtes
Logiciels de traitement des données d’enquêtes
Initiation au logiciel de Traitement des données d’enquêtes
(SPSS)

-Analyse des données- PR [Link]


Plan:

I Introduction

II Interface et menus SPSS

III Saisie, lecture, préparation et transformation des données

IV Analyse des données

-Analyse des données- PR [Link]


SPSS : Statistical Package for the Social Sciences
IBM SPSS Statistics

-Analyse des données- PR [Link]


Utilisation :

• Création / importation des bases de données individus / variables


• Analyses simples et complexes des données
• Correspond parfaitement au traitement des données d’enquêtes (où chaque question
est définie comme une variable)

-Analyse des données- PR [Link]


Objectifs de la formation :

• Se familiariser avec l’utilisation d’IBM SPSS Statistics


• Saisir, lire, importer les données
• Nettoyage, recordage, tri, sélection, filtrage, fusion des données Analyser les données et
lire/interpréter les résultats

-Analyse des données- PR [Link]


Démarrer SPSS :

• Icone du raccourci SPSS sur le bureau


• A partir du menu démarrer

-Analyse des données- PR [Link]


Démarrer SPSS

-Analyse des données- PR [Link]


Interface SPSS

-Analyse des données- PR [Link]


Explorer la barre des menus

-Analyse des données- PR [Link]


Menu fichier:

Fichier :Gestion des fichiers de données (Accès aux données (en format SPSS ou autre), sauvegarde, impression,
exportation, etc.)

-Analyse des données- PR [Link]


Menu Données:

Données : Opérations sur les données : tri, fusion, sélection (filtrage), pondération, etc.

-Analyse des données- PR [Link]


Menu Transformer:

Transformer : Transformation des données, calcul d’une nouvelle variable, création, recodage ….

-Analyse des données- PR [Link]


Menu Analyse :

• Analyse : Menu central du logiciel. Il permet d’effectuer toutes les analyses statistiques
➢ Analyses Univariées (Statistiques descriptives, tableaux croisés)
➢ Analyses Bivariées (Analyse de la corrélation, régression, etc.)
➢ Analyses Multivariées (Classification, réduction des dimensions, etc.)

-Analyse des données- PR [Link]


Saisir les données

-Analyse des données- PR [Link]


Saisie des données :

• Définir le type et les propriétés des variables


• Saisir les données relatives aux individus

-Analyse des données- PR [Link]


Données

Exemple :
Soit un échantillon des entreprises décrites par :
- Secteur d’activité (Finance, Tourisme, Artisanat, Enseignement)
- Taille de l’entreprise (Petite (100))
- Région d’activité (Casa-Settat (CS), Tanger-Tetouan (TT), Rabat-Salé (RS)..)
- Facteurs d’attractivité de la région (Position géographique, Ressources naturelles, Ressources humaines,
Infrastructures ...)

-Analyse des données- PR [Link]


Saisie des données :

• Les trois premières questions (variables) (Secteur, taille, région) sont des questions
fermées uniques, le répondant choisi une seule réponse, tandis que la variable Facteurs
d’attractivité est fermée multiple.
• Sur SPSS, on commence par la définition des variables avant de saisir les données

-Analyse des données- PR [Link]


Saisie des données :
• Définir les valeurs de chaque variable

-Analyse des données- PR [Link]


Saisie des données :

-Analyse des données- PR [Link]


Saisie des données :

• Si on procède de la même manière pour la variable facteurs qui est une question fermée multiple et on définie un
code pour chaque réponse, quelle valeur devra-t-on saisir pour une entreprise qui a été attirée par les facteurs 2,3 et
4 ? ? Si on saisie 234, le logiciel va chercher le code de la modalité numéro ’234’

-Analyse des données- PR [Link]


Saisie des données :

La solution et la règle est de définir chaque modalité comme variable pour les questions fermées multiples.

-Analyse des données- PR [Link]


Ouvrir une base de données :

• Fichier → Ouvrir → Données


• Ouvrir le fichier Employé[Link]. (.sav : extension des fichiers SPSS)

-Analyse des données- PR [Link]


Analyse des données
Cas pratique

-Analyse des données- PR [Link]


Phase 1 : Préparation des données

En utilisant la base de données employé[Link] répondre aux questions suivantes :


1- Identifier les observations saisies plus qu’une fois?
2- Ya t’il des valeurs manquantes dans cette base de données ?
3- Remplacer les valeurs manquantes du salaire actuel par la valeur moyenne par genre
4- Calculer l’augmentation du salaire de chaque employé (depuis le recrutement) ?
5- Créer une nouvelle variable : Tranche revenu qui prend les valeurs :
1- Si le revenu est inferieur ou égal à 25000
2- Si le revenu est entre 25001 et 49000
3- Si le revenu est entre 49001 et 74000
4- Si le revenu est supérieur à 74001
6- Changer les codes des modalités de la variable genre de (‘h’, ‘m’) à (0, 1) respectivement.

-Analyse des données- PR [Link]


1/ Pour identifier les observations saisies plus qu’une fois : Menu données → identifier les observations
dupliquées → sélectionner la variable ‘id’ dans la case : définir les observations concordantes par.

➔Le résultat est la création d’une nouvelle variable ‘primaryLast’ qui prend la valeur 0 si l’observation est
dupliquée et 1 si l’observation est saisie une seule fois. On supprime les observations dupliquées le cas échéant.

-Analyse des données- PR [Link]


1/ Identification et élimination des observations dupliquées

-Analyse des données- PR [Link]


2/ Nombre de valeurs manquantes

• Menu analyse → statistiques descriptives → effectifs → sélectionner toutes les variables → désactiver
la case ‘afficher les tableaux d’effectif ’et toutes les options de la case statistiques → ok.

-Analyse des données- PR [Link]


3- Remplacer les valeurs manquantes du salaire actuel par la valeur moyenne par genre (1/2)

Ici on utilise l’option recoder des variables du menu transformer

Mais, avant de recoder, il faut calculer le salaire moyen des femmes et des hommes (en utilisant la commande agréger du
menu données par exemple).


-Analyse des données- PR [Link]


3- Remplacer les valeurs manquantes du salaire actuel par la valeur moyenne par genre (2/2)

Menu transformer → Recoder des variables → sélectionner la variable salaire actuel → Anciennes et nouvelles valeurs → ancienne
valeur : cocher manquant par défaut → Dans l’onglet nouvelle valeur on note la valeur du salaire moyen des femmes → ajouter →
poursuivre → Si → inclure lorsque l’observation remplit la condition : sexe = ‘f ’ → Poursuivre → OK.
On suit la même démarche pour remplacer les valeurs manquantes du salaire des hommes

➔ ➔

-Analyse des données- PR [Link]


4-Calcul de l’augmentation des salaires:

• C’est une nouvelle variable à calculer : menu transformer → calculer la variable → « augsal » = salact –
saldeb

-Analyse des données- PR [Link]


5-Créer une nouvelle variable : Tranche revenu

Menu transformer → calculer des variables → nommer la nouvelle variable « tranche revenu »→ expression numérique 1 →
condition salact <=25000→ poursuivre→ ( revenir pour créer la 2 ème modalité) → expression numérique 2 → Si → salact
<=49000 and salact> 25001→ poursuivre → expression numérique 3 → Si → salact <=74000 and salact >49001→ expression
numérique 4 → Si → salact > 74000
Ensuite labéliser la variable dans l’onglet vue sur les variables et sélectionner son type « ordinale »

➔ ➔

-Analyse des données- PR [Link]


6/ Recoder les valeurs du genre : ‘m’ et ‘f ’ par 0 et 1 respectivement. Menu transformer →
Recoder des variables → genre → anciennes et nouvelles valeurs : Ancienne valeur : m ;
nouvelle valeur : 0 → ajouter Ancienne valeur : h ; nouvelle valeur : 1 → ajouter →
poursuivre → ok

-Analyse des données- PR [Link]


Phase 2: Analyse des données

En utilisant la base de données employé[Link] répondre aux questions suivantes :

1 Quel est l’effectif et le pourcentage des femmes et des hommes travaillant dans cette entreprise
2- Quel est le salaire moyen, maximum et minimum des employés de cette entreprise ?
3-Quel est le salaire moyen, minimum et maximum de chaque catégorie d’employés ?
4- Existe-t-il une relation entre le salaire actuel et le salaire d’embauche des individus ?
5- Existe il une différence entre les salaires des femmes et des hommes dans cette entreprise ?

-Analyse des données- PR [Link]


1/ L’effectif et le pourcentage des femmes et des hommes travaillant dans cette entreprise :
Menu analyse → statistiques descriptives → effectifs → sélectionner la variable sexe → désactiver toutes les
options de la case statistiques → poursuivre → cocher la case : Afficher

-Analyse des données- PR [Link]


2/ Le salaire moyen, maximum et minimum des employés de cette entreprise ?
Menu analyse → statistiques descriptives → descriptives → sélectionner la variable salaire→ option → cocher la
case moyenne; maximum; minimum → cocher la case : Afficher

➔ ➔

-Analyse des données- PR [Link]


3/Quel est le salaire moyen, minimum et maximum de chaque catégorie d’employés ?

Là, on veut que les résultats soient regroupés par catégorie, donc une des manières de trouver ce résultat est : Menu
données → scinder un fichier (scinder = regrouper) → comparer les groupes → et choisir la variable catemp comme
critère de regroupement → Ok. Puis menu Analyse → statistiques descriptives → descriptives → choisir la variable
salaire actuel puis cocher les options moyenne, min et max → Ok.

-Analyse des données- PR [Link]


4/Analyse de la relation entre le salaire actuel et le salaire d’embauche
Ici on utilise le coefficient de corrélation (deux variables quantitatives) : Menu Analyse → corrélation Bivariée.

Il y a une très forte corrélation : 0,873. La


liaison est confirmée car la signification
<0,05.

-Analyse des données- PR [Link]


5/ Analyse de la différence entre les salaires des femmes et des hommes dans cette entreprise

L’objectif est d’étudier le lien entre deux variables de natures différentes (une quantitative : salaire et l’autre
qualitative avec deux modalités possibles : genre) dans ce cas on utilise le test T de Student. Menu Analyse
→ Statistiques Descriptives → Comparer les moyennes → Test t pour échantillons indépendants

-Analyse des données- PR [Link]


5/ Analyse de la différence entre les salaires des femmes et des hommes dans cette entreprise

-Analyse des données- PR [Link]


Exercice d’application

• Tp-1 Analyses Unidimensionnelles et [Link]


Chapitre II: La régression linéaire
Introduction: Corrélation versus régression

On dispose de 2 caractères X et Y . On distingue deux objectifs :


→ On cherche à savoir s’il existe un lien entre X et Y
→ On cherche à savoir si X a une influence sur Y et éventuellement prédire Y à partir de X.
• Liaison entre X et Y . On définit un indice de liaison ➔ coeff. De corrélation, statistique du Khi-2,...
• Influence de x sur Y. On modélise l’influence de x sur Y ➔ régression logistique, analyse de la variance,
régression linéaire,...

146
Introduction: Corrélation versus régression

Définition : Pour deux variables X et Y , le coeff. de corrélation linéaire r = ρ(X, Y ) vaut:

ρ est une mesure symétrique qui mesure le lien linéaire entre X et Y :


ρ = −1 : X et Y sont proportionnels et varient en sens opposé
ρ = 1 : X et Y sont proportionnels et varient dans le même sens
ρ = 0 : X et Y ne sont pas corrélés La corrélation n’indique aucune
causalité.

Propriétés : 1 Si X et Y sont indépendants, alors ρ(X, Y ) = 0.

147
Introduction: Corrélation versus régression

• La régression diffère de l'analyse de la corrélation ou toutes les variables jouent un rôle symétrique (pas de
variable dépendante versus indépendante). L'existence d'une relation entre X et Y n'implique pas
nécessairement une relation de causalité entre elles.

➔ Corrélation : Liaison entre 2 variables quantitatives X et Y Rôle symétrique (on peut permuter X et Y)

➔ Régression : Liaison entre 2 variables quantitatives X et Y Rôle asymétrique uniquement : X = variable


explicative ( indépendante) / Y = variable expliquée ( dépendante ) ( On ne peut pas permuter Xet Y)

148
Introduction: Corrélation versus régression

Exemple 1: corrélation (positive)

X = ventes de paires de lunettes de soleil en été


Y = ventes de crèmes glacées en été
• Il existe une liaison entre X et Y : – Quand X augmente, Y augmente (météo estivale) – Quand X diminue, Y
diminue (météo pluvieuse)
• La liaison est symétrique :
– X est liée à Y, et Y est liée à X
– mais X ne dépend pas de Y et Y ne dépend pas de X
– on peut permuter X et Y en abscisses et en ordonnées
• Y ne peut pas être prédite par X

149
Introduction: Corrélation versus régression
Exemple 2 : corrélation (négative)

• X = ventes de paires de lunettes de soleil en été


• Y = ventes de parapluies en été
• Il existe une liaison entre X et Y : – Quand X augmente, Y
Y diminue (météo estivale) – Quand X diminue, Y
augmente (météo pluvieuse)
• La liaison est symétrique :
– X est liée à Y, et Y est liée à X
– mais X ne dépend pas de Y et Y ne dépend pas de X – on
peut permuter X et Y en abscisses et en ordonnées
• Y ne peut pas être prédite par X

150
Introduction: Corrélation versus régression

• Exemple 3 : régression
X = âge (de 0 à 15 ans)
Y = taille (cm)
• Il existe une liaison entre X et Y : – Quand l’âge augmente, la taille augmente – Quand l’âge diminue, la
taille diminue
• La liaison est asymétrique : – la taille dépend de l’âge mais l’âge ne dépend pas de la taille – on ne peut
pas permuter X et Y en abscisses et en ordonnées

151
Introduction: Corrélation versus régression

• Objectif : Dans la régression, on souhaite expliquer les variations de la variable Y à partir des valeurs
observées pour la variable x. Le problème n’est pas symétrique : les 2 variables n’ont pas le même
statut
Définition :
• Y = variable à expliquer / dépendante, supposée aléatoire
• x = variable explicative /indépendante

Modèle : Y = f (x) + U où U est un terme résiduel aléatoire ou erreur.

152
La régression linéaire

• La régression linéaire vise à expliquer une variable dépendante par une ou un ensemble de variables
indépendantes quantitatives. Lorsque le problème implique une seule variable indépendante, la technique
statistique est appelée régression simple.
• Lorsque le problème implique plusieurs variables indépendantes, il s’agit d’une régression multiple. La
régression est utilisée pour l’explication et la prédiction.

La régression linéaire

La régression simple La régression Multiple

153
Exemples: la régression simple et Multiple

Ex 1: expliquer la consommation des ménages par le revenu

• On écrira Con= f( Revenu)

Ex 2: Pour identifier un support publicitaire optimal. Le CA est la variable à expliquer


• Comment assurer sa croissance? Quel est le poids / l’efficacité des dépenses publicitaires: à la radio, dans
les journaux, à la TV …

• On écrira CA = f(DpubR, DpubJ, DepubT)

154
La régression linéaire simple

• La régression linéaire simple permet de modéliser une variable quantitative « y » en fonction


d’une autre variable quantitative x.
• Les deux variables n’ont pas le même rôle : la variable y est dite variable à expliquer. Elle est aussi
appelée ou encore variable dépendante. La variable x, quant à elle, est appelée variable explicative
ou encore variable indépendante.
• Le modèle étudié ici s’´écrit yi = aXi + b + Ui pour i = 1, . . . , n où (xi , yi) sont n observations
des variables y et x. Dans ce modèle, la variable x est fixe : les valeurs de xi mesurées sont sans
erreurs. Par contre, la variable y est aléatoire : les valeurs mesurées yi dépendent linéairement de xi
`a une erreur près Ui .
• Ces erreurs Ui sont des variables aléatoires, qui rendent y aléatoire

155
La Modélisation :

• Un modèle consiste en une représentation formalisée d’un phénomène économique sous forme d’équations dont les
variables sont des grandeurs économiques.
• Les principales phases de la modélisation sont au nombre de quatre
• Le schéma suivant les résume en précisant le travail à effectuer pour satisfaire chacune:

156
Le Modèle de régression Linéaire simple : PRESENTATION GENERALE

Y : variable à expliquer.
Y i = aX i + b + U i X : variable explicative

U : Variable aléatoire appelée résidu, elle est une mesure de notre ignorance.
On dispose de “n” observations sur Y et X (i=1,2,…,n). Nous avons donc “n” couples (yi , xi) qui sont des
réalisations des variables Y et X.
a et b sont des paramètres réels et inconnus que l’on se propose d’estimer à l’aide des observations

157
Rôle du terme aléatoire

Exemple: Le revenu des ménages est-il l’unique variable explicative de la


consommation?
Sûrement NON !
d’où, l’ajout du terme ɛ qui résumera toutes les fluctuations non observables
attribuables à un ensemble de facteurs ou de variables non prises en compte dans le
modèle :
• La variable aléatoire ɛt (ou ɛi) regroupe trois types d’erreur :
• – Erreur de spécification
• – Erreur de mesure
• – Erreur de fluctuation d’échantillonnage

158
HYPOTHESES « CLASSIQUES »
POUR LE M.R.S

159
II. HYPOTHESES « CLASSIQUES » POUR LE MLRS :

Hypothèse 1 : Le modèle est correctement spécifié.

• Il y a une mauvaise spécification lorsqu’on effectue un mauvais choix des variables, la forme de
la liaison entre la variable à expliquer et la variable explicative n’est pas correctement établie

→il faut que la variable explicative retenue soit la « meilleure » sans omission d’autres
variables,
→la vraie relation soit une relation linéaire dans ou par rapport aux paramètres à estimer
→ la variable aléatoire intervienne de manière additive.

• Remarque : Une mauvaise spécification peut aussi provenir des tautologies. Expliquer les
recettes touristiques en prenant le nombre des touristes comme variable explicative est une
tautologie.

160
Hypothèse 1 : Le modèle est correctement spécifié.

161
II. HYPOTHESES « CLASSIQUES » POUR LE MLRS :

Hypothèse 2 : Les Yi et Xi sont des grandeurs numériques observées sans erreur.


• Y est une variable aléatoire par l’introduction de U.

E (U i ) = 0 quelque soit X i (i = 1...n ).


• Ce qui importe est que l’espérance mathématique de U soit nulle ou la
même pour tout i. Cette hypothèse est une hypothèse de permanence
structurelle.

162
II. HYPOTHESES « CLASSIQUES » POUR LE MLRS :

Hypothèse 3 : L’homoscédasticité
Ui est distribuée selon une loi de probabilité indépendante de “i” et de Xi

V (U i ) = E (U ) =  i
2
u
2
Quantité finie

L’Hypothèse 3 reprend l’hypothèse 2 mais elle est plus forte . Si H3


n’est pas réalisée, on parle d’hétéroscédasticité.
Une erreur constante signifie que les facteurs non pris en compte dans le modèle de régression ont
un impact aléatoire mais stable sur la variable dépendante, quelle que soit la valeur des variables
explicatives.

Autrement dit, les variations inexpliquées du phénomène étudié sont uniformes à travers toutes les
observations.
163
II. HYPOTHESES « CLASSIQUES » POUR LE MLRS :

On parle d'homoscédasticité lorsque la


variance des erreurs de la régression est
la même pour chaque
observation i(de 1 à n observations).

Cas des dépenses alimentaires et du


revenu

Si on étudie la relation entre le revenu


(X) et les dépenses alimentaires (Y),

une erreur constante signifie que les


facteurs imprévus qui influencent Y
(comme des promotions en magasin, ou
des variations saisonnières)

ont un effet similaire pour tous les


niveaux de revenu.
164
II. HYPOTHESES « CLASSIQUES » POUR LE MLRS

Hypothèse 4 : Hypothèse d’indépendance des erreurs (ou


résidus)

On suppose que Ui et Uj erreurs relatives à 2 observations


différentes sont indépendantes entre elles c’est-à-dire

Cov (U i ,U j ) = 0 i  j.

Exemple : Le prix des logements et la taille

•On étudie la relation entre la taille d’un logement (X) et son prix (Y)
•Si les erreurs sont indépendantes, cela signifie que les facteurs non pris en compte (ex. l’état du
marché immobilier, l’attractivité d’un quartier) influencent chaque logement de manière aléatoire et
indépendante.
165
Hypothèse 5 : Hypothèse de normalité

On suppose que les Ui sont distribuées selon une loi


normale.

166
Hypothèse 6 : On n’introduit aucune restriction sur les paramètres a
et b à estimer.

Ils peuvent prendre n’importe quelle valeur réelle positive, négative ou nulle.

167
Remarques : la variabilité .
➢Il n’est pas opportun d’étudier les raisons de la variation d’un phénomène qui ne
présente pas de variation .Autrement dit, il faut nécessairement que Σ (Yi - Ỹ)2 soit
différente de zéro.
➢Pour des raisons analogues, Σ (Xi - X¯ )2 doit être différente de 0

Exemples :

• 1) L’investissement par période t= (1,2,…n) (It d’une entreprise est fonction de plusieurs variables :
➢ Du taux d’intérêt (it ) : It= α1 it +α0+ Ut ( Correcte)
➢ Du profit de la période t-1 (πt−1 ) : It=β1 𝛑𝐭−𝟏) +β0 +εt (Correcte)
➢ Du taux de l’impôt sur la société (IS) : It= σ1 IS+σ0+δt ( Non correcte, car dans la réalité le taux
de l’IS ne change pas significativement d’une année à l’autre. )
168
Estimation des paramètres du modèles par les moindres carrés
ordinaires

169
• Afin de mettre plus clairement en évidence et de quantifier la relation entre nos deux variables X et Y il
convient de «résumer » le nuage de points, c'est-à-dire de représenter dans le plan (x,y) l'allure
générale de la distribution à deux caractères.
• À cette fin, la méthode la plus utilisée consiste à ajuster le nuage de points par une droite (D), comme
cela est reproduit sur la figure . On parle de droite de régression ou de droite d'ajustement ou
encore de droite des moindres carrés.

170
.

• Plus généralement, comme reproduit sur la figure, notons l’ordonnée d' un


point de la droite (D) dont l' abscisse est x; et désignons par ei les écarts entre la
valeur observée Yi de et la valeur située sur la droite :

• L'expression de la droite de régression est alors donnée par: â b

• où a et b sont des constantes, et le problème consiste à identifier la droite (D) qui ajuste au mieux le
nuage de points considéré. En d'autres termes, il s'agit de trouver la droite (D) telle que les écarts ei soient les
plus faibles possibles, c'est-à-dire telle que les valeurs situées sur la droite soient les plus proches possibles
des valeurs observées Yi·

• Comment procéder ?

171
Déterminer l’équation de la droite de régression: La méthode des moindres
carrés ordinaires (MCO)

• La méthode des moindres carrés ordinaires (MCO) nous permet précisément de répondre à cet
objectif puisqu'elle consiste à trouver la droite (D), c'est-à-dire les valeurs des paramètres a et b, telles
que la somme des carrés des écarts ei soit minimale.


â b â

172
Exercice d’application

• 1) Soit le modèle simple expliquant l’investissement par le profit : It = a Prt-1 + b ; en estimer les paramètres

Inv Pr( t-1)


125 25
132 2
137 33
142 36
154 38
161 41
170 45
183 48
196 50
208 52

173
Exercice d’application régression

It - Im Prt - Prm (It - Im)*(Prt -Prm) (Prt - Pr)2


-35,8 -12 429,6 144
-28,8 -35 1008 1225
-23,8 -4 95,2 16
-18,8 -1 18 ,8 1
-6,8 1 - 6,8 1
0,2 4 0,8 16
9,2 8 73,6 64
22,2 11 244,2 121
35,2 13 457,6 169
47,2 15 708 225
3029 1982
174
Exercice d’application

• Ainsi, l’estimation donne â = 1,528 (Som (It-Im) (Prt - Pr) / Som (Prt - Pr)2 ou
encore (3029 / 1982)
• et b^ = 104,255 (I moyen - â Pr moyen)
• Le profit agit positivement sur l’investissement. Cela est conforme à nos attentes, en effet
la réalisation de profit fournit les moyens de financer l’investissement et constitue par la
même un signal favorable pour investir.

175
Exemple récapitulatif

1- Objectif :
• Un bureau d’étude souhaite savoir d’une manière générale si les dépenses de publicité numérique ont
une influence sur le chiffre d’affaires des entreprises opérant dans le secteur des services et sous quelle
forme cette influence peut être exprimée.
• Le but est d'expliquer au mieux comment le chiffre d’affaires des entreprises varie en fonction de ce
type de dépenses en publicité et éventuellement de prédire le chiffre d’affaires

2- Population et variables étudiées


• Population générale: échantillon d’entreprises sélectionné

• Sur cette population, on définit deux variables. La variable Y : le chiffre d’affaires ; c'est la variable à
expliquer, appelée encore variable dépendante (VD).
• La variable X : variable les dépenses de publicité numérique ; c'est la variable explicative, appelée
variable indépendante.

176
Exemple récapitulatif

3-Modèle exprimant la relation entre Y et X :


• On cherche à exprimer la relation entre la variable chiffre d’affaires et la variable dépenses de publicité
digitale à l'aide d'une fonction mathématique du type y = f(x). Graphiquement cela revient à
représenter cette relation à l'aide d'une courbe (graphe de la fonction)

• 4- Choix du modèle
• Quelle fonction mathématique utiliser ? Pour choisir le modèle de relation, on doit faire des
observations sur un échantillon d’entreprises. Les données recueillies sur ces entreprises sont
représentées graphiquement à l'aide d'un nuage de points. Si le nuage a une forme particulière
s'apparentant à une courbe mathématique, on choisira la fonction mathématique correspondant à
cette courbe.

177
Représentation graphique

CA en milliers

La forme étirée et croissante du nuage


suggère une relation positive de type
linéaire entre les dépenses de publicité
numérique et le CA. Le coefficient de
corrélation linéaire observé sur
l'échantillon est r = 0, 7868.

Dépense
sPub
numérique
en milliers
178
Exemple récapitulatif
• Equation générale du modèle de régression linéaire simple

• Si la relation était parfaitement linéaire : sur l'échantillon, cela se traduirait par des points alignés et l'on pourrait
écrire la relation entre Y et X sous la forme : Yi=aXi+b
• Connaissant le niveau de dépense x d’une entreprise, l'équation permettrait de déterminer exactement le
chiffre d’affaire. La relation observée sur l'échantillon n'est pas exacte.

• Le nuage est étiré mais les points ne sont pas alignés. De plus, on voit que des entreprises ayant engagé
le même niveau de dépenses mais ont réalisé des chiffres d’affaires différents. Ces différences peuvent
être expliquées par d'autres variables ayant une influence sur la variable CA et qui ne sont pas prises en
compte dans le modèle, ou encore par des erreurs de mesures.

Modèle de régression linéaire simple : Pour rendre compte de cette situation, on écrit la
relation entre les dépenses de publicité numériques et le CA sous la forme générale suivante :
droite + erreur : Y
Y i = aX i + b + U i
179
Exemple récapitulatif
• Estimation des coefficients de la droite par la méthode des moindres carrés

Le modèle étant posé, il faut estimer numériquement les paramètres du modèle, c'est-à-dire calculer les
valeurs numériques des coefficients a et b . Cela revient à déterminer la droite qui s'ajuste le mieux aux
données, c'est-à-dire la droite qui est la plus proche des points.

^y=1,5771 X + 60,39

NB: La droite passe par le centre de gravité du nuage, le point moyen


180(x, y).
Une fois les coefficients de la droite estimés, on
calcule - pour chaque individu :

• yˆi = ˆa xi+ bˆ s'appelle la valeur ajustée ou


prédite de Y par le modèle.

• ei = yi − yˆi s'appelle le résidu de


l'observation i. C'est l'écart entre la valeur
de Y observée sur l'individu ni et la valeur
prédite.

• Le résidu ei est une approximation du


terme d'erreur Ui . la somme des carrés des
résidus est SCR = ∑ei2 . Elle mesure la
distance de la droite de régression aux
points du nuage de points qui est minimale
au sens des moindres carrés.

181

ETUDE DES PROPRIETES DE â ET b

182
• â est un estimateur sans biais de a : E (â) = a

 
best un estimateur sans biais de b : E (b ) = b

 u2
• Variance de â : V (a ) =
( ( X i − X ) 2

   2

• Variance de b 1
V (b ) = u  + (
2 X

 n  (X i − X ) 
2

183
Variance de l’erreur

2

S 2
=
 u i

n −2

184
La validation du modèle linéaire de régression simple

➢ Comment mesurer la qualité de l'ajustement ?


➢ Comment analyser la pertinence (significativité) de notre
variable explicative

185
La qualité de l’ajustement

• Pour le modèle choisi, Y peut varier en fonction :


-de X, selon la relation linéaire postulée
- d'autres variables non prises en compte et synthétisées dans le terme d'erreur.
➔ On va mesurer la part de chacune de ces deux sources de variation pour évaluer la qualité de l'ajustement
du modèle aux données.

186
La qualité de l’ajustement

• Décomposition de la variation totale des observations

On peut tout d'abord écrire la décomposition


suivante :

On peut montrer la propriété suivante :

Ainsi, la variation totale des observations yi autour de leur moyenne y

187
La qualité de l’ajustement

i
i i i

i
188
La qualité de l’ajustement: Le coefficient de détermination R2

• Afin d'avoir une idée globale de la qualité de l'ajustement linéaire, on définit R2 le


coefficient de détermination qui est le carré du coefficient de corrélation R :

R2 =
 (Y i −Y )2 variation expliquée
=
 (Y i −Y )
2
variation totale

Il mesure la part de la variation totale de Y expliquée par le modèle de régression


sur X

189
La qualité de l’ajustement: Le coefficient de détermination R2

• - si R2 = 0, le modèle n'explique rien, les variables X et Y ne sont pas corrélées


linéairement.
• - si R2 = 1, les points sont alignés sur la droite, la relation linéaire explique toute la
variation.

190
La qualité de l’ajustement: Le coefficient de détermination R2

Exemple : si l’on obtient R2 = 0.78 cela voudrait dire que le modèle permet d’expliquer
78% de la variabilité de Y

(Dans Ci = aRi + b, cvd que le Rev explique 78 % des différence de consommation entre
les ménages).

191
Exercice d’application

Déterminez les paramètres â et ^b^


- Estimez la variance de l’erreur, la variance â et la variance de ^b
- Calculer le coefficient de détermination ( R2)

192
Régression linéaire

193
194
Tests sur les paramètres: Test de Student

• Reprenons l'exemple du CA en fonction des dépenses de publicité digitale. Nous avons modélisé le
CA par Y et les dépenses de Pub par X.
Yi= axi+b+Ui➔ CAi= a depub+b+Ui
• Il paraît raisonnable de se poser les questions suivantes :
• (a) est-ce-que le coefficient ai est non nul, autrement dit la variable X a-t-elle réellement une influence
sur Y ?

195
Tests sur les paramètres: Test de Student

Etape 1:
Nous pouvons expliciter les questions précédentes en terme de test d'hypothèse :
(a) correspond à H0 : a = 0, contre H1 : a ≠ 0
L’Intérêt de tester a=0 est pour savoir la pertinence de la variable X et sa capacité à expliquer Y.

NB: On cherche toujours à tester a = 0 et pas â=0, cependant on utilise â pour la commodité des calculs
du fait que le vrai coefficient « a » est inconnu.

196
Tests sur les paramètres: Test de Student

• Etape 2 : Utilisation de l’intervalle de confiance

• Rappel : Les intervalles de confiance représentent la plage d’incertitude associée à l’estimation d’une statistique (moyenne, proportion
ou écart-type etc…). Une estimation est forcément entachée d’un risque d’erreur d’échantillonnage. Les intervalles de confiance sont
utiles pour établir des bornes pour l’estimation.
• l’intervalle de confiance à 95 % est un intervalle de valeurs qui a 95 % de chances de contenir la véritable valeur du paramètre estimé

Sous Ho :a=0
aො
P −t α < < +t α = 0.95
σ
ෞaො

Etape 3 : Solution du test


Deux cas possibles
• * â appartient à l’intervalle donc, non rejet de H0
• * â n’appartient pas à cet intervalle, donc on rejette H0

197
Tests sur les paramètres: Test de Student ( l’approximation)

Etape 2 : Calcul de la statistique T


On utilise la statistique, notée T définie par la formule T = â / σ â

Etape 3 : Solution du test

➔ Si ce rapport est supérieur à 2 (en valeur absolue), on rejette H0


➔S’il est inférieur à 2, on ne rejette pas. H0

198
Exemple ( 1/2)

Invest t= - 0,69 Taux intérêt+ 0,13 Prt-1 – 40,41

➔Le modèle est estimé sur la période 1990 – 2010.


Les écarts types estimés des deux 1ers estimateurs sont respectivement : 0,141 et 0,036
➔On pose H0 : a = 0
➔On pose la valeur de T, telle que définie plus haut

199
Exemple (2/2)
sous H0 :
aො
P {- tα < T < t α} = 0,95 ou encore P −t α < ෞaෝ
< +t α = 0.95
σ

soit pour n = 21 et p = 3, n-3 ddl = 18, on obtient à 5 % , t α = 2, 101


 On obtient : P {- 2,101 < 0,69 / 0,141 < 2,101} = 0,95 ou sous H0 toujours,
P {- 2,101 x 0,141 < 0,69 < 2,101 x 0,141} = 0,95
Ou encore, P {- 0,296 < 0,69 < 0,296} = 0,95.

 Conclusion : 0,69 n’appartient pas à l’intervalle, donc rejet de H0 . Ainsi selon les
résultats, le coefficient a est significativement différent de 0 et donc les variations du
taux d’intérêt expliquent bien les variations de de l’investissement .

200
Le modèle linéaire de régression Multiple

201
Définition
• Le modèle de régression multiple est une généralisation du modèle de régression
simple lorsque les variables explicatives sont en nombre ni. Nous supposons donc
que les données collectées suivent le modèle suivant :

Yi= a0+ a1Xi1+a2Xi2+a3Xi3+….anXin+ Ui

→ Yi: Variable à expliquer, aléatoire à cause de l’introduction de Ui

→ X1i … Xni Sont les observations des variables explicatives pour chaque individu

→ a1Xi1+a2Xi2+a3Xi3 : Est la partie déterministe ou systématique ou explicative du


modèle.

→ Uiest la partie aléatoire du modèle.


202
Définition

• Dans le cas des données temporelles nous aurons

Yt= a0+a1X1t+a2X2t+a3X3t+….apXpt+ Ut

→ Yt: Variable endogène, aléatoire à cause de l’introduction de Ut

→ X1t … Xpt Sont les observations à chaque période t des variables exogènes

→ a1X1t… apXpt Est la partie déterministe ou systématique ou explicative du modèle.

→ Ut est la partie aléatoire du modèle.

203
Ecriture matricielle du MLRM

En écrivant le modèle, observation par observation, nous obtenons :

204
Ecriture matricielle du MLRM

205
Démarche de modélisation dans MLRM

• La démarche de modélisation est toujours la même

206
Hypothèse 1 : Le modèle est correctement spécifié.

• Il y a une mauvaise spécification lorsqu’on effectue un mauvais choix des variables, la


forme de la liaison entre la variable à expliquer et la variable explicative n’est pas
correctement établie

→il faut que les variable explicatives retenues soit les « meilleures » sans
omission d’autres variables,
→la vraie relation soit une relation linéaire dans ou par rapport aux paramètres à
estimer
→ la variable aléatoire intervienne de manière additive.

207
Hypothèse 2 : Les Yi et Xi sont des grandeurs numériques observées sans erreur.
• Y est une variable aléatoire par l’introduction de U.

E (U i ) = 0 quelque soit X i (i = 1...n ).


• Ce qui importe est que l’espérance mathématique de U soit nulle ou la
même pour tout i. Cette hypothèse est une hypothèse de permanence
structurelle.

208
Hypothèse 3 : L’homoscédasticité
Ui est distribuée selon une loi de probabilité indépendante de “i” et de Xi

V (U i ) = E (U i2 ) = u2 Quantité finie

L’Hypothèse 3 reprend l’hypothèse 2 mais elle est plus forte . Si H3


n’est pas réalisée, on parle d’hétéroscédasticité.

209
Hypothèse 4 : Hypothèse d’indépendance des erreurs (ou
résidus)

On suppose que Ui et Uj erreurs relatives à 2 observations


différentes sont indépendantes entre elles c’est-à-dire

Cov (U i ,U j ) = 0 i  j.

210
Hypothèse 5 : Hypothèse de normalité

On suppose que les Ui sont distribuées selon une loi


normale.

211
Hypothèse 6 : Hypothèse sur les variables explicatives

• Absence de colinéarité des variables X1 ,X 2 ,…,Xk et E (vecteur unité).

Définition : on parle de multicolinéarité parfaite lorsqu’une des variables explicatives d’un modèle
est une combinaison linéaire d’une ou plusieurs autres variables explicatives introduites dans le même
modèle.

Exemple : ሶ 𝑪ሶ où 𝑰𝒕 est l’investissement public, 𝒊𝒕 est le taux


Soit le modèle suivant : 𝑰𝒕 = 𝐟 𝒊𝒕 , 𝑷𝑰𝑩,
ሶ la variation du 𝐏𝐈𝐁 et enfin 𝑪ሶ la variation de la consommation.
d’intérêt, 𝑷𝑰𝑩
ሶ et 𝑪ሶ dans la mesure où 𝐏𝐈𝐁 = 𝐂 + 𝐈 + 𝑿 − 𝐌.
Ici, on a une forte colinéarité entre 𝑷𝑰𝑩

212
Hypothèse 6 : Hypothèse sur les variables explicatives
Une méthode simple pour détecter une trop grande corrélation entre variables indépendantes consiste à
demander des tests de colinéarité : tolérance et facteur d’inflation de la variance (VIF).

La tolérance est définie comme la part de variabilité de la variable indépendante qui n’est pas expliquée par
une ou d’autres variables indépendantes. Une tolérance élevée correspond à un faible degré de colinéarité.
Le seuil de 0,3 est recommandé. À l’inverse, le seuil du facteur d’inflation de la variance (VIF) doit être faible
: < 3.

213
Hypothèse 6 : Hypothèse sur les variables explicatives
Hypothèse 6 : Hypothèse sur les variables explicatives
Hypothèse 7 : On n’introduit aucune restriction sur les paramètres a
et b à estimer.

Les estimateurs des paramètres a et b peuvent prendre n’importe quelle valeur


réelle positive, négative ou nulle.

216
Estimation des coefficients de régression

217
La méthode des moindres carrés cherche la meilleure
Détermination de l’estimateur â estimation des paramètres « a » en minimisant la
quantité

Ui
Avec Ui=Yi-Xâ

Ui

218
Détermination de l’estimateur â

219
Détermination de l’estimateur â

Yt = X t a + Ut (1)
on aura :
Y = Xa + U
෡ = Xොa et U
Y ෡ =Y − Y
෡ (2)
D’où U ෡ = Y − Xොa ෡ = Xොa
(3) avec Y

223
Détermination de l’estimateur â

224
Détermination de l’estimateur â


X '.(Y − X a ) = 0

(X '.Y ) − ( X ' X . a ) = 0

X '.Y = X '.X a

−1 −1
(X ' X ) X 'Y = (X ' X ) ( X ' X ) a

−1
a = (X ' X ) .X 'Y
225
Propriétés de l’estimateur â

Cela signifie que sur un grand nombre d'échantillons,


l'estimation â converge vers le vrai paramètre a

permet de mesurer la dispersion de â autour


du vrai paramètre a

226
La validation du MLRM

227
Le Coefficient De Détermination

-
-
--
6

228
Le principe du R2

Le coefficient de détermination d’un modèle représente le carré du coefficient de corrélation multiple R ; il


mesure la qualité de l’ajustement des Yt par la méthode des M.C.O.

229
Exemple de lecture

• R 2 = 0, 83
Signifie que le modèle explique 83 % des variations de Y (la variable à
expliquer). Exemple: le modèle suivant cherche à expliquer les variations de
l’Investissement sur 20 ans It = a1 πt + a2 PxEQt + a3 Rt + Ut
Le R2 obtenu signifie que le modèle explique 83 % des variations de
l’Investissement.

230
Test sur les paramètres
• Il paraît raisonnable de se poser les questions suivantes :
→ (a) tester la significativité globale du modèle, c'est à dire est-ce-que que tous les
coefficients sont supposés nuls, excepté la constante ?
→(b) est-ce-que la variable Xj a-t-elle réellement une influence sur Y ?

Test sur les paramètres

Test de Fisher Test de student

231
Test de fisher

Tester la significativité globale du modèle

➔1 ère étape: l’hypothèse:


Test de l’hypothèse : ሼH0 : a1 = a2 = ⋯ = ak = 0

➔2 ème étape: Calcul de la statistique de Fisher

෡Y
Y′ ෡ R²
R² n−p
Fc = k = k = ×
෡U
U′ ෡ 1 − R² 1 − R² k
n−p n−p

232
Test de fisher

• 3 ème étape : solution du test

On compare le F théorique càd le F lu sur la table de distribution de Fisher et le F calculé à partir de


nos observations

2 cas peuvent se présenter :

* F calculé > F théorique ; on rejette H0 . Cela veut dire que les variables retenues sont explicatives.
* F calculé < F théorique ; non rejet de H0 .

233
Exemple
Au Maroc, les importations sont fonction de la consommation, de la FBCF et des exportations.
M = f C, FBCF, X
log Mt = 0.469 log Ct + 0.034 log FBCFt + 0.471 log Xt − 0.993
n=14
R²=82.44%
Fc =15.649
n-p=10
K=P-1=3 donc F3;10=6.55 au seuil α=1%

Le Fc> Ft on rejette l’hypothèse H0 : le modèle comporte au


moins une variable explicative de significative.

234
Test de de Student : Significativité de chaque élément du vecteur a :

Ce test permet en fait d’apprécier la portée explicative de chaque variable explicative retenue

➔1 ère étape :les hypothèses:


ሼH0 : ak = 0 la k ème variable n’explique pas significativement le modèle

➔ 2 -ème étape : construction du test

aො k aො
ou encore : Tc = = σෞk sous H0
S².Vk ෝk
a

235
Test de de Student : Significativité de chaque élément du vecteur a :

➔ Solution du test :

2 cas possibles :

*ොak appartient à l’intervalle P −t α × σෞ


ak ; +t α × σෞ
ෝ ak = 0.95 alors on ne refuse pas H0

* aො k n’appartient pas à cet intervalle alors on refuse H0.

236
Exemple

Mt = aIt + bCt + c + et
pour n=22

0.371It 0.192Ct 15.80


Mt = + +
0.081 0.125 9.53

comme n=22, les T suivent une loi de Student à 19 ddl (22-3)

Sous H0 :


a
P −t α < ෟ k
σaෝ
< +t α = 0.95 ; donne ici , P −t α × σෞ
ෝ ො k < +t α × σෞ
ak < a ak = 0.95

k
237
Exemple

238
Exemple

Discutons la pertinence de l’investissement :

le t lu sur la table à 95% est 2.093 et on remplace les écarts types par leur valeur, il
vient :
P( - 2,093x 0,081 < 0.307 < 2,093 x 0,081) = 0,95 ou P( - 0.1695 < 0.307 < 0.1695) =
0,95

La valeur â = 0.307 n’appartient pas à l’intervalle, donc rejet de H0 ; en d’autres termes


coefficient a2 est différent de 0 et l’investissement est une variable pertinente pour
expliquer le niveau des importations.

239
Exemple

• Discutons la pertinence de la consommation

Pour la consommation, on peut utiliser l’approximation :

Tc = 0.192/0.125 < 2 donc selon l’échantillon, la consommation n’explique pas le niveau des
importations.

240
Exercice 1
Une entreprise spécialisée dans la vente des produits cosmétiques cherche à augmenter son chiffre d’affaire.
Pour ce faire, elle décide de faire appel à un analyte des données capable d’étudier la relation entre le chiffre
d’affaire et l’investissement en dépenses de publicité.
Le tableau ci-contre donne les niveaux des chiffres d’affaire et des dépenses de publicité pour les années 2011
à 2020

Années Y : Chiffre X : Dépense


d’affaire de publicité
2011 Considérons le modèle :
70 10
2012 73 13 Yt = α Xt + β + Ut avec Y : un indicateur du chiffre d’affaire et
2013 78 16 X un indicateur des dépenses de publicité.
2014 83 20
2015 i. Estimez les paramètres α et β de ce modèle, en montrant vos
79 14
étapes de calculs
2016 82 23 ii. On donne R2 = 0,78 ; interprétez et analyser les résultats.
2017 85 25 iii. Quel serait le chiffre d’affaire en 2022 si l’entreprise fixe
2018 90 27 une dépense de publicité de 52
2019 92 28
2020 95 31 241
Correction
Formule de â et ^b : Par la méthode des MCO, la formule de â est

a=
 (X − X )(Y −Y )
i i


a=
 (Xeti −celle
X )(de
Y bi −=Y –) â x  (X − X )i
2

 i
( X − X yi-ym
) 2 xi-xm (yi-ym)*(xi-xm) (xi-xm)2
-12,7 -10,7 135,89 114,49
-9,7 -7,7 74,69 59,29
-4,7 -4,7 22,09 22,09
0,3 -0,7 -0,21 0,49
-3,7 -6,7 24,79 44,89
-0,7 2,3 -1,61 5,29
2,3 4,3 9,89 18,49
7,3 6,3 45,99 39,69
9,3 7,3 67,89 53,29
12,3 10,3 126,69 106,09
506,1 464,1

242
L’estimation des paramètres du modèle Yt = α Xt + β + Ut donne â = 1.09 et ^b = 59.93
Correction

• ii) R2 = 0,78 signifie que le modèle retenu explique 78 % de la variabilité du chiffre d’affaire. Les résultats
indiquent que lorsque les dépenses de publicités augmentent de 1 unité, le chiffre d’affaire augmente de 1.09
unités.

• iii) Selon les résultats de l’estimation, si l’entreprise investit 52 en dépense de publicité en 2021, le chiffre
d’atteindra : 116.46= [(1.09 X 52) +59.93].

243
Exercice 2

• La confédération des entreprises marocaines veut analyser l’effet de l’investissement (INV) sur la productivité
(Prodté) dans le secteur textile. Elle construit un modèle sur la période ( 1997 à 2017) en introduisant trois
variables exogènes : les dépenses en formation continue des salariés (Educ) et le niveau des salaires (Sal) ; ces
variables sont exprimées en logarithme.
Les résultats obtenus sont : Prodté t = 0,64 LINVt + 0,81 LEduct + 0,71 LSalt + 26,73
Les écarts types estimés des estimateurs sont respectivement : 0,032 ; 0,058 ; 0,017 et 9,8
R2 = 0,96
• i. Analysez ces résultats sur le plan statistique

244
Correction

• Le R2 étant élevé, cela signifie que le modèle est globalement pertinent : les variables exogènes retenues
permettent d’expliquer 96 % de la variabilité de la productivité d’une année à l’autre.
• Discutons la pertinence de chaque variable : Si l’écart type estimé de â est 0,032, on peut tester la pertinence
de l’Inv pour expliquer la productivité, en testant la significativité par zéro du coefficient a (on pose H0 : a =
0). Pour ce faire, on applique le test de Student

• L’intervalle de confiance, sous l’hypothèse H0 : a = 0, s’écrit

Ou encore, P {- tα* / σak < â < tα* / σak } = 0, 95

245
246
Correction

P {- tα* / σak < â < tα* / σak } = 0, 95

Pour n = 21 et p = 4, le nombre de ddl est : 21-4 = 17; au seuil α = 5%, la statistique de Student
vaut 2,11 (tα). L’écart type estimé de â = 0,032

L’intervalle de confiance est donc : - 2,11 x 0,032 = - 0,067 et 0,067 soit IC = [-0,067 ; 0,067].
On constate que â = 0,64 n’appartient pas à l’intervalle.

➔ On refuse donc H0. On peut dire ainsi que selon l’échantillon le niveau d’investissement est
pertinent pour expliquer la productivité, dans le secteur textile.

247
Correction

• Pour les autres variables, nous utilisons l’approximation pour tester la significativité des
coefficients. En effet, n est assez grand pour que la loi de Student tende vers une loi normale.
• Leduc : 0,81/0,058 = 13,96 > 2, le coefficient est différent de zéro et donc les dépenses en
formation continue des salariés agissent significativement sur la productivité.
• Il en est de même des salaires distribués car 0,71/0,017 = 41,76 >2.

248
Régression linéaire: Test de durbin et watson ( Problème d’autocorrélation des
erreurs)

• Pour s’assurer du risque d’autocorrélation des erreurs, on procède au test de Durbin & Watson. La statistique
d de Durbin-Watson varie entre 0 et 4.

• 1 ère étape : les hypothèses:


Nous allons tester l’hypothèse H0 : ϕ = 0 Absence d′ autocorrelation
contre l’hypothèse H1 : ϕ≠0 il y a autocorrélation

2 -ème étape: calcul de la statistique

σt=n
t=2
෢t − U
U ෣ t−1 ²
෠d =
σt=n ෢
t=1 Ut ²

249
Régression linéaire: Test de durbin et watson ( Problème d’autocorrélation des
erreurs)

Solution du test

Tableau de décision :

d1 et d2 sont déterminés à partir de la table de DW en fonction de n et K

250
Exemple

• Log Mt = 0.469 Log Ct + 0.034 Log FBCFt + 0.471 Log Xt - 0.993

• Sachant que ෞ=
DW
1.414 et n=15 vérifiez si nous avons autocorrélation des erreurs ou pas

• 1 ère étape : les hypothèses:


Nous allons tester l’hypothèse H0 : ϕ = 0 Absence d′ autocorrelation
contre l’hypothèse H1 : ϕ≠0 il y a autocorrélation

• 2 ème étape: la statistique est déjà calculée: ෞ = 1.414


DW

251
Exemple

• Solution du test
• Pour n = 15 et k = 3 d1=0.82 et d2=1.75


d=0 0,82 1.75 2.25 3,18 4
Autocorrélation positive Doute Indépendance Doute Autocorrélation négative

0.82 < DW
ෞ < 1.75 il y a doute

252
Chapitre III: La modélisation par équations structurelles
Introduction

• Les méthodes d’estimation de modèles d’équations structurelles sont toutes issues de recherches datant du
début du XXème siècle.
• Ces recherches se sont basées sur deux axes : l’analyse de relations structurelles (path analysis) introduite par
Wright (1918, 1921) et la conceptualisation de la notion de variable latente.
• Les méthodes d’estimation ont été mises en place dans les années 1970 par Jöreskog (1970) et Wold (1973).
Ces méthodes sont issues aussi bien de recherches en statistique, qu’en psychologie.
Introduction

• Les modèles d’équations structurelles à variables latentes (SEM) sont des modèles multivariés utilisés
pour modéliser les structures de causalité dans les données.

• L’intérêt de la modélisation par équations structurelles réside essentiellement dans sa capacité à tester
de manière simultanée l’existence de relations causales entre plusieurs variables latentes.
Introduction

Variable Manifeste Variable latente

Une variable manifeste est une variable ou Une variable latente (dimension
un facteur qui peut être directement théorique) n'est pas (par définition)
mesuré ou observé. observable directement.
Elle peut être directement étudiée par un Elle est appréhendée ou estimée à travers
chercheur ou un statisticien lorsqu'elle est un ensemble d'observations indicateur qui
représentée dans un diagramme vont la représenter.

Une variable manifeste est l'opposé d'une


variable latente, qui est un attribut masqué Pour définir une variable latente, on utilise
et qui ne peut donc pas être observé ce qu'on appelle un modèle de mesure
directement

256
Variables Manifestes versus Variables latentes: Exemples

Sexe satisfaction

Age
Variable Niveau
attitude
Variable Motivation
Manifeste éducation
latente

Salaire Risque

257
Exemple de modèle conceptuel

On peut chercher à étudier l’impact de la qualité perçue sur la satisfaction


et la fidélité des clients à leurs fournisseurs de services téléphoniques
Echelle de mesure

Procédure de sélection, Tests


Construire une échelle de
de validation…( Application
mesure
du paradigme de churchill)

échelle de mesure

Contextualisation et
Échelle de mesure
épuration de l’échelle de
préexistante
mesure
Echelle de mesure
Echelle de mesure
Représentation général d ’un MES
• Les modèles à équations structurelles consistent en un système d’équations pouvant être représentées sous
forme de graphe orienté, les nœuds représentent les variables sous forme de carré pour les variables
manifestes et sous forme de rond pour les variables latentes, les arcs modélisent les liens de causalité.

• Chaque variable manifeste est associée à une seule variable latente et les variables latentes peuvent
être liées entre elles.
Représentation général d ’un MES
Représentation général d ’un MES: L’impact de la qualité perçue sur la satisfaction et la fidélité
Modèle structurelle/ Modèle de mesure

• On distinguera au sein du modèle deux sous-modèles : le modèle de mesure ou modèle externe (outer
model) liant les variables manifestes aux variables latentes et le modèle structurel ou modèle
interne (inter model) liant les variables latentes entre elles.

• Le modèle structurel sera dit récursif si les liens entre variables sont unidirectionnels. Un modèle non
récursif pourra présenter des boucles où deux variables endogènes seront réciproquement cause et
conséquence l’une de l’autre
Modèle externe: Variable latente de type réflectif / formatif/ Mimic

Type réflectif: Les variables manifestes sont le reflet


de leur variable latente

Type formatif : La variable latente ξj est le reflet des


variables manifestes du bloc Xj

MIMIC: C’est un mélange des deux schémas


précédents. lorsqu’une variable latente est de type
mixte : une partie de ses variables manifestes sont de
type réflexif et les autres de type formatif
Modèle externe: Variable latente de type réflectif / formatif/ Mimic

Il existe plusieurs schémas de modélisation du modèle externe qui modifieront la manière dont les
variables latentes seront construites. Il existe trois façons de relier les variables manifestes aux variables
latentes
exemple
Le schéma réflectif:

Lorsqu’il s’agit d’un modèle réflectif on considère que le construit latent existe
indépendamment des mesures utilisées, le sens de causalité s’oriente de la variable latente
vers les variables observées et par voie de conséquence c’est la variation du construit
latent qui entraine une variation des items et non pas l’inverse.

Ces derniers partagent le même thème, interchangeables, et la suppression ou l’addition


d’un item ne change pas le domaine conceptuel.
Le schéma réflectif:

• C’est celui adopté dans la plupart des utilisations des modèles d’équations structurelles à variables
latentes. Chaque variable manifeste est reliée à sa variable latente par une régression simple.

Définition : Les relations du modèle externe sont dites réflectives si, pour chaque variable
latente ξk, la relation entre cette variable et l’ensemble des variables manifestes qui lui sont
associées s’écrit :

Les valeurs prises par les variables manifestes sont des "conséquences" de la variable latente. La relation
de causalité va de la variable latente vers les variables manifestes
Le schéma formatif:

• En revanche lorsqu’il s’agit d’un modèle formatif, le construit latent résulte d’une
combinaison de ses indicateurs, le sens de causalité s’oriente des items vers le
construit latent, ce qui revient à dire que c’est la variation des items qui entraine la
variation du construit.
• Lesdits items ne partagent pas nécessairement le même thème, non interchangeables,
et la suppression ou l’addition d’un item peut changer le domaine conceptuel.
Le schéma formatif:

• Le schéma formatif est moins fréquemment utilisé. On suppose que chaque variable latente est une
combinaison linéaire de ses variables manifestes correspondantes
Définition : Les relations du modèle externe sont dites formatives si, pour chaque variable latente ξk, la
relation entre cette variable et l’ensemble des variables manifestes qui lui sont associées s’écrit :

où ωkj est un poids et δk est un vecteur d’erreur qui est supposé de moyenne nulle et non
corrélé aux variables manifestes.

Ce schéma entraîne une modification de la signification de la variable latente et conduit à une


nouvelle façon de modéliser le modèle externe. La variable latente est ici un construit, elle est
formée à partir des variables manifestes qui lui sont associées
Le modèle interne

Il est défini par des équations linéaires reliant les variables latentes entre elles. Pour toute ξk
a expliquer (endogène) on a :
Le MES: Ensemble de variables a expliquer/ explicatives

• Une variable a expliquer ( endogène): une variable dont les valeurs sont déterminées par le modèle : Le
cas des deux variables fidélité et satisfaction .

• Une variable explicative ( exogène): pourra elle aussi déterminer les valeurs d’autres variables du modèle
mais sera elle-même déterminée par des variables extérieures au modèle: le cas de la variable qualité
perçue
Modèle d’équations structurelles
Variables modératrices et médiatrices

• Une variable est dite médiatrice lorsqu’elle intervient entre une variable explicative
et une autre variable à expliquer. Ce qui revient à dire que la variation de la variable
explicative entraine une variation au niveau de la variable médiatrice qui à son tour
entraine la variation de la variable à expliquer
Exemple: Variable médiatrice

• Mesurer la relation entre la satisfaction du client et la fidélité du client


via l’attitude
Variables modératrices et médiatrices

• une variable est dite modératrice lorsqu’elle influence le sens et/ou la


force de la relation entre deux variables, l’une explicative et l’autre à
expliquer
Étapes de la modélidation par équations structurelles

• La modélisation par équations structurelles comporte quatre étapes:

Évaluation/
Spécification L’estimation Utilisation
Validation

-Développer un -l’estimation des Évaluation du modèle


modèle conceptuel qui paramètres en fonction par le biais de plusieurs
pourra être traité par de l’algorithme choisi: indicateurs
les logiciels statistiques -Lisrel (Linear
Structural
Relationships)
PLS(Partial Least
Square) )
Méthodes d’estimation

• Dans le cadre des méthodes d’estimation du modèle complet, les deux sous-modèles
sont estimés soit simultanément (cas de la méthode par analyse de la structure de
covariance, généralement appelée LISREL pour Linear Structural Relationships), soit
alternativement (cas de l’approche PLS (Partial Least Squares))

L’approche LISREL

Deux approches

L’approche PLS
L’approche PLS (Partial Least Squares Path Modeling)

Variable Poids externes Variable


Latente Manifeste

Variable Variable
Latente Latente
Poids internes
L’algorithme du PLS
L’approche PLS (Partial Least Squares Path Modeling)

→L’approche PLS est basée sur un algorithme itératif qui alterne une construction des
variables latentes en se basant sur le modèle externe avec une autre construction se
basant sur le modèle interne.
→Après convergence, les coefficients du modèle peuvent être estimés par régressions
ordinaires simples ou multiple

➔L'estimation PLS utilise la méthode des moindres carrés, qui divise les paramètres du
modèle de sous-ensembles et applique la méthode de régression simple et multiple, et
utilise le procédé itératif dans l'estimation de sous- groupes
Principes de l’approche PLS

→Méthode basée sur des régressions simples et Multiples

→L’estimation du modèle passe par l’estimation des scores des variables latentes

→Cette estimation se fait à l’aide d’un algorithme itératif

→Une fois les scores obtenus, on estime les coefficients du modèle interne par

régressions multiples classiques (OLS)


Etape de l’estimation par l’approche du PLS

• 1- On fixe les poids externes initiaux. En général, les poids externes sont fixés à 1 pour
toutes les variables manifestes exceptée la dernière de chaque bloc qui est fixé à –1
• 2- On calcule les scores des variables latentes en se basant sur le modèle externe (chaque
score associé à une variable latente est calculé en fonction des variables manifestes de son
bloc).

• 3-On calcule les scores des variables latentes en se basant sur le modèle interne (chaque
score associé à une variable latente est calculé en fonction des autres variables latentes qui
lui sont liées)
Etape de l’estimation par l’approche du PLS

1-on commence par estimer la valeur des variables latentes standardisées sur la base des scores des variables
manifestes et des poids du modèle externe ( fixés arbitrairement pour initialiser l’itération)


2-puis, on estime les liens structurels entre variables latentes (modèle interne)

3-et enfin, on estime les poids du modèle externe grâce aux valeurs des variables latentes issues de l’étape 2 et on
revient à la première étape du processus
L’importance de la standarisation dans la régression linéaire

Éliminer les effets d'échelle :


La standardisation met toutes les variables sur une même échelle (souvent avec une moyenne de 0 et un écart-type de 1). Cela
garantit que les différences d’échelle (unités de mesure, variances différentes) n’influencent pas l’estimation des coefficients, ce
qui permet de comparer directement l’impact de chaque indicateur sur le score latent.

Obtenir des coefficients comparables :


Lorsque les variables sont standardisées, le coefficient de régression obtenu dans une régression simple correspond en grande
partie à la corrélation entre l'indicateur et le score latent. Ce coefficient (souvent appelé « coefficient bêta standardisé ») est
directement comparable entre les indicateurs.

Faciliter l’interprétation :
Les coefficients standardisés indiquent l’importance relative de chaque indicateur dans la formation du score latent. Cela aide à
comprendre quels indicateurs ont une influence plus forte ou plus faible, indépendamment des unités de mesure initiales.

• Optimisation de l’algorithme PLS :


Dans l’approche PLS, l’objectif est de maximiser la variance expliquée du modèle. En travaillant avec des variables standardisées,
on s’assure que les contributions de chaque indicateur sont évaluées sur une base commune, ce qui facilite l’ajustement itératif
des poids externes.
Etape de l’estimation par l’approche du PLS

• On répète cette boucle jusqu’à convergence de sorte que la différence entre les
sommes des paramètres issus de deux boucles consécutives soit minime.
• Ensuite, on procède à l’estimation finale des paramètres (poids internes, poids
externes et liens structurels) en utilisant la méthode des moindres carrés pour chacune
des régressions du modèle.
Exemple :
Variables latentes :
• X (Confiance) : Mesurée par les indicateurs conf1, conf2, conf3
• Y (Intention d'achat) : Mesurée par int1, int2
Individu conf1 conf2 conf3 int1 int2
A 4 5 6 7 5
B 3 4 5 5 4
C 5 6 7 6 5
D 2 3 4 4 3
E 6 7 8 8 6
Calcul des scores latents initiaux (X et Y) :
On commence par calculer les scores latents pour X (Confiance) et Y
(Intention d'achat) en utilisant les poids initiaux (1, 1, -1 pour X, et 1
pour Y).
• X_score (pour chaque individu) :
X=conf1+conf2−conf3 = conf1 + conf2 – conf3
• Y_score (pour chaque individu) :
Y=int1−int2Y = int1 - int2
X_score Y_score
Individu conf1 conf2 conf3 int1 int2
(Confiance) (Intention)

A 4 5 6 7 5 4+5-6=3 7-5=2

B 3 4 5 5 4 3+4-5=2 5-4=1

C 5 6 7 6 5 5+6-7=4 6-5=1

D 2 3 4 4 3 2+3-4=1 4-3=1

E 6 7 8 8 6 6+7-8=5 8-6=2
• Régression entre X et Y (modèle interne) :

Y=0.5+0.7X
Avec Y : Intention de réservation et X: la confiance
Recalcul des poids externes (corrélations)
Calculer la corrélation entre chaque indicateur (comme conf1, conf2,
etc.) et le score latent X. Les poids externes correspondent à ces
corrélations
Indicateur Corrélation avec X
conf1 0.85
conf2 0.90
conf3 0.75
• Mise à jour des scores latents avec ces nouveaux poids :

• Score de la confiance ajusté = (0.85 * conf1 + 0.90 * conf2 + 0.75 *


conf3) / (0.85 + 0.90 + 0.75)
Prenons l'exemple de l'Individu A :
1.conf1 = 4
2.conf2 = 5
3.conf3 = 6
Les poids sont :
• w1 = 0.85
• w2 = 0.90
• w3 = 0.75
Le calcul devient :
Approche PLS-Poids externes

• Initialisation: En général, les poids externes sont fixés à 1 pour toutes les
variables manifestes exceptée la dernière de chaque bloc qui est fixé à –1.
Modes d’estimation:
• Mode A (Cas réflectif): ➔Régression simple

• Mode B ( cas formatif) ➔ Régression Multiple


Approche PLS-Poids internes

• Schéma d’estimation des relation internes

Schéma structurel : eji = coef. de régression


multiple de yi sur Zj si elles sont reliée
Prérequis de l’approche PLS

• Le modèle doit être linéaire,


• le modèle doit être récursif,
• les observations doivent être indépendantes les unes des autres,
• le nombre d’observations minimum doit être égal à 10 fois le nombre de relations
émanant du construit central du modèle (Chin, 1998).
➔ Autrement dit, on multipliera par 10 le nombre de variables manifestes liées à la
variable latente qui est liée avec le plus de variables (exemple : si la variable latente qui
est liée au plus de variables possède 5 variables manifestes, l’échantillon devra
comporter au moins 50 observations).
La validation

• Dans le cadre de l’application de la méthode PLS sur un modèle, on a trois niveaux


de validation du modèle. La qualité du modèle externe, celle du modèle interne
et la qualité de chaque équation structurelle de régression.
La communalité : La validité externe

• La communauté (communality, H2) évalue la qualité du modèle de mesure pour


chaque bloc. Pour un bloc k :

• Avec p égal au nombre total de variables manifestes dans les blocs


• La communauté Elle représente la proportion de la variance des variables
manifestes expliquée par leur variable latente associée.

Chin (1998) précise qu’il est recommandé qu’elle ait une valeur supérieure ou égale à 0.5. Surtout, cette
mesure doit être plus grande que la variance partagée entre le construit et les autres construits du modèle
La redondance: La validité interne

Pertinence prédictive du modèle : elle est indiquée par les pourcentages de


variance expliquée pour chaque régression du modèle. Chin (1998) précise que
des R2 de 0.67, 0.33 et 0.19 peuvent être considérés respectivement comme
substantiel, modéré et faible.

La qualité de chaque équation structurelle peut aussi être évaluée par le


coefficient Q2 de Stone-Geisser qui doit être supérieur à 0. « Il s’agit d’un test
de R² en validation croisée entre les variables manifestes d’une variable latente
endogène et toutes les variables manifestes associées aux variables latentes
expliquant la variable latente endogène, en utilisant le modèle structurel estimé. »
Gof: Goodness of fit
• On définit le GoF (Goodness of Fit) par la moyenne géométrique de la moyenne des communauté sur
l’ensemble des variables latentes (H¯2) et de la moyenne des R2 associés aux variables latentes
endogènes (R¯2)

Ces indices sont obtenus directement à partir des estimations sans aucune hypothèse distributionnelle sous-
jacente (ce qui empêche toute notion d’intervalle de confiance).

Plus cet indice est proche de 1, plus la qualité d’ajustement du modèle aux données est bonne.
Wetzels et al. (2009) suggèrent que des valeurs de 0,10, 0,25 et 0,36 prétendent un ajustement faible,
moyen et élevé.
L’approche Lisrel

→Lisrel permet de spécifier, estimer comparer et évaluer des modèles afin de confirmer une
théorie. Lisrel est donc une méthode confirmatoire (ou « a priori ») qui nécessite un fort
substrat théorique afin de penser en terme de modèles et d’hypothèses. La spécification du
modèle est donc une phase cruciale dans le travail de modélisation.

→A partir du modèle théorique construit a priori, on obtient une matrice de covariance


théorique Σ comportant les coefficients de corrélation attendus. A partir des données réelles,
on construit la matrice de covariance observée (ou empirique) S qui comporte les
coefficients de corrélation de la relation entre deux variables.
A titre de rappel:

• Définition: Une matrice de variance/covariance est une matrice carrée qui comporte les variances et
les covariances associées à plusieurs variables.
• Les éléments de diagonale de la matrice contiennent les variances des variables, tandis que les
éléments hors diagonale contiennent les covariances entre toutes les paires possibles de
variables.

Par exemple, vous créez une matrice de


variance/covariance pour les trois variables
X, Y et Z.

Dans le tableau suivant, les variances sont


affichées en gras le long de la diagonale.

Les variances de X, Y et Z sont


respectivement 2,0, 3,4 et 0,82. La covariance
entre X et Y est -0,86.
L’approche Lisrel
L’approche Lisrel

• On peut donc exprimer la matrice Σ sous forme d’une série d’équations où


apparaissent les paramètres du modèle.
• Il s’agit des coefficients de régression β, des variances des variables indépendantes σ2
y compris la variance des erreurs qu’on notera ψ et les covariances entre variables
indépendantes σ. On notera les paramètres sous forme de vecteur nommé ϴ.

Le principe de la modélisation par équations structurelles consiste à estimer ϴ en minimisant les résidus
entre les matrices S et Σ (on écrira F(S, Σ(ϴ)) ou simplement F).

La méthode Lisrel consiste à rendre la matrice de covariance théorique Σ la plus proche possible de la
matrice empirique S
La validation

• le test du χ 2 : si le modèle étudié est exact. Le modèle est considéré comme bon si χ 2
/DF<=3 et p-valeur<=0.05,
• - GFI (Goodness of Fit Index) : cet indice donne la proportion d’information expliquée
par la matrice S ; une valeur supérieure ou égale à 0.9 indique une bonne qualité du
modèle.
• - NNFI ou indice de Tucker-Lewis : il permet de mesurer l’augmentation de la qualité
d’ajustement quand on passe du modèle de référence (null model) au modèle étudié. On
acceptera le modèle pour une valeur supérieure ou égale à 0.95
Prérequis pour LISREL
• la linéarité du modèle,
• - l’indépendance des observations, -
• la normalité multivariée des données,
• - l’unidimensionalité des blocs de variables,
• - 200 observations minimum sont recommandées
Comparaison entre le PLS et Lisrel
Chapitre IV: L’analyse en Composantes principales (ACP)
Introduction

• L’analyse en composantes principales (ACP) est une méthode classique de l’un des grands champs de la
statistique appelé statistique exploratoire multidimensionnelle

➔Multidimensionnelle s’oppose à unidimensionnelle : on suppose donc que l’on disposera de plusieurs


variables sur les individus concernés.
➔Exploratoire s’oppose à inférentielle. Le but est de faire émerger des liaisons entre les variables et de former
des groupes d’individus se ressemblent

-Analyse des données- PR [Link]


Type de données
• L’Analyse en Composantes Principales (ACP) s’applique à des tableaux croisant des individus et des variables
quantitatives, appelés de façon concise tableaux Individus × Variables quantitatives.
• Selon un usage bien établi, les lignes du tableau représentent les individus et les colonnes représentent les
variables.
• A l’intersection de la ligne i et de la colonne k se trouve la valeur de la variable k pour l’individu i
Figurer : Tableau de données en ACP

La moyenne de la J
ème variable :

L’écart type de la J
ème variable :

xik : valeur de la variable k pour l’individu i.


I : nombre d’individus et ensemble des individus.
K : nombre de variables et ensemble des variables.
Type de données: Exemple
Exemple: on a recueilli le poids, la taille,
l’âge et la note de 10 élèves de l’école
• Analyse sensorielle: note du descripteur K pour le produit i
• Economie: valeur de l’indicateur k pour le pays i
• Marketing : valeur d’indice satisfaction k pour la marque i
• Evaluation éducatif: note de matière d’ examen ( maths, physique, etc)
pour l’étudiant i
• Enquête: caractéristiques sociodémographiques ( âge, revenu, etc) pour
l’individu i

X27: La taille du 7 -ème élevé soit 1.60

-Analyse des données- PR [Link]


Objectifs de l’ACP

• Le tableau des données ou encore la matrice X peut être analysée à travers ses lignes (les individus) ou à travers ses
colonnes (les variables).
→Etude des individus:
On cherche alors à répondre à des questions du type suivant :
• quels sont les individus qui se ressemblent ? Quels sont ceux qui diffèrent ?
• Plus généralement, on souhaite décrire la variabilité des individus. Pour cela, on cherche à mettre en évidence des
groupes homogènes d’individus dans le cadre d’une typologie des individus => Analyse de la ressemblance
→Etude des variables:
On cherche a analyser la ressemblance entre les variables => Analyse de liaisons entre variables
• Analyse de liaisons => Coefficient de corrélation
• Résumer l’ensemble des variables par un petit nombre de variables synthétiques appelées composantes
principales=> Indicateur synthétique

-Analyse des données- PR [Link]


Objectifs de l’ACP

• Ces deux études ne sont pas indépendantes du fait de la dualité inhérente à l’étude d’un tableau rectangulaire : la
structure du tableau peut être analysée à la fois par l’intermédiaire de la typologie des individus et de la
typologie des variables.
• On cherche en général à relier ces deux typologies:
→ On caractérise les classes d’individus par les variables
→On caractérise un groupe de variables liées entre elles par des individus types

En résumé:
• L’ ACP est une méthode de statistiques exploratoires multidimensionnelles qui a pour objet de synthétiser et
hiérarchiser l’information contenue dans un tableau de données multidimensionnelles
→ Elle a donc pour objectifs de trouver des représentations appropriées aux données et de fournir des mesures
permettant de quantifier la proximité entre les individus et la liaison entre les variables

-Analyse des données- PR [Link]


I. Étude des individus

-Analyse des données- PR [Link]


Exemple
Etude des individus: Mesure de la ressemblance

• Mesure de ressemblance entre les individus: deux


individus se ressemblent d’autant plus qu’ils possèdent des
valeurs proches pour l’ensemble des variables.

• En ACP, la distance calculée est la distance euclidienne


d(i,l), définie par :

La distance euclidienne entre les individus 4; 5; 6


peut être obtenue comme suit :

-Analyse des données- PR [Link]


Tableau: Calcul des moyennes, écarts types et
Etude des individus: Le centrage et la réduction variances des variables

Exprimons maintenant la taille en centimètre:

Lorsque la taille est exprimée en mètre l’élève 5 et plus Tableau: Données centrées réduites
proche de l’élève 4 que l’élève 6. Lorsqu’elle est
exprimée en centimètre c’est l’inverse

Pour stabiliser les données ils font recourir au


centrage et la réduction des données • Une ACP faite sur les données centrées réduites
est dite normée.
Etude des individus:
• L’objectif dans ce cas est de visualiser les ressemblances, les différences et/ou de former des groupes d’individus
homogènes

Si K=2 Nuage du points Si K>3

• Si K>3 Les individus ne sont plus représentables dans


l’espace usuel, l’espace n’est pas visualisable => Mais !
on peut le faire à travers une ACP

-Analyse des données- PR [Link]


Représentation simplifiée du Nuage des individus Ni

• Les propriétés géométriques du nuage induisent que leur visualisation permettrait de répondre aux questions posées :
variabilité des individus (via les distances inter-individus dans NK).
• Le problème est que ces nuages évoluent dans des espaces de dimension supérieure à 3 rendant leur visualisation directe
impossible.
➔ L’idée de l’ACP est de fournir une représentation simplifiée des individus. Autrement dit une image simplifiée de ces
individus dans un espace réduit ( 2 ou 3 dimensions)
➔ Il faut chercher la Meilleure Représentation

Il faut donc séparer les points au maximum


-Analyse des données- PR [Link]
La qualité de la représentation du nuage Ni

• La Qualité de la représentation du nuage peut être quantifiée à travers la notion de l’Inertie:


➔L’inertie est une mesure de dispersion du nuage des individus par rapport au centre de gravité :

-Si l’inertie est grande, cela signifie que le nuage est très dispersé = La visualisation du nuage est bonne,
plus particulièrement l’information portée par le nuage est bonne

- Si l’inertie est petite, alors le nuage est très concentré sur son centre de gravité.= La visualisation du
nuage n’est pas claire et donc l’information portée par la nuage n’est pas bonne

➔Un objectif de l’ACP sera de décomposer une quantité dérivant de cette somme (l’inertie) en faisant apparaître
des individus ou des groupes d’individus y contribuant de manière particulière.
-On cherchera en particulier à déterminer quelles directions de l’espace y contribuent le plus, autrement-dit, on
cherchera `a savoir dans quelles directions de l’espace les allongements du nuage sont les plus importants.

-Analyse des données- PR [Link]


Ajustement du nuage des individus Ni : Choix des composantes principales

• L’objectif est de fournir une image approchée du nuage Ni situé dans


l’espace IRk. Il faut donc trouver un sous espace qui résume au mieux les
données
• Pour cela on passe par trois étapes essentielles :
➔1-Trouver une meilleure représentation axiale: Trouver l’axe ou le facteur
( ou la composante principale) qui déforme le moins possible le nuage.
Plus précisément, on cherche la direction de IR de sorte à ce que les distances
entre les points initiaux soient les plus proches possibles de leurs projetés
orthogonaux;

➔2- Trouver le meilleur plan: On cherche P tel que:


le “meilleur” plan contient donc le “meilleur” axe on caractérise P par u1 et par
un second u2 qui est à la fois orthogonal à U1 et dans P U2 U1 et
Maximisant aussi la

➔3- On peut chercher un 3ème axe etc , d’inertie maximum

-Analyse des données- PR [Link]


Ajustement du nuage des individus Ni : Choix des composantes principales

• Le premier axe principal est l'axe suivant lequel on a la plus grande dispersion du nuage de points (le plus
grand allongement du nuage de points), permettant de distinguer au mieux les points. ➔c'est l'axe qui a la plus
grande variance ou pourcentage d'inertie
➔La variance ou l'inertie d'un axe principal est encore appelée valeur propre➔ La quantité d'information recueillie
par un axe principal

• Le 2ème axe principal, est la 2e direction d'allongement du nuage. C'est celui qui a la plus grande inertie
résiduelle après la première composante. Ainsi de suite jusqu'à remplacer les n axes anciens par m axes
nouveaux.

-Analyse des données- PR [Link]


Exemple

• Les données ci-après récapitulent les températures moyennes mensuelles relevées dans 15 villes de
France sur ( 30 ans)

-Analyse des données- PR [Link]


Exemple : Représentations du nuage Ni

-Analyse des données- PR [Link]


II. Étude des variables

-Analyse des données- PR [Link]


Etude des variables
• Etudier les variables revient à envisager le tableau en tant que
juxtaposition de colonnes.
• En ACP, la liaison entre deux variables est mesurée par le
coefficient de corrélation linéaire

• Une variable peut être représentée comme un point dans un


espace à I dimensions, noté IRI
• Géométriquement, lorsque les données sont centrées, le cosinus
de l’angle formé par les vecteurs représentant les deux variables h
et k, obtenu en calculant le produit scalaire noté h, k entre ces
deux vecteurs normés, est égal au coefficient de corrélation
entre ces deux variables.

-Analyse des données- PR [Link]


Etude des variables

-Analyse des données- PR [Link]


Ajustement du nuage des variables Nk

• La démarche précédente de l’ajustement du nuage Ni s’applique au


nuage Nk représentant les variables
Pour cela on passe par trois étapes essentielles :
➔Trouver une meilleure représentation axiale: il faut trouver l’axe ou
le facteur qui maximise la somme des corrélations entre un facteur et
l’ensemble des variables

V1 est donc la variable synthétique qui résume au mieux les variables

➔Trouver le meilleur plan: On cherche P tel que:


Avec la contrainte V2 V1
➔On peut chercher 3ème axe etc , d’inertie maximum

-Analyse des données- PR [Link]


Représentations du Nuages des Variables Nk: Cercle des variables

➔En travaillant sur des données centrées et réduites, les points


représentatifs des variables se trouvent tous sur une sphère de
centre 0 et de rayon 1 (dispersion autour de la moyenne).

➔ Si deux variables sont très corrélées positivement ( proche


de 1) , elles sont situées du même côté sur un axe.

➔ Deux variables dont la corrélation est fortement négative


(proche de -1) sont représentées par des points opposés sur la
sphère.
➔ Deux variables non corrélées sont représentées dans des
direction perpendiculaires

-Analyse des données- PR [Link]


Représentations du Nuages des Variables Nk: Cercle des variables

-Analyse des données- PR [Link]


Interprétation : variable➔ Individus

➔ Si une variable est corrélée positivement à un axe, les valeurs de cette variable évoluent comme les cordonnées dans cet axe
➔ Si une variable est corrélée négativement à un axe, les valeurs de cette variable évoluent à l’inverse des cordonnées dans cet axe

-Analyse des données- PR [Link]


Exemple : Interprétation du Nuage des individus Ni grâce aux variables

-Analyse des données- PR [Link]


Application SPSS

• Une entreprise souhaite se positionner sur le marché avec 10 marques de produits.


Vous disposez d’une base de données qui rassemble l’ensemble des caractéristiques
de chaque produits (le prix, le gout, la légèreté, la disponibilité, l’emballage et l’image).
On vous demande de faire un ACP afin d’accompagner l’entreprise pour se
positionner sur le marché.

-Analyse des données- PR [Link]


• Menu Analyse ➔Réduction des dimensions ➔Analyse factorielle ➔On choisit par la suite les variables
(numériques) à étudier (variables actives).

-Analyse des données- PR [Link]


• Dans la boite de dialogue « Descriptives », on sélectionne :

• - Caractéristiques univariées : Donne la moyenne, l’écart type et le nombre d’observations valides pour chaque variable.

• - Structure initiale : Donne les valeurs propres et la part de la variance expliquée par chaque axe (composante) principal.

• - Coefficients de la matrice de corrélation : affiche les corrélations entre les variables étudiées deux à deux.

• - Indice KMO et test de sphéricité de Bartlett : L’indice KMO indique s’il est intéressant d’appliquer une ACP sur les
données, autrement, est ce qu’une ACP permettra de trouver des facteurs (composantes) qui résument efficacement
l’information de départ. Pour répondre à cette question, l’indice KMO calcule les corrélations partielles entre les variables
(qui représentent les corrélations nettes entre les variables deux à deux en éliminant l’influence des autres) . Il est
préférable que le KMO dépasse le seuil de 0,7.

• Le test de Bartlett répond aussi à la même question en adoptant une stratégie différente. Il examine la matrice des
corrélations dans son intégralité et fournit la probabilité de l’hypothèse nulle selon laquelle toutes les corrélations sont de
zéro

-Analyse des données- PR [Link]


• Ensuite, dans la boite de dialogue « Extraction », on s’intéresse notamment au nombre de facteurs à extraire. Dans
notre cas, on choisit de fixer le nombre de composantes à deux pour obtenir la représentation graphique des
individus et des variables dans le plan. Par contre, on peut choisir de garder les composantes ou les axes dont les
valeurs propres

-Analyse des données- PR [Link]


• La boite de dialogue suivante : « Rotation » permet de décider la méthode de rotation à utiliser. La
rotation est intéressante dans le cas où les facteurs obtenus (sans rotation) sont difficiles à interpréter.
La méthode la plus utilisée est la rotation Varimax qui minimise le nombre de variables corrélées à
chaque composante. Nous choisissons de travailler pour cet exemple sans rotation. Il ne faut pas
oublier de cocher la case ‘Carte(s) factorielle(s)’ qui permet de visualiser les proximités entre les
variables par rapport aux axes choisi

-Analyse des données- PR [Link]


• Dans la boite de dialogue « scores », il est nécessaire de cocher les cases : ‘Enregistrer dans des variables’ et
‘Afficher la matrice des coefficients factoriels’. La première option permet d’enregistrer les coordonnées
factorielles des individus comme des nouvelles variables dans le fichier SPSS courant en utilisant la méthode de
régression (méthode par défaut). Cela permettra d’obtenir la représentation graphique de l’univers des individus.

La dernière boite de dialogue « Options » permet surtout de décider le traitement des valeurs manquantes soit
par suppression soit par remplacement. Nous n’avons pas de valeurs manquantes dans notre ensemble de
données, nous décidons donc de laisser les options par défaut.

-Analyse des données- PR [Link]


Le premier tableau ci-dessous donne les statistiques descriptives de chaque variable et indique l’absence de valeurs
manquantes

-Analyse des données- PR [Link]


Pour répondre à la question de l’utilité de la factorisation, nous analysons la matrice de corrélation, la
valeur de l’indice KMO et la signification du test de Bartlett. La matrice de corrélation indique qu’il existe
plusieurs variables qui sont corrélées à plus de 50% (0.5), la factorisation est donc conseillée. Cette
conclusion est confirmée par l’indice de KMO (0,714) et le test de Bartlett qui est significatif (signification
<0.05).

-Analyse des données- PR [Link]


l’« eigenvalue », ou valeurs propres > 1 ou règle de Kaiser-Guttman : une valeur propre représente la quantité
d’informations capturée par un facteur. Un facteur qui aurait une valeur propre inférieure à 1 représenterait moins
d’informations qu’un simple item.
le critère du pourcentage de variance : il s’agit d’une approche par laquelle on observe les pourcentages cumulés de la
variance extraite par les facteurs successifs. L’objectif est de s’assurer qu’un facteur explique une quantité significative de
variance. Il est souvent conseillé d’arrêter l’extraction lorsque 50 % de la variance expliquée est extraite

Nous avons choisi de travailler en deux dimensions. Les deux axes permettront d’expliquer 95,8% de l’information
contenue dans le nuage de points de départ (Tableau ‘Variance totale expliquée’ ci-dessous). Ces deux premiers axes sont
les seuls qui correspondent à des valeurs propres supérieures à 1
-Analyse des données- PR [Link]
Epuration

• La formation des facteurs repose sur le poids des variables initiales dans l'explication de ces facteurs. Les «
communalités » Une communalité de 0,5 signifie que 50 % de la variance de la variable est prise en compte ou
« expliquée» par les facteurs. Une valeur faible révèle que la variable n'est pas suffisamment corrélé avec les autres.

Le niveau des communalités est considéré comme moyen s'il est compris entre 0,40 et 0,65, bon s'il est compris entre 0,65
à 0,80 et excellent au-delà*. Il est d'usage d'éliminer les items de communalité inférieure à 0,5.

345
Le tableau ‘Qualité de représentation’ donne la part de la variabilité conservée pour chaque variable suite à la
projection sur les deux axes. L ’information initiale est conservée pour toutes les variables puisque les
communalités sont tous élevés ( supérieur à 0,5). Si la qualité de représentation d’une variable est faible
(généralement < 0.5) on peut choisir de l’éliminer de l’analyse

-Analyse des données- PR [Link]


Epuration

• Même si, en toute rigueur, la rotation n'est pas toujours nécessaire, elle améliore et simplifie dans la quasi- totalité
des cas la solution obtenue. Nous lirons donc en priorité la matrice des composantes après rotation.
Deux critères doivent être considérés:
- Nous envisageons d'éliminer des items dont les coefficients structurels trop faibles ou trop moyens <
0,5)
- Nous envisageons d'éliminer des items moyennement corrélés à plusieurs axes à la fois

347
Le tableau suivant : ‘Matrice des composantes’ mesure la contribution de chaque variable à la formation des
deux axes. Presque toutes les variables contribuent le plus à la formation du premier axe, mis à part la
variable disponibilité qui contribue le plus au deuxième axe. Puisque les deux axes sont indépendants
(Matrice de covariances des composantes), ces coefficients peuvent aussi être interprétés comme coefficients
de corrélation des variables avec les composantes et aussi comme coordonnées des variables dans les
composantes

-Analyse des données- PR [Link]


Sens des axes
Le sens de chaque axe est donné par la/les variables qui sont bien représentées par
cet axe (loin du centre et proches de l’axe).
Axe 1 : explique oppose la qualité du produit par rapport au prix
Axe 2 : oppose la disponibilité du produit à la non disponibilité
-Analyse des données- PR [Link]
Le menu Graphes ➔Boites de dialogue ancienne version➔ dispersion/points… permet d’obtenir la
représentation graphique des individus.

Axe 1 : Les produits 1 ; 2 ; 4 ; 5 sont bien représentés sur l’axe 1. Ces marques produits sont donc de meilleure
qualité en termes de gout, de légèreté, de l’image et d’emballage) . Les produits 7 ; 8 ; 10 sont de moyenne
qualité.
Axe 2 : Le produit 6 est disponible sur le marché alors que le produit 9 est très rare sur le marché

Vous aimerez peut-être aussi