Cours Add Entier
Cours Add Entier
2
Introduction : Statistiques descriptive ➔ Analyse des données ?
• On appelle statistique l’ensemble des méthodes permettant de collecter, organiser, présenter, résumer et analyser
les données des ensembles d’observations. Les statistiques peuvent être vues en fonction de l'objectif fixé, On
distingue deux grandes directions:
➔Les statistiques exploratoires: Elles ont pour but de d´écrire, c’est-`a-dire de résumer ou représenter, par des
statistiques, les données disponibles quand elles sont nombreuses
➔ Les statistiques inférentielles: Les données ne sont pas considérées comme une information complète, mais une
information partielle d’une population infinie. Il est alors naturel de supposer que les données sont des réalisations de
variables aléatoires, qui ont une certaine loi de probabilité
• Définition:
« L’analyse des données est un ensemble de techniques pour découvrir la structure, éventuellement
compliquée, d’un tableau de nombres à plusieurs dimensions et de traduire par une structure plus
simple et qui la résume au mieux. Cette structure peut le plus souvent, être représentée graphiquement » J-
P. Fénelon
→L'analyse de données fait toujours l'objet de recherche pour s'adapter à tout type de données et faire face à
des considérations de traitements en temps réel en dépit de la quantité de données toujours plus
importante;
→ Aujourd’hui, tout domaine scientifique qui doit gérer de grande quantité de données de type varié ont
recours à ces approches (écologie, linguistique, économie, etc) ainsi que tout domaine industriel
(assurance, banque, téléphonie, etc)
Généralités : L’analyse des données
→ Elles permettent donc la confrontation entre de nombreuses informations, ce qui est infiniment plus riche
que leur examen séparé. Les représentations simplifiées de grands tableaux de données que ces méthodes
permettent d’obtenir s’avèrent un outil de synthèse remarquable.
→ De données trop nombreuses pour être appréhendées directement, elles extraient les tendances les plus
marquantes, les hiérarchisent et éliminent les effets marginaux ou ponctuels qui perturbent la perception
globale des faits.
Analyse multidimensionnelle
• Les méthodes de l'analyse de données doivent donc permettre de représenter synthétiquement de vastes ensembles
numériques pour faciliter l'opérateur dans ses décisions.
• Les méthodes d’analyse multidimensionnelle sont classées selon deux critères:
on distingue :
Les méthodes descriptives ; qui fournissent une information synthétisée ou
résumée.
l’objectif de Des méthodes explicatives qui permettent qui permettent de déceler des
l’analyse relations entre les différentes variables.
METHODES DESCRIPTIVES :
➔ L'analyse en composantes principales (ACP) cherche à représenter dans un espace de dimension faible (<< p)
un nuage de points représentant n individus, ou objets, décrits par p variables quantitatives (donc de
dimension p) en utilisant les corrélations existantes entre ces variables.
➔ L'analyse des correspondances (AFC ou ACM) étudie les proximités entre individus décrits par deux ou
plusieurs variables qualitatives ainsi que les proximités entre les modalités de ces variables.
➔ Les méthodes de classification (clustering) ou de typologie procèdent par regroupement des individus en
classes homogènes (classifications hiérarchiques, arbres phylogénétiques, moyennes mobiles (K-means), ...).
• L’objectif de ce cours est de présenter les premières méthodes de base de l’analyse de données. Ce sont
des outils indispensables dans tout processus de prise de décision faisant appel à de grandes quantités de
données et d’informations.
• Nous étudions le principe de chaque méthode, ses objectifs et nous mettons l’accent sur le volet
interprétation des résultats via des exemples et études de cas pratiques. Grâce au progrès de l’informatique,
ces résultats peuvent être obtenus facilement à l’aide des logiciels statistiques (SPSS, SAS, SPAD, R, etc.).
• Avant d’introduire la première technique de l’analyse de données, nous rappelons brièvement les principes
et l’intérêt de la statistique descriptive.
Types de données primaires / données secondaires
Données primaires:
• Les données primaires sont des données créées pour la première fois par le chercheur grâce à des efforts
directs et à l'expérience, spécifiquement dans le but de résoudre son problème de recherche. Aussi connu
sous le nom de données de première main ou de données brutes.
• Les données peuvent être collectées par diverses méthodes telles que des enquêtes, des observations, des
questionnaires envoyés par la poste, des questionnaires remplis et envoyés par des enquêteurs, des
entretiens personnels, des entretiens téléphoniques, des groupes de discussion, des études de cas, etc.
9
Types de données primaires / données secondaires ( selon la source)
• Données secondaires:
• Les données secondaires impliquent des informations de seconde main qui sont déjà collectées et
enregistrées par toute personne autre que l'utilisateur dans un but, non lié au problème de recherche
actuel. Il s'agit de la forme facilement accessible de données collectées à partir de diverses sources
telles que les recensements, les publications gouvernementales, les archives internes de l'organisation,
les rapports, les livres, les articles de revues, les sites Web, etc.
10
Types de données primaires / données secondaires
11
Type de données (selon la nature)
i)Données en série temporelles(Time series) : Ensemble d’observation sur les valeurs que prend une ou plusieurs
variables à des points différents dans le temps : Ex PIBt,Const pour t / représentant des années, des trimestres ou des
mois, des jours
ii) Données individuelles (en coupe transversales ou instantanées ) (Cross series) :Données réunies sur
plusieurs variables en un point défini dans le temps : Ex Cons de lait des ménages i dans un quartier, ou Investissement
des entreprises i d’un secteur ; avec i = 1... N
iii) Données de panel (Panel data) : données qui réunissent à la fois la dimension temporelle et la dimension
individuelle ex estimation entre les exportations et l’ouverture commerciale sur 20 ans (le temps) et 15 pays (les
individus), le revenu d’un échantillon de ménages sur plusieurs années, l’évolution du chiffre d’affaires de 30 grandes
surfaces sur 36 mois
12
Vocabulaires statistiques
− Population (ou population statistique) : C’est un ensemble concerné par une étude statistique. On parle aussi
de champ de l´étude.
− Individu (ou unité statistique) : on désigne ainsi tout ´élément de la population considérée
− Echantillon : C’est le sous-ensemble de la population sur lequel sont effectivement réalisées les observations
− Taille de l’´échantillon : c’est le cardinal de l’´échantillon, autrement dit c’est le nombre d’individus qu’il
contient (l´échantillon de taille 800, de taille 1000...).
− Recensement : enquête dans laquelle l’´échantillon observé est en fait la population tout entière (on parle aussi
d’enquête exhaustive)
− Variable (statistique) : c’est une caractéristique (âge, salaire, sexe. . .), définie sur la population et observée sur
l’´échantillon. On distingue les variables quantitatives, sont celles prenant des valeurs numériques; des
variables qualitatives prenant des valeurs non numériques
Chapitre I: Analyse Unidimensionnelle et bidimensionnelle
Analyse Unidimensionnelle
• L’objectif des outils de Statistique descriptive élémentaire est de fournir des résumés synthétiques de séries de
valeurs, adaptés à leur type (qualitatives ou quantitatives), et observées sur une population ou un échantillon.
• Dans le cas d’une seule variable, Les notions les plus classiques sont celles de médiane, quantile, moyenne,
fréquence, variance, écart-type définies parallèlement à des représentations graphiques : diagramme en bâton,
histogramme, diagramme-boîte, graphiques cumulatifs, diagrammes en colonnes, en barre ou en secteurs
Analyse Unidimensionnelle : Variable quantitative discrète
• Une variable quantitative discrète ➔une variable quantitative ne prenant que des valeurs entières
Exemple : On a noté l’âge (arrondi à l’année près) des 48 salariés d’une entreprise :
• Représentation graphique
Pour une variable discrète, on rencontre essentiellement deux sortes de représentations graphiques, qui sont
en fait complémentaires : le diagramme en bâtons et le diagramme cumulatif (en escaliers)
Analyse Unidimensionnelle : Variable quantitative continue
• Une variable quantitative est dite continue lorsque les observations qui lui sont associées ne sont pas des valeurs
précises mais des intervalles réels
• Exemple: Le tableau ci-dessous donne, pour l’année 1987, la répartition des exploitations agricoles françaises selon la
SAU (surface agricole utilisée) exprimée en hectares (Tableaux Économiques de Midi– Pyrénées, INSEE, 1989, p.
77) ; la SAU est ici une variable quantitative continue comportant 6 classes.
➔ Les Mesures de la tendance centrale :
-Le Mode : représente la valeur présentant le plus grand effectif ( la plus grande fréquence)
-La Médiane : La médiane est la valeur de la variable qui partage la série étudiée en deux sous
ensembles d'effectifs égaux
-La Moyenne Arithmétique:
Représentations graphiques
Les deux graphiques usuels pour la représentation graphique d’une variable quantitative continue sont
l’histogramme et la courbe cumulative
• Les observations d’une variable qualitative ne sont pas des valeurs numériques, mais des caractéristiques, appelées
modalités. Lorsque ces modalités sont naturellement ordonnées (par exemple, la mention au bac dans une
population d’étudiants), la variable est dite ordinale. Dans le cas contraire (par exemple, la profession dans une
population de personnes actives) la variable est dite nominale
• Exemple: Le tableau ci–dessous donne la répartition de la population active occupée (ayant effectivement un
emploi) selon la CSP (catégorie socioprofessionnelle), en France, en mars 1988 (Tableaux de l’Économie Française,
INSEE, 1989, p. 59).
Analyse Unidimensionnelle : Variable qualitative
• Les représentations graphiques que l’on rencontre avec les variables qualitatives sont assez nombreuses. Les trois
plus courantes, qui sont aussi les plus appropriées, sont: Le diagramme en colonnes, le diagramme en barre, le
diagramme en secteurs
• L’objectif de la statistique descriptive à deux variables dite bidimensionnelle est d’étudier simultanément deux
variables X et Y observées sur les mêmes individus.
• Ces deux variables sont mesurées sur les n unités d’observation. Pour chaque unité, on obtient donc deux
mesures. La série statistique est alors une suite de n couples des valeurs prises par les deux variables sur chaque
individu :
• Exemple de relations possibles entre les variables suivantes : taille et poids ; chiffre d’affaire et frais de publicité,
taux de croissance et investissement etc….
➔L’objectif essentiel des méthodes présentées est de mettre en évidence une éventuelle variation simultanée des
deux variables, que nous appelons liaison.
Analyse bidimensionnelle
• La répartition des N observations, ou distribution conjointe, suivant les modalités de X et Y se présente sous forme
d’un tableau à double entrée, appelée tableau de contingence
Nature des variables Deux variables qualitatives Test d’association de khi deux
• TP\corré[Link]
• Représentation graphique : Nuage de points
Analyse bidimensionnelle: Cas de deux variables quantitatives
• Représentation graphique : Nuage de points
(1) nuage très étiré : le nuage a une forme linéaire très marquée. On
observe sur l'échantillon une tendance de X et Y à varier dans le même
sens. La corrélation observée est positive.
Forme de référence la plus simple : La droite exprime une relation entre X et Y du type Y = aX + b.
Si la forme du nuage s'apparente à une droite, on parle alors de corrélation linéaire entre les variables. Plus le
nuage est étiré et plus la corrélation linéaire observée est forte.
Analyse bidimensionnelle: Cas de deux variables quantitatives
2-On calcule la valeur de la statistique de ` χ 2 : ➔ on ne peut pas conclure qu'il existe un lien
entre le sexe et le type d'accident survenu.
(10-11,02)2/11,02+(19-17,98)2/17,98+ (9-7,98)2/7,98+(12-13,02)2/13,02
=0,363
Autres tests : Le coefficient phi
• Dans le cas particulier des tableaux carrés ou 2 × 2 (2 lignes et 2 colonnes), qui comparent deux variables à deux
modalités, il est recommandé d’appliquer une correction au χ2, ou d’utiliser le coefficient phi (φ). Celui-ci
correspond à la racine carrée du χ2 divisé par la taille de l’échantillon, soit
38
Autres tests : Le coefficient de contingence
• Le coefficient de contingence (C) peut être appliqué pour des mesures d’association sans contrainte de taille de
tableau.
• L’indicateur oscille entre une borne inférieure de 0 lorsqu’il n’y a aucune association (lorsque χ2 = 0) et
une borne supérieure inférieure à 1. Cette valeur maximale du coefficient dépend de la taille du tableau
(nombre de lignes × nombre de colonnes), raison pour laquelle il ne doit être employé que pour comparer des
tableaux de même taille. On le calcule de la manière suivante :
39
Autres tests : Le coefficient d’association (V de cramer)
• Le V de Cramer est un coefficient normé, c’est-à-dire qu’il peut atteindre 1, quelle que soit la taille du
tableau. Il nous permet d’analyser la force de la relation. Le V de Cramer est toujours compris entre 0
et 1. On peut dire que l’association est très forte si on obtient un V de cramer >=0,8
40
41
42
Analyse bidimensionnelle: Cas d’une variable quantitative et une variable qualitative
• De manière générale, pour évaluer la liaison entre une variable quantitative et qualitative, indépendamment de
l’approche choisie, un concept est généralement utilisé. Celui de regrouper la variable quantitative en fonction
de la variable qualitative.
• Le but est de savoir si les valeurs de la variable quantitative sont significativement différentes d’un groupe à
l’autre.
Approche Graphique
•La boite à moustaches (boxplot)
Une boîte à moustaches est un graphique qui nous permet de résumer l’information qui est contenu dans une
variable quantitative à l’aide de cinq indicateur statistique ( minimum, premier quartile, médiane, troisième quartile,
maximum ). On représente donc une boite à moustache pour chaque groupe en vue de détecter une
différence significative.
•L’histogramme
L’histogramme est un graphique qui présente la répartition d’une variable quantitative. On représente comme dans
le cas de la boite à moustache, un histogramme pour chaque groupe en vue de détecter une différence significative
entre les groupes. On peut également ajouter au tracé de l’histogramme, une courbe de densité de probabilité.
Analyse bidimensionnelle: Cas d’une variable quantitative et une variable qualitative
• Exemple: Pour illustrer tout cela, nous utilisons une partie d’un ensemble de données d’une assurance
•La boite à moustaches (boxplot) •L’histogramme
• On observe une différence significative de la moyenne (points rouges) des charges au sein des deux groupes (fumeur
et non-fumeur). Les charges dans le groupe des fumeurs sont bien plus importantes que dans celui des non-
fumeurs.
• Par contre, pour la variable région, on peut dire que la répartition des charges au sein des quatre groupes se fait de la même façon
c’est-à-dire que les charges ne diffèrent pas d’une région à une autre. On dira qu’il n’y a pas de dépendance ou de liaison apparente
entre les variables charges et région
Analyse bidimensionnelle: Cas d’une variable quantitative et une variable qualitative
• Le rapport de corrélation:
Le rapport de corrélation est un indicateur statistique qui mesure l’intensité de la liaison entre une
variable quantitative et une variable qualitative.
Formulation:
Analyse bidimensionnelle: Tests de comparaison des Moyennes
Exemple:
Les données d'échantillons sont issues d'un groupe d'hommes et de femmes qui se sont rendus dans une salle de sport
trois fois par semaine pendant un an. Ensuite, leur entraîneur a mesuré leur masse grasse. Le tableau ci-dessous montre
les données.
Hommes Femmes
13,3 22
Comment effectuer un test de Student à deux échantillons ?
6 16
20 21,7 Pour chaque groupe, nous avons besoin de la moyenne, de l'écart-
type et de la taille de l'échantillon. Ces valeurs figurent dans le
8 21 tableau ci-dessous.
14 30
19 26
18 12
25 23?2
16 28
24 23 Sans effectuer de tests, nous pouvons constater que les
moyennes des hommes et des femmes dans nos échantillons
15 ne sont pas les mêmes. Mais à quel point sont-elles
1 différentes ?
15
Analyse bidimensionnelle: Tests de comparaison des Moyennes
• l'écart-type groupé :
• Les degrés de liberté font référence au nombre maximal de valeurs logiquement indépendantes, qui sont des valeurs
qui ont la liberté de varier, dans l’échantillon de données.
• Exemple
• Par exemple si l'on cherche deux nombres dont la somme est 12, aucun des deux nombres ne doit être déterminé par l
'équation X + Y = 12.
• X peut être choisi arbitrairement, mais alors pour Y il n'y a alors plus le choix. Ainsi, si vous choisissez 11 comme vale
ur pour X, Y vaut obligatoirement 1. Il y a donc deux variables aléatoires (X,Y), mais un seul degré de liberté.
Dégré de liberté
• Le degré de liberté (ddl) est un concept statistique qui représente le nombre de valeurs indépendantes qui
peuvent varier dans un calcul statistique. En d'autres termes, c'est le nombre de données qui restent "libres"
après avoir utilisé certaines informations pour les estimer.
➔ Le degré de liberté est le nombre de valeurs qui peuvent varier librement dans un calcul, après avoir pris en
compte les contraintes imposées par les estimations effectuées (comme la moyenne). C'est une notion
essentielle pour les tests statistiques, car elle influence la distribution utilisée pour tirer des conclusions.
Application aux tests statistiques
• L’Anova est un test statistique utilisé pour comparer les moyennes de plus de deux échantillons ( si n
est le nombre de catégorie, alors n>2), C’est donc une généralisation du test t ( utilisé quand il y a 2
catégories).
• L’idée est que si la variance entre les groupes est significativement plus grande que la variance
aléatoire au sein de chaque groupe, alors les moyennes sont probablement différentes
• Après la phase de spécification et avant l’analyse des données, il est essentiel d’effectuer un traitement
préalable des données. Ces traitements varient en fonction de la nature des données, notamment entre
données chronologiques et données transversales.
• Dans le cas des données transversales, il est souvent nécessaire de construire des ratios pertinents en
lien avec la spécification du modèle, comme l’effort éducatif rapporté aux dépenses totales du ménage.
Il convient également de tester les risques de colinéarité entre certaines variables explicatives, par
exemple dans l’étude des déterminants de l’accès au crédit.
• Quant aux séries chronologiques, des ajustements sont requis, notamment la correction des
variations saisonnières (CVS) et la distinction entre données en volume et données en valeur. Une
transformation courante consiste à déflater une série en valeur par un indice de prix approprié, afin
d’obtenir une série en volume. Cette opération permet de neutraliser l’effet des variations de prix et
d’analyser l’évolution réelle d’une grandeur économique.
Introduction
• L’inflation, en influençant les prix, peut fausser l’interprétation des tendances économiques. Par
exemple, une augmentation du chiffre d’affaires d’une entreprise peut résulter
uniquement de la hausse des prix et non d’une réelle progression des ventes. D’où
l’importance d’exprimer les données en termes réels, pour une analyse économique plus
pertinente et objective.
• On se focalisera ainsi sur ces traitements préalables, en mettant un accent particulier sur les séries
chronologiques et leur ajustement pour une interprétation fiable des tendances économiques.
Comment procéder pour déflater une série statistique ?
• Pour observer l’évolution réelle d’une grandeur (chiffre d’affaires, dépenses, exportations…), il faut écarter
l’effet de la variation des prix.
• L’indice le plus connu concerne les prix à la consommation. Il s’agit du taux d’inflation qui mesure
l’évolution des prix des biens de consommation ainsi que les prix des services.
• Mais il y a beaucoup d’autres indices, comme l’indice des prix des prix des biens d’équipement qui pourrait
servir à déflater une série relative à l’investissement, l’indice des prix de gros…
• Pour montrer comment utiliser les indices de prix, nous allons recourir à des exemples, en distinguant le cas
d’une grandeur simple et celui d’une grandeur composite.
Travail sur une grandeur : Les indices simples
Dans le tableau suivant, nous avons, pour un bien A (Matière première par ex), les quantités vendues et les prix,
sur deux périodes T et T+1
T T+1
Px Qtés Px Qtés CAt CAt +1
Bien A 10 300 12 290 3000 3480
Pour apprécier / analyser l’évolution du chiffre d’affaires, nous pouvons dire que :
Entre T et T+1, en terme nominal, le CA a augmenté de 16% ((3480/3000) x 100)) ; par contre les quantités
vendues (volume des ventes) ont baissées de 3.3% ((290/300) –1 ) x 100))
Nous pouvons aussi mesurer les variations du CA en terme réel en écartant l’effet de l’inflation ; ce
faisant, nous allons alors déflater, c'est-à-dire « corriger » le CA en dh courants par l’indice des prix, et obtenir un
CA en dh constants.
Travail sur une grandeur : Les indices simples
On rappelle que IP t/0 = (Pt / P0 ) * 100
Ainsi :
Pour l’année T :
Le CA de l’année T va rester le même, puisque l’indice des prix est égal à 100 pour cette année ((10 / 10) X
100 = 100).
Pour T+1 :
12
IPT+1/T = × 100 = 120
10
CA en dhs courantsT+1 3480
CA en dhs constantsT+1 = × 100 = × 100 = 2900
IPT+1/T 120
Lorsque nous travaillons sur une seule grandeur (le CA par exemple), raisonner sur les quantités ou sur la série
en DH constants revient au même.
Les indices synthétiques: l’indice de Laspeyres
Quand il s’agit de plusieurs grandeurs à la fois (par exemple, le CA réalisé par la vente de plusieurs biens, le
passage par les indices synthétiques s’impose. On ne peut en effet pas ajouter des Kg de tomates avec des litres
gasoil ou encore des souliers ou des chemises…
T0 T
Δ du CA en
Produits
Dh courant
Prix Qtés CA Px Qtés CA
Laspeyres est la moyenne arithmétique PONDEREE des indices élémentaires. Les coefficients de pondération utilisés
sont obtenus à partir du poids de chaque bien dans le CA de l’année de base.
Donc :
Pit
Lt/t0 = σi=1 αit0 .
Pit0
Pit0 Qit0
avec αit0 =
σ Pit0 Qit0
Les indices synthétiques: l’indice de Laspeyres
• * 14,695 %, en terme nominal (ou encore, c’est la variation du CA sur la base des données exprimées en
dirhams courants).
• ((940,5 – 820) / 820) x 100 = 14,695 %
• * - 12,097 % en terme réel (ou encore, c’est la variation du CA sur la base des données exprimées en
dirhams constants).
• ((720,80 – 820) / 820) x 100 = - 12,097 %
Exercice d’application
Le tableau suivant donne le niveau des exportations de 3 produits d’un pays pour 3 années 2014, 2019
et 2024
1) Calculer les taux de variations des quantités exportées pour chaque produit en 2019 par rapport
à 2014 et en 2024 par rapport à 2014
2) Calculer les recettes d’exportations pour chaque produit, pour les années 2014, 2019 et 2024
3) Calculer pour chaque produit les taux de variations des recettes d’exportations en dirhams
courants en 2019 par rapport à 2014 et en 2024 par rapport à 2014
4) Calculer les indices de prix pour chaque bien, avec 2014 comme année de base
5) Calculer les recettes d’exportations, en DH constants de l’année 2014, pour chaque produit et
chaque année
Exercice d’application
6) Calculer pour chaque produit les variations en termes réels des recettes d’exportation, en
2019 par rapport à 2014 et en 2024 par rapport à 2014
7) Commentez les résultats
8) Calculez les recettes globales des exportations et les taux de variations de ces recettes en
2019 par rapport à 2014 et en 2024 par rapport à 2014
9) Calculer la valeur globale des recettes des exportations, pour l’année 2024, en dirhams
constants de 2014 (année de base).
• a. Pourquoi est-il nécessaire de passer par un indice synthétique des prix ?
• b. Calculer l’indice synthétique des prix des exportations
• c. Déflater la série des exportations
10) Calculer les taux de variations en termes réels, des exportations globales de ce pays
11) Commentez les résultats
Correction
Exercice [Link]
Traitements préalables sur série chronologique
Série chronologique: Définition/exemple:
▪ Une série temporelle ou encore chronique est une succession d’observations au cours
du temps représentant un phénomène économique (prix, ventes…) ; par hypothèse,
le pas du temps des observations est considéré constant : l’heure, le jour, le mois, le
trimestre, l’année.
▪ Les exemples des données de série chronologique incluent les cours des actions, la
masse monétaire, l’indice de prix à la consommation, le produit intérieur brut, les
chiffres d’affaires ou les coûts relatifs à une activité…... etc. Dans cette conception,
le temps est considéré comme une variable clé dans l’analyse des phénomènes
économiques
Série chronologique: Définition/exemple
Composantes d’une série chronologique
▪ La tendance Ct : correspond à l’évolution à long terme de la série, l’évolution fondamentale de la série. C’est ainsi
qu’en économie la tendance contient des cycles longs de Kondratieff , (cycle apériodique de 40 à 60 ans), de Kuznets (20
ans), des cycles de Juglar (cycle de crise de 10 ans)…
▪ La composante cyclique notée Ct. En conjoncture, elle est représentée parle cycle de Kitchin d’une période de 3 à 5
ans. Dans la plupart des travaux sur les séries temporelles, la tendance et le cycle sont regroupés
▪ La composante saisonnière : Elle est relative à des fluctuations périodiques à l’intérieur d’une année, et qui se
reproduisent de façon plus ou moins permanente d’une année sur l’autre.
▪ Une composante aléatoire ou imprévisible εt : Les variations accidentelles sont des fluctuations irrégulières et
imprévisibles.
• Exemple:
On peut approcher le trend ou tendance générale d’une série chronologique par une droit
d’ajustement de plusieurs façons :
Par la méthode des moindres carrés:
σ𝑛 ഥ
𝑖=1 𝑡𝑖−𝑡 𝑦𝑖−𝑦 ത
➢ 𝑎ො = 𝑛
σ𝑖=1 𝑡𝑖−𝑡ҧ ²
➢ 𝑏 = 𝑦ത − 𝑎ො 𝑡ҧ
Par la méthode des moyennes échelonnées :
Une fois on détecte une périodicité dans la série chronologique remplace les observations par la
moyenne arithmétique.
Par méthode des moyennes mobiles:
Une moyenne mobile pour une période de temps, est une moyenne arithmétique simple
des valeurs de cette période et celles avoisinantes
Application 1 :
Considérons la série des indices de livraison trimestrielle d’essence au Maroc pour 4 années
consécutives: Déterminer le trend en utilisant la méthode des moindres carrés, des moyennes
mobiles et la méthode des moyennes échelonnées:
▪ La méthode des moyennes mobiles permet de lisser les irrégularités que présentent une série
chronologique. Elle consiste à remplacer une valeur yi par la moyenne Yk’ de cette observation et
des 2n observations qui l’entoure et de suivre le travail en reprenant toujours n-1 éléments de la
moyenne précédente
yj :=xj−1 + xj + xj+1
3
Détermination du trend à l’aide moyennes
mobiles:
Trimestre Indices observés Valeurs du Trend
T1 109 -
T2 108 1/3 (109+108+137)=118
T3 137 1/3(108+137+114)=119,7
T4 114 1/3(137+114+111)=120,7
T5 111 1/3(114+111+119)=114,7
T6 119 1/3(111+119+140)=123,3
T7 140 1/3(119+140+122)=127
T8 122 1/3(140+122+115)=125,7
T9 115 1/3(122+155+122)=119,7
T10 122 1/3(115+122+140)=125,7
T11 140 1/3(122+140+130)=130,7
T12 130 1/3(140+130+125)=131,7
T13 125 1/3(130+125+125)=126,7
T14 125 1/3(125+125+150)=133,3
T15 150 1/3(125+150+137)=137,3
T16 137 -
Détermination du Trend à l’aide des MCO:
t1 yi Ti-t- Yi-y- (ti-t)2 (ti-t-)(yi-y-)
1 109 -7,5 -16,25 56,25 121,875
2 108 -6,5 -17,25 42,25 112125
3 137 -5,5 11,25 30,25 -64625
4 114 -4,5 -11,25 20,25 50625
5 111 -3,5 -14,25 12,25 49875
6 119 -2,5 -6,25 6,25 15625
7 140 -1,5 14,75 2,25 -22165
8 122 -0,5 -3,25 0,25 1625
9 115 0,5 -10,25 0,25 -5125
10 122 1,5 -3,25 0,25 -4875
11 140 2,5 14,75 6,25 36875
12 130 3,5 4,75 12,25 16625
13 125 4,5 -0,25 20,25 -1125
14 125 5,5 -0,25 30,25 -1375
15 150 6,5 24,75 42,25 160875
16 137 7,7 11,75 56,25 88125
Détermination du Trend à l’aide des MCO:
σ ti−tҧ yi−ഥy
aො = σ ti−tҧ 2
et b = yത − aෝ tҧ
On trouve :
aො = (555/340) = 1,63 ; et b = 125.25 – 1,63x8,5 = 111.4
• Donc :
yො = 1,63t + 111,4
Modèle additif vs Modèle multiplicatif: Forme d’équation
La technique de décomposition- reconstitution repose, bien évidemment, sur un modèle qui l’autorise.
Ce modèle porte le nom de schéma de décomposition:
▪ Le modèle additif: qui suppose l’orthogonalité (indépendance) des différentes composantes. Il s’écrit
: xt = Et + St + Rt. Dans ce schéma la saisonnalité est rigide en amplitude et en période.
1. Modèle additif :
o Les variations saisonnières sont constantes : peu importe si les ventes sont faibles
ou élevées, l'effet saisonnier est toujours le même.
2. Modèle multiplicatif :
o Les variations saisonnières sont proportionnelles à la tendance. Cela veut dire que
la saisonnalité devient plus importante lorsque la tendance est élevée.
Imaginons que vous vendez des parapluies. Chaque année, les ventes augmentent en hiver et
diminuent en été. Si vous utilisez un modèle additif, cela signifie que la variation saisonnière reste la
même chaque année, peu importe si vous vendez beaucoup ou peu de parapluies. Par exemple :
• La tendance de vente des parapluies en hiver est de 1000 unités par mois.
Donc, l'ajustement saisonnier est constant chaque année. La série observée peut être décomposée
comme suit :
• La tendance de vente des parapluies en hiver est de 1000 unités par mois.
• Mais en hiver, la saisonnalité n'est pas simplement de +200 unités. Elle est proportionnelle à
la tendance : par exemple, un facteur saisonnier de 1,2 (cela veut dire que les ventes
augmentent de 20 % en hiver).
• En été, la saisonnalité est de 0,8 (les ventes diminuent de 20 % en été par rapport à la
tendance).
décomposition:
La procédure de la bande consiste à partir de l'examen visuel du graphique de l'évolution de la série brute à
relier, par une ligne brisée, toutes les valeurs « hautes » et toutes les valeurs « basses » de la chronique. Si les
deux lignes sont parallèles, la décomposition de la chronique peut se faire selon un schéma additif dans le cas
contraire, le schéma multiplicatif semble plus adapté.
• Cette méthode consiste, à partir de la série des données brutes, à calculer pour
chaque période la moyenne et l'écart-type des données. Si les écart-types sont
approximativement constants d’une période à l’autre, le modèle est additif, sinon il est
multiplicatif.
Le schémas de la série
On constate que les écart-types ne sont pas constants d’une période (année) à l’autre : Le modèle est
multiplicatif.
Etape de correction de variations saisonnière:
▪ Modèle additif:
1ère étape : on calcule, pour chaque date t, l'écart saisonnier est :
est = yt – gt
2ème étape : on calcule, pour chaque saison j, la moyenne arithmétique des écarts saisonniers
correspondant à cette saison et on note Sj cette moyenne. C'est le coefficient saisonnier de la saison
j.
3e étape : on s'assure que le principe de neutralité de l'influence des variations saisonnières sur
1
chaque période est bien vérifié, c'est-à-dire que : σPj=1 Sj = 1
P
4ème étape : correction des variations saisonnières (désaisonnalisation), en appliquant cette
formule :
YtCVS =Ytobs- Sj
j : étant la saison associée à la date t.
Etape de correction de variations saisonnière:
▪ Modèle multiplicatif:
1ère étape : on calcule, pour chaque date t, le rapport saisonnier rst, ou rapport à la tendance.
rst = yt/ gt
2ème étape : on calcule, pour chaque saison j, la moyenne arithmétique des rapports saisonniers
correspondant à cette saison et on note Sj cette moyenne. C'est le coefficient saisonnier de la saison
j.
3e étape : on s'assure que le principe de neutralité de l'influence des variations saisonnières sur
chaque période est bien vérifié, c'est-à-dire que 1/𝑝 ∑1_(𝑗=1)^𝑝▒𝑆j=1.
4ème étape : la correction des variations saisonnières (désaisonnalisation) en appliquant cette
formule :
YtCVS = Ytobs /Sj
j : étant la saison associée à la date t
Ti yi Valeurs du trend ^yi Yi/yi^*100
1 109 113,03 96,43
2 108 114,66 94,12
3 137 116,29 117.8
4 114 117,92 96,67
5 111 119,55 92,84
6 119 121,18 98,2
7 140 122,81 113,99
8 122 124,44 98
9 115 126,07 91,21
10 122 127,7 95,53
11 140 129,33 108,25
12 130 130,96 99,26
13 125 132,59 94,27
14 125 134,22 93,13
15 150 135,48 110,71
16 137 137,52 99,61
• Chaque coefficient Sj est égal à la moyenne des écarts saisonniers du
trimestre correspondant :
• S1= (es1 + es5 + es9 + e13) /4 = (96,43+92,84+91,21+94,27)/4 = 93,68
• S2 = (es2 + es6 + es10 + es14)/4=(94,12+98,2+95,53+93,13)/4 =95,24
• S3= (es3 +es7 +es11 + es15)/4 =(116,29+122,81+129,33+110,71/4 =
112,68
• S4= (es4 + es8 + es12 + es16)/4 =(96,67+98+99,26+99,61)/4 = 98,38
Ti yi Série désaisonnalisée
1 109 (109/93,68)*100=116,35
2 108 (108/95,24)*100=113,39
3 137 (137/112,68)*100=121,58
4 114 (114/98,38)*100=115,87
5 111 (111/93,68)*100=118,48
6 119 (119/95,24)*100=126,27
7 140 (140/112,68)*100=124,24
8 122 (122/98,38)*100=124
9 115 (115/93,68)*100=122,75
10 122 (122/95,24)*100=128,09
11 140 (140/112,68)*100=124,24
12 130 (130/98,38)*100=132,14
13 125 (125/93,68)*100=133,43
14 125 (125/95,24)*100=132,62
15 150 (150/112,68)*100= 133,12
16 137 (137/98,38)*100=139,25
Application2:
I Introduction
Fichier :Gestion des fichiers de données (Accès aux données (en format SPSS ou autre), sauvegarde, impression,
exportation, etc.)
Données : Opérations sur les données : tri, fusion, sélection (filtrage), pondération, etc.
Transformer : Transformation des données, calcul d’une nouvelle variable, création, recodage ….
• Analyse : Menu central du logiciel. Il permet d’effectuer toutes les analyses statistiques
➢ Analyses Univariées (Statistiques descriptives, tableaux croisés)
➢ Analyses Bivariées (Analyse de la corrélation, régression, etc.)
➢ Analyses Multivariées (Classification, réduction des dimensions, etc.)
Exemple :
Soit un échantillon des entreprises décrites par :
- Secteur d’activité (Finance, Tourisme, Artisanat, Enseignement)
- Taille de l’entreprise (Petite (100))
- Région d’activité (Casa-Settat (CS), Tanger-Tetouan (TT), Rabat-Salé (RS)..)
- Facteurs d’attractivité de la région (Position géographique, Ressources naturelles, Ressources humaines,
Infrastructures ...)
• Les trois premières questions (variables) (Secteur, taille, région) sont des questions
fermées uniques, le répondant choisi une seule réponse, tandis que la variable Facteurs
d’attractivité est fermée multiple.
• Sur SPSS, on commence par la définition des variables avant de saisir les données
• Si on procède de la même manière pour la variable facteurs qui est une question fermée multiple et on définie un
code pour chaque réponse, quelle valeur devra-t-on saisir pour une entreprise qui a été attirée par les facteurs 2,3 et
4 ? ? Si on saisie 234, le logiciel va chercher le code de la modalité numéro ’234’
La solution et la règle est de définir chaque modalité comme variable pour les questions fermées multiples.
➔Le résultat est la création d’une nouvelle variable ‘primaryLast’ qui prend la valeur 0 si l’observation est
dupliquée et 1 si l’observation est saisie une seule fois. On supprime les observations dupliquées le cas échéant.
• Menu analyse → statistiques descriptives → effectifs → sélectionner toutes les variables → désactiver
la case ‘afficher les tableaux d’effectif ’et toutes les options de la case statistiques → ok.
Mais, avant de recoder, il faut calculer le salaire moyen des femmes et des hommes (en utilisant la commande agréger du
menu données par exemple).
➔
➔
Menu transformer → Recoder des variables → sélectionner la variable salaire actuel → Anciennes et nouvelles valeurs → ancienne
valeur : cocher manquant par défaut → Dans l’onglet nouvelle valeur on note la valeur du salaire moyen des femmes → ajouter →
poursuivre → Si → inclure lorsque l’observation remplit la condition : sexe = ‘f ’ → Poursuivre → OK.
On suit la même démarche pour remplacer les valeurs manquantes du salaire des hommes
➔ ➔
• C’est une nouvelle variable à calculer : menu transformer → calculer la variable → « augsal » = salact –
saldeb
Menu transformer → calculer des variables → nommer la nouvelle variable « tranche revenu »→ expression numérique 1 →
condition salact <=25000→ poursuivre→ ( revenir pour créer la 2 ème modalité) → expression numérique 2 → Si → salact
<=49000 and salact> 25001→ poursuivre → expression numérique 3 → Si → salact <=74000 and salact >49001→ expression
numérique 4 → Si → salact > 74000
Ensuite labéliser la variable dans l’onglet vue sur les variables et sélectionner son type « ordinale »
➔ ➔
1 Quel est l’effectif et le pourcentage des femmes et des hommes travaillant dans cette entreprise
2- Quel est le salaire moyen, maximum et minimum des employés de cette entreprise ?
3-Quel est le salaire moyen, minimum et maximum de chaque catégorie d’employés ?
4- Existe-t-il une relation entre le salaire actuel et le salaire d’embauche des individus ?
5- Existe il une différence entre les salaires des femmes et des hommes dans cette entreprise ?
➔ ➔
Là, on veut que les résultats soient regroupés par catégorie, donc une des manières de trouver ce résultat est : Menu
données → scinder un fichier (scinder = regrouper) → comparer les groupes → et choisir la variable catemp comme
critère de regroupement → Ok. Puis menu Analyse → statistiques descriptives → descriptives → choisir la variable
salaire actuel puis cocher les options moyenne, min et max → Ok.
L’objectif est d’étudier le lien entre deux variables de natures différentes (une quantitative : salaire et l’autre
qualitative avec deux modalités possibles : genre) dans ce cas on utilise le test T de Student. Menu Analyse
→ Statistiques Descriptives → Comparer les moyennes → Test t pour échantillons indépendants
146
Introduction: Corrélation versus régression
147
Introduction: Corrélation versus régression
• La régression diffère de l'analyse de la corrélation ou toutes les variables jouent un rôle symétrique (pas de
variable dépendante versus indépendante). L'existence d'une relation entre X et Y n'implique pas
nécessairement une relation de causalité entre elles.
➔ Corrélation : Liaison entre 2 variables quantitatives X et Y Rôle symétrique (on peut permuter X et Y)
148
Introduction: Corrélation versus régression
149
Introduction: Corrélation versus régression
Exemple 2 : corrélation (négative)
150
Introduction: Corrélation versus régression
• Exemple 3 : régression
X = âge (de 0 à 15 ans)
Y = taille (cm)
• Il existe une liaison entre X et Y : – Quand l’âge augmente, la taille augmente – Quand l’âge diminue, la
taille diminue
• La liaison est asymétrique : – la taille dépend de l’âge mais l’âge ne dépend pas de la taille – on ne peut
pas permuter X et Y en abscisses et en ordonnées
151
Introduction: Corrélation versus régression
• Objectif : Dans la régression, on souhaite expliquer les variations de la variable Y à partir des valeurs
observées pour la variable x. Le problème n’est pas symétrique : les 2 variables n’ont pas le même
statut
Définition :
• Y = variable à expliquer / dépendante, supposée aléatoire
• x = variable explicative /indépendante
152
La régression linéaire
• La régression linéaire vise à expliquer une variable dépendante par une ou un ensemble de variables
indépendantes quantitatives. Lorsque le problème implique une seule variable indépendante, la technique
statistique est appelée régression simple.
• Lorsque le problème implique plusieurs variables indépendantes, il s’agit d’une régression multiple. La
régression est utilisée pour l’explication et la prédiction.
La régression linéaire
153
Exemples: la régression simple et Multiple
154
La régression linéaire simple
155
La Modélisation :
• Un modèle consiste en une représentation formalisée d’un phénomène économique sous forme d’équations dont les
variables sont des grandeurs économiques.
• Les principales phases de la modélisation sont au nombre de quatre
• Le schéma suivant les résume en précisant le travail à effectuer pour satisfaire chacune:
156
Le Modèle de régression Linéaire simple : PRESENTATION GENERALE
Y : variable à expliquer.
Y i = aX i + b + U i X : variable explicative
U : Variable aléatoire appelée résidu, elle est une mesure de notre ignorance.
On dispose de “n” observations sur Y et X (i=1,2,…,n). Nous avons donc “n” couples (yi , xi) qui sont des
réalisations des variables Y et X.
a et b sont des paramètres réels et inconnus que l’on se propose d’estimer à l’aide des observations
157
Rôle du terme aléatoire
158
HYPOTHESES « CLASSIQUES »
POUR LE M.R.S
159
II. HYPOTHESES « CLASSIQUES » POUR LE MLRS :
• Il y a une mauvaise spécification lorsqu’on effectue un mauvais choix des variables, la forme de
la liaison entre la variable à expliquer et la variable explicative n’est pas correctement établie
→il faut que la variable explicative retenue soit la « meilleure » sans omission d’autres
variables,
→la vraie relation soit une relation linéaire dans ou par rapport aux paramètres à estimer
→ la variable aléatoire intervienne de manière additive.
• Remarque : Une mauvaise spécification peut aussi provenir des tautologies. Expliquer les
recettes touristiques en prenant le nombre des touristes comme variable explicative est une
tautologie.
160
Hypothèse 1 : Le modèle est correctement spécifié.
161
II. HYPOTHESES « CLASSIQUES » POUR LE MLRS :
162
II. HYPOTHESES « CLASSIQUES » POUR LE MLRS :
Hypothèse 3 : L’homoscédasticité
Ui est distribuée selon une loi de probabilité indépendante de “i” et de Xi
V (U i ) = E (U ) = i
2
u
2
Quantité finie
Autrement dit, les variations inexpliquées du phénomène étudié sont uniformes à travers toutes les
observations.
163
II. HYPOTHESES « CLASSIQUES » POUR LE MLRS :
Cov (U i ,U j ) = 0 i j.
•On étudie la relation entre la taille d’un logement (X) et son prix (Y)
•Si les erreurs sont indépendantes, cela signifie que les facteurs non pris en compte (ex. l’état du
marché immobilier, l’attractivité d’un quartier) influencent chaque logement de manière aléatoire et
indépendante.
165
Hypothèse 5 : Hypothèse de normalité
166
Hypothèse 6 : On n’introduit aucune restriction sur les paramètres a
et b à estimer.
Ils peuvent prendre n’importe quelle valeur réelle positive, négative ou nulle.
167
Remarques : la variabilité .
➢Il n’est pas opportun d’étudier les raisons de la variation d’un phénomène qui ne
présente pas de variation .Autrement dit, il faut nécessairement que Σ (Yi - Ỹ)2 soit
différente de zéro.
➢Pour des raisons analogues, Σ (Xi - X¯ )2 doit être différente de 0
Exemples :
• 1) L’investissement par période t= (1,2,…n) (It d’une entreprise est fonction de plusieurs variables :
➢ Du taux d’intérêt (it ) : It= α1 it +α0+ Ut ( Correcte)
➢ Du profit de la période t-1 (πt−1 ) : It=β1 𝛑𝐭−𝟏) +β0 +εt (Correcte)
➢ Du taux de l’impôt sur la société (IS) : It= σ1 IS+σ0+δt ( Non correcte, car dans la réalité le taux
de l’IS ne change pas significativement d’une année à l’autre. )
168
Estimation des paramètres du modèles par les moindres carrés
ordinaires
169
• Afin de mettre plus clairement en évidence et de quantifier la relation entre nos deux variables X et Y il
convient de «résumer » le nuage de points, c'est-à-dire de représenter dans le plan (x,y) l'allure
générale de la distribution à deux caractères.
• À cette fin, la méthode la plus utilisée consiste à ajuster le nuage de points par une droite (D), comme
cela est reproduit sur la figure . On parle de droite de régression ou de droite d'ajustement ou
encore de droite des moindres carrés.
170
.
• où a et b sont des constantes, et le problème consiste à identifier la droite (D) qui ajuste au mieux le
nuage de points considéré. En d'autres termes, il s'agit de trouver la droite (D) telle que les écarts ei soient les
plus faibles possibles, c'est-à-dire telle que les valeurs situées sur la droite soient les plus proches possibles
des valeurs observées Yi·
• Comment procéder ?
171
Déterminer l’équation de la droite de régression: La méthode des moindres
carrés ordinaires (MCO)
• La méthode des moindres carrés ordinaires (MCO) nous permet précisément de répondre à cet
objectif puisqu'elle consiste à trouver la droite (D), c'est-à-dire les valeurs des paramètres a et b, telles
que la somme des carrés des écarts ei soit minimale.
â b â
172
Exercice d’application
• 1) Soit le modèle simple expliquant l’investissement par le profit : It = a Prt-1 + b ; en estimer les paramètres
173
Exercice d’application régression
• Ainsi, l’estimation donne â = 1,528 (Som (It-Im) (Prt - Pr) / Som (Prt - Pr)2 ou
encore (3029 / 1982)
• et b^ = 104,255 (I moyen - â Pr moyen)
• Le profit agit positivement sur l’investissement. Cela est conforme à nos attentes, en effet
la réalisation de profit fournit les moyens de financer l’investissement et constitue par la
même un signal favorable pour investir.
175
Exemple récapitulatif
1- Objectif :
• Un bureau d’étude souhaite savoir d’une manière générale si les dépenses de publicité numérique ont
une influence sur le chiffre d’affaires des entreprises opérant dans le secteur des services et sous quelle
forme cette influence peut être exprimée.
• Le but est d'expliquer au mieux comment le chiffre d’affaires des entreprises varie en fonction de ce
type de dépenses en publicité et éventuellement de prédire le chiffre d’affaires
• Sur cette population, on définit deux variables. La variable Y : le chiffre d’affaires ; c'est la variable à
expliquer, appelée encore variable dépendante (VD).
• La variable X : variable les dépenses de publicité numérique ; c'est la variable explicative, appelée
variable indépendante.
176
Exemple récapitulatif
• 4- Choix du modèle
• Quelle fonction mathématique utiliser ? Pour choisir le modèle de relation, on doit faire des
observations sur un échantillon d’entreprises. Les données recueillies sur ces entreprises sont
représentées graphiquement à l'aide d'un nuage de points. Si le nuage a une forme particulière
s'apparentant à une courbe mathématique, on choisira la fonction mathématique correspondant à
cette courbe.
177
Représentation graphique
CA en milliers
Dépense
sPub
numérique
en milliers
178
Exemple récapitulatif
• Equation générale du modèle de régression linéaire simple
• Si la relation était parfaitement linéaire : sur l'échantillon, cela se traduirait par des points alignés et l'on pourrait
écrire la relation entre Y et X sous la forme : Yi=aXi+b
• Connaissant le niveau de dépense x d’une entreprise, l'équation permettrait de déterminer exactement le
chiffre d’affaire. La relation observée sur l'échantillon n'est pas exacte.
• Le nuage est étiré mais les points ne sont pas alignés. De plus, on voit que des entreprises ayant engagé
le même niveau de dépenses mais ont réalisé des chiffres d’affaires différents. Ces différences peuvent
être expliquées par d'autres variables ayant une influence sur la variable CA et qui ne sont pas prises en
compte dans le modèle, ou encore par des erreurs de mesures.
Modèle de régression linéaire simple : Pour rendre compte de cette situation, on écrit la
relation entre les dépenses de publicité numériques et le CA sous la forme générale suivante :
droite + erreur : Y
Y i = aX i + b + U i
179
Exemple récapitulatif
• Estimation des coefficients de la droite par la méthode des moindres carrés
Le modèle étant posé, il faut estimer numériquement les paramètres du modèle, c'est-à-dire calculer les
valeurs numériques des coefficients a et b . Cela revient à déterminer la droite qui s'ajuste le mieux aux
données, c'est-à-dire la droite qui est la plus proche des points.
^y=1,5771 X + 60,39
181
ETUDE DES PROPRIETES DE â ET b
182
• â est un estimateur sans biais de a : E (â) = a
best un estimateur sans biais de b : E (b ) = b
u2
• Variance de â : V (a ) =
( ( X i − X ) 2
2
• Variance de b 1
V (b ) = u + (
2 X
n (X i − X )
2
183
Variance de l’erreur
2
S 2
=
u i
n −2
184
La validation du modèle linéaire de régression simple
185
La qualité de l’ajustement
186
La qualité de l’ajustement
187
La qualité de l’ajustement
i
i i i
i
188
La qualité de l’ajustement: Le coefficient de détermination R2
R2 =
(Y i −Y )2 variation expliquée
=
(Y i −Y )
2
variation totale
189
La qualité de l’ajustement: Le coefficient de détermination R2
190
La qualité de l’ajustement: Le coefficient de détermination R2
Exemple : si l’on obtient R2 = 0.78 cela voudrait dire que le modèle permet d’expliquer
78% de la variabilité de Y
(Dans Ci = aRi + b, cvd que le Rev explique 78 % des différence de consommation entre
les ménages).
191
Exercice d’application
192
Régression linéaire
193
194
Tests sur les paramètres: Test de Student
• Reprenons l'exemple du CA en fonction des dépenses de publicité digitale. Nous avons modélisé le
CA par Y et les dépenses de Pub par X.
Yi= axi+b+Ui➔ CAi= a depub+b+Ui
• Il paraît raisonnable de se poser les questions suivantes :
• (a) est-ce-que le coefficient ai est non nul, autrement dit la variable X a-t-elle réellement une influence
sur Y ?
195
Tests sur les paramètres: Test de Student
Etape 1:
Nous pouvons expliciter les questions précédentes en terme de test d'hypothèse :
(a) correspond à H0 : a = 0, contre H1 : a ≠ 0
L’Intérêt de tester a=0 est pour savoir la pertinence de la variable X et sa capacité à expliquer Y.
NB: On cherche toujours à tester a = 0 et pas â=0, cependant on utilise â pour la commodité des calculs
du fait que le vrai coefficient « a » est inconnu.
196
Tests sur les paramètres: Test de Student
• Rappel : Les intervalles de confiance représentent la plage d’incertitude associée à l’estimation d’une statistique (moyenne, proportion
ou écart-type etc…). Une estimation est forcément entachée d’un risque d’erreur d’échantillonnage. Les intervalles de confiance sont
utiles pour établir des bornes pour l’estimation.
• l’intervalle de confiance à 95 % est un intervalle de valeurs qui a 95 % de chances de contenir la véritable valeur du paramètre estimé
Sous Ho :a=0
aො
P −t α < < +t α = 0.95
σ
ෞaො
197
Tests sur les paramètres: Test de Student ( l’approximation)
198
Exemple ( 1/2)
199
Exemple (2/2)
sous H0 :
aො
P {- tα < T < t α} = 0,95 ou encore P −t α < ෞaෝ
< +t α = 0.95
σ
Conclusion : 0,69 n’appartient pas à l’intervalle, donc rejet de H0 . Ainsi selon les
résultats, le coefficient a est significativement différent de 0 et donc les variations du
taux d’intérêt expliquent bien les variations de de l’investissement .
200
Le modèle linéaire de régression Multiple
201
Définition
• Le modèle de régression multiple est une généralisation du modèle de régression
simple lorsque les variables explicatives sont en nombre ni. Nous supposons donc
que les données collectées suivent le modèle suivant :
→ X1i … Xni Sont les observations des variables explicatives pour chaque individu
Yt= a0+a1X1t+a2X2t+a3X3t+….apXpt+ Ut
→ X1t … Xpt Sont les observations à chaque période t des variables exogènes
203
Ecriture matricielle du MLRM
204
Ecriture matricielle du MLRM
205
Démarche de modélisation dans MLRM
206
Hypothèse 1 : Le modèle est correctement spécifié.
→il faut que les variable explicatives retenues soit les « meilleures » sans
omission d’autres variables,
→la vraie relation soit une relation linéaire dans ou par rapport aux paramètres à
estimer
→ la variable aléatoire intervienne de manière additive.
207
Hypothèse 2 : Les Yi et Xi sont des grandeurs numériques observées sans erreur.
• Y est une variable aléatoire par l’introduction de U.
208
Hypothèse 3 : L’homoscédasticité
Ui est distribuée selon une loi de probabilité indépendante de “i” et de Xi
209
Hypothèse 4 : Hypothèse d’indépendance des erreurs (ou
résidus)
Cov (U i ,U j ) = 0 i j.
210
Hypothèse 5 : Hypothèse de normalité
211
Hypothèse 6 : Hypothèse sur les variables explicatives
Définition : on parle de multicolinéarité parfaite lorsqu’une des variables explicatives d’un modèle
est une combinaison linéaire d’une ou plusieurs autres variables explicatives introduites dans le même
modèle.
212
Hypothèse 6 : Hypothèse sur les variables explicatives
Une méthode simple pour détecter une trop grande corrélation entre variables indépendantes consiste à
demander des tests de colinéarité : tolérance et facteur d’inflation de la variance (VIF).
La tolérance est définie comme la part de variabilité de la variable indépendante qui n’est pas expliquée par
une ou d’autres variables indépendantes. Une tolérance élevée correspond à un faible degré de colinéarité.
Le seuil de 0,3 est recommandé. À l’inverse, le seuil du facteur d’inflation de la variance (VIF) doit être faible
: < 3.
213
Hypothèse 6 : Hypothèse sur les variables explicatives
Hypothèse 6 : Hypothèse sur les variables explicatives
Hypothèse 7 : On n’introduit aucune restriction sur les paramètres a
et b à estimer.
216
Estimation des coefficients de régression
217
La méthode des moindres carrés cherche la meilleure
Détermination de l’estimateur â estimation des paramètres « a » en minimisant la
quantité
Ui
Avec Ui=Yi-Xâ
Ui
218
Détermination de l’estimateur â
219
Détermination de l’estimateur â
Yt = X t a + Ut (1)
on aura :
Y = Xa + U
= Xොa et U
Y =Y − Y
(2)
D’où U = Y − Xොa = Xොa
(3) avec Y
223
Détermination de l’estimateur â
224
Détermination de l’estimateur â
X '.(Y − X a ) = 0
(X '.Y ) − ( X ' X . a ) = 0
X '.Y = X '.X a
−1 −1
(X ' X ) X 'Y = (X ' X ) ( X ' X ) a
−1
a = (X ' X ) .X 'Y
225
Propriétés de l’estimateur â
226
La validation du MLRM
227
Le Coefficient De Détermination
-
-
--
6
228
Le principe du R2
229
Exemple de lecture
• R 2 = 0, 83
Signifie que le modèle explique 83 % des variations de Y (la variable à
expliquer). Exemple: le modèle suivant cherche à expliquer les variations de
l’Investissement sur 20 ans It = a1 πt + a2 PxEQt + a3 Rt + Ut
Le R2 obtenu signifie que le modèle explique 83 % des variations de
l’Investissement.
230
Test sur les paramètres
• Il paraît raisonnable de se poser les questions suivantes :
→ (a) tester la significativité globale du modèle, c'est à dire est-ce-que que tous les
coefficients sont supposés nuls, excepté la constante ?
→(b) est-ce-que la variable Xj a-t-elle réellement une influence sur Y ?
231
Test de fisher
Y
Y′ R²
R² n−p
Fc = k = k = ×
U
U′ 1 − R² 1 − R² k
n−p n−p
232
Test de fisher
* F calculé > F théorique ; on rejette H0 . Cela veut dire que les variables retenues sont explicatives.
* F calculé < F théorique ; non rejet de H0 .
233
Exemple
Au Maroc, les importations sont fonction de la consommation, de la FBCF et des exportations.
M = f C, FBCF, X
log Mt = 0.469 log Ct + 0.034 log FBCFt + 0.471 log Xt − 0.993
n=14
R²=82.44%
Fc =15.649
n-p=10
K=P-1=3 donc F3;10=6.55 au seuil α=1%
234
Test de de Student : Significativité de chaque élément du vecteur a :
Ce test permet en fait d’apprécier la portée explicative de chaque variable explicative retenue
aො k aො
ou encore : Tc = = σෞk sous H0
S².Vk ෝk
a
235
Test de de Student : Significativité de chaque élément du vecteur a :
➔ Solution du test :
2 cas possibles :
236
Exemple
Mt = aIt + bCt + c + et
pour n=22
Sous H0 :
ෝ
a
P −t α < ෟ k
σaෝ
< +t α = 0.95 ; donne ici , P −t α × σෞ
ෝ ො k < +t α × σෞ
ak < a ak = 0.95
ෝ
k
237
Exemple
238
Exemple
le t lu sur la table à 95% est 2.093 et on remplace les écarts types par leur valeur, il
vient :
P( - 2,093x 0,081 < 0.307 < 2,093 x 0,081) = 0,95 ou P( - 0.1695 < 0.307 < 0.1695) =
0,95
239
Exemple
Tc = 0.192/0.125 < 2 donc selon l’échantillon, la consommation n’explique pas le niveau des
importations.
240
Exercice 1
Une entreprise spécialisée dans la vente des produits cosmétiques cherche à augmenter son chiffre d’affaire.
Pour ce faire, elle décide de faire appel à un analyte des données capable d’étudier la relation entre le chiffre
d’affaire et l’investissement en dépenses de publicité.
Le tableau ci-contre donne les niveaux des chiffres d’affaire et des dépenses de publicité pour les années 2011
à 2020
a=
(Xeti −celle
X )(de
Y bi −=Y –) â x (X − X )i
2
i
( X − X yi-ym
) 2 xi-xm (yi-ym)*(xi-xm) (xi-xm)2
-12,7 -10,7 135,89 114,49
-9,7 -7,7 74,69 59,29
-4,7 -4,7 22,09 22,09
0,3 -0,7 -0,21 0,49
-3,7 -6,7 24,79 44,89
-0,7 2,3 -1,61 5,29
2,3 4,3 9,89 18,49
7,3 6,3 45,99 39,69
9,3 7,3 67,89 53,29
12,3 10,3 126,69 106,09
506,1 464,1
242
L’estimation des paramètres du modèle Yt = α Xt + β + Ut donne â = 1.09 et ^b = 59.93
Correction
• ii) R2 = 0,78 signifie que le modèle retenu explique 78 % de la variabilité du chiffre d’affaire. Les résultats
indiquent que lorsque les dépenses de publicités augmentent de 1 unité, le chiffre d’affaire augmente de 1.09
unités.
• iii) Selon les résultats de l’estimation, si l’entreprise investit 52 en dépense de publicité en 2021, le chiffre
d’atteindra : 116.46= [(1.09 X 52) +59.93].
243
Exercice 2
• La confédération des entreprises marocaines veut analyser l’effet de l’investissement (INV) sur la productivité
(Prodté) dans le secteur textile. Elle construit un modèle sur la période ( 1997 à 2017) en introduisant trois
variables exogènes : les dépenses en formation continue des salariés (Educ) et le niveau des salaires (Sal) ; ces
variables sont exprimées en logarithme.
Les résultats obtenus sont : Prodté t = 0,64 LINVt + 0,81 LEduct + 0,71 LSalt + 26,73
Les écarts types estimés des estimateurs sont respectivement : 0,032 ; 0,058 ; 0,017 et 9,8
R2 = 0,96
• i. Analysez ces résultats sur le plan statistique
244
Correction
• Le R2 étant élevé, cela signifie que le modèle est globalement pertinent : les variables exogènes retenues
permettent d’expliquer 96 % de la variabilité de la productivité d’une année à l’autre.
• Discutons la pertinence de chaque variable : Si l’écart type estimé de â est 0,032, on peut tester la pertinence
de l’Inv pour expliquer la productivité, en testant la significativité par zéro du coefficient a (on pose H0 : a =
0). Pour ce faire, on applique le test de Student
245
246
Correction
Pour n = 21 et p = 4, le nombre de ddl est : 21-4 = 17; au seuil α = 5%, la statistique de Student
vaut 2,11 (tα). L’écart type estimé de â = 0,032
L’intervalle de confiance est donc : - 2,11 x 0,032 = - 0,067 et 0,067 soit IC = [-0,067 ; 0,067].
On constate que â = 0,64 n’appartient pas à l’intervalle.
➔ On refuse donc H0. On peut dire ainsi que selon l’échantillon le niveau d’investissement est
pertinent pour expliquer la productivité, dans le secteur textile.
247
Correction
• Pour les autres variables, nous utilisons l’approximation pour tester la significativité des
coefficients. En effet, n est assez grand pour que la loi de Student tende vers une loi normale.
• Leduc : 0,81/0,058 = 13,96 > 2, le coefficient est différent de zéro et donc les dépenses en
formation continue des salariés agissent significativement sur la productivité.
• Il en est de même des salaires distribués car 0,71/0,017 = 41,76 >2.
248
Régression linéaire: Test de durbin et watson ( Problème d’autocorrélation des
erreurs)
• Pour s’assurer du risque d’autocorrélation des erreurs, on procède au test de Durbin & Watson. La statistique
d de Durbin-Watson varie entre 0 et 4.
σt=n
t=2
t − U
U t−1 ²
d =
σt=n
t=1 Ut ²
249
Régression linéaire: Test de durbin et watson ( Problème d’autocorrélation des
erreurs)
Solution du test
Tableau de décision :
250
Exemple
• Sachant que ෞ=
DW
1.414 et n=15 vérifiez si nous avons autocorrélation des erreurs ou pas
251
Exemple
• Solution du test
• Pour n = 15 et k = 3 d1=0.82 et d2=1.75
d=0 0,82 1.75 2.25 3,18 4
Autocorrélation positive Doute Indépendance Doute Autocorrélation négative
0.82 < DW
ෞ < 1.75 il y a doute
252
Chapitre III: La modélisation par équations structurelles
Introduction
• Les méthodes d’estimation de modèles d’équations structurelles sont toutes issues de recherches datant du
début du XXème siècle.
• Ces recherches se sont basées sur deux axes : l’analyse de relations structurelles (path analysis) introduite par
Wright (1918, 1921) et la conceptualisation de la notion de variable latente.
• Les méthodes d’estimation ont été mises en place dans les années 1970 par Jöreskog (1970) et Wold (1973).
Ces méthodes sont issues aussi bien de recherches en statistique, qu’en psychologie.
Introduction
• Les modèles d’équations structurelles à variables latentes (SEM) sont des modèles multivariés utilisés
pour modéliser les structures de causalité dans les données.
• L’intérêt de la modélisation par équations structurelles réside essentiellement dans sa capacité à tester
de manière simultanée l’existence de relations causales entre plusieurs variables latentes.
Introduction
Une variable manifeste est une variable ou Une variable latente (dimension
un facteur qui peut être directement théorique) n'est pas (par définition)
mesuré ou observé. observable directement.
Elle peut être directement étudiée par un Elle est appréhendée ou estimée à travers
chercheur ou un statisticien lorsqu'elle est un ensemble d'observations indicateur qui
représentée dans un diagramme vont la représenter.
256
Variables Manifestes versus Variables latentes: Exemples
Sexe satisfaction
Age
Variable Niveau
attitude
Variable Motivation
Manifeste éducation
latente
Salaire Risque
257
Exemple de modèle conceptuel
échelle de mesure
Contextualisation et
Échelle de mesure
épuration de l’échelle de
préexistante
mesure
Echelle de mesure
Echelle de mesure
Représentation général d ’un MES
• Les modèles à équations structurelles consistent en un système d’équations pouvant être représentées sous
forme de graphe orienté, les nœuds représentent les variables sous forme de carré pour les variables
manifestes et sous forme de rond pour les variables latentes, les arcs modélisent les liens de causalité.
• Chaque variable manifeste est associée à une seule variable latente et les variables latentes peuvent
être liées entre elles.
Représentation général d ’un MES
Représentation général d ’un MES: L’impact de la qualité perçue sur la satisfaction et la fidélité
Modèle structurelle/ Modèle de mesure
• On distinguera au sein du modèle deux sous-modèles : le modèle de mesure ou modèle externe (outer
model) liant les variables manifestes aux variables latentes et le modèle structurel ou modèle
interne (inter model) liant les variables latentes entre elles.
• Le modèle structurel sera dit récursif si les liens entre variables sont unidirectionnels. Un modèle non
récursif pourra présenter des boucles où deux variables endogènes seront réciproquement cause et
conséquence l’une de l’autre
Modèle externe: Variable latente de type réflectif / formatif/ Mimic
Il existe plusieurs schémas de modélisation du modèle externe qui modifieront la manière dont les
variables latentes seront construites. Il existe trois façons de relier les variables manifestes aux variables
latentes
exemple
Le schéma réflectif:
Lorsqu’il s’agit d’un modèle réflectif on considère que le construit latent existe
indépendamment des mesures utilisées, le sens de causalité s’oriente de la variable latente
vers les variables observées et par voie de conséquence c’est la variation du construit
latent qui entraine une variation des items et non pas l’inverse.
• C’est celui adopté dans la plupart des utilisations des modèles d’équations structurelles à variables
latentes. Chaque variable manifeste est reliée à sa variable latente par une régression simple.
Définition : Les relations du modèle externe sont dites réflectives si, pour chaque variable
latente ξk, la relation entre cette variable et l’ensemble des variables manifestes qui lui sont
associées s’écrit :
Les valeurs prises par les variables manifestes sont des "conséquences" de la variable latente. La relation
de causalité va de la variable latente vers les variables manifestes
Le schéma formatif:
• En revanche lorsqu’il s’agit d’un modèle formatif, le construit latent résulte d’une
combinaison de ses indicateurs, le sens de causalité s’oriente des items vers le
construit latent, ce qui revient à dire que c’est la variation des items qui entraine la
variation du construit.
• Lesdits items ne partagent pas nécessairement le même thème, non interchangeables,
et la suppression ou l’addition d’un item peut changer le domaine conceptuel.
Le schéma formatif:
• Le schéma formatif est moins fréquemment utilisé. On suppose que chaque variable latente est une
combinaison linéaire de ses variables manifestes correspondantes
Définition : Les relations du modèle externe sont dites formatives si, pour chaque variable latente ξk, la
relation entre cette variable et l’ensemble des variables manifestes qui lui sont associées s’écrit :
où ωkj est un poids et δk est un vecteur d’erreur qui est supposé de moyenne nulle et non
corrélé aux variables manifestes.
Il est défini par des équations linéaires reliant les variables latentes entre elles. Pour toute ξk
a expliquer (endogène) on a :
Le MES: Ensemble de variables a expliquer/ explicatives
• Une variable a expliquer ( endogène): une variable dont les valeurs sont déterminées par le modèle : Le
cas des deux variables fidélité et satisfaction .
• Une variable explicative ( exogène): pourra elle aussi déterminer les valeurs d’autres variables du modèle
mais sera elle-même déterminée par des variables extérieures au modèle: le cas de la variable qualité
perçue
Modèle d’équations structurelles
Variables modératrices et médiatrices
• Une variable est dite médiatrice lorsqu’elle intervient entre une variable explicative
et une autre variable à expliquer. Ce qui revient à dire que la variation de la variable
explicative entraine une variation au niveau de la variable médiatrice qui à son tour
entraine la variation de la variable à expliquer
Exemple: Variable médiatrice
Évaluation/
Spécification L’estimation Utilisation
Validation
• Dans le cadre des méthodes d’estimation du modèle complet, les deux sous-modèles
sont estimés soit simultanément (cas de la méthode par analyse de la structure de
covariance, généralement appelée LISREL pour Linear Structural Relationships), soit
alternativement (cas de l’approche PLS (Partial Least Squares))
L’approche LISREL
Deux approches
L’approche PLS
L’approche PLS (Partial Least Squares Path Modeling)
Variable Variable
Latente Latente
Poids internes
L’algorithme du PLS
L’approche PLS (Partial Least Squares Path Modeling)
→L’approche PLS est basée sur un algorithme itératif qui alterne une construction des
variables latentes en se basant sur le modèle externe avec une autre construction se
basant sur le modèle interne.
→Après convergence, les coefficients du modèle peuvent être estimés par régressions
ordinaires simples ou multiple
➔L'estimation PLS utilise la méthode des moindres carrés, qui divise les paramètres du
modèle de sous-ensembles et applique la méthode de régression simple et multiple, et
utilise le procédé itératif dans l'estimation de sous- groupes
Principes de l’approche PLS
→L’estimation du modèle passe par l’estimation des scores des variables latentes
→Une fois les scores obtenus, on estime les coefficients du modèle interne par
• 1- On fixe les poids externes initiaux. En général, les poids externes sont fixés à 1 pour
toutes les variables manifestes exceptée la dernière de chaque bloc qui est fixé à –1
• 2- On calcule les scores des variables latentes en se basant sur le modèle externe (chaque
score associé à une variable latente est calculé en fonction des variables manifestes de son
bloc).
• 3-On calcule les scores des variables latentes en se basant sur le modèle interne (chaque
score associé à une variable latente est calculé en fonction des autres variables latentes qui
lui sont liées)
Etape de l’estimation par l’approche du PLS
1-on commence par estimer la valeur des variables latentes standardisées sur la base des scores des variables
manifestes et des poids du modèle externe ( fixés arbitrairement pour initialiser l’itération)
➔
2-puis, on estime les liens structurels entre variables latentes (modèle interne)
3-et enfin, on estime les poids du modèle externe grâce aux valeurs des variables latentes issues de l’étape 2 et on
revient à la première étape du processus
L’importance de la standarisation dans la régression linéaire
Faciliter l’interprétation :
Les coefficients standardisés indiquent l’importance relative de chaque indicateur dans la formation du score latent. Cela aide à
comprendre quels indicateurs ont une influence plus forte ou plus faible, indépendamment des unités de mesure initiales.
• On répète cette boucle jusqu’à convergence de sorte que la différence entre les
sommes des paramètres issus de deux boucles consécutives soit minime.
• Ensuite, on procède à l’estimation finale des paramètres (poids internes, poids
externes et liens structurels) en utilisant la méthode des moindres carrés pour chacune
des régressions du modèle.
Exemple :
Variables latentes :
• X (Confiance) : Mesurée par les indicateurs conf1, conf2, conf3
• Y (Intention d'achat) : Mesurée par int1, int2
Individu conf1 conf2 conf3 int1 int2
A 4 5 6 7 5
B 3 4 5 5 4
C 5 6 7 6 5
D 2 3 4 4 3
E 6 7 8 8 6
Calcul des scores latents initiaux (X et Y) :
On commence par calculer les scores latents pour X (Confiance) et Y
(Intention d'achat) en utilisant les poids initiaux (1, 1, -1 pour X, et 1
pour Y).
• X_score (pour chaque individu) :
X=conf1+conf2−conf3 = conf1 + conf2 – conf3
• Y_score (pour chaque individu) :
Y=int1−int2Y = int1 - int2
X_score Y_score
Individu conf1 conf2 conf3 int1 int2
(Confiance) (Intention)
A 4 5 6 7 5 4+5-6=3 7-5=2
B 3 4 5 5 4 3+4-5=2 5-4=1
C 5 6 7 6 5 5+6-7=4 6-5=1
D 2 3 4 4 3 2+3-4=1 4-3=1
E 6 7 8 8 6 6+7-8=5 8-6=2
• Régression entre X et Y (modèle interne) :
Y=0.5+0.7X
Avec Y : Intention de réservation et X: la confiance
Recalcul des poids externes (corrélations)
Calculer la corrélation entre chaque indicateur (comme conf1, conf2,
etc.) et le score latent X. Les poids externes correspondent à ces
corrélations
Indicateur Corrélation avec X
conf1 0.85
conf2 0.90
conf3 0.75
• Mise à jour des scores latents avec ces nouveaux poids :
• Initialisation: En général, les poids externes sont fixés à 1 pour toutes les
variables manifestes exceptée la dernière de chaque bloc qui est fixé à –1.
Modes d’estimation:
• Mode A (Cas réflectif): ➔Régression simple
Chin (1998) précise qu’il est recommandé qu’elle ait une valeur supérieure ou égale à 0.5. Surtout, cette
mesure doit être plus grande que la variance partagée entre le construit et les autres construits du modèle
La redondance: La validité interne
Ces indices sont obtenus directement à partir des estimations sans aucune hypothèse distributionnelle sous-
jacente (ce qui empêche toute notion d’intervalle de confiance).
Plus cet indice est proche de 1, plus la qualité d’ajustement du modèle aux données est bonne.
Wetzels et al. (2009) suggèrent que des valeurs de 0,10, 0,25 et 0,36 prétendent un ajustement faible,
moyen et élevé.
L’approche Lisrel
→Lisrel permet de spécifier, estimer comparer et évaluer des modèles afin de confirmer une
théorie. Lisrel est donc une méthode confirmatoire (ou « a priori ») qui nécessite un fort
substrat théorique afin de penser en terme de modèles et d’hypothèses. La spécification du
modèle est donc une phase cruciale dans le travail de modélisation.
• Définition: Une matrice de variance/covariance est une matrice carrée qui comporte les variances et
les covariances associées à plusieurs variables.
• Les éléments de diagonale de la matrice contiennent les variances des variables, tandis que les
éléments hors diagonale contiennent les covariances entre toutes les paires possibles de
variables.
Le principe de la modélisation par équations structurelles consiste à estimer ϴ en minimisant les résidus
entre les matrices S et Σ (on écrira F(S, Σ(ϴ)) ou simplement F).
La méthode Lisrel consiste à rendre la matrice de covariance théorique Σ la plus proche possible de la
matrice empirique S
La validation
• le test du χ 2 : si le modèle étudié est exact. Le modèle est considéré comme bon si χ 2
/DF<=3 et p-valeur<=0.05,
• - GFI (Goodness of Fit Index) : cet indice donne la proportion d’information expliquée
par la matrice S ; une valeur supérieure ou égale à 0.9 indique une bonne qualité du
modèle.
• - NNFI ou indice de Tucker-Lewis : il permet de mesurer l’augmentation de la qualité
d’ajustement quand on passe du modèle de référence (null model) au modèle étudié. On
acceptera le modèle pour une valeur supérieure ou égale à 0.95
Prérequis pour LISREL
• la linéarité du modèle,
• - l’indépendance des observations, -
• la normalité multivariée des données,
• - l’unidimensionalité des blocs de variables,
• - 200 observations minimum sont recommandées
Comparaison entre le PLS et Lisrel
Chapitre IV: L’analyse en Composantes principales (ACP)
Introduction
• L’analyse en composantes principales (ACP) est une méthode classique de l’un des grands champs de la
statistique appelé statistique exploratoire multidimensionnelle
La moyenne de la J
ème variable :
L’écart type de la J
ème variable :
• Le tableau des données ou encore la matrice X peut être analysée à travers ses lignes (les individus) ou à travers ses
colonnes (les variables).
→Etude des individus:
On cherche alors à répondre à des questions du type suivant :
• quels sont les individus qui se ressemblent ? Quels sont ceux qui diffèrent ?
• Plus généralement, on souhaite décrire la variabilité des individus. Pour cela, on cherche à mettre en évidence des
groupes homogènes d’individus dans le cadre d’une typologie des individus => Analyse de la ressemblance
→Etude des variables:
On cherche a analyser la ressemblance entre les variables => Analyse de liaisons entre variables
• Analyse de liaisons => Coefficient de corrélation
• Résumer l’ensemble des variables par un petit nombre de variables synthétiques appelées composantes
principales=> Indicateur synthétique
• Ces deux études ne sont pas indépendantes du fait de la dualité inhérente à l’étude d’un tableau rectangulaire : la
structure du tableau peut être analysée à la fois par l’intermédiaire de la typologie des individus et de la
typologie des variables.
• On cherche en général à relier ces deux typologies:
→ On caractérise les classes d’individus par les variables
→On caractérise un groupe de variables liées entre elles par des individus types
En résumé:
• L’ ACP est une méthode de statistiques exploratoires multidimensionnelles qui a pour objet de synthétiser et
hiérarchiser l’information contenue dans un tableau de données multidimensionnelles
→ Elle a donc pour objectifs de trouver des représentations appropriées aux données et de fournir des mesures
permettant de quantifier la proximité entre les individus et la liaison entre les variables
Lorsque la taille est exprimée en mètre l’élève 5 et plus Tableau: Données centrées réduites
proche de l’élève 4 que l’élève 6. Lorsqu’elle est
exprimée en centimètre c’est l’inverse
• Les propriétés géométriques du nuage induisent que leur visualisation permettrait de répondre aux questions posées :
variabilité des individus (via les distances inter-individus dans NK).
• Le problème est que ces nuages évoluent dans des espaces de dimension supérieure à 3 rendant leur visualisation directe
impossible.
➔ L’idée de l’ACP est de fournir une représentation simplifiée des individus. Autrement dit une image simplifiée de ces
individus dans un espace réduit ( 2 ou 3 dimensions)
➔ Il faut chercher la Meilleure Représentation
-Si l’inertie est grande, cela signifie que le nuage est très dispersé = La visualisation du nuage est bonne,
plus particulièrement l’information portée par le nuage est bonne
- Si l’inertie est petite, alors le nuage est très concentré sur son centre de gravité.= La visualisation du
nuage n’est pas claire et donc l’information portée par la nuage n’est pas bonne
➔Un objectif de l’ACP sera de décomposer une quantité dérivant de cette somme (l’inertie) en faisant apparaître
des individus ou des groupes d’individus y contribuant de manière particulière.
-On cherchera en particulier à déterminer quelles directions de l’espace y contribuent le plus, autrement-dit, on
cherchera `a savoir dans quelles directions de l’espace les allongements du nuage sont les plus importants.
• Le premier axe principal est l'axe suivant lequel on a la plus grande dispersion du nuage de points (le plus
grand allongement du nuage de points), permettant de distinguer au mieux les points. ➔c'est l'axe qui a la plus
grande variance ou pourcentage d'inertie
➔La variance ou l'inertie d'un axe principal est encore appelée valeur propre➔ La quantité d'information recueillie
par un axe principal
• Le 2ème axe principal, est la 2e direction d'allongement du nuage. C'est celui qui a la plus grande inertie
résiduelle après la première composante. Ainsi de suite jusqu'à remplacer les n axes anciens par m axes
nouveaux.
• Les données ci-après récapitulent les températures moyennes mensuelles relevées dans 15 villes de
France sur ( 30 ans)
➔ Si une variable est corrélée positivement à un axe, les valeurs de cette variable évoluent comme les cordonnées dans cet axe
➔ Si une variable est corrélée négativement à un axe, les valeurs de cette variable évoluent à l’inverse des cordonnées dans cet axe
• - Caractéristiques univariées : Donne la moyenne, l’écart type et le nombre d’observations valides pour chaque variable.
• - Structure initiale : Donne les valeurs propres et la part de la variance expliquée par chaque axe (composante) principal.
• - Coefficients de la matrice de corrélation : affiche les corrélations entre les variables étudiées deux à deux.
• - Indice KMO et test de sphéricité de Bartlett : L’indice KMO indique s’il est intéressant d’appliquer une ACP sur les
données, autrement, est ce qu’une ACP permettra de trouver des facteurs (composantes) qui résument efficacement
l’information de départ. Pour répondre à cette question, l’indice KMO calcule les corrélations partielles entre les variables
(qui représentent les corrélations nettes entre les variables deux à deux en éliminant l’influence des autres) . Il est
préférable que le KMO dépasse le seuil de 0,7.
• Le test de Bartlett répond aussi à la même question en adoptant une stratégie différente. Il examine la matrice des
corrélations dans son intégralité et fournit la probabilité de l’hypothèse nulle selon laquelle toutes les corrélations sont de
zéro
La dernière boite de dialogue « Options » permet surtout de décider le traitement des valeurs manquantes soit
par suppression soit par remplacement. Nous n’avons pas de valeurs manquantes dans notre ensemble de
données, nous décidons donc de laisser les options par défaut.
Nous avons choisi de travailler en deux dimensions. Les deux axes permettront d’expliquer 95,8% de l’information
contenue dans le nuage de points de départ (Tableau ‘Variance totale expliquée’ ci-dessous). Ces deux premiers axes sont
les seuls qui correspondent à des valeurs propres supérieures à 1
-Analyse des données- PR [Link]
Epuration
• La formation des facteurs repose sur le poids des variables initiales dans l'explication de ces facteurs. Les «
communalités » Une communalité de 0,5 signifie que 50 % de la variance de la variable est prise en compte ou
« expliquée» par les facteurs. Une valeur faible révèle que la variable n'est pas suffisamment corrélé avec les autres.
Le niveau des communalités est considéré comme moyen s'il est compris entre 0,40 et 0,65, bon s'il est compris entre 0,65
à 0,80 et excellent au-delà*. Il est d'usage d'éliminer les items de communalité inférieure à 0,5.
345
Le tableau ‘Qualité de représentation’ donne la part de la variabilité conservée pour chaque variable suite à la
projection sur les deux axes. L ’information initiale est conservée pour toutes les variables puisque les
communalités sont tous élevés ( supérieur à 0,5). Si la qualité de représentation d’une variable est faible
(généralement < 0.5) on peut choisir de l’éliminer de l’analyse
• Même si, en toute rigueur, la rotation n'est pas toujours nécessaire, elle améliore et simplifie dans la quasi- totalité
des cas la solution obtenue. Nous lirons donc en priorité la matrice des composantes après rotation.
Deux critères doivent être considérés:
- Nous envisageons d'éliminer des items dont les coefficients structurels trop faibles ou trop moyens <
0,5)
- Nous envisageons d'éliminer des items moyennement corrélés à plusieurs axes à la fois
347
Le tableau suivant : ‘Matrice des composantes’ mesure la contribution de chaque variable à la formation des
deux axes. Presque toutes les variables contribuent le plus à la formation du premier axe, mis à part la
variable disponibilité qui contribue le plus au deuxième axe. Puisque les deux axes sont indépendants
(Matrice de covariances des composantes), ces coefficients peuvent aussi être interprétés comme coefficients
de corrélation des variables avec les composantes et aussi comme coordonnées des variables dans les
composantes
Axe 1 : Les produits 1 ; 2 ; 4 ; 5 sont bien représentés sur l’axe 1. Ces marques produits sont donc de meilleure
qualité en termes de gout, de légèreté, de l’image et d’emballage) . Les produits 7 ; 8 ; 10 sont de moyenne
qualité.
Axe 2 : Le produit 6 est disponible sur le marché alors que le produit 9 est très rare sur le marché