0% ont trouvé ce document utile (0 vote)
156 vues30 pages

Modèles de régression linéaire en stats

Ce document décrit plusieurs modèles statistiques utilisés en économétrie, notamment le modèle linéaire simple et multiple, l'analyse de la variance, l'analyse de la covariance, les modèles linéaires généralisés, les modèles non linéaires, les modèles mixtes, les modèles pour données longitudinales et les modèles pour séries chronologiques.

Transféré par

arthur Eba
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
156 vues30 pages

Modèles de régression linéaire en stats

Ce document décrit plusieurs modèles statistiques utilisés en économétrie, notamment le modèle linéaire simple et multiple, l'analyse de la variance, l'analyse de la covariance, les modèles linéaires généralisés, les modèles non linéaires, les modèles mixtes, les modèles pour données longitudinales et les modèles pour séries chronologiques.

Transféré par

arthur Eba
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique

istique I 2021 – 2022

Chapitre 1 - Modèle linéaire Simple


- Modèle linéaire multiple
REGRESSION LINEAIRE - Analyse de la variance à 1 facteur ANOVA-1
- Analyse de la variance à deux facteurs ANOVA-n
- Analyse de la covariance ANCOVA

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 1 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

1. MODELE ECONOMIQUE VS MODELE ECONOMETRIQUE

1.1 Modèle économique


Selon Barbancho, un modèle est l’expression mathématique d’une certaine théorie économique.
L’exemple de la loi psychologique fondamentale de Keynes est assez pertinent à cet effet. D’après cette
loi, en moyenne et la plupart du temps lorsque le revenu d’un individu augmente, il augmente aussi sa
consommation, mais dans une proportion moindre à l’augmentation de son revenu. Mathématiquement,
si on note la consommation par 𝐶𝑡 et le revenu par 𝑌𝑡, cette loi peut être spécifiée comme suit :
𝑪𝒕 = 𝜶𝟎 + 𝜶𝟏 𝒀𝒕
[avec 𝜶𝟏 : propension marginale à consommer, 𝟎 < 𝜶𝟏 < 1]

En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou
d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques.
A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il
ressemblait à la théorie».

1.2 Modèle économétrique


Toujours selon Barbancho, un modèle économétrique n’est autre chose qu’un modèle économique qui
contient les spécifications nécessaires pour son application empirique. C’est donc le modèle économique
auquel on ajoute un terme d’erreur 𝜺𝒕 .
𝑪𝒕 = 𝜶𝟎 + 𝜶𝟏 𝒀𝒕 + 𝜺𝒕
[Modèle spécifié par l’économètre]

La première partie de ce modèle [𝜶𝟎 + 𝜶𝟏 𝒀𝒕 ] constitue sa partie systématique et la deuxième [𝜺𝒕 ] sa


partie stochastique ou aléatoire.

Il convient de noter également que le terme d’erreur 𝜺𝒕 [bruit, perturbation ou aléa] dénote de la
différence entre l’économiste et l’économètre. Il synthétise l’influence sur 𝑪𝒕 [variable expliquée] de
toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle
dans le modèle spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres 𝜶𝟎 et
𝜶𝟏 inconnus, on ne sait plus les calculer, il faut donc les estimer.

1.3 principales méthodes de modélisation statistique


Les méthodes de modélisation statistique sont, en fait, très nombreuses. Nous citons ci-dessous les
principales, sachant que la croissance considérable des masses de données enregistrées dans différents
secteurs (internet, biologie à haut débit, marketing...), le besoin d’exploiter ces données sur le plan
statistique, ainsi que les outils modernes de calcul ont donné naissance ces dernières années (disons
depuis le début du XXIe siècle) à de nombreuses méthodes, de plus en plus sophistiquées et, dans le
même temps, de plus en plus “gourmandes” en temps calcul.

Dans les méthodes décrites ci-dessous, il y a presque toujours une variable privilégiée, en général appelée
variable à expliquer, ou variable réponse, et notée Y (il s’agit d’une variable aléatoire). Le but est alors de
construire un modèle permettant d’expliquer “au mieux” cette variable Y en fonction de variables
explicatives observées sur le même échantillon.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 2 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

a. Le modèle linéaire (gaussien) de base

À la fois le plus simple, le plus ancien et le plus connu des modèles statistiques, il englobe
essentiellement :
✓ la régression linéaire simple et multiple,
✓ l’analyse de variance
✓ et l’analyse de covariance.
Dans ce modèle, les variables explicatives (régresseurs ou facteurs) ne sont pas aléatoires (elles sont à
effets fixes). Pour pouvoir être exploité pleinement, ce modèle nécessite l’hypothèse de normalité des
erreurs, donc de la variable à expliquer (hypothèse gaussienne).

b. Le modèle linéaire généralisé


Il généralise le précédent à deux niveaux :
• d’une part, la loi des erreurs, donc de la variable réponse, n’est plus nécessairement gaussienne, mais
doit appartenir à l’une des lois de la famille exponentielle ;
• d’autre part, la liaison linéaire entre l’espérance de la variable réponse et les variables explicatives se
fait à travers une fonction particulière appelée fonction lien (spécifiée a priori).
Ce modèle englobe différentes méthodes telles que :
✓ la régression logistique,
✓ la régression de Poisson, le modèle log-linéaire
✓ ou certains modèles de durée de vie.

c. Les modèles non linéaires


De façon très générale, il s’agit de modèles permettant d’expliquer la variable réponse (aléatoire) au
moyen des variables explicatives (non aléatoires dans les modèles usuels), à travers une fonction
quelconque, inconnue (on est donc en dehors du cadre du modèle linéaire généralisé). Cette classe de
modèles est très vaste et relève, en général, de la statistique non paramétrique. Citons, à titre
d’exemple :
✓ la régression non paramétrique,
✓ les GAM (Generalized Additive Models)
✓ et les réseaux de neurones.

d. Les modèles mixtes


On désigne sous ce terme des modèles permettant d’expliquer la variable aléatoire réponse au moyen
de diverses variables explicatives :
✓ certaines étant aléatoires (on parle en général de facteurs à effets aléatoires) et intervenant dans la
modélisation de la variance du modèle,
✓ d’autres ne l’étant pas (on parle de facteurs à effets fixes) et intervenant dans la modélisation de la
moyenne.
On trouve ainsi des modèles linéaires gaussiens mixtes, des modèles linéaires généralisés mixtes et des
modèles non linéaires mixtes.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 3 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

e. Les modèles pour données répétées


On appelle données répétées, ou données longitudinales, des données observées au cours du temps sur
les mêmes individus (en général, il s’agit de personnes ou d’animaux suivis dans le cadre d’une
expérimentation médicale ou biologique). De façon claire, il est nécessaire de prendre en compte dans
ces modèles une certaine dépendance entre les observations faites sur un même individu à différents
instants. Les modèles linéaires ou linéaires généralisés, qu’ils soient standards ou mixtes, sont utilisés
dans ce contexte.

f. Les modèles pour séries chronologiques


Les séries chronologiques sont les observations, au cours du temps, d’une certaine grandeur
représentant un phénomène économique, social ou autre. Si données répétées et séries chronologiques
ont en commun de rendre compte de l’évolution au cours du temps d’un phénomène donné, on notera
que ces deux types de données ne sont pas réellement de même nature (dans une série chronologique,
ce sont rarement des personnes ou des animaux que l’on observe).

Pour les séries chronologiques, on utilise des modèles spécifiques :


✓ Modèles AR (Auto-Regressive, ou auto-régressifs),
✓ MA (Moving Average, ou moyennes mobiles),
✓ ARMA,
✓ ARIMA (I pour Integrated)...
✓ ARCH
✓ GARCH

g. L’analyse discriminante et la classification


S’il est plus courant d’utiliser ces méthodes dans un contexte d’exploration des données plutôt que dans
un contexte de modélisation, l’analyse discriminante et la classification peuvent tout de même être
utilisées dans la phase de recherche d’un modèle permettant d’ajuster au mieux les données considérées.
C’est en particulier le cas lorsque la variable réponse du modèle envisagé est de nature qualitative.

h. Les modèles par arbre binaire de régression et de classification


Ces méthodes (plus connues sous le nom de CART, pour Classification And Regression Trees) consistent
à découper une population en deux parties, en fonction de celle des variables explicatives et du
découpage en deux de l’ensemble de ses valeurs ou modalités qui expliquent au mieux la variable
réponse. On recommence ensuite sur chaque sous-population ainsi obtenue, ce qui permet de définir, de
proche en proche, un arbre binaire et de classer les variables explicatives selon l’importance de leur
liaison avec la variable réponse (on parle d’arbre de régression en présence d’une variable réponse
quantitative et d’arbre de classification en présence d’une variable réponse qualitative). De telles
méthodes peuvent constituer un complément intéressant au modèle linéaire ou au modèle linéaire
généralisé.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 4 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

i. Quelques autres modèles


Concernant les méthodes de modélisation statistique, on ne saurait être exhaustif dans cette
introduction. Parmi les méthodes récentes, faisant un usage intensif de l’ordinateur, citons, pour
mémoire :
✓ la régression PLS (Partial Least Squares),
✓ les méthodes d’agrégation, ou de combinaison, de modèles (bagging, boosting, random forests),
✓ les méthodes de régularisation
✓ et les SVM (Support Vector Machines).
Dans ce document, nous n’aborderons qu’un petit nombre de modèles parmi ceux évoqués ci-dessus. En
fait, tous les modèles qui seront abordés relèvent du modèle linéaire gaussien : le modèle de base.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 5 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

2. PRELIMINAIRES A TOUTE MODELISATION STATISTIQUE

Quel que soit le modèle, ou le type de modèles, envisagé face à un jeu de données, quel que soit le
problème qu’il s’agit de traiter, une modélisation statistique ne peut sérieusement s’envisager que sur
des données “propres”, c’est à dire pré-traitées, afin de les débarrasser, autant que faire se peut, de tout
ce qui peut nuire à la modélisation : codes erronés, données manquantes, données aberrantes, variables
inutiles, variables redondantes... C’est cet ensemble de pré-traitements que nous décrivons dans ce
paragraphe. On notera que cette phase est parfois appelée datamanagement, autrement dit “gestion
des données”.

a. “Nettoyage” des données


Avant toute chose, il faut disposer d’un fichier informatique contenant les données dans un format
exploitable (texte ou Excel, par exemple), les individus étant disposés en lignes et les variables en
colonnes. Avec ce fichier, il faut essayer de repérer d’éventuels codes interdits ou aberrants : chaîne de
caractères pour une variable numérique ; code “3” pour la variable sexe ; valeur 153 pour l’âge d’un
groupe d’individus, etc. Une fois repérés, ces codes doivent être corrigés si possible, supprimés sinon.
Dans cette phase, il faut également essayer de repérer des données manquantes en grande quantité, soit
sur une colonne (une variable), soit sur une ligne (un individu). Si quelques données manquantes ne sont
pas vraiment gênantes dans la plupart des traitements statistiques, il n’en va pas de même lorsque cela
concerne un fort pourcentage des observations d’une variable ou d’un individu. Dans ce cas, il est
préférable de supprimer la variable ou l’individu (dont la colonne, ou la ligne, serait, de toutes façons,
inexploitable).

b. Analyse univariée
Cette phase, souvent fastidieuse, consiste à étudier chaque variable l’une après l’autre, afin d’en
connaître les principales caractéristiques et d’en repérer, le cas échéant, certaines anomalies.
Pour les variables quantitatives, on pourra faire un histogramme ou un diagramme en boîte et déterminer
des caractéristiques telles que le minimum, le maximum, la moyenne, l’écart-type, la médiane et les
quartiles. Cela peut conduire à supprimer une variable (si elle présente très peu de variabilité), à la
transformer (par exemple, en prenant son logarithme si elle est à valeurs positives et très dissymétrique),
ou encore à repérer des valeurs très particulières (que l’on devra, éventuellement, corriger ou éliminer).

Pour les variables qualitatives, on pourra faire un diagramme en colonnes des modalités et déterminer
les effectifs et les fréquences de ces dernières. Cela pourra encore conduire à supprimer une variable (si
tous les individus, ou presque, présentent la même modalité), ou à en regrouper des modalités “proches”
(si certains effectifs sont trop faibles).

Ces analyses univariées permettent également de prendre connaissance des données et de fournir
certaines indications pour la phase ultérieure de modélisation. Toutefois, il faut noter que ces analyses
peuvent être inenvisageables avec des données “fortement multidimensionnelles”, c’est-à-dire
comportant des centaines, voire des milliers, de variables ; on rencontre aujourd’hui de telles données
dans certains contextes particuliers.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 6 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

c. Analyses bivariées
Ces analyses ont pour but d’étudier d’éventuelles liaisons existant entre couples de variables. Il peut
s’agir de deux variables explicatives, dont on soupçonne qu’elles sont fortement corrélées, dans le but
d’éliminer l’une des deux. Il peut aussi s’agir d’étudier les liens entre la variable à expliquer et chaque
variable explicative (de façon systématique), pour avoir une première idée des variables explicatives
susceptibles de jouer un rôle important lors de la modélisation. Enfin, ces analyses peuvent aussi
permettre de repérer des points aberrants (ou extrêmes) qui n’ont pas pu l’être avec les analyses
univariées.

Rappelons que, pour étudier la liaison entre deux variables quantitatives, on dispose, comme graphique,
du nuage de points (ou diagramme de dispersion) et, comme indicateur de liaison, du coefficient de
corrélation linéaire. Dans le cas d’une variable quantitative et d’une variable qualitative, on dispose du
diagramme en boîtes parallèles et du rapport de corrélation. Enfin, dans le cas de deux variables
qualitatives, on utilise en général un diagramme en colonnes de profils (profils-lignes ou profils-colonnes
selon ce que l’on souhaite mettre en évidence) et des indicateurs de liaison liés au khi-deux (coefficients
de Tschuprow ou de Cramer).

d. Analyses multivariées quantitatives


Elles consistent à déterminer la matrice des corrélations entre toutes les variables quantitatives
considérées, notamment la variable à expliquer, lorsque celle-ci est quantitative. Cela peut permettre
encore de supprimer des variables très corrélées, par exemple afin d’éviter de faire une régression sur
de telles variables, dont on sait que les résultats seraient très instables, voire sans aucune signification.
Cela permet aussi de prendre connaissance de la structure de corrélation entre les variables considérées,
ce qui est toujours utile dans le cadre d’une modélisation.
On peut également envisager, à ce niveau, de réaliser une analyse en composantes principales (A.C.P.)
de toutes ces variables, afin de préciser davantage, de façon globale, leurs relations linéaires.

e. Analyses multivariées qualitatives


C’est le pendant des analyses ci-dessus, cette fois pour les variables qualitatives. On peut, tout d’abord,
déterminer la matrice des coefficients de Tschuprow (ou celle des coefficients de Cramer) et l’analyser
comme une matrice de corrélations. Toutefois, il est bien connu que, dans la pratique, ces coefficients
sont systématiquement petits : pratiquement toujours inférieurs à 0.5 et le plus souvent compris entre
0.1 et 0.3. Leur interprétation est donc, en général, assez délicate. Ils permettent néanmoins de repérer
les liaisons les plus importantes, même si elles sont de l’ordre de 0.3, 0.4 ou 0.5.

Il est d’autant plus important d’envisager, dans ces analyses préliminaires, de réaliser une analyse des
correspondances multiples (A.C.M.) entre variables qualitatives. Celle-ci permettra, le cas échéant, de
confirmer une liaison forte entre certains couples de variables et, si nécessaire, d’en éliminer quelques-
unes. L’A.C.M. permet également de regrouper certaines modalités d’une même variable lorsque celles-
ci apparaissent proches dans l’ensemble des résultats et, par suite, de simplifier les données. Enfin, le
tableau de Burt, fourni avec les résultats de l’A.C.M., permet de repérer des occurrences très faibles pour
certains croisements de modalités et d’envisager encore d’autres regroupements.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 7 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

f. Bilan
Une fois réalisées toutes les étapes préliminaires décrites ci-dessus, on dispose de données “mises au
propre”, simplifiées, et dont on commence à connaître certaines caractéristiques. On peut, à partir de ce
moment-là, envisager leur modélisation.

Les modèles susceptibles d’être adaptés aux données considérées, parmi tous ceux décrits dans le
paragraphe précédent, sont nécessairement limités à ce stade-là. Ils sont fonction de la nature des
données ainsi que des questions posées par l’utilisateur, autrement dit de ses objectifs.

Insistons ici sur le fait que des données sont toujours recueillies (produites) par un utilisateur (biologiste,
informaticien, gestionnaire...) dans un but bien précis. La modélisation statistique doit avoir pour objectif
premier de répondre aux questions que s’est posé cet utilisateur lorsqu’il a décidé de recueillir les
données. Une collaboration entre utilisateur et statisticien est donc, à ce niveau-là, absolument
indispensable.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 8 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

3. LES ETAPES DU PROCESSUS DE MODELISATION

1. Estimer les valeurs des coefficients (𝛽0 ; 𝛽1 ; 𝛽2 ; … ; 𝛽𝑝 ) à partir d’un échantillon de données
(estimateur des moindres carrés ordinaires).

2. Évaluer la précision de ces estimations (biais, variance des estimateurs).

3. Mesurer le pouvoir explicatif du modèle dans sa globalité (tableau d’analyse de variance, coefficient
de détermination).

4. Tester la réalité de la relation entre Y et les exogènes Xj (test de significativité globale de la


régression).

5. Tester l’apport marginal de chaque variable explicative dans l’explication de Y (test de significativité
de chaque coefficient).

6. Tester l’apport d’un groupe de variables explicatives dans l’explication de Y (test de significativité
simultanée d’un groupe de coefficient).
7. Pour un nouvel individu 𝑖 ∗ pour lequel on fournit la description (𝑥 ∗1 ; … ; 𝑥 ∗𝑝 ), calculer la valeur
prédite 𝑦 ∗ et la fourchette de prédiction.

8. Interpréter les résultats en mettant en avant notamment l’impact des exogènes sur l’endogène
(interprétation des coefficients, analyse structurelle).

9. Tester à postériori la validité du modèle c-à-d sa conformité avec les hypothèses de départ.

10. Si le modèle est satisfaisant, il peut servir à des fins explicatives ou prospectives sinon reprendre
toutes les étapes précédentes avec une nouvelle spécification de modèle.

Variable Variables Nom de la technique de


à Expliquer explicatives modélisation
1 quantitative 1 quantitative Régression linéaire Simple
1 quantitative 𝒏 quantitatives Régression linéaire Multiple
1 quantitative 1 qualitative ANOVA à un facteur
1 quantitative 𝒏 qualitatives ANOVA à 𝒏 facteur
1 quantitative 𝒏 quantitatives + qualitatives ANCOVA
n quantitative 𝒏 qualitatives MANOVA à 𝒏 facteur
n quantitative 𝒏 quantitatives + qualitatives MANCOVA

1 qualitative 𝒏 quantitatives + qualitative Analyse Discriminante Linéaire


1 qualitative 𝒏 quantitatives + qualitative Régression Logistique

1 variable de comptage 𝒏 quantitatives + qualitative Régression de poisson


1 variable censurée ou tronquée 𝒏 quantitatives + qualitative Régression Tobit
1 variable de durée 𝒏 quantitatives + qualitative Régression de durée

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 9 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

4. ESIMATION DES PARAMETRES DU MODELE

Après spécification on a le modèle suivant : 𝒀𝒕 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒕 + 𝜺𝒕

Le premier problème statistique à résoudre est le calcul des paramètres 𝜷𝟎 et 𝜷𝟏 , sachant les observations de Y et de X.

Il existe deux méthodes permettant le calcul de 𝜷𝟎 et 𝜷𝟏 : la méthode des moindres carrés ordinaires (MCO) et la méthode
du maximum de vraisemblance. L’utilisation de ces deux méthodes conduit à des valeurs calculées de 𝜷𝟎 et 𝜷𝟏 qui possèdent
des propriétés statistiques remarquables. Cela implique qu’un certain nombre d’hypothèses de base soient vérifiées avant
l’utilisation de ces méthodes.

1.1 Les hypothèses de base du modèle de régression linéaire simple

Le modèle étant 𝑌𝑡 = 𝛽0 + 𝛽1 𝑋𝑡 + 𝜀𝑡 il comporte deux parties :


✓ la partie déterministe ou systématique : 𝒀𝒕 = 𝑓(𝑿𝒕 )
✓ la partie aléatoire ou stochastique : 𝒀𝒕 = 𝑓(𝜺𝒕 )

a. Hypothèses sur la partie déterministe ou systématique : 𝑌𝑡 𝑒𝑡 𝑋𝑡


 H1. Les variables X et Y sont observées sans erreur. Y est aléatoire par l’intermédiaire de 𝜺𝒕 , c’est-à-dire que la seule erreur
possible sur Y provient des insuffisances de X à expliquer ses valeurs dans le modèle et X n’est pas aléatoire

 H2. La variable Y doit être gaussienne.

 H3. Le modèle est linéaire en ses paramètres tels que l’exprime l’équation.

 H4. Le nombre d’observations 𝒏 doit être supérieur au nombre des paramètres à estimer.

b. Hypothèses sur la partie aléatoire : 𝜀𝑡

 H5. 𝑪𝒐𝒗(𝑿, 𝜺) = 𝟎 (Hypothèse d’indépendance entre la partie déterministe et la partie aléatoire : hypothèse
d’exogénéité des explicatives) : 𝑿 est une variable aléatoire contrôlée (indépendante de l’aléa) : Cette hypothèse signifie
que l’erreur et les variables explicatives ont une influence séparée sur la variable endogène.)

 H6. 𝑬(𝜺𝒕 ) = 𝟎 (Hypothèse de centralité des erreurs) C’est-à-dire qu’en moyenne, l’influence de 𝜺𝒕 sur le modèle est nulle,
ce qui revient à admettre que le modèle est correctement spécifié. Autrement dit les effets des facteurs autres que le
prédicteur (régresseur ou la variable explicative) s’équilibrent.

 H7. 𝑽(𝜺𝒕 ) = 𝑬(𝜺𝟐𝒕 ) = 𝝈𝟐𝜺 (Hypothèse d’homoscédasticité des erreurs) Les erreurs 𝜺𝒕 ont une variance constante et finie.
Plus explicitement, il s’agit d’assumer que les variables explicatives omises dans le modèle influent toutes pratiquement
de façon constante sur la variable expliquée.

 H8. 𝑪𝒐𝒗(𝜺𝒕 , 𝜺𝒔 ) = 𝟎 (Hypothèse de non autocorrélation des erreurs) Les erreurs 𝜺𝒕 de différentes périodes sont
indépendantes les unes des autres.

Ces quatre hypothèses sont fondamentales pour l’application de la méthode des MCO. Pour utiliser la méthode du maximum
de vraisemblance, on suppose en outre vérifiée l’hypothèse de normalité des aléas c'est-à-dire :

 H9. 𝜺𝒕 ~𝑵(𝟎, 𝝈𝟐𝜺 ) (Hypothèse de normalité des erreurs) Cette hypothèse est la clé de l’inférence statistique. Elle est donc
nécessaire pour mener les tests.

Trois quantités sont donc inconnues dans ce modèle : 𝜷𝟎 ; 𝜷𝟏 et 𝝈𝟐𝜺 . L’objectif des méthodes d’estimation est de trouver
des estimateurs de ces paramètres inconnus qui possèdent les propriétés requises par la théorie statistique (estimateur non
biaisé, convergent, à variance minimum et robuste)

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 10 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

5. ESIMATEURS DES MCO : Moindres Carrés Ordinaires

La méthode des MCO consiste à minimiser la somme des carrés des écarts, écarts entre la valeur observée de la variable
endogène (pour un point du nuage) et sa valeur calculée par le modèle. Graphiquement, il s’agit de la distance mesurée
parallèlement à l’axe des ordonnées entre ces deux points.

De ce fait, l’écart entre l’observé et le calculé est le résidu, noté 𝒆𝒕 . ̂𝒕


On rappelle que 𝒆𝒕 = 𝒀𝒕 − 𝒀

MCO :
𝑛

𝑀𝑖𝑛 ∑ 𝑒𝑡2
𝑡=1
𝑛
2
𝑀𝑖𝑛 ∑(𝑌𝑡 − 𝑌̂𝑡 )
𝑡=1
𝑛
2
𝑀𝑖𝑛 ∑(𝑌𝑡 − 𝛽̂0 − 𝛽̂1 𝑋𝑡 )
𝑡=1

𝑀𝑖𝑛𝝓(𝛽̂0 , 𝛽̂1 )

Il s’agit de la minimisation d’une fonction 𝝓 à deux inconnues 𝛽̂0 et 𝛽̂1 La solution, si elle existe, est donnée par le système
d’équations normales suivant:
𝜕𝝓
=0
𝜕𝛽̂0
𝜕𝝓
=0
{𝜕𝛽̂1

𝜕𝝓
= −2 ∑(𝑌𝑡 − 𝛽̂0 − 𝛽̂1 𝑋𝑡 ) = 0 ⇔ 𝑛𝑌̅ − 𝑛𝛽̂0 − 𝛽̂1 𝑛𝑋̅ = 0
𝜕𝛽̂0

̂𝟎 = 𝒀
𝜷 ̂ 𝟏𝑿
̅−𝜷 ̅

La droite passe par le centre de gravité 𝐺(𝑋̅, 𝑌̅) du nuage de régression.

𝜕𝝓
= −2 ∑(𝑌𝑡 − 𝛽̂0 − 𝛽̂1 𝑋𝑡 )𝑋𝑡 = 0
𝜕𝛽̂1
̂ 𝟏𝑿
̅−𝜷
⇔ ∑(𝑌𝑡 − (𝒀 ̅ ) − 𝛽̂1 𝑋𝑡 )𝑋𝑡 = 0

⇔ ∑(𝑌𝑡 𝑋𝑡 − 𝑌̅𝑋𝑡 + 𝛽̂1 𝑋̅𝑋𝑡 − 𝛽̂1 𝑋𝑡2 ) = 0


̅̅̅̅ + 𝛽̂1 𝑛𝑋̅ 2 − 𝛽̂1 ∑ 𝑋𝑡2 = 0
⇔ ∑ 𝑌𝑡 𝑋𝑡 − 𝑛𝑋𝑌
̅̅̅̅ − 𝛽̂1 (∑ 𝑋𝑡2 − 𝑛𝑋 2 ) = 0
⇔ ∑ 𝑌𝑡 𝑋𝑡 − 𝑛𝑋𝑌
̅̅̅̅
∑ 𝑌𝑡 𝑋𝑡 − 𝑛𝑋𝑌
⇔ 𝛽̂1 = 2
∑ 𝑋𝑡 − 𝑛𝑋 2

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 11 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

Un développement mathématique simple permet d’exprimer 𝛽̂1 par le produit de la covariance empirique entre X et Y et de
la variance empirique de X.

𝑪𝒐𝒗(𝑿, 𝒀) ∑(𝒀𝒕 −𝒀 ̅ )(𝑿𝒕 − 𝑿̅)


̂𝟏 =
𝜷 =
𝑽𝒂𝒓(𝑿) ∑(𝑿𝒕 − 𝑿̅ )𝟐
̂ ̂
Il faut vérifier que 𝛽0 et 𝛽1 minimisent bien la somme des ∑𝑛𝑡=1 𝑒𝑡2
Pour cela, on calcule les dérivées secondes.
𝜕2𝝓
=2>0
𝜕𝛽02
𝜕2𝝓 2
2 = 2 ∑ 𝑋𝑡 > 0
{ 𝜕𝛽1
Les dérivées partielles secondes sont positives. La solution trouvée par les dérivées partielles premières (𝛽̂0 , 𝛽̂1 ) est un
minimum.

Estimateur de la variance de l’erreur 𝝈𝟐𝜺


Détermination d’un estimateur sans biais de 𝝈𝟐𝜺 qui est un paramètre inconnu pour l’utilisation des MCO.
On montre que l’estimateur sans biais de 𝝈𝟐𝜺 est :
∑ 𝒆𝟐𝒕
̂ 𝟐𝜺 =
𝝈
𝒏−𝟐
Avec ̂𝒕
𝒆 𝒕 = 𝒀𝒕 − 𝒀

L’étape suivante est maintenant de vérifier si les estimateurs 𝜷𝟎 ; 𝜷𝟏 et 𝝈𝟐𝜺 . des paramètres du modèle théorique 𝜷𝟎 ; 𝜷𝟏 et
𝝈𝟐𝜺 . sont :
 Sans biais
 Convergents
 A variance minimum
En d’autres termes, si ces estimateurs sont BLUE [Best Linear Unbiased Estimator] c’est-à-dire qu’ils sont les meilleurs
estimateurs linéaires, non biaisés et à variance minimale.

1.2 Les propriétés des estimateurs des moindres carrés ordinaires

On montre que sous les hypothèses du modèle linéaire générale simple spécifiées en début de chapitre, les estimateurs des
MCO ont les caractéristiques ci-dessous :
a. Les estimateurs des MCO sont des fonctions linéaires des 𝒀𝒕 de Y.
̂ 𝟎 et 𝜷
b. 𝜷 ̂ 𝟏 sont des estimateurs (linéaires) sans biais de 𝜷𝟎 et 𝜷𝟏
c. ̂ 𝟎 et 𝜷
𝜷 ̂ 𝟏 sont des estimateurs convergents.
d. ̂ 𝟎 et 𝜷
𝜷 ̂ 𝟏 sont des estimateurs à variance minimale de 𝜷𝟎 et 𝜷𝟏
1 𝑋̅ 2
𝑉𝑎𝑟(𝛽̂0 ) = 𝜎̂𝜀2 ( + )
𝑛 ∑(𝑋𝑡 − 𝑋̅)2
𝜎̂𝜀2
𝑉𝑎𝑟(𝛽̂1 ) =
∑(𝑋𝑡 − 𝑋̅)2
𝑋̅ 2
𝐶𝑜𝑣(𝛽̂0 𝛽̂1 ) = −𝜎̂𝜀2 ∑
∑(𝑋𝑡 − 𝑋̅)2

Remarque :
Il est important de noter que toutes les propriétés énoncées dans cette section sont valables quelle que soit la loi des résidus 𝜺𝒊 .
Quand on rajoute une hypothèse sur cette loi, on peut donner des précisions sur la loi des estimateurs, leur qualité, construire
des intervalles de confiance et des tests d'hypothèses sur les paramètres du modèle. C'est ce qu'on fera dans la section suivante
en supposant les résidus de loi normale.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 12 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

- Modèle linéaire Simple


Chapitre 1 - Modèle linéaire multiple
- Analyse de la variance à 1 facteur
REGRESSION LINEAIRE
- Analyse de la variance à deux facteurs
- Analyse de la covariance

DEFINITION DE LA METHODE

La régression linéaire simple est une méthode statistique permettant de


modéliser la relation linéaire entre deux variables quantitatives dans un
objectif explicatif et / ou prévisionnel. Nous disposons d’une variable
explicative (notée X) et une variable à expliquer (noté Y) liées par le
modèle suivant :
𝒀𝒕 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒕 + 𝜺𝒕

LES HYPOTHESES DU MODELE

Le modèle étant 𝒀𝒕 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒕 + 𝜺𝒕 il comporte deux parties :


❖ la partie déterministe ou systématique : 𝑌𝑡 = 𝑓(𝑋𝑡 )
❖ la partie aléatoire ou stochastique : 𝑌𝑡 = 𝑓(𝜀𝑡 )

Hypothèses sur la partie déterministe ou systématique : 𝒀𝒕 𝒆𝒕 𝑿𝒕


 H1. Les variables X et Y sont observées sans erreur. Y est aléatoire par
l’intermédiaire de 𝜀𝑡 , c’est-à-dire que la seule erreur possible sur Y provient
des insuffisances de X à expliquer ses valeurs dans le modèle et X n’est pas
aléatoire
 H2. Le modèle est linéaire en ses paramètres tels que l’exprime l’équation.
 H3. Y suit une loi normale

Hypothèses sur la partie aléatoire : 𝜺𝒕


 H3. 𝑪𝒐𝒗(𝑿, 𝜺) = 𝟎 (Hypothèse d’indépendance entre la partie déterministe et la
partie aléatoire : hypothèse d’exogénéité des explicatives) : 𝑋 est une
variable aléatoire contrôlée (indépendante de l’aléa) : Cette hypothèse
signifie que l’erreur et les variables explicatives ont une influence séparée
sur la variable endogène.)
 H4. 𝑬(𝜺𝒕 ) = 𝟎 (Hypothèse de centralité des erreurs) C’est-à-dire qu’en moyenne,
l’influence de 𝜀𝑡 sur le modèle est nulle, ce qui revient à admettre que le
modèle est correctement spécifié. Autrement dit les effets des facteurs autres
que le prédicteur (régresseur ou la variable explicative) s’équilibrent.
 H5. 𝑽(𝜺𝒕 ) = 𝑬(𝜺𝟐𝒕 ) = 𝝈𝟐𝜺 (Hypothèse d’homoscédasticité des erreurs) Les erreurs
𝜀𝑡 ont une variance constante et finie. Plus explicitement, il s’agit d’assumer
que les variables explicatives omises dans le modèle influent toutes
pratiquement de façon constante sur la variable expliquée.
 H6. 𝑪𝒐𝒗(𝜺𝒕 , 𝜺𝒔 ) = 𝟎 (Hypothèse de non autocorrélation des erreurs) Les erreurs
𝜀𝑡 de différentes périodes sont indépendantes les unes des autres.
Ces quatre hypothèses sont fondamentales pour l’application de la méthode
des MCO. Pour utiliser la méthode du maximum de vraisemblance, on suppose en
outre vérifiée l’hypothèse de normalité des aléas c'est-à-dire :
 H7. 𝜺𝒕 ~𝑵(𝟎, 𝝈𝟐𝜺 ) (Hypothèse de normalité des erreurs) Cette hypothèse est la
clé de l’inférence statistique. Elle est donc nécessaire pour mener les tests.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 13 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

PRESENTATION DE LA STRUCTURE DES DONNEES


(DATAFRAME OU AUTRE STRUCTURE DE DONNEE)

Le tableau ci-dessous représente l’évolution du revenu disponible brut et de la consommation des ménages en euros pour un
pays donné sur la période 1992-2001. [Pour les calculs, prendre 4 chiffres après la virgule].

On cherche à expliquer la consommation des ménages (C) par le revenu (R), soit : C t = α + βRt + ut

MISE EN ŒUVRE DE LA METHODE SOUS R

# ETAPES

# 1ere étape : Importer les données


# 2eme étape : Représenter le nuage de points
# 3eme étape : Estimer les paramètres
# 4eme étape : Tracer la droite de régression
# 5eme étape : Analyser les résidus
# 6eme étape : Tester la validité du modèle
# 7eme étape : Prévoir une nouvelle valeur

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 14 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

# 1ere étape : Importer les données


# +-----------------------------------------+#

rm(list=objects())
graphics.off()

setwd("C:/Users/ASUS/Desktop/jeudonnee")
mods<-read.table("modlinsimple.csv",header=TRUE, sep=";",
dec=",",check.names=FALSE)
mods
consommation revenu
1 7389.99 8000
2 8169.65 9000
3 8831.71 9500
4 8652.84 9500
5 8788.08 9800
6 9616.21 11000
7 10593.50 12000
8 11186.10 13000
9 12758.10 15000
10 13869.60 16000

summary(mods)
consommation revenu
Min. : 7390 Min. : 8000
1st Qu.: 8687 1st Qu.: 9500
Median : 9224 Median :10400
Mean : 9986 Mean :11280
3rd Qu.:11038 3rd Qu.:12750
Max. :13870 Max. :16000

names(mods)
[1] "consommation" "revenu"

dim(mods)
[1] 10 2

attributes(mods)
$names
[1]"consommation" "revenu"

$class
[1] "data.frame"

$row.names
[1] 1 2 3 4 5 6 7 8 9 10

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 15 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

# 2eme étape : Représenter le nuage de points


# +-----------------------------------------+#
plot(consommation~revenu,data=mods)

# 3eme étape : Estimer les paramètres


# Faire la régression
regS <- lm(consommation ~ revenu, mods)
regS$coefficients
(Intercept) revenu
1176.0993859 0.7809821
# Voir l'intervalle de confiance des coefficients estimés
confint(regS)
2.5 % 97.5 %
(Intercept) 697.8570073 1654.3417644
revenu 0.7396149 0.8223494

# Voir l'ensemble des fonctions associées à lm


attributes(regS)
$names
[1] "coefficients" "residuals" "effects"
[4] "rank" "fitted.values" "assign"
[7] "qr" "df.residual" "xlevels"
[10] "call" "terms" "model"
$class
[1] "lm"

# Voir le résumé des résultats (bien comprendre les résultats ici)


summary(regS)
Call:
lm(formula = consommation ~ revenu, data = mods)
Residuals:
Min 1Q Median 3Q Max
-150.69 -109.96 -34.63 54.46 236.28
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.176e+03 2.074e+02 5.671 0.00047 ***
revenu 7.810e-01 1.794e-02 43.536 8.55e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 143.7 on 8 degrees of freedom
Multiple R-squared: 0.9958, Adjusted R-squared: 0.9953
F-statistic: 1895 on 1 and 8 DF, p-value: 8.548e-11

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 16 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

# REMARQUES :
# 1) Il est d'usage de commencer par regarder si le modèle est significativement
différent de zéro dans les sorties de summary() grâce à la p-value du test de
Fisher. Si cette p-value est supérieure à 0,05 «le modèle ne vaut rien». Si le
modèle est significativement différent de zéro, on peut s'intéresser directement
au coefficient de détermination en régression linéaire simple.
# comparer les résultats du résumé avec ceux-ci
anova(regS)

# 2) La valeur de R2 est donnée, ainsi que le Ra2 ajustée. La valeur du R2 est


élevée (R2 = 0.9958), ce qui corrobore l’intuition de la relation linéaire entre
les deux variables. En d’autres termes, 99,58% de la variabilité de la
consommation est expliquée par le revenu.

# 3) Les valeurs estimées par le modèle :


− Soit le modèle initial : 𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊 + 𝜺𝒊
− Après estimation on obtient : 𝒀̂=𝜷 ̂𝟎 + 𝜷̂𝟏𝒙
• 𝜷𝟎 ici l’interecpt (ou la constante) est estimé à 1.176e+03 avec un P-value
< 0.05, ce qui veut dire la constante est significativement différent de zéro
et qu’il doit apparaitre dans le modèle. (L'interecpt 𝜷𝟎 représente la valeur
de l'espérance mathématique 𝑬(𝒀𝒊 ) (moyenne de la variable dépendante 𝒀𝒊 )
lorsque la valeur de la variable explicative est égale à 𝟎, c-a-d la valeur
moyenne de la consommation quand le revenu est nul est égale à 1.176e+03 euro)

• 𝜷𝟏 ici la pente (coefficient) estimée à 7.810e-01 avec un P-value < 0.05, ce


qui veut dire la constante est significativement différent de zéro. Cela
indique qu’il y a une liaison significative entre le revenu et la consommation.
(Le coefficient 𝜷𝟏 , associé à la variable explicative 𝒙𝒊 , représente la
variation de 𝐸(𝒀𝒊 ) (espérance de la variable dépendante 𝒀𝒊 ) lorsque 𝒙𝒊 augmente
d'une unité, donc quand le revenu augmente d’1 euro la consommation augmente
de 7.810e-01 euro.).

• 𝝈𝟐𝜺 ici l’écart-type résiduel est estimé à 143.7 ainsi que le nombre de degré
de liberté (n-2) = 8

# Pour faire une régression sans constante


reg.ss.cte<-lm(consommation~revenu-1,mods)
reg.ss.cte

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 17 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

# 4eme étape : Tracer la droite de régression


# +----------------------------------------+#

# Nous pouvons simplement appliquer la fonction abline


abline(regS)

# 5eme étape : Analyser les résidus visuellement


# +-------------------------------------------+#

# 1) Les résidus studentisés

Les résidus sont obtenus par la fonction residuals, cependant les résidus obtenus
ne sont pas de même variance (hétéroscedastiques). Nous utilisons donc des résidus
studentisés ; qui eux sont de même variance.
residus<-residuals(regS)
residus
res.simple<-rstudent(regS)
plot(res.simple,pch=15,cex=.5,ylab="Residus",ylim=c(-3,3))
abline(h=c(-2,0,2),lty=c(2,1,2))

En théorie 95% des résidus studentisés se trouvent dans l’intervalle [-2;2]. Ici
on a 80% des résidus qui se trouvent dans cet intervalle (8 points sur les 10
points). Ce qui est acceptable.

res_std<-rstudent(regS)
sum(as.numeric(abs(res_std)<=2))/nrow(mods)*100

[1] 80

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 18 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

# 2) Voir certains graphiques de l'analyse


par(mfrow=c(2,2), mar=c(2,2,2,2))
plot(regS)

Le graphique 1 (Residueals vs Fitted )


Permet de voir s’il y a un problème d’hétéroscédasticité (variance non constante)
L’homoscédasticité et la linéarité du modèle sont évalués par un graphique des
résidus studentisés ou non : (ŷi ei ) qui doit se disperser “normalement” de part
et d’autre de l’axe y = 0 : symétriquement et sans forme particulière. Des formes
d’“entonnoir”, ou de “diabolo” du nuage font suspecter une hétéroscédasticité
des résidus, celle d’une “banane” indique une possible relation non linéaire
entre Y et X.

Le graphique 2 (QQ-plot)
Permet de vérifier l’hypothèse de normalité des résidus : si les points sont à
peu près alignés en se confondant avec la première bissectrice des axes, on peut
dire que les résidus suivent une loi normale.

Le graphique 4 (Cook’s D)
Permet de repérer les points « influents », c’est à dire ceux pour qui la
régression linéaire est mal (ou pas) adaptée, parce qu’ils se situent trop loin
de la droite de régression. Ces points sont repérés par de grandes valeurs du D
de Cook (les points 3 et 10).

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 19 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

# 6eme étape : Faire les tests de validité du modèle


# +-----------------------------------------------+#

LES DONNEES
residus<-residuals(regS)
res.normalise<-rstudent(regS)
mods$revenu
mods$consommation
val.estimees<-fitted.values(regS)

1) test si de 𝑪𝒐𝒗(𝑿, 𝜺) = 𝟎
𝐻0 ∶ 𝑟𝑥𝑦 = 0 ; 𝑙𝑎 𝑝𝑎𝑟𝑡𝑖𝑒 𝑑é𝑡𝑒𝑟𝑚𝑖𝑛𝑖𝑠𝑡𝑒 𝑑𝑢 𝑚𝑜𝑑è𝑙𝑒 𝑛′ 𝑒𝑠𝑡 𝑝𝑎𝑠 𝑙𝑖é𝑒 à 𝑙𝑎 𝑝𝑎𝑟𝑡𝑖𝑒 𝑎𝑙é𝑎𝑡𝑜𝑖𝑟𝑒 𝑑𝑢 𝑚𝑜𝑑è𝑙𝑒
𝐻1 ∶ 𝑟𝑥𝑦 ≠ 0; 𝑙𝑎 𝑝𝑎𝑟𝑡𝑖𝑒 𝑑é𝑡𝑒𝑟𝑚𝑖𝑛𝑖𝑠𝑡𝑒 𝑑𝑢 𝑚𝑜𝑑è𝑙𝑒 𝑒𝑠𝑡 𝑙𝑖é𝑒 à 𝑙𝑎 𝑝𝑎𝑟𝑡𝑖𝑒 𝑎𝑙é𝑎𝑡𝑜𝑖𝑟𝑒 𝑑𝑢 𝑚𝑜𝑑è𝑙𝑒

cor.test(mods$revenu,residus^2,method="pearson")
Pearson's product-moment correlation

data: mods$revenu and residus^2


t = 1.117, df = 8, p-value = 0.2964
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.3412426 0.8096787
sample estimates:
cor
0.3673001

# Conclusion : la p-value > 0.05 donc on ne peut rejeter 𝐻0 , le coefficient de


corrélation n’est pas significativement différente de zéro. Donc 𝑪𝒐𝒗(𝑿, 𝜺) = 𝟎.

REMARQUE :
Problème :
Lorsque cette hypothèse n’est pas respectée, l'estimateur des moindres carrés ordinaires est biaisé et n'est pas convergent
(le biais ne tend donc pas à disparaître si la taille de l'échantillon est grande). Il produirait donc une erreur systématique des
valeurs estimées.
Solution :
La méthode des variables instrumentales est plus efficace que les MCO pour estimer les paramètres du modèle en cas
d’endogénéité des explicatives.

2) test de linéarité du modèle

Test de Rainbow :
Pour conclure à la non-linéarité du modèle de régression, on préconise le test de Rainbow : si p-valeur < 0.05, on rejette la
linéarité du modèle et on admet qu’un modèle de régression non-linéaire est plus adapté aux données.

𝐻0 ∶ 𝑙𝑒 𝑚𝑜𝑑è𝑙𝑒 𝑒𝑠𝑡 𝑙𝑖𝑛é𝑎𝑖𝑟𝑒


𝐻1 ∶ 𝑙𝑒 𝑚𝑜𝑑è𝑙𝑒 𝑛′ 𝑒𝑠𝑡 𝑝𝑎𝑠 𝑙𝑖𝑛é𝑎𝑖𝑟𝑒

library(lmtest)
raintest(regM)

Rainbow test
data: regM
Rain = 1.0108, df1 = 225, df2 = 219, p-value = 0.4683
# Conclusion : la p-value > 0.05 donc on ne peut rejeter 𝐻0 , le modèle est
linéaire

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 20 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

3) Test de 𝑬(𝜺𝒕 ) = 𝟎 : vérifier qu’en moyenne le modèle est bien spécifié


mean(residus)
[1] -5.681566e-15 ≈ 0

4) 𝜺𝒕 ~𝑵(𝟎, 𝝈𝟐𝜺 ) normalité des erreurs

TEST DE SHAPIRO WILK


# 𝑯𝟎 : La distribution suit la loi normale
# 𝑯𝟏 : La distribution ne suit pas la loi normale
shapiro.test(residus)
Shapiro-Wilk normality test
data: residus
W = 0.90008, p-value = 0.2195
# Conclusion : p-value > 0.05, on ne peut rejeter 𝐻0 : Donc la distribution
suit une loi normale

TEST DE JARQUE BERA


library(tseries)
regS<-lm(consommation~revenu,mods)
residus<-residuals(regS)
jarque.bera.test(residus)
Jarque Bera Test

data: residus
X-squared = 0.85714, df = 2, p-value = 0.6514
# Conclusion : p-value > 0.05, on ne peut rejeter 𝐻0 : Donc la distribution
suit une loi normale

REMARQUE :
Problème : Sa violation ne touche pas le caractère non biaisé des paramètres mais rend l’inférence, dans le modèle linéaire,
impossible car les distributions des estimateurs ne sont plus connues.
Solution :
✓ Le meilleur remède à la non-normalité des résidus est d’agrandir la taille de l’échantillon.
✓ La transformation de Box – Cox, sur les variables non normales intervenant dans le modèle, est souvent aussi indiquée.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 21 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

5) 𝑽(𝜺𝒕 ) = 𝑬(𝜺𝟐𝒕 ) = 𝝈𝟐𝜺 (Hypothèse d’homoscédasticité des erreurs)

Il y a homoscédasticité quand les erreurs sont de variance constante. Le graphe ci-dessous montre que La variance
des résidus augmente avec les valeurs d'une des exogènes, c’est un cas d’hétéroscédasticité.

residus<-residuals(regS)
residus
res.simple<-rstudent(regS)
plot(res.simple,pch=15,cex=.5,ylab="Residus",ylim=c(-3,3))
abline(h=c(-2,0,2),lty=c(2,1,2))

TEST DE BREUSCH-PAGAN
𝐻0 ∶ 𝑖𝑙 𝑦 𝑎 ℎ𝑜𝑚𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
𝐻1 ∶ 𝑖𝑙 𝑛′ 𝑦 𝑎 pas ℎé𝑡é𝑟𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
install.packages("lmtest")
library(lmtest)
bptest(regS)
studentized Breusch-Pagan test
data: regS
BP = 1.3491, df = 1, p-value = 0.2454
# Conclusion : p-value > 0.05, on ne peut rejeter 𝐻0 : Donc il y a
homoscédasticité

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 22 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

1
TEST DE WHITE
𝐻0 ∶ 𝑖𝑙 𝑦 𝑎 ℎ𝑜𝑚𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é
𝐻1 ∶ 𝑖𝑙 𝑦 𝑎 ℎ𝑡é𝑟𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é

regS<-lm(consommation~revenu,mods)
install.packages("het.test")
install.packages("var")
library(het.test)
library(vars)
mod<-VAR(mods)
whites.htest(mod)

White's Test for Heteroskedasticity:


====================================
No Cross Terms
H0: Homoskedasticity
H1: Heteroskedasticity
Test Statistic:
9.3441
Degrees of Freedom:
12
P-value:
0.6733

# Conclusion : p-value > 0.05, on ne peut rejeter 𝐻0 : Donc il y a


homoscédasticité

REMARQUE :
Problème :
La conséquence directe de cette violation est que les estimateurs des MCO, bien que encore non biaisés, ne sont plus
efficients, puisque n’ayant plus une variance minimale. Et par conséquent les t de Student et F de Fisher ne sont plus utilisables
à des fins d’inférence.
Solution :
Si l’hypothèse d’homoscédasticité n’est pas vérifiée, on peut effectuer une transformation pour stabiliser la variance. Les deux
transformations les plus courantes sont :
▪ 𝑌 𝑒𝑛 𝑙𝑜𝑔 𝑌 si σ est proportionnel E(Y)
▪ 𝑌 𝑒𝑛 √𝑌 si σ2 est proportionnel E(Y)
A chaque transformation, faire le test graphique pour voir si le problème est résolu par la transformation des variables
On verra cela en détail en régression multiple.

consommation2<-sqrt(abs(consommation))
reg2=lm(consommation2~revenu)

ou

consommation3<-log(abs(consommation))
reg3=lm(consommation3~revenu)

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 23 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

6) 𝑻𝒆𝒔𝒕 𝒅′ 𝒂𝒖𝒕𝒐𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒕𝒊𝒐𝒏 𝒅𝒆𝒔 𝒆𝒓𝒓𝒆𝒖𝒓𝒔 𝑪𝒐𝒗(𝜺𝒕 , 𝜺𝒔 ) = 𝟎

On a une autocorrélation des erreurs lorsque les erreurs sont liées par un processus de reproduction.
On peut distinguer l’autocorrélation positive de l’autocorrélation négative.

res.simple<-rstudent(regS)
plot(res.simple,pch=15,cex=.5,ylab="Residus",ylim=c(-3,3),type=”b”)
abline(h=c(-2,0,2),lty=c(2,1,2))

acf(residus,plot = FALSE)
Autocorrelations of series ‘residus’, by lag

0 1 2 3 4 5 6 7 8 9
1.000 -0.063 -0.262 0.009 -0.091 -0.279 -0.100 0.341 -0.015 -0.041
acf(residus,lag.max=20,plot = TRUE)
acf(residus,plot = TRUE)

# Conclusion : La droite horizontale pointillée sur le graphique issu de la


fonction "acf" nous indique le seuil critique au-delà duquel l'autocorrélation
est considérée significative. En effet, sous hypothèse d'indépendance, la
corrélation croisée de deux séries X et Y (de même taille n, et de même moyenne
et écart-type) sera dans 95% des cas comprise dans l'intervalle

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 24 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

TEST DE DURBAN - WATSON


conditions
• Pour utiliser ce test, le modèle doit comporter impérativement un terme constant
• La variable à expliquer ne doit pas figurer parmi les variables explicatives
# 𝑯𝟎 : 𝜌1 = 0 il n’y a pas d’autocorrélation d’ordre 1
# 𝑯𝟏 : 𝜌1 ≠ 0 il y a une autocorrélation d’ordre 1
install.packages("lmtest")
library(lmtest)
dwtest(regS)
Durbin-Watson test

data: regS
DW = 1.8818, p-value = 0.2704
alternative hypothesis: true autocorrelation is greater than 0

# Conclusion : La p-value > 0.05 donc on ne peut rejeter H0. Il n’y a DONC pas
d’autocorrélation d’ordre 1

TEST DE BREUSCH-GODFREY
Il permet de tester une autocorrélation d’un ordre supérieur à 1, et il reste valide en présence de la variable à
expliquer retardée parmi les variables explicatives
# 𝑯𝟎 : il n’y a pas d’autocorrélation
# 𝑯𝟏 : il a autocorrélation
library(lmtest)
bgtest(regS)

Breusch-Godfrey test for serial correlation of order up to 1

data: regS
LM test = 0.076629, df = 1, p-value = 0.7819

# Conclusion : La p-value > 0.05 donc on ne peut rejeter H0. Il n’y a DONC pas
d’autocorrélation d’ordre 1

REMARQUE :
Problème :
Il y a autocorrélation des erreurs lorsque l’hypothèse 𝐶𝑜𝑣(𝜀𝑡 , 𝜀𝑠 ) = 0 est violée. La conséquence directe est que les
estimateurs des MCO, bien qu’ils gardent encore leur caractère non biaisé, ne sont plus efficients, puisque n’ayant plus une
variance minimale.
Il faut noter aussi que l’autocorrélation des erreurs est un phénomène que l’on ne retrouve qu’en travaillant sur séries
temporelles. En principe, le problème ne se pose pas sur cross sections, sauf le cas rare de corrélation spatiale des résidus,

Solution :
Lorsque le test conclut à l’évidence d’une autocorrélation, la correction se fait en appliquant la méthode des Moindres Carrés
Généralisés [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste simplement à l’application des MCO sur les
données transformées.

library(nlme)
reg2<-gls(consommation~revenu,data=mods)
summary(reg2)

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 25 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

𝑻𝒆𝒔𝒕 𝒅𝒆 𝑪𝒉𝒐𝒘 ∶ 𝒔𝒕𝒂𝒃𝒊𝒍𝒊𝒕é 𝒐𝒖 𝒓𝒖𝒑𝒕𝒖𝒓𝒆 𝒅𝒆 𝒔𝒕𝒓𝒖𝒄𝒕𝒖𝒓𝒆

Le test de Chow est un test statistique et économétrique afin de déterminer si les coefficients de deux séries linéaires sont
égaux. Les coefficients sont établis par régression linéaire.
Il est surtout utilisé dans le cadre de séries temporelles pour savoir s'il y a une cassure significative par une certaine date qui
séparerait les données en deux blocs ; il permet également d'évaluer l'impact des variables indépendantes sur les deux
groupes ainsi construits. Ce test s'appuie sur la loi de Fisher.

# 𝑯𝟎 : il n’y a pas de rupture de structure


# 𝑯𝟏 : il a rupture de structure
install.packages("strucchange")
library(strucchange)
sctest(y ~ x)

Exemple

x=seq(1,5,length=100)
y=numeric(100)
y[1:50]=2*x[1:50]
y[51:100]=rep(2*x[51],50)
z=rnorm(100,0,.15)
y=y+z
plot(x,y)

y a-t-il un changement ou rupture de structure


au point 3 ?

library(strucchange)
sctest(y ~ x, type = "Chow", point = 3)
Chow test
data: y ~ x
F = 4.1733, p-value = 0.01828
# Conclusion : La p-value < 0.05 donc on rejette H0. Il y a un changement de
structure, il faut donc faire 2 régressions au lieu d’une seule

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 26 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

# 𝑯𝟎 : il n’y a pas de rupture de structure


# 𝑯𝟏 : il a rupture de structure

library(strucchange)
sctest(mods$consommation~mods$revenu,type = "Chow")

Chow test

data: mods$consommation ~ mods$revenu


F = 1.137, p-value = 0.3813

# Conclusion : La p-value > 0.05 donc on ne peut rejeter H0. Il n’y a pas un
changement de structure, il faut donc faire 1 régression au lieu de deux

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 27 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

# 6eme étape : Prévoir une nouvelle valeur


# +-------------------------------------+#

Ayant une nouvelle observation xnew, il suffit d’utiliser les estimations pour
prévoir la valeur de Y correspondante. Cependant, la valeur prédite est de peu
d’intérêt sans l’intervalle de confiance associée.

Exemple :
Nous disposons d’une nouvelle valeur du revenu (R11=20000 euros)

Xnew <- 20000


Xnew <- as.data.frame(Xnew)
colnames(Xnew) <- "revenu"
Xnew
revenu
1 20000

predict(regS,xnew,interval="pred")
fit lwr upr
1 16795.74 16294.86 17296.63

# REMARQUES :
Il faut noter que l’argument xnew de la fonction predict doit être un data-frame
avec les mêmes noms de la variable explicative (ici : revenu).

# 1) Représentation graphique de l’intervalle de confiance de valeurs lissées


Nous calculons ces intervalles pour l’ensemble de points ayant servi à dessiner
la droite de régression.
regS<-lm(consommation~revenu,mods)
grillex<-seq(min(mods$revenu),max(mods$revenu),length=10)
grillex.df<-data.frame(grillex)
dimnames(grillex.df)[[2]]<- "revenu"
ICdte<-predict(regS,new=grillex.df,interval="conf",level=0.95)
plot(consommation~revenu-1,mods)
matlines(grillex,ICdte)
legend("topleft",lty=2:3,c("conf","prev"))

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 28 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

# 2) Représentation graphique de l’intervalle de confiance de valeurs prédites


Nous calculons ces intervalles pour l’ensemble de points ayant servi à dessiner
la droite de régression.
regS<-lm(consommation~revenu,mods)
grillex<-seq(min(mods$revenu),max(mods$revenu),length=10)
grillex.df<-data.frame(grillex)
dimnames(grillex.df)[[2]]<- "revenu"
ICprev<-predict(regS,new=grillex.df,interval="pred",level=0.95)
plot(consommation~revenu-1,mods)
matlines(grillex,ICprev)
legend("topleft",lty=2:3,c("conf","prev"))

# 3) Représentation graphique de l’intervalle de confiance de valeurs lissées et


de valeurs prédites
Nous calculons ces intervalles pour l’ensemble de points ayant servi à dessiner
la droite de régression.
grillex<-seq(min(mods$revenu),max(mods$revenu),length=10)
grillex.df<-data.frame(grillex)
dimnames(grillex.df)[[2]]<- "revenu"
ICdte<-predict(regS,new=grillex.df,interval="conf",level=0.95)
ICprev<-predict(regS,new=grillex.df,interval="pred",level=0.95)
plot(consommation~revenu-1,mods)
matlines(grillex,cbind(ICdte,ICprev[,-1]))
legend("topleft",lty=2:3,c("conf","prev"))

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 29 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96


INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022

# Cas de régression linéaire simple avec une variable explication binaire


# +---------------------------------------------------------------------+#

setwd("C:/Users/ASUS/Desktop/jeudonnee")
smp<-read.table("smp2.csv",header=TRUE,sep=";",check.names=FALSE)
str(smp)
summary(smp)

Expliquer la durée de l’entretien du détenu en fonction de la variable


séparation (détenu séparé de sa famille dans son enfance , oui ou non) :
• smp$separation : détenu séparé de sa famille dans son enfance , oui ou non
• smp$dur.interv : duree de l’entrevue avec le détenu

mod<-lm(smp$dur.interv~smp$separation)

mod$coefficients
(Intercept) smp$separation
61.7399527 0.5489362
# Voir l'intervalle de confiance des coefficients estimés
confint(mod)
2.5 % 97.5 %
(Intercept) 59.858982 63.620923
smp$separation -2.330151 3.428023

summary(mod)
Call:
lm(formula = smp$dur.interv ~ smp$separation)

Residuals:
Min 1Q Median 3Q Max
-61.74 -13.90 -1.74 12.71 58.26

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 61.7400 0.9581 64.439 <2e-16 ***
smp$separation 0.5489 1.4665 0.374 0.708
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 19.71 on 736 degrees of freedom


(61 observations deleted due to missingness)
Multiple R-squared: 0.0001903, Adjusted R-squared: -0.001168
F-statistic: 0.1401 on 1 and 736 DF, p-value: 0.7083

INTERPRETATION

Le test du coefficient de la variable séparation n’est pas significatif, on ne


peut donc l’interpréter.
S’il était significatif, on dirait que par rapport à un détenu qui n’a pas été
séparé de sa famille pendant son enfance, celui qui a été séparé a une durée
d’entretien de 0.54 minute de plus.

Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 30 | 30

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

Vous aimerez peut-être aussi