0% ont trouvé ce document utile (0 vote)
32 vues7 pages

Modèles de régression en entreprise

La régression est une méthode statistique utilisée pour expliquer ou prédire la valeur d'une variable dépendante à partir de variables indépendantes. Les étapes clés incluent la spécification du modèle, la validation, l'estimation des paramètres et le test des hypothèses, avec des conditions d'application telles que la linéarité et l'homoscédasticité. L'analyse de la variance (ANOVA) est utilisée pour valider le modèle, et des tests statistiques comme le test t ou F sont appliqués pour vérifier la significativité des relations entre les variables.

Transféré par

zyad khb
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
32 vues7 pages

Modèles de régression en entreprise

La régression est une méthode statistique utilisée pour expliquer ou prédire la valeur d'une variable dépendante à partir de variables indépendantes. Les étapes clés incluent la spécification du modèle, la validation, l'estimation des paramètres et le test des hypothèses, avec des conditions d'application telles que la linéarité et l'homoscédasticité. L'analyse de la variance (ANOVA) est utilisée pour valider le modèle, et des tests statistiques comme le test t ou F sont appliqués pour vérifier la significativité des relations entre les variables.

Transféré par

zyad khb
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

La régression par une ou un ensemble de variables indépendantes quantitatives.

La régression vise à expliquer, à estimer ou à prédire la valeur d'une

Analyse de données
variable à partir des valeurs d’une autre variable explicative. Par exemple,
on peut expliquer le nombre d’SMS envoyé par l'âge du client.
Les différentes étapes d’une régression linéaire sont au nombre de quatre :
Les modèles de régression ont pour objectif d'expliquer la variation d'un
phénomène mesurable par celle d'une ou de plusieurs autres variables, et 1- Spécification du modèle
dans la vie de l'entreprise, nous essayons fréquemment de détecter et L'approche linéaire est inadéquate lorsque la variable dépendante est de
d'analyser les causes de certains phénomènes, comme la variation des ventes nature qualitative. Nous préférerons alors un modèle de régression logistique
par exemple. Différents modèles de régression sont possibles. binaire ou multinomiale lorsque la variable dépendante en comprend plus
La régression linéaire (simple ou multiple) estime les paramètres de de deux modalités. A noter aussi que deux variables peuvent être
l'équation théorique permettant de calculer le niveau de la variable parfaitement liées mais, si leur rapport n'est pas linéaire, le coefficient de
dépendante en fonction des niveaux des variables indépendantes. corrélation n'est pas une statistique adaptée pour mesurer leur association.
1. La corrélation Alors il est recommandé de tracer le diagramme de dispersion pour
soupçonner le type de relation existante entre nos deux variables.
Le coefficient de corrélation de Pearson est une mesure d'association qui
permet d'établir si deux variables mesurées sur le même ensemble
d'observations varient de façon analogue ou non. C’est une mesure de la
force et du sens du lien entre deux variables métriques.
Une corrélation proche de 1 en valeur absolue signifie que deux variables
sont linéairement liées entre elles et peuvent s'expliquer mutuellement.
Exemple de régression logistique

Pr. BOULAHOUAL Adil


Lorsque r est proche de + l, cela veut dire que les deux variables varient
dans le même sens. Lorsque r est proche de -l, cela signifie que les deux
variables varient en sens inverse l'une de l'autre. Et quand r est proche de 0,
Dans notre cas de régression simple, normalement les valeurs de la variable
il y a une faible corrélation.
2. La régression linéaire simple dépendante (Y) sont calculées à partir des valeurs de la variable
indépendante (X) par l’équation linéaire théorique y = β0 + β 1x + ε , et si
La régression linéaire vise à expliquer et à prédire une variable dépendante jamais nous n’avons pas accès à l’information nous estimons cette dernière

1
par une droite dite empirique, ou b0 et b1 sont respectivement des estimations Nous appelons résidu ou erreur empirique ou écart de prévision ( ei ) la
différence (l’écart vertical) entre la valeur observée yi de y et la valeur
ponctuelles de β0 et β1.

Analyse de données
estimée de y obtenue à partir de la droite de régression, lorsque x= xi.

2- Validation du modèle
La deuxième étape consiste à vérifier le modèle dans sa globalité.
Il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y: 3- Estimation des paramètres
– Le coefficient de détermination de Y en fonction de X Plusieurs méthodes permettent d’estimer notre droite théorique, nous citons
– Le coefficient de corrélation entre X et Y à titre d’exemple : La méthode des moindres carrés et la méthode de la
– La covariance entre X et Y vraisemblance. L’idée de base de la première méthode, qui est la plus précise,
Le coefficient de détermination théorique de Y en fonction de X, noté ρ2 mesure la est de trouver la fonction de la droite qui minimise la somme des carrés des
proportion de la variance de Y qui est expliquée par la variable X au niveau de toute
résidus.
la population. A noter que 0≤ ρ2 ≤1.
En pratique ρ2 est inconnu, car nous ne possédons pas d’information sur toute la
4- Test des hypothèses
population mais seulement sur un échantillon de taille n, alors nous Pour vérifier si l’influence de la variable indépendante est significative, on procède
l’estimerons par la statistique r2.
à un test d’hypothèses sur β 1. Parce que si la β1 = 0 alors peu importe les valeurs de
x, elles n’aura pas d’impact sur y.
Autrement nous allons opter pour une estimation par intervalle de confiance, au
seuil de signification choisit lors de la détermination de la taille de l’échantillon, et
si la valeur 0 appartient à l’intervalle de confiance, nous acceptons l’hypothèse
nulle: β1=0 au niveau de signification α et on conclut qu’il n’existe pas de relation

Pr. BOULAHOUAL Adil


ei linéaire significative entre x et y.
Deux tests sont couramment utilisés
◦ Test t ou z (selon la taille de l'échantillon)
ei Exemple de régression linéaire ◦ Test F
Les deux tests nécessitent une estimation de se 2, la variance des erreurs e du modèle
de régression.

2
A- Les étapes d’un test z ou t d’hypothèses sur β1 L'indépendance des termes d'erreur est une autre condition de l'analyse de
1. Énoncer les hypothèses H0 et H1.

Analyse de données
régression multiple. Outre l'examen du graphique des résidus peut aussi être
2. Préciser les conditions du test validée par le test de Durbin-Watson, notamment dans le cas de données
La population des erreurs est normale
temporelles.
La variance résiduelle est inconnue
Le niveau de signification
Loi de distribution : normale si le degré de liberté est supérieur à
30 , et une loi de Student si le degré de liberté est inférieur à 30 .
3. Calculer la statistique du test.
4. Trouver la région critique au niveau de signification α.

B- Les conditions d'application de la régression

Le modèle de la régression pose un certain nombre d'hypothèses lors de


l'estimation des paramètres et des tests d'hypothèses. Ces conditions
d'application de la régression sont:
1. La linéarité du phénomène mesuré;
2. La variance constante du terme d'erreur ou homoscédasticité,
3. L'indépendance des termes d'erreur,
4. La normalité de la distribution du terme d'erreur.

Pr. BOULAHOUAL Adil


La linéarité est importante car le concept de corrélation est fondé sur une
relation linéaire. La linéarité d'une relation bivariée est vérifiée par
l'examen des résidus.
L'homoscédasticité est vérifiée par l'examen des résidus ou par des tests
statistiques. Son utilisation est souvent recommandée.

3
Pr. BOULAHOUAL Adil
Résumé : RLM
1- La validation du modèle se fait à travers plusieurs indicateurs et nous retenons l’analyse de la variance (ANOVA)
Règle de décision : Si la signification de l’ANOVA est inférieure au seuil choisi (α) nous acceptons le modèle dans sa globalité, autrement,
nous confirmons l’existence de relation entre la variable à expliquer et au moins une des variables explicatives.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Qualité de l’ajustement
N.B : Dans le cas de la régression linéaire multiple, même si la signification de l’ANOVA est inférieure au seuil choisi, celà ne veut pas dire
que toutes les variables dans le modèle sont explicatives. Alors il faut vérifier la signification de chaque variable indépendante.
2- L’estimation des paramètres β0, β1 , β3 , β4 ….. βn : Autrement calculer la b0, b1 , b2 , b1....... bn
Deux types d'estimations existent : Des estimations ponctuelles et d’autres par intervalle de confiance.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Estimation –Intervalle de confiance.
N.B : Pour le modèle linéaire multiple, même s’il est validé par l’analyse de la variance nous devons tester les hypothèses. Mentionnons
que si l’intervalle de confiance de la β0 contient la valeur zéro(0) ceci n’influence en aucun cas l’existence de relation entre la variable
explicative et expliquée, autrement la fonction Y= β0+ β1x1 + β2x2 + β3x3 + β4x4 +……βnxn deviendrait Y= β1x1 + β2x2 + β3x3 + β4x4 +… βnxn.
Par contre si les intervalles des βi contiennent la valeur zéro la fonction s’écrirait y= β0 ce qui veut dire qu’il n’existe pas de lien entre les
variables Xi et la Y.
3- Vérification des prémisses de la régression linéaire
Remarque : Parfois, la signification de l’ANOVA est inférieure au seuil choisi mais les significations des variables indépendantes sont
presque toutes supérieures à la signification de l’ANOVA ce qui est contradictoire. Là, avant la vérification des prémisses de la régression
linéaire, il faut tester la colinéarité ou la multi-colinéarité, autrement s’assurer de l’indépendance des variables explicatives.
La valeur du facteur d’inflation de la variance « VIF » (ou la tolérance qui est l’inverse du VIF (1/VIF)) permet de vérifier la prémisse de
multi-colinéarité. Une valeur VIF proche de 1 est souhaitable. Si elle est égale à dix (10) il y à un problème sérieux de colinéarité.

Chapitre II : régression linéaire multiple « résumé »


Si la corrélation entre deux de ces variables se situait à 0,9 (ou – 0,9) nous aurions introduit deux variables qui mesuraient sensiblement la
même chose.
Solutions : Lorsque nous avons deux variables indépendantes fortement corrélées nous devons éliminer une des deux variables ou les
remplacer par leur moyenne et choisir le modèle qui arriverait à expliquer la plus grande part de la variance de notre variable
dépendante. Par contre lorsque plusieurs variables indépendantes sont corrélées nous serons dans l’obligation de faire appel à l’ACP
(Analyse en composantes multiples) pour les regrouper puis les remplacer par leur moyenne. Attention, ce ne sont que des procédures automatiques. Il faut
les voir comme des scénarios que nous soumettons (faire valider) à l’expertise du domaine.
Plus la valeur de la statistique de Durbin-Watson est près de deux (2), moins il y a de problème au niveau de l’indépendance des termes
d’erreurs. Pour une interprétation plus précise se référer à la table de Durbin-Watson, puis un corrélogramme pour compléter l’analyse
d’auto-corrélation est recommandé. Pour vérifier la normalité de distribution des termes d’erreurs la signification du test de Kolmogrov-
Smirnov ou selui de Shapiro-Wilks doit être supérieure au seuil choisi.
Procédure sous SPPS : Analyse – Régression – Linéaire – Diagramme ( Y : ZRESID ; X : ZPRED) - Graphes de répartition gaussiens avec
tests - résidus standardisés. Pour l’homoscédasticité les points doivent être répartis aléatoirement autour de 0 (ne pas former d’entonnoir)
et leur agglomération ne suit pas une courbe.
1
Cas possibles :

Pr. BOULAHOUAL Adil


1- Le seuil de l’ANOVA > α avec respect des prémisses: Rejeter le modèle;
2- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi, nous les gardons dans le modèle avec
possibilité d’amélioration si leurs significations sont inferieures à la signification de l’ANOVA;
3- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi sauf une nous la retirons de notre modèle ;
4- Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons vérifier si elles sont
corrélées (présence de colinéarité). Si elles ne le sont pas nous les retirerons de notre modèle, si elles le sont, soit nous éliminerons une
d’elles soit nous les remplacerons par leur moyenne. Nous retenons le modèle qui expliquerait la plus grande part de la variance de variable
dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations inférieures à α ;
5- Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes nous les
remplacerons par leur moyenne si elles sont corrélées sinon nous les supprimons.
N.B : Il ne faut pas oublier de vérifier les prémisses pour que le modèle soit opérationnel.

1er cas : Seuil de l’ANOVA > α : Rejeter le modèle et retourner à la table à dessin pour construire et tester un autre modèle.
ANOVAa
Modèle Somme des carrés ddl Moyenne des carrés D Sig.
Régression ,559 2 ,280 ,059 ,944b La signification de l’ANOVA ( La probabilité de se tromper en acceptant la
relation linéaire entre le montant de la facture d’un côté et le Revenu et le
<1 Résidu 9,441 2 4,720
nombre d’enfants d’un autre) est de 94,4% !!! Le modèle est rejeté d’office.
Total 10,000 4
NB : La signification de l’ANOVA ne devrait en aucun cas être supérieure à 50%.

Chapitre II : régression linéaire multiple « résumé »


a. Variable dépendante : [Link]
b. Valeurs prédites : (constantes), nombre d’enfants, Revenu

2ème cas : Le modèle est admis dans sa globalité et toutes les variables explicatives ont des significations inferieurs au seuil choisi
ANOVA Coefficients
Modèle Somme des carrés ddl Moyenne des carrés D Sig.
Modèle Coefficients non standardisés Coefficients standardisés t Sig.
Régression 37637408,077 2 18818704,038 576,043 ,000b
A Erreur standard Bêta
Résidu 1012736,041 31 32668,905
1
(Constante) 1366,839 94,641 14,442 ,000
Total 38650144,118 33 1 MOTIVATION 74,274 22,523 -,242 -7,738 ,000
a. Variable dépendante : RENDEMENT b. Valeurs prédites : Constante, Mtivation, primes Primes 16,398 ,488 1,049 33,586 ,000
a. Variable dépendante : RENDEMENT

La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique 5%) donc le modèle est admis dans sa globalité au niveau de confiance de 95% mais il faut
vérifier les significations des prédictuers. Puisque toutes les significations sont ≤ 5%, il faut alors juste vérifier les prémisses de la régression linéaire.
Le rendement = 1366,839 + 174,274*MOTIVATION + 16,398*Primes
2
3èmecas : Le modèle est admis dans sa globalité et toutes les variables explicatives ont des significations inferieurs au seuil choisi sauf

Pr. BOULAHOUAL Adil


une.

ANOVAa Coefficientsa
Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle Coefficients non standardisés Coefficients standardisés t Sig.
Régression 37648722,650 3 12549574,217 375,953 ,000b A Erreur standard Bêta
1 Résidu 1001421,468 30 33380,716 (Constante) 1357,703 96,944 14,005 ,000
Total 38650144,118 33 Motivation 169,560 24,164 -,235 -7,017 ,000
1
a. Variable dépendante : Rendement Primes 16,297 ,523 1,043 31,144 ,000
b. Valeurs prédites : (constantes), Revenu, Primes, Motivation, Revenu ,056 ,096 ,019 ,582 ,565
a. Variable dépendante : Rendement

La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique 5%) donc le modèle est admis dans sa globalité au niveau de confiance de 95% mais il faut éliminer le
rendement du modèle vu qu’il a une signification > 5%, puis refaire l’analyse. Sans oublier qu’il faut vérifier les prémisses de la régression linéaire.

Le rendement = 1359,402 + 139,890*MOTIVATION + 19,567*Primes

4èmecas Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons vérifier si
elles sont corrélées (présence de colinéarité). Coefficients
a

ANOVA
Somme des carrés ddl Moyenne des carrés D Sig. Modèle A Bêta sig
Modèle (Constante) 1359,603 ,000
Régression 37667618,627 4 9416904,657 277,947 ,000b MOTIVATION ,067 ,022 ,503
1 Résidu 982525,491 29 33880,189 1 Malaise personnel -164,951 -,229 ,000
Congés 17,324 1,109 ,000

Chapitre II : régression linéaire multiple « résumé »


Total 38650144,118 33
a. Variable dépendante : Rendement AMBITION 1,151 -,072 ,461
b. Valeurs prédites : (constantes), Primes mensuelles, MOTIVATION, Malaise personnel, CONGéS

Le modèle est admis mais certaines variables ont des significations supérieures au seuil choisi. Tableau ci-après. Nous soupçonnons l’existence de
multi-colinéarité entre celles-ci. Alors nous devons calculer le coefficient de corrélation, le VIF, ou la tolérance pour vérifier ce constat.

Si la MOTIVATION et l’AMBITION ne sont pas corrélées nous devons les retirer et estimer les paramètres retenus dès le début.
Si par contre nous constatons une forte relation entre MOTIVATION et l’AMBITION, soit nous éliminerons LA MOTIVATION soit l’AMBITION,
ou encore nous les remplacerons par leur moyenne et nous retenons le modèle qui expliquerait la plus grande part de la variance de variable
dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations inférieures à α.

3
Pr. BOULAHOUAL Adil
Focus : Calcul de la moyenne de deux ou plusieurs variables
Procédure sous SPPS : Transformer – Calculer la variable – groupe de fonctions- statistique- double clic sur Mean – saisir le nom ou faire glisser
les variables corrélées entre parenthèses séparées par de virgules- saisir le nom de la nouvelle variable à créer – ok.
Maintenant que nous avons nos trois créé la nouvelle variable (moyenne de la MOTIVATION et de l’AMBITION) nous devons estimer les
paramètres retenus dès le début.

ANOVA
a Coefficientsa
Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle Coefficients non standardisés Coefficients standardisés t Sig.
Régression 37793146,076 2 18896573,038 68,3542 ,000b A Erreur standard Bêta
(Constante) 1340,800 81,000 13,916 ,000
1 Résidu 85699,8042 31 2764,509
Malaise personnel -90,151 15,198 -,229 -6,568 ,000
Total 38650144,118 33 1
CONGéS 13,324 1,472 1,109 11,766 ,000
a. Variable dépendante : Rendement [Link] 1,727 ,315 1,133 5,485 ,032
b. Valeurs prédites : (constantes), malaise personnel, congés, moyenne
a. Variable dépendante : Rendement

La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique ) donc le modèle est admis dans sa globalité au niveau de confiance de 95 % ainsi que les signification des
variables indépendantes. Il faut vérifier les prémisses de la régression linéaire.

MOTIVATION+AMBITION
Le rendement = 1340,800 - 90,151*malaise personnel + 13,324*Congés+ 1,727* ( )
2

5èmecas Le seuil de l’ANOVA ≤ α

Chapitre II : régression linéaire multiple « résumé »


et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes. Nous les
remplacerons par leur moyenne si elles sont corrélées sinon nous les supprimerons.

Vous aimerez peut-être aussi