Variables indicatrices
Youssouph Cissokho
2024-11-21 [Link]
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 1 / 31
1 Variable indicatrice
2 Une seule variable catégorielle
3 Exemple (The Tool Life Data du livre, page 262)
4 Tests de Significativité
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 2 / 31
Section 1
Variable indicatrice
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 3 / 31
Variable indicatrice
Définition
Les variables indicatrices, également connues sous le nom de variables
fictives ou dummies, sont utilisées en statistique pour inclure des
variables catégorielles dans des modèles de régression. Ces variables
permettent de représenter des catégories qualitatives avec des chiffres,
généralement 0 et 1, pour faciliter l’analyse quantitative.
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 4 / 31
Variable indicatrice
Définition
Les variables indicatrices, également connues sous le nom de variables
fictives ou dummies, sont utilisées en statistique pour inclure des
variables catégorielles dans des modèles de régression. Ces variables
permettent de représenter des catégories qualitatives avec des chiffres,
généralement 0 et 1, pour faciliter l’analyse quantitative.
Pourquoi les utiliser
De nombreuses données dans le monde réel sont catégorielles, telles que
1 le genre,
2 la couleur,
3 le statut de l’emploi, etc.
Les modèles de régression ne peuvent pas traiter directement les données
non numériques, donc nous transformons ces catégories en nombres à
l’aide de variables indicatrices.
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 4 / 31
Variable indicatrice (suite)
Comment les créer
1 Identifiez la variable catégorielle.
2 Pour chaque catégorie, créez une nouvelle variable fictive.
3 Attribuez une valeur de 1 à cette variable fictive lorsque l’observation
appartient à la catégorie correspondante, et 0 sinon.
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 5 / 31
Variable indicatrice (suite)
Comment les créer
1 Identifiez la variable catégorielle.
2 Pour chaque catégorie, créez une nouvelle variable fictive.
3 Attribuez une valeur de 1 à cette variable fictive lorsque l’observation
appartient à la catégorie correspondante, et 0 sinon.
Exemple
Une entreprise qui veut analyser l’effet du niveau d’éducation sur le salaire.
Les niveaux d’éducation sont :
Diplôme d’école secondaire
Baccalauréat
Maîtrise
Doctorat
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 5 / 31
Variable indicatrice (suite)
.
Nous pouvons les représenter comme suit :
X1 : 1 si le niveau d’éducation est le Baccalauréat, 0 sinon.
X2 : 1 si le niveau d’éducation est la Maîtrise, 0 sinon.
X3 : 1 si le niveau d’éducation est le Doctorat, 0 sinon.
Notez que le Diplôme d’école secondaire n’a pas besoin d’une variable
fictive car il peut être représenté lorsque toutes les autres variables fictives
sont à 0. C’est ce qu’on appelle la catégorie de référence.
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 6 / 31
Variable indicatrice (suite)
Interprétation
Dans le modèle de régression, les coefficients des variables fictives
représentent la différence dans la variable dépendante (par exemple, le
salaire) par rapport à la catégorie de référence, tout en contrôlant les
autres facteurs.
Pièges à éviter
Piège du facteur de multicollinéarité : Ne pas inclure une variable
fictive pour chaque catégorie. Si vous avez k catégories, incluez
seulement k-1 variables fictives.
Signification des coefficients : Les coefficients doivent être
interprétés par rapport à la catégorie de référence.
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 7 / 31
Variable indicatrice (suite)
Supposons que nous ayons les données suivantes pour 5 individus :
data <- [Link]( # Création d'un dataframe exemple
Personne = 1:5,
NivEdu = factor(c("Sec", "Bac", "Mait", "Doc", "Bac")),
Salaire = c(35000, 50000, 65000, 80000, 52000)
)
#knitr::kable(data) # Afficher les données
# Affichage des données
print(data)
## Personne NivEdu Salaire
## 1 1 Sec 35000
## 2 2 Bac 50000
## 3 3 Mait 65000
## 4 4 Doc 80000
## 5 5 Bac 52000
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 8 / 31
Variable indicatrice (suite)
Transformation matricielle
## NivEduBac NivEduDoc NivEduMait NivEduSec
## 1 0 0 0 1
## 2 1 0 0 0
## 3 0 0 1 0
## 4 0 1 0 0
## 5 1 0 0 0
## attr(,"assign")
## [1] 1 1 1 1
## attr(,"contrasts")
## attr(,"contrasts")$NivEdu
## [1] "[Link]"
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 9 / 31
Section 2
Une seule variable catégorielle
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 10 / 31
Une seule variable catégorielle
Avec deux niveaux
Supposons qu’un ingénieur mécanique souhaite relier la durée de vie
effective d’un outil de coupe (y) utilisé sur un tour à la vitesse du tour en
révolutions par minute (x1 ) et au type d’outil de coupe utilisé.
La seconde variable régresseur “type d’outil” est qualitative et a deux
niveaux (par exemple, types d’outils A et B). Nous pouvons utiliser une
variable indicatrice x2 qui prend les valeurs 0 et 1 pour identifier les classes
de la variable régresseur ” type d’outil” comme suit :
(
0 si l’observation est de type d’outil A ← référence
x2 =
1 si l’observation est de type d’outil B
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 11 / 31
Une seule variable catégorielle (suite)
avec deux niveaux
Avec la variable quantitative x2 , nous pouvons formuler un modèle de
régression linéaire
y = β0 + β1 x1 + β2 x2 + ϵ
Ce modèle peut être réécrit comme suit
(
β0 + β1 x1 si x2 = 0 (type A)
y=
(β0 + β2 ) + β1 x1 si x2 = 1 (type B)
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 12 / 31
Section 3
Exemple (The Tool Life Data du livre, page
262)
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 13 / 31
Exemple (The Tool Life Data du livre, page 262)
.
Dans R, on obtient
model=lm(y_hours~X1_rpm+Tool_Type,tool_data)
summary(model)
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 14 / 31
Exemple (suite)
##
## Call:
## lm(formula = y_hours ~ X1_rpm + Tool_Type, data = tool_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.6482 -1.8039 0.0835 1.8110 4.9665
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.127425 3.517971 10.554 6.99e-09 ***
## X1_rpm -0.026675 0.004529 -5.889 1.79e-05 ***
## Tool_TypeB 14.913727 1.362609 10.945 4.06e-09 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 3.046 on 17 degrees of freedom
## Multiple R-squared: 0.8991, Adjusted R-squared: 0.8873
## F-statistic: 75.78 on 2 and 17 DF, p-value: 3.4e-09
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 15 / 31
Exemple (suite)
Même pente
Remarquer que ces droites sont parallèles car elles ont la même pente.
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 16 / 31
Exemple (suite)
Pentes différentes
Pour ajuster un modèle consistant en deux lignes de régression qui
diffèrent à la fois en intercept et en pente, nous pouvons ajouter un terme
d’interaction :
y = β0 + β1 x1 + β2 x2 + β3 x1 x2 + ϵ
Ce nouveau modèle est équivalent à :
(
β0 + β1 x1 si x2 = 0 (type A)
y=
(β0 + β2 ) + (β1 + β3 )x1 si x2 = 1 (type B)
Dans R, on obtient
model=lm(y_hours~X1_rpm*Tool_Type,tool_data)
summary(model)
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 17 / 31
Exemple (suite)
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 18 / 31
Exemple (suite)
##
## Call:
## lm(formula = y_hours ~ X1_rpm * Tool_Type, data = tool_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.2746 -1.5544 0.5454 1.7597 4.8652
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 32.962009 4.650283 7.088 2.57e-06 ***
## X1_rpm -0.021099 0.006096 -3.461 0.00322 **
## Tool_TypeB 23.783345 6.793532 3.501 0.00296 **
## X1_rpm:Tool_TypeB -0.011815 0.008874 -1.331 0.20170
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 2.979 on 16 degrees of freedom
## Multiple R-squared: 0.9092, Adjusted R-squared: 0.8922
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 19 / 31
Exemple (suite)
Pentes différentes
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 20 / 31
Section 4
Tests de Significativité
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 21 / 31
Tests de Significativité
.
Ajuster le modèle avec un prédicteur quantitatif x1 et un prédicteur
catégoriel x2 est équivalent à ajuster deux lignes de régression séparées
(avec des intercepts et/ou des pentes différents).
Le modèle : y = β0 + β1 x1 + β2 x2 + β3 x1 x2 .
Cela définit :
(
β0 + β1 x1 si x2 = 0 (type A)
y=
(β0 + β2 ) + (β1 + β3 )x1 si x2 = 1 (type B)
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 22 / 31
Tests de Significativité (suite)
Droites concourantes : les ordonnées sont identiques
Nous pouvons tester les éléments suivants
H0 : β2 = 0 (même ordonnée à l’origine mais pentes différentes).
H1 : β2 ̸= 0 (différente ordonnée a l’orgine)
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 23 / 31
Tests de Significativité (suite)
Droites parallèles: les pentes sont égales
Nous pouvons tester les éléments suivants
H0 : β3 = 0 (même pente, mais l’ordonnée à l’origine différente)
H1 : β3 ̸= 0 (pentes séparées)
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 24 / 31
Tests de Significativité (suite)
Droites parallèles: les pentes sont égales
Nous pouvons tester les éléments suivants
H0 : β3 = 0 (même pente, mais l’ordonnée à l’origine différente)
H1 : β3 ̸= 0 (pentes séparées)
Droites confondues : les deux modèles de regressions sont
identiques
Nous pouvons tester les éléments suivants
H0 : β2 = β3 = 0 (même ordonnée à l’origine même pente).
H1 : β2 ̸= 0 (différentes ordonnées à l’origine) ou H1 : β3 ̸= 0 (pentes
séparées)
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 24 / 31
Application
Prenons le cas ou les 2 droites sont similaires alors
1 Utilisation d’un modèle réduit (où H0 est vraie) :
a. MR = modèle réduit
b. on utilise SSRes (MR) avec dfMR degrés de liberté.
2 Utilisation du modèle complet (H1 vraie) :
c. MC = modèle complet
d. on utilise SSRes (MC) avec dfMC = n-4 degrés de liberté
3 Comparaison des deux à l’aide d’un test F :
SSRes (MR) − SSRes (MC) dfMC
F0 = · ∼ FdfMR −dfMC ,dfMC
dfMR − dfMC SSRes (MC)
4 Rejet de H0 au niveau α si :
F0 > Fα,dfMR −dfMC ,dfMC
ou de manière équivalente p valeur < α.
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 25 / 31
Application (suite)
Suite exemple (The Tool Life Data du livre, page 262)
PUis que la droite de regression est
ŷ = 32.775 − 0.021x 1 + 23.971x 2 − 0.012x 1x 2
Pour tester H0 : β2 = β3 = 0, on calcule
SSRes (MR) − SSRes (MC) (1434.112 − 293.005)/2
F0 = = = 64.75
MSRes 8.811
Puisque pour cette statistique, la p valeur p = 2, 14Ö10−8 , on rejette H0
c-à-d que nous concluons que les deux droites de régression ne sont pas
identiques.
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 26 / 31
Application using R
.
model_MR=lm(y_hours~X1_rpm,tool_data)
model_MC=lm(y_hours~X1_rpm*Tool_Type,tool_data)
anova(model_MR,model_MC)
## Analysis of Variance Table
##
## Model 1: y_hours ~ X1_rpm
## Model 2: y_hours ~ X1_rpm * Tool_Type
## [Link] RSS Df Sum of Sq F Pr(>F)
## 1 18 1269.2
## 2 16 142.0 2 1127.2 63.505 2.455e-08 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’
On peut conclure que les deux modèles de régression distincts sont
nécessaires (rejeter H0 ).
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 27 / 31
Regression avec plusieurs niveaux
Une variable catégorielle unique avec > 2 niveaux
Une compagnie d’électricité étudie l’effet de la taille d’une maison
individuelle x1 (pieds carrés de surface au sol) et du type de climatisation
utilisé dans la maison sur la consommation totale d’électricité y (en
kilowattheures) pendant la période de juin à septembre. Il existe quatre
types de systèmes de climatisation :
1 pas de climatisation,
2 unités de fenêtre,
3 pompe à chaleur et
4 climatisation centrale.
Le type de climatisation est une variable catégorielle à 4 niveaux. Nous
devons la convertir en variable numérique afin d’effectuer une analyse de
régression.
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 28 / 31
Regression avec plusieurs niveaux
.
Les 4 niveaux de ce facteur peuvent être modélisés par 3 variables
indicatrices, x2 , x3 et x4 , définies comme suit
Type of Air Conditioning x2 x3 x4
Pas de climatisation (réfrence) 0 0 0
Unités de fenêtre 1 0 0
Pompe à chaleur 0 1 0
Climatisation centrale 0 0 1
The corresponding regression model is
y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + ϵ
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 29 / 31
Regression avec plusieurs niveaux (suite)
Le système correspondant est
β0 + β1 x1 + ϵ (pas de climatisation)
(β + β ) + β x + ϵ
0 2 1 1 (unités de fenêtre )
y=
(β0 + β3 ) + β 1 x1 + ϵ (pompe à chaleur )
(β0 + β4 ) + β1 x1 + ϵ (climatisation centrale)
où β2 , β3 , β4 représentent les effets distincts des trois systèmes de
climatisation, par rapport à la situation de référence (pas de climatisation).
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 30 / 31
Regression avec plusieurs niveaux (suite)
Avec les interactions
Il est également possible d’utiliser des pentes différentes en ajoutant des
termes d’interaction entre la variable quantitative x1 et chacune des trois
variables indicatrices
y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + β5 x1 x2 + β6 x1 x3 + β7 x1 x4 + ϵ
Ce qui donne
β0 + β1 x1 + ϵ (pas de climatisation)
(β + β ) + (β + β )x + ϵ
0 2 1 5 1 (unités de fenêtre )
y=
(β0 + β3 ) + (β1 + β6 )x1 + ϵ (pompe à chaleur )
(β0 + β4 ) + (β1 + β7 )x1 + ϵ (climatisation centrale)
Youssouph Cissokho Variables indicatrices 2024-11-21 [Link] 31 / 31