0% ont trouvé ce document utile (0 vote)
88 vues3 pages

R2 ajusté et ANOVA en régression

Ce document présente plusieurs exercices portant sur l'analyse de la variance et la régression linéaire multiple. Il fournit les définitions et modèles de ces analyses statistiques, ainsi que des exemples d'interprétation de résultats.

Transféré par

ZAYNAB KANDROUCH
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
88 vues3 pages

R2 ajusté et ANOVA en régression

Ce document présente plusieurs exercices portant sur l'analyse de la variance et la régression linéaire multiple. Il fournit les définitions et modèles de ces analyses statistiques, ainsi que des exemples d'interprétation de résultats.

Transféré par

ZAYNAB KANDROUCH
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Exercice 1 :

1. Donner et expliquer le modèle de l’analyse de la variance à un seul facteur.


L’analyse de la variance ANOVA est un test statistique permettant de vérifier que plusieurs échantillons sont issus d'une
même population.
Cette analyse permet d’expliquer les variations de la variable dépendante Y par une variables explicative catégorielle
(appelée facteur de variabilité).
L'analyse de variance consiste à analyser des données qui dépendent de plusieurs types d'effets opérant simultanément, afin
de quantifier ces effets et, éventuellement, d'en évaluer l'importance.
2. Donner et expliquer le modèle de la régression linéaire multiple.
La régression multiple permet, elle, de confirmer une relation de cause à effet entre variables, c’est-à-dire expliquer les
variations d’une variable par plusieurs autres variables. Si cette relation est confirmée, il faut alors évaluer son intensité.
Il s’agit de trouver la caractéristique de la droite qui décrit le mieux les données :

Ŷ=b0 +b1 X1 +b2 X2 +....+bi Xi

Exercice 2 :
1.
- Le R c’est le coefficient de corrélation qui permet de connaître le lien et la relation entre laes variables X explicatives et la
variable Y dépendante.

Dans ce cas, le R = 0,891 il est très proche de 1 ce qui signifie qu’on a une corrélation positive forte et donc significative . La
relation entre la variables dépendante salaire actuel et les variables explicatives salaire d’embauche et expérience est
significative.

- Le R2 quant à lui c’est le coefficient de détermination, qui présente le degré de linéarité entre 2 variables. Il permet de
savoir combien X influe sur Y. Dans ce cas il est égale à 0,793.

- Le R2 ajustée vient le corriger et l’ajuster au nombre de variables indépendantes et à la taille de l’échantillon. Le R2 dans
ce cas est égal au R2 ajusté permettant de voir qu’il n’y a pas un effet de multicolinéarité.

Avec un R2 ajustée = 0,793 on peut dire que 79.3% des variations du salaire actuel sont expliquées par le modèle.

2.

Le tableau ANOVA est utilisé pour évaluer la signification globale du modèle de régression. Il présente l’effet inter-groupes
et l’effet intra-groupes et le total des deux effets pour la somme des carrés et les degré de liberté.
La table ANOVA comprend plusieurs composantes :

La 1ère colonne des sommes des carrés indique pour la régression, la variation expliquée par le modèle et est calculée par la
sommation de l’écart de chaque moyenne de groupe par rapport à la moyenne totale au carré. Pour le résiduel, c’est la
variation non expliquée par le modèle et est calculée par la variance de chaque groupe multipliée par le nombre de sujets de
ce groupe.

Les degrés de liberté sont calculés comme suit :

. Ddl rég = I - 1 = 3 - 1 = 2

. Ddl résid = n - I = 474 - 3 = 471

. Total = n - 1 = 474 - 1 = 473

La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par les ddl associés.
La comparaison de leurs 2 valeurs permet de relever que : la régression est largement supérieure au résiduel, le test est donc
significatif selon cette donnée.

La statistique F est le rapport de la somme des carrés moyens rég et résid.

En comparant la signification associée ( 0.001) au seuil de signification ( 0.05), on peut savoir que la régression est très
significative.

Avec ces données statistiques, on peut dire que le salaire d’embauche et l’expérience ont un effet significatif sur les le salaire
actuel, il existe une forte dépendance entre les 2 variables. Et donc le salaire actuel peut être expliqué par le modèle.

3.

La tolérance des deux variables explicatives est égale à 0,998, on voit qu’il n’ya pas de problème de multi colinéarité. 99,8%
est le pourcentage de la variable explicative non expliquée par les autres variables explicatives.

4. Puisque la variable Y : salaire actuel, peut être expliquée par les deux variables explicatives X : salaire d’embauche et
expérience, on peut poser une estimation de la valeur avec la droite de régression : Yi = 3850.718 + 1.923 X1 - 22.445 X2

5. Pour conclure, on peut dire que le salaire actuel peut être prédit par les 2 variables explicatives : salaire d’embauche et
expérience.

Le R2 = R2 ajustée pas de problème de multicolinéarité, dépendance entre les 2 variables explicatives, ils ne sont pas
corrélés. Leur corrélation, tolérance et VIF ont démontrés ceci.

Par contre on devra accorder plus d’importance à X1 : salaire actuel, elle s’avère être plus significative.

Exercice 3 :

1.
Le digramme « barre d’erreur » présente la relation entre les différents examinateurs et les notes. L’axe des x présente les
examinateurs et l’axe des Y présentes les notes.
Tous les intervalles se chevauchent. Concrètement, ceci veut dire que tous les groupes possèdent des valeurs de
moyennes possibles compatibles.
On en revient à poser deux hypothèses :

● H0 : Il existe un effet d’examinateurs sur les notes. C’est à dire les moyennes pour les notes sont égales.
● H1 : Il existe aucun effet d’examinateurs sur les notes. C’est à dire deux moyennes au moins sont différentes.

Selon le digramme, on peut supposer que H0 est vraie et rejeter H1.


2.
La première colonne donne la statistique proprement dite.
Ensuite, cette statistique est examinée à la lumière de deux degrés de liberté. Le premier est calculé à partir du nombre
de groupes moins 1 (5 - 1 = 4). Le deuxième est calculé à partir du nombre de sujets moins le nombre de groupes (30 - 5
= 25).
La dernière colonne indique si le test est significatif ou non. Le seuil de signification est toujours fixé à p < 0,05.
Dans l'exemple, comme le test n’est pas significatif (p > 0,05), on ne peut pas rejeter l’hypothèse nulle de l’égalité des
variances. Elles sont donc considérées semblables, ce qui nous convient parfaitement et nous permet de passer à
l'interprétation de l'ANOVA.
3.
Le tableau présente l'effet inter-groupes (effet dû à la variable catégorielle) et l'effet intra-groupes (effet de la variation
dans chacun des groupes). Il présente également le total des deux effets pour la somme des carrés et les degrés de liberté.
La colonne de la somme des carrés indique pour la variabilité inter-groupes, la sommation de l'écart de chaque moyenne
de groupe par rapport à la moyenne totale au carré.
Pour la variabilité intra-groupes, la variance (écart-type au carré) de chaque groupe multipliée par le nombre de sujets de
ce groupe,
Les degrés de libertés sont les mêmes que pour le test d'homogénéité des variances.
La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par le degré de liberté associé.
En comparant la moyenne des carrés inter et intra groupe on peut voir que inter grp et supérieur à l’intra groupe, ce qui
donne lui à un test significatif.
La statistique F est le rapport de la somme des carrés moyens inter et intra-groupes.
En comparant la signification associée (0,010) au seuil de signification (0,05) on peut savoir que le test est très
significatif.
Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse nulle et accepter H1. Il existe de ce fait un
effet de l’examinateur.
4. L'analyse de variance nous indique qu'il existe des différences entre les groupes, mais ne précise pas où sont situées
ces différences. Pour remédier à la situation, nous avons fait un test post-hoc avec le test de Tukey, car la signification
dans le test d’homogénéité des variances est supérieure à 0,05 (0,301).
Les méthodes de comparaison multiples permettent de déterminer où se situent en réalité les différences importantes.
Elle classe les moyennes en indiquent les différences significatives et celles qui ne le sont pas.
En comparant la signification des différents groupes, on peut relever que l’examinateur 4 est celui qui a le plus d’effet
sur les notes. Les examinateurs 1 et 2 ne doivent pas être pris en considération, ils n’ont aucun impact.
Pour conclure, on a suffisamment de preuves pour rejeter H0 et accepter H1. Il existe donc un effet d’examinateurs sur
les notes.

Vous aimerez peut-être aussi