0% ont trouvé ce document utile (0 vote)

46 vues1 page

Etude Lcs - RMD

Ce document présente une analyse de régression linéaire sur un jeu de données. Il introduit les notions de somme des carrés résiduels, expliqués et totaux, et montre comment les calculer et les interpréter à l'aide des commandes R lm, aov et anova.

Transféré par

Aleyna Kumarci

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

46 vues1 page

Etude Lcs - RMD

Transféré par

Aleyna Kumarci

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

---

title: TP chapitre 5
author: Antoine Lejay
output: html_document
---

```{r}
data(LifeCycleSavings)
lcs <- LifeCycleSavings
help(LifeCycleSavings)
head(lcs)
```

Considérons un modèle
$y_i=\beta_0 + \beta_1 x_{i,1} + \dotsb + \beta_{k} x_{i,k} +\varepsilon_i$.

Nous créons 2 fonctions, l'un qui donne la somme des

carrés résiduels (`ssr`) et l'autre la somme
des carrés expliqués (`sse`), c'est-à-dire
$$
SSR = \|\mathbf{y}-\widehat{\mathbf{y}}\|^2
\text{ et }
SSE = \|\widehat{\mathbf{y}}-\bar{y}\|^2.
$$
La moyenne des échantillons est la même que la moyenne
de la prédiction.

Nous définissons aussi la somme des carrés totales

$$
SST = \|\mathbf{y}-\bar{y}\|^2,
$$
c'est-à-dire la norme des observations centrées.

Rappelons que par le théorème de Pythagore,

$$
\sum_{i=1}^n (y_i-\bar{y})^2
=
\sum_{i=1}^n (y_i-\widehat{y}_i)^2
+
\sum_{i=1}^n (\widehat{y}_i-\bar{y})^2
$$
soit
$$ SST = SSE + SSR $$

```{r}
ssr <- function(reg)
{
return(sum(residuals(reg)^2))
}
sse <- function(reg)
{
return(sum((fitted(reg)-mean(fitted(reg)))^2))
}
sst <- function(reg)
{
return(sum((reg$model[,1]-mean(reg$model[,1]))^2))
}
```

Étudions cela sur un modèle à une variable :

```{r}
reg1 <- lm( sr ~ pop15, data = lcs)
cat(sprintf("SSR = %.3g\tSSE = %.3g\tSSR + SSE = %.3g\tSST = %.3g",ssr(reg1),sse(reg1),ssr(reg1)+sse(reg1),sst(reg1)))
```

## La commande `aov` pour une régression avec une variable

Ces calculs sont fournis par la commande `aov` :

```{r}
aov(reg1)
```

L'identification des _degrés de libertés_ est important, car nous

savons que les lois de $SSR$, $SST$ et $SSE$ sont de type $\sigma^2\chi^2_{f}$,
où $f$ est le nombre de degrés de libertés et $\sigma^2$ est la variance
du bruit (inconnue).

La commande `summary` appliquée à `aov` donne une information supplémentaire :

```{r}
summary(aov(reg1))
```

Les valeurs dans la colonne `Mean Sq` correspondent à la somme des carrés
divisée par le nombre de degrés de liberté.

La statistique $F$ est donc

$$
F = \frac{SSE/1}{SSR/(n-2)}.
$$
Ici, SSE n'a qu'une degré de libertés, et les résidus $n-2$
car 2 paramètres sont identifiés et que SSE calcule la moyenne.

Une conséquence du théorème de Cochran est qu'elle suit

sous l'hypothèse nulle « $\beta_1=0$ » une loi de Fisher
à $(1,n-2)$ degrés de libertés.

Cette statistique, retournée par `aov`, suit correspond aussi

à celle donnée par `summary(lm(...))`.
Dans le cas de la régression simple, la $p$-value
est la même que la statistique $T$ sur « $\beta_1=0$ ».

## Régression multiple et modèles emboîtés

Nous pouvons utiliser l'idée de Fisher sur des modèles

de régression multiple avec $\beta_1,\dotsc,\beta_k$
coefficients.

Considérons l'hypothèse nulle $H_0$ « $\beta_{q+1} = \dotsb = \beta_k =0$ »,

c'est-à-dire que seuls les $q$ premiers coefficients sont non nuls.

Sous l'hypothèse $H_0$, nous désignerons le modèle par _modèle réduit_.

Sans cette hypothèse, ce sera le _modèle plein_.

La statistique F consiste alors en

$$
F=\frac{SSE(\text{plein})-SSE(\text{réduit})}{k-q}\times
\frac{n-k}{SSR(\text{plein})}.
$$
Ici $k-q$ est le nombre de degrés de liberté de diffère
entre les deux modèles, et $n-k$ le nombre de degrés
de libertés de résidus sous le modèle plein.

Lorsque $k=1$ et $q=0$, alors $SSE(\text{réduit})=0$

et donc nous avons la même statistique que précédemment.

Notons que $SST(\text{plein})=SST(\text{réduit})$ et que

$$
SSR(\text{plein})+SSE(\text{plein}) = SST(\text{plein})
\text{ et }
SSR(\text{réduit})+SSE(\text{réduit}) = SST(\text{réduit})
$$
Ainsi
$$
SSE(\text{plein})-SSE(\text{réduit})
=
SSR(\text{réduit})-SSR(\text{plein}).
$$
Donc la statistique F est aussi
$$
F=\frac{SSR(\text{réduit})-SSR(\text{plein})}{k-q}\times
\frac{n-k}{SSR(\text{plein})}.
$$
Clairement, $SSR(\text{réduit}) \geq SSR(\text{plein})$
et donc $F\geq 0$.

Considérons maintenant une régression avec deux variables

explicatives (donc trois variables la moyenne est aussi estimée) :
```{r}
reg2 <- lm( sr ~ pop15 + pop75, data = lcs)
```
La commande `aov` donne alors
```{r}
aov(reg2)
```

Nous pouvons comparer ces quantités avec les différentes somme des carrés
```{r}
sse(reg1)
sse(reg2)
ssr(reg2)
```

Ainsi, nous voyons que la commande `aov` nous donne une décomposition
des sommes de carrés et des degrés de libertés :
```{r}
cat(sprintf("%2.f + %.2f = %.2f\n",sse(reg1),sse(reg2)-sse(reg1),sse(reg2)))
cat(sprintf("%2.f + %.2f = %.2f\n",sse(reg2),ssr(reg2),sst(reg2)))
```
La somme de la somme des carrés correspond à la somme des carrés totale,
alors que celle des degrés de liberté.

Attention aux degrés de liberté et à la définition de la somme des

carrés. Si nous imposons que $\beta_0=0$, alors les résultats
sont différents car il ne faut pas retirer la moyenne et
les degrés de liberté changent.
```{r}
aov(lm(sr ~ 0 + pop15 + pop75, data=lcs))
```

La commande `summary(aov(...))` donne en plus des informations sur la F-statistique.

Elle est obtenue par la somme des carrées moyennes (c'est‐à-dire divisée
par le nombre de degrés de libertés) sur la somme des carrés moyennes
des résidus :
```{r}
summary(aov(reg2))
```

Ici, le modèle plein est avec 2 variables explicatives, comparons par exemple avec
les sorties de
```{r}
reg2$df.residual*sse(reg1)/ssr(reg2)
reg2$df.residual*(ssr(reg1)-ssr(reg2))/ssr(reg2)
```

Attention la commande `aov` est sensible à l'ordre dans lequel

les arguments de la formule sont entrées, comparons avec
```{r}
summary(aov(lm( sr ~ pop75 + pop15, data=lcs)))
```

La commande `anova` donne des informations similaires en rajoutant

les variables les unes après les autres et permet de s'interroger
sur l'opportunité de rajouter des variables :
```{r}
reg0 <- lm(sr ~ 1, data = lcs)
anova(reg0,reg1,reg2)
```

# Identifions les variables potentiellement significatives

__Q1__

Traçons les variables les unes contre les autres.

```{r}
pairs(lcs)
```

__Q2__
Regardons en détail la régression avec le modèle plein.
```{r}
lm( sr ~ . , data= lcs)
```

```{r}
summary(reg_all<-lm( sr ~ . , data= lcs))
```

Les variables `pop15` et `ddpi` sont identifiées comme significatives.

Sur la base du test de Fisher, on ne peut pas rejeter l'idée
que tous les coefficients $\beta_1,\dotsc,\beta_4$ sont nuls.

```{r}
summary(reg<-lm( sr ~ pop15 + ddpi , data= lcs))
```

Ajoutons la variable `pop75`.

```{r}
summary(reg_inter<-lm( sr ~ pop15 + ddpi + pop75 , data= lcs))
```

Regardons par rappot aux variables non significatives :

```{r}
summary(reg_inter<-lm( sr ~ dpi + pop75 , data= lcs))
```
Nous voyons que la statistique F ne permet par de rejeter
que les coefficients soient nuls.

Q4. Utilisons la commande `drop1`, qui permet de tester

tous les sous-modèles en prenant comme critère l'AIC
(Akaike Information Criterion).

```{r}
drop1(reg_all)
```

Nous en concluons que le modèle sans la variable `dpi`,

c'est-à-dire juste avec `pop15`, `pop75` et `ddpi`
est meilleur en terme d'AIC que celui avec toutes les variables.

Exécutons la commande `anova` entre les deux modèles.

```{r}
anova(reg,reg_all)
```

Cela
correspond à calculer la F-statistique qui est donnée par
```{r}
a<-anova(reg,reg_all)
F<-(45/2)*a$`Sum of Sq`[2]/a$RSS[2]
cat(sprintf("F-statistique = %.4f\np-value = %.2g",F,pf(F,2,45,lower.tail=FALSE)))
```
Nous ne rejetons pas l'hypothèse nulle $H_0$ « $\beta_3=\beta_4=0$ »,
c'est-à-dire que les deux coefficients correspondant à `ddpi` et `pop75`
soient nuls simultanément.

Vous aimerez peut-être aussi

Partie 2-1 Régression Linéaire Simple
Pas encore d'évaluation
Partie 2-1 Régression Linéaire Simple
25 pages
Regression Linéaire Simple PDF
Pas encore d'évaluation
Regression Linéaire Simple PDF
7 pages
Régression Linéaire Simple: Concepts et Estimations
Pas encore d'évaluation
Régression Linéaire Simple: Concepts et Estimations
7 pages
S6-Sections 3 - 4-Chap 2-Partie1-20-22
Pas encore d'évaluation
S6-Sections 3 - 4-Chap 2-Partie1-20-22
44 pages
Régression Linéaire Simplifiée
Pas encore d'évaluation
Régression Linéaire Simplifiée
30 pages
Regression Multiple Annexes18-02-2007 PDF
Pas encore d'évaluation
Regression Multiple Annexes18-02-2007 PDF
83 pages
S6 TD1
Pas encore d'évaluation
S6 TD1
9 pages
ST M Modlin Regmult
Pas encore d'évaluation
ST M Modlin Regmult
13 pages
TD Econometrie Solution
100% (2)
TD Econometrie Solution
10 pages
Concepts de Régression Linéaire
Pas encore d'évaluation
Concepts de Régression Linéaire
92 pages
Corrigé d'Économétrie Avancé
Pas encore d'évaluation
Corrigé d'Économétrie Avancé
15 pages
CHAPITRE II MODELE DE REGRESSION LINEAIRE SIMPLE - Copie - Copie
Pas encore d'évaluation
CHAPITRE II MODELE DE REGRESSION LINEAIRE SIMPLE - Copie - Copie
26 pages
Modèles Linéaires et Analyse CPU
Pas encore d'évaluation
Modèles Linéaires et Analyse CPU
7 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
83 pages
Analyse de régression et distances de Cook
0% (1)
Analyse de régression et distances de Cook
2 pages
Régression Linéaire Simple et Tests Statistiques
Pas encore d'évaluation
Régression Linéaire Simple et Tests Statistiques
36 pages
Correction Examen S5 2021
Pas encore d'évaluation
Correction Examen S5 2021
3 pages
Outilsdiag
Pas encore d'évaluation
Outilsdiag
29 pages
2 - Apprentissage Supervisé
Pas encore d'évaluation
2 - Apprentissage Supervisé
10 pages
Econometrie Chap2 2019
Pas encore d'évaluation
Econometrie Chap2 2019
8 pages
7.cours Regression
Pas encore d'évaluation
7.cours Regression
8 pages
Chapitre1 Eco Explication-2024-2025
Pas encore d'évaluation
Chapitre1 Eco Explication-2024-2025
15 pages
01 Exemple
Pas encore d'évaluation
01 Exemple
6 pages
Cours Logiciel R
Pas encore d'évaluation
Cours Logiciel R
42 pages
Econometrie 1-Doc 2 - FDSE
Pas encore d'évaluation
Econometrie 1-Doc 2 - FDSE
13 pages
Exams
Pas encore d'évaluation
Exams
7 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
20 pages
Corrigés Et Résultats CH2EX3
Pas encore d'évaluation
Corrigés Et Résultats CH2EX3
2 pages
TP5 Methodes Inductives - RL
Pas encore d'évaluation
TP5 Methodes Inductives - RL
4 pages
Régression Linéaire et Moindres Carrés
Pas encore d'évaluation
Régression Linéaire et Moindres Carrés
53 pages
Regsimp
Pas encore d'évaluation
Regsimp
11 pages
Chapitre 7 - Estimation de Paramètres: Modèle
Pas encore d'évaluation
Chapitre 7 - Estimation de Paramètres: Modèle
30 pages
Estimation Paramètres Fonction CES
100% (1)
Estimation Paramètres Fonction CES
3 pages
Régression Linéaire et Conductivité
Pas encore d'évaluation
Régression Linéaire et Conductivité
6 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
29 pages
Modèles Linéaires et Moindres Carrés
Pas encore d'évaluation
Modèles Linéaires et Moindres Carrés
20 pages
Econométrie I 17 18
Pas encore d'évaluation
Econométrie I 17 18
31 pages
Cours m1 Econometrie Appliquee Slide34
100% (2)
Cours m1 Econometrie Appliquee Slide34
60 pages
Économétrie S6
100% (1)
Économétrie S6
39 pages
TD D'économétrie Avec Corrigé - Des Examens Corrigés
Pas encore d'évaluation
TD D'économétrie Avec Corrigé - Des Examens Corrigés
37 pages
Modèle de régression linéaire simple
Pas encore d'évaluation
Modèle de régression linéaire simple
13 pages
Data Mining Prediction
Pas encore d'évaluation
Data Mining Prediction
151 pages
R Cours7
Pas encore d'évaluation
R Cours7
37 pages
Corrigé TD Statistique M1-GEO Rennes 2
Pas encore d'évaluation
Corrigé TD Statistique M1-GEO Rennes 2
21 pages
Econométrie L3 2023-24
Pas encore d'évaluation
Econométrie L3 2023-24
51 pages
Cours D'Économétrie
100% (1)
Cours D'Économétrie
257 pages
Modèle de régression linéaire simple
100% (1)
Modèle de régression linéaire simple
69 pages
TD1 Econometrei Solution
Pas encore d'évaluation
TD1 Econometrei Solution
4 pages
Modèle de régression linéaire simple
Pas encore d'évaluation
Modèle de régression linéaire simple
27 pages
Analyse Régression Logarithmique R
Pas encore d'évaluation
Analyse Régression Logarithmique R
6 pages
Économétrie
Pas encore d'évaluation
Économétrie
18 pages
S5 - Econometrie ExamJanvier2015
86% (7)
S5 - Econometrie ExamJanvier2015
3 pages
Chap2 Modéle - Lineaire ECC2024 38 54
Pas encore d'évaluation
Chap2 Modéle - Lineaire ECC2024 38 54
17 pages
Statistique Bivariée
Pas encore d'évaluation
Statistique Bivariée
9 pages
ENSAEEconometrie Cursusintegre 2006
Pas encore d'évaluation
ENSAEEconometrie Cursusintegre 2006
101 pages
Régression Linéaire
100% (1)
Régression Linéaire
86 pages
Analyse du PIB et variables clés
100% (1)
Analyse du PIB et variables clés
3 pages
Estimation MCO en économétrie avec Excel
Pas encore d'évaluation
Estimation MCO en économétrie avec Excel
1 page
Regression Lineaire Ols
Pas encore d'évaluation
Regression Lineaire Ols
63 pages
Souvenirs de M. Auguste Bedloe
Pas encore d'évaluation
Souvenirs de M. Auguste Bedloe
18 pages
Étude du "Mandat" de Sembene Ousmane
Pas encore d'évaluation
Étude du "Mandat" de Sembene Ousmane
6 pages
Les Libraires N° 120 LR
Pas encore d'évaluation
Les Libraires N° 120 LR
108 pages
Elementos de Eletronica Digital
Pas encore d'évaluation
Elementos de Eletronica Digital
535 pages
Flux et Codage dans le Capitalisme
Pas encore d'évaluation
Flux et Codage dans le Capitalisme
402 pages
Door of No Return
Pas encore d'évaluation
Door of No Return
29 pages
Le Dispositif Complet de Lecture Piano CP: Pour L'élève
Pas encore d'évaluation
Le Dispositif Complet de Lecture Piano CP: Pour L'élève
1 page
Boule de Suif
Pas encore d'évaluation
Boule de Suif
5 pages
Fiche de Lecture Du Recueil de Ronsard (Récupération Automatique)
Pas encore d'évaluation
Fiche de Lecture Du Recueil de Ronsard (Récupération Automatique)
2 pages
Kiara, Diamant Écorché Par Le Sang, Tome 1 Livre de Romance D'hazel Diaz, Dark Romance Moderne, Grand Succès Sur Wattpad, Livr
Pas encore d'évaluation
Kiara, Diamant Écorché Par Le Sang, Tome 1 Livre de Romance D'hazel Diaz, Dark Romance Moderne, Grand Succès Sur Wattpad, Livr
1 page
Ministere de L
75% (16)
Ministere de L
2 pages
Production 4 Slogans
Pas encore d'évaluation
Production 4 Slogans
2 pages
Devoir de Contrôle N°1 Math 2009 2010 (Mme Saad)
Pas encore d'évaluation
Devoir de Contrôle N°1 Math 2009 2010 (Mme Saad)
2 pages
Jacob Et Esau - BD
Pas encore d'évaluation
Jacob Et Esau - BD
3 pages
Support
Pas encore d'évaluation
Support
2 pages
Muriel, Aide-moi à le Supporter
Pas encore d'évaluation
Muriel, Aide-moi à le Supporter
1 page
La Mesure Du Monde Dans Le Manuscrit Montecassino
Pas encore d'évaluation
La Mesure Du Monde Dans Le Manuscrit Montecassino
58 pages
The Life of Anna The Complete Dark Story Marissa Honeycutt Download
100% (1)
The Life of Anna The Complete Dark Story Marissa Honeycutt Download
37 pages
Output.o
Pas encore d'évaluation
Output.o
152 pages
Strategies D'ecriture
Pas encore d'évaluation
Strategies D'ecriture
2 pages
EVALUATION #1 Et 2 Au 2ème Semestre - 2 Bac Il Était Une Fois Un Vieux Couple Heureux. Blog
100% (4)
EVALUATION #1 Et 2 Au 2ème Semestre - 2 Bac Il Était Une Fois Un Vieux Couple Heureux. Blog
4 pages
Mots invariables en 6e année
Pas encore d'évaluation
Mots invariables en 6e année
1 page
Script Le Seigneur Des Anneaux
Pas encore d'évaluation
Script Le Seigneur Des Anneaux
1 page
Chronomath CM2 3 PDF
Pas encore d'évaluation
Chronomath CM2 3 PDF
1 page
Mieux Vivre Avec Le Yi King
100% (6)
Mieux Vivre Avec Le Yi King
119 pages
La Femme de Menage Livre - Recherche Google
Pas encore d'évaluation
La Femme de Menage Livre - Recherche Google
1 page
Achouih Ennouidrat
Pas encore d'évaluation
Achouih Ennouidrat
1 page
Bulletin du Collège Laroche
Pas encore d'évaluation
Bulletin du Collège Laroche
4 pages
Somaila SAWADOGO
Pas encore d'évaluation
Somaila SAWADOGO
30 pages
TAMWKZTUE
Pas encore d'évaluation
TAMWKZTUE
1 page

Etude Lcs - RMD

Transféré par

Etude Lcs - RMD

Transféré par

---

Nous créons 2 fonctions, l'un qui donne la somme des

Nous définissons aussi la somme des carrés totales

Rappelons que par le théorème de Pythagore,

Étudions cela sur un modèle à une variable :

## La commande `aov` pour une régression avec une variable

Ces calculs sont fournis par la commande `aov` :

L'identification des _degrés de libertés_ est important, car nous

La commande `summary` appliquée à `aov` donne une information supplémentaire :

La statistique $F$ est donc

Une conséquence du théorème de Cochran est qu'elle suit

Cette statistique, retournée par `aov`, suit correspond aussi

## Régression multiple et modèles emboîtés

Nous pouvons utiliser l'idée de Fisher sur des modèles

Considérons l'hypothèse nulle $H_0$ « $\beta_{q+1} = \dotsb = \beta_k =0$ »,

Sous l'hypothèse $H_0$, nous désignerons le modèle par _modèle réduit_.

La statistique F consiste alors en

Lorsque $k=1$ et $q=0$, alors $SSE(\text{réduit})=0$

Notons que $SST(\text{plein})=SST(\text{réduit})$ et que

Considérons maintenant une régression avec deux variables

Attention aux degrés de liberté et à la définition de la somme des

La commande `summary(aov(...))` donne en plus des informations sur la F-statistique.

__Attention__ la commande `aov` est sensible à l'ordre dans lequel

La commande `anova` donne des informations similaires en rajoutant

# Identifions les variables potentiellement significatives

Traçons les variables les unes contre les autres.

Les variables `pop15` et `ddpi` sont identifiées comme significatives.

Ajoutons la variable `pop75`.

Regardons par rappot aux variables non significatives :

__Q4.__ Utilisons la commande `drop1`, qui permet de tester

Nous en concluons que le modèle sans la variable `dpi`,

Exécutons la commande `anova` entre les deux modèles.

Vous aimerez peut-être aussi

Attention la commande `aov` est sensible à l'ordre dans lequel

Q4. Utilisons la commande `drop1`, qui permet de tester