République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de La Recherche Scientifique
Ecole Nationale Supérieure de Technologie
Spécialité Génie Industrielle
Département Génie Industrielle et Maintenance
Compte Rendu TP
"Régression linéaire multiple pour prédire les prix des maisons à
Boston"
Mr. Laidi .M
Réalisé par :
OUAR Narimane
Objectif:
Dans ce TP on va viser à explorer et modéliser les prix de l’immobilier
dans la région de Boston a l’aide de techniques de régression linéaire
multiple.
On va aussi explorer et essayer de tirer la relation entre ces variables et les
prix des maisons.
Passons par charger les données , examiner leur structure et plonger dans
l’analyse des régressions multiples pour mieux comprendre les facteurs qui
influencent les prix des maisons dans la région de Boston.
Application:
1- Pour charger les données on utilise :
library(MASS)
data(Boston)
Boston
On exécutant Boston , on aurait une table de données de 506 lignes
pour examiner la structure on effectue la commande suivante:
str(Boston) : examiner pour interpréter les résultats et tirer des conclusion
2- m1=cor(Boston) : pour calculer et afficher la matrice de corrélation
m1
La matrice de corrélation mesure le degré de relation entre deux variables
,comme dans le cas précédent ,
3- mod=lm(medv~. , data=Boston): on a utiliser la fonction lm pour
construire un modèle de régression linéaire
mod : pour l’affichage
4-summary(mod)
les coefficients estimés sont la première colonne de la matrice
(la colonne ‘Estimate’) :
Pour examiner les résultats du modèle
après l'exécution du summary (mod) on obtient le résultat suivant:
R-carré =’ 0,7406’
on examinant les variables de p associé à chaque variables on pourrait dire
si il sont significatifs ou non , on remarque que oui les variables sont
statiquement significatifs
5-On utilise la fonction ‘plot’ pour tracer: les résidus, on doit créer d’abord
une variable et après on va la dessiner utilisons plot():
res=resid(mod)
plot(res)
On va avoir un nuage de points
6- Pour prédire les valeurs médianes des prix des maisons pour chaque
quartier on doit utiliser la fonction predict():
pre=predict(mod)
pre
ca va nous afficher un tableau de valeurs de 1 jusqu'à 506
On utilise la fonction confint() pour calculer les intervalles de confiance
pour chaque coefficient
intr=confint(mod)
intr
On remarque que les coefficients sont statistiquement significatifs car les
intervalles de confiances des variables ne contiennent pas des zéros
Conclusion:
Dans ce TP qu’on a fait sur une étude de statistique sur la base des
données Boston nous avons pris des résultats intéressants,en utilisant la
régression linéaire multiple , un modele a ete construit pour prédire la
valeur médiane des maisons en fonction des variables sélectionnées , aussi
les résultats qu’on a obtenue ont ete evalues a l’aide de coefficient de
détermination et l’erreur .
Cette analyse fournit des informations utiles pour comprendre les facteurs
qui influencent les prix des maison a Boston.