Description TP INF242v2

Ce projet vise à construire et optimiser un modèle de régression linéaire multiple pour prédire les prix de biens immobiliers en utilisant un algorithme de descente de gradient, sans recourir à des bibliothèques d'apprentissage automatique. Les étapes incluent la préparation des données, l'implémentation du modèle mathématique, l'optimisation des hyperparamètres et l'évaluation des performances. Le projet utilise le jeu de données 'Boston Housing Dataset' et se concentre sur la gestion des données multidimensionnelles et l'analyse des résultats.

Transféré par

widelin.wandji

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

14 vues4 pages

Description TP INF242v2

Transféré par

widelin.wandji

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

PROJET TP

INF242 : OPTIMISATION NUMéRIQUE

Superviseur: Pr. Melatagia Paulin

Encadreur: Dr. Maxwell Ndognkon Manga

Ce projet consistera à construire et optimiser un modèle de régression linéaire multiple pour prédire
les prix de biens immobiliers en se basant sur plusieurs caractéristiques et en utilisant un algorithme
d'optimisation de type descente de gradient.
L'implémentation de la descente de gradient sera réalisée de zéro pour minimiser la fonction de
coût. Aucune librairie d'apprentissage automatique ne doit être utilisée ici à cet effet. Exceptée
pour la phase de traitement des données.
Seules les librairies python : Numpy et Pandas, sont utilisées.

1. Contexte et Objectifs du Projet

Le marché immobilier est influencé par de nombreux facteurs. Prédire le prix d'une propriété n'est
pas une tâche simple et nécessite de considérer plusieurs variables simultanément. La régression
linéaire multiple est un outil puissant pour modéliser cette relation.
Objectifs :
• Modéliser une relation complexe : Comprendre comment plusieurs variables
indépendantes influencent une variable dépendante (le prix d'une propriété).
• Implémenter la Régression Linéaire Multiple from “scratch”: c'est-à-dire il s'agit de
coder les équations mathématiques de la régression linéaire multiple sans utiliser de
bibliothèques de machine learning toutes faites (comme scikit-learn, Tensorflow, Theano, ..
pour le modèle lui-même).
• Maîtriser la Descente de Gradient : Appliquer et optimiser l'algorithme de descente de
gradient pour entraîner le modèle.
• Gérer des Données Multidimensionnelles : Travailler avec des jeux de données
comportant de nombreuses caractéristiques,
• Évaluer la Performance du Modèle : Quantifier l'efficacité du modèle et comprendre ses
limites.

2. Étapes Détaillées du Projet

2.1. Choix et Préparation du Jeu de Données Multidimensionnel

• Jeu de Données : Ce projet utilise le jeu de données de prix immobiliers "Boston Housing
Dataset" qui contient 506 habitats, chaque habitat étant décrit par un ensemble de 14
variables, attention, certaines sont complexes avec des variables catégorielles et
manquantes : i.e il faudrait choisir une version simplifiée ou un sous-ensemble de variables
qui caractérisent au mieux le modèle.
Le dataset est accessible sur ce lien http://lib.stat.cmu.edu/datasets/boston
La description complète du jeu de données ici
https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

INF242 TP PROJET Page. 1/4

• Variables :
• Variable Cible (Y) : Le prix de la propriété.
• Variables Explicatives (X) : Plusieurs caractéristiques telles que :
• Surface habitable (en m²)
• Nombre de chambres
• Nombre de salles de bain
• Âge de la propriété
• ….

• Préparation des Données :

• Chargement des données
• Nettoyage : Gestion des valeurs manquantes : supprimer des lignes ou colonnes
ayant des cellules manquantes.
• Format des variables : Si des variables catégorielles sont présentes (ex: type de
propriété "maison", "appartement"), les supprimer. Utiliser uniquement des variables
au format numérique
• Normalisation / Standardisation des Caractéristiques : Crucial pour la descente
de gradient. Appliquer une technique comme la standardisation à toutes les
variables explicatives pour assurer que l'algorithme converge plus rapidement et plus
stablement. Ne pas normaliser la variable cible.
• Ajout du Biais (Terme d'Interception) : Ajouter une colonne de 1 à la matrice des
caractéristiques X pour représenter le terme de biais θ 0 dans le modèle de
régression.
• Division Train/Test : Séparer le jeu de données en deux ensembles : 80% de
données pour l'entraînement et 20% pour les données de test, qui permettent
d'évaluer la généralisation du modèle.

2.2. Modèle Mathématique de la Régression Linéaire Multiple

• Équation du modèle : La prédiction y(i) pour une observation i avec n caractéristiques
sera :
y(i)=θ 0+θ 1 x(i) (i) (i)
1 +θ 2 x 2 +...+θ n x n

• Sous forme vectorielle, avec x(i) étant le vecteur des caractéristiques et θ le vecteur des
paramètres (poids et biais) :
y(i)=θ T x (i)
• Fonction de Coût (Erreur Quadratique Moyenne - MSE) : L'objectif est de minimiser
l'erreur entre les prédictions et les vraies valeurs. La MSE est définie comme :
m m
1 1
J (θ )= ∑
2m i=1
( ̃y (i)− y( i))2 = ∑
2m i=1
(θ T x(i )− y (i))2

(où m est le nombre d'exemples d'entraînement).

INF242 TP PROJET Page. 2/4

2.3. Implémentation de la Descente de Gradient
• Dérivation du Gradient : Calculer la dérivée partielle de la fonction de coût J(θ) par
rapport à chaque paramètre θ j :
m
∂ J (θ ) 1
= ∑ ( ̃y (i)− y(i ))
∂θj m i=1

• En notation vectorielle le gradient du coût J(θ) s'écrit :

1 T
∇ J (θ )= X ( Xθ − y)
m
• (où X est la matrice de toutes les caractéristiques, y le vecteur des vraies cibles).
• Algorithme de Mise à Jour des Paramètres : Itérer pour mettre à jour les paramètres θ :
θ (i+1) =θ (i) − α ∇ J (θ (i) )
Où α (alpha) est le taux d'apprentissage.
• Signature de la fonction de descente du gradient
train_gradient_descent: X, y, learning_rate, n_iterations → θ*

2.4. Optimisation des Hyperparamètres

• Taux d'Apprentissage (α) : Expérimenter avec différentes valeurs (ex: 0.1, 0.01, 0.001,
0.0001).
• Analyse de la Convergence : Utiliser les valeurs de coût enregistrées pour tracer des
courbes de convergence. Idéalement, la courbe du coût devrait diminuer régulièrement et se
stabiliser.

2.5. Évaluation et Visualisation des Résultats

• Prédictions : Utiliser le modèle entraîné avec les poids θ* obtenus à l'issue de l'algorithme
du gradient, pour faire des prédictions sur l'ensemble de test.
• Métriques de Performance :
• Erreur Quadratique Moyenne (MSE) : Calculer la MSE sur l'ensemble de test
pour quantifier l'erreur moyenne des prédictions.
• Coefficient de Détermination (R2) : Calculer le R2 pour évaluer la proportion de la
variance de la variable dépendante qui est expliquée par le modèle. Un R2 proche de
1 indique un bon ajustement.
m

∑ ( y i− ŷ i )2
R2=1− i=1
m

∑ ( y i − ̄y)2
i=1
• est la moyenne des vraies valeurs).

• Visualisation :
• Courbe de Convergence : Tracer le coût en fonction des itérations pour montrer la
convergence.

INF242 TP PROJET Page. 3/4

• Graphique de Prédictions vs. Réalité : Représenter les vrais prix en fonction des
prix prédits sur l'ensemble de test. Idéalement, les points devraient s'aligner le long
de la droite y=x.
• (Optionnel et plus complexe pour le multidimensionnel) : Si possible, faire des
coupes 2D (ex: prix en fonction de la surface, en fixant les autres variables à leur
moyenne) pour visualiser l'impact de certaines caractéristiques.

3. Outils Recommandés
• Langage : Python
• Bibliothèques :
• numpy pour les opérations numériques et matricielles.
• pandas pour la manipulation des données.
• matplotlib.pyplot et/ou seaborn pour les visualisations.

INF242 TP PROJET Page. 4/4

Vous aimerez peut-être aussi

Optimisation de l'Osmose Directe pour l'Eau
Pas encore d'évaluation
Optimisation de l'Osmose Directe pour l'Eau
23 pages
Optimisation de la Régression Linéaire avec Python
Pas encore d'évaluation
Optimisation de la Régression Linéaire avec Python
36 pages
Voix Off Lab02 Detaillee
Pas encore d'évaluation
Voix Off Lab02 Detaillee
3 pages
Résolution Logistique : Descente de Gradient
Pas encore d'évaluation
Résolution Logistique : Descente de Gradient
18 pages
TP Régression Linéaire avec Python 2024
Pas encore d'évaluation
TP Régression Linéaire avec Python 2024
8 pages
TP 5: Régression Linéaire Avec Knime Oration de Données: Techniques D'expl
Pas encore d'évaluation
TP 5: Régression Linéaire Avec Knime Oration de Données: Techniques D'expl
2 pages
Corrigé D'un Examen de Machine Learning S4 Génie MIS
100% (1)
Corrigé D'un Examen de Machine Learning S4 Génie MIS
25 pages
Big Data Et Analyse Prédictive
Pas encore d'évaluation
Big Data Et Analyse Prédictive
44 pages
Chapitre Algorithmes de Régression
Pas encore d'évaluation
Chapitre Algorithmes de Régression
6 pages
TP Poly Regres 24 25
Pas encore d'évaluation
TP Poly Regres 24 25
3 pages
ML Regression Lineaire
Pas encore d'évaluation
ML Regression Lineaire
45 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
63 pages
Régression Linéaire et Descente de Gradient
Pas encore d'évaluation
Régression Linéaire et Descente de Gradient
43 pages
Créez un Modèle Linéaire en ML
100% (1)
Créez un Modèle Linéaire en ML
31 pages
Chap3 Regression Lineaire
100% (1)
Chap3 Regression Lineaire
46 pages
Régression Linéaire
Pas encore d'évaluation
Régression Linéaire
44 pages
Types d'apprentissage automatique expliqués
Pas encore d'évaluation
Types d'apprentissage automatique expliqués
5 pages
Algorithmes d'apprentissage CPGE
Pas encore d'évaluation
Algorithmes d'apprentissage CPGE
24 pages
Cahier Des Charges ML
Pas encore d'évaluation
Cahier Des Charges ML
3 pages
TP3 MLP Part II Régression
Pas encore d'évaluation
TP3 MLP Part II Régression
11 pages
Sélection de Variables en Régression Linéaire
Pas encore d'évaluation
Sélection de Variables en Régression Linéaire
89 pages
TP3-Aprentissage Supervisé - KNN - Linear Regression
Pas encore d'évaluation
TP3-Aprentissage Supervisé - KNN - Linear Regression
6 pages
Résumé Du Cours de Machine Learning
Pas encore d'évaluation
Résumé Du Cours de Machine Learning
7 pages
Mini Projet Modele de Regression
Pas encore d'évaluation
Mini Projet Modele de Regression
3 pages
Algorithme Machine Learng
Pas encore d'évaluation
Algorithme Machine Learng
16 pages
Apprentissage Supervisé : Régression expliquée
Pas encore d'évaluation
Apprentissage Supervisé : Régression expliquée
16 pages
Apprentissage statistique en finance
Pas encore d'évaluation
Apprentissage statistique en finance
133 pages
Cours Régression v1
Pas encore d'évaluation
Cours Régression v1
32 pages
Modélisation des Prix Immobiliers en Californie
Pas encore d'évaluation
Modélisation des Prix Immobiliers en Californie
10 pages
Introduction à l'apprentissage automatique
100% (1)
Introduction à l'apprentissage automatique
53 pages
Deep Learning
Pas encore d'évaluation
Deep Learning
18 pages
Prédiction Des Prix Immobiliers en Utilisant Les Modèles de Régression
Pas encore d'évaluation
Prédiction Des Prix Immobiliers en Utilisant Les Modèles de Régression
15 pages
Analyse Prédictive avec Python et Pandas
Pas encore d'évaluation
Analyse Prédictive avec Python et Pandas
5 pages
Algorithme correcteur-prédicteur en programmation linéaire
Pas encore d'évaluation
Algorithme correcteur-prédicteur en programmation linéaire
59 pages
Modèles de Régression Linéaire Appliquée
100% (1)
Modèles de Régression Linéaire Appliquée
127 pages
Machine Learning (ML) : Scikit-Learn
Pas encore d'évaluation
Machine Learning (ML) : Scikit-Learn
7 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Projet de Data Mining : RUL et Musique
Pas encore d'évaluation
Projet de Data Mining : RUL et Musique
3 pages
Rapport Séance
Pas encore d'évaluation
Rapport Séance
3 pages
TP Premier MLP Xor
Pas encore d'évaluation
TP Premier MLP Xor
10 pages
Régression Linéaire Univariée en Python
Pas encore d'évaluation
Régression Linéaire Univariée en Python
5 pages
Système d'Orientation Bac Intelligent
Pas encore d'évaluation
Système d'Orientation Bac Intelligent
14 pages
Cours
Pas encore d'évaluation
Cours
164 pages
La Régression Dans La Pratique
Pas encore d'évaluation
La Régression Dans La Pratique
190 pages
Fonction de Coût Et Performance
Pas encore d'évaluation
Fonction de Coût Et Performance
21 pages
Introduction à la Régression Supervisée
Pas encore d'évaluation
Introduction à la Régression Supervisée
45 pages
Testmlann
Pas encore d'évaluation
Testmlann
2 pages
Modèles ML pour le provisionnement en assurance
Pas encore d'évaluation
Modèles ML pour le provisionnement en assurance
99 pages
TP2
Pas encore d'évaluation
TP2
4 pages
Guide Complet sur l'Apprentissage Machine
Pas encore d'évaluation
Guide Complet sur l'Apprentissage Machine
26 pages
Régression MLP : Méthodologie et Outils
Pas encore d'évaluation
Régression MLP : Méthodologie et Outils
7 pages
ML If-Sitn
Pas encore d'évaluation
ML If-Sitn
140 pages
MCMC Adaptatifs : Algorithmes aMTM
Pas encore d'évaluation
MCMC Adaptatifs : Algorithmes aMTM
312 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
32 pages
Régression scalaire : Modèle Boston Housing
Pas encore d'évaluation
Régression scalaire : Modèle Boston Housing
2 pages
Cours6 RégressionKNNSVM
Pas encore d'évaluation
Cours6 RégressionKNNSVM
36 pages
Chapitre 2. Regression Linéaire V1
100% (1)
Chapitre 2. Regression Linéaire V1
15 pages
Compte Rendu Du TP
Pas encore d'évaluation
Compte Rendu Du TP
18 pages
Économétrie des Panels et Applications
Pas encore d'évaluation
Économétrie des Panels et Applications
235 pages
INF311 Solutions Latex Version
Pas encore d'évaluation
INF311 Solutions Latex Version
2 pages
Resume Probabilites TD
Pas encore d'évaluation
Resume Probabilites TD
2 pages
Index 2
Pas encore d'évaluation
Index 2
61 pages
Fondamentaux WLAN Detaille
Pas encore d'évaluation
Fondamentaux WLAN Detaille
2 pages
Solution Devoir INF311 Detaille Math
Pas encore d'évaluation
Solution Devoir INF311 Detaille Math
16 pages
Solution Devoir INF311
Pas encore d'évaluation
Solution Devoir INF311
8 pages
La Route Et Certains Elements Du Vehicule
Pas encore d'évaluation
La Route Et Certains Elements Du Vehicule
8 pages
DEVZ
Pas encore d'évaluation
DEVZ
2 pages
À Propos Des Olympiades Portes Ouvertes - Votre Porte D'entrée Vers Une Éducation de Classe Mondiale en Russie
Pas encore d'évaluation
À Propos Des Olympiades Portes Ouvertes - Votre Porte D'entrée Vers Une Éducation de Classe Mondiale en Russie
5 pages
Expertise en Transformation de Tubes
Pas encore d'évaluation
Expertise en Transformation de Tubes
3 pages
Normes Burkinabè en Agriculture Biologique - BF
Pas encore d'évaluation
Normes Burkinabè en Agriculture Biologique - BF
42 pages
612b64f6bede1composition 1 Niveau cm2 Epp Nandieplekaha 2014 20
100% (1)
612b64f6bede1composition 1 Niveau cm2 Epp Nandieplekaha 2014 20
3 pages
Sauvegarde Et Restauration D'un Serveur Informatique
100% (2)
Sauvegarde Et Restauration D'un Serveur Informatique
22 pages
Facture Electricite J
100% (1)
Facture Electricite J
1 page
Pompe Centrifuge
Pas encore d'évaluation
Pompe Centrifuge
4 pages
CM1 Probas L2
Pas encore d'évaluation
CM1 Probas L2
23 pages
HLA Et Pathologies 2024
Pas encore d'évaluation
HLA Et Pathologies 2024
20 pages
Longines - Cal. 420 428 L846.3 L846.4 L847.3 L 847.4 Repair Manual - FR - en
Pas encore d'évaluation
Longines - Cal. 420 428 L846.3 L846.4 L847.3 L 847.4 Repair Manual - FR - en
28 pages
Goupilles Cylindriques Non Trempées ISO 2338 B
Pas encore d'évaluation
Goupilles Cylindriques Non Trempées ISO 2338 B
1 page
Bataille et Stratégie à Fort Boueux
Pas encore d'évaluation
Bataille et Stratégie à Fort Boueux
3 pages
Daikin CODES D'ERREUR VRV PDF
Pas encore d'évaluation
Daikin CODES D'ERREUR VRV PDF
18 pages
Exercice 2Thevenin-Norton
Pas encore d'évaluation
Exercice 2Thevenin-Norton
25 pages
2.la Mobilisation Auto-Passive
Pas encore d'évaluation
2.la Mobilisation Auto-Passive
3 pages
La Lumière de L'ombre
Pas encore d'évaluation
La Lumière de L'ombre
8 pages
Exercices de Méthodes Numériques en Génie
Pas encore d'évaluation
Exercices de Méthodes Numériques en Génie
3 pages
Darwin : Origines et Sélection sexuelle
Pas encore d'évaluation
Darwin : Origines et Sélection sexuelle
491 pages
Conduite À Tenir Devant Une Grosse Prostate
Pas encore d'évaluation
Conduite À Tenir Devant Une Grosse Prostate
13 pages
Exploitation Des Reseaux
Pas encore d'évaluation
Exploitation Des Reseaux
6 pages
VHDL - FPGA - Cours - Chap - V Exemple de FPGA La Famille Spartan-6
Pas encore d'évaluation
VHDL - FPGA - Cours - Chap - V Exemple de FPGA La Famille Spartan-6
14 pages
Biochimie Lipidique et Athérogenèse
Pas encore d'évaluation
Biochimie Lipidique et Athérogenèse
8 pages
TP Chromatographie Du Sirop de Menthe
100% (4)
TP Chromatographie Du Sirop de Menthe
9 pages
TRHT Ap MT 00 Oo 003 3
100% (1)
TRHT Ap MT 00 Oo 003 3
74 pages
Tapcon 240
Pas encore d'évaluation
Tapcon 240
76 pages
Fiche 15 Amelioration Et Protection Des Sols 2
Pas encore d'évaluation
Fiche 15 Amelioration Et Protection Des Sols 2
5 pages
Fiche-Installer-Une-Prise RJ 45
Pas encore d'évaluation
Fiche-Installer-Une-Prise RJ 45
5 pages
Physiologie de la digestion expliquée
Pas encore d'évaluation
Physiologie de la digestion expliquée
26 pages
Groupes Aliments Et Equivalences Alimenatires
Pas encore d'évaluation
Groupes Aliments Et Equivalences Alimenatires
25 pages
Sorts et compétences des druides
Pas encore d'évaluation
Sorts et compétences des druides
1 page
Le Transport TIR (Transport International Routier) Entraves Et Axes D'amélioration. Cas de GEFCO Au Maroc
Pas encore d'évaluation
Le Transport TIR (Transport International Routier) Entraves Et Axes D'amélioration. Cas de GEFCO Au Maroc
1 page