0% ont trouvé ce document utile (0 vote)
54 vues16 pages

REGRESSION

Transféré par

Omayma Boukataya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
54 vues16 pages

REGRESSION

Transféré par

Omayma Boukataya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

République tunisienne

République tunisienne Ministère de l’enseignement supérieur et de recherche


Université de Sfax
L’école nationale des ingénieurs de Sfax

Master de recherche
Système électrique et énergie renouvelables
SEER

MINI PROJET

REGRESSION LINEAIRE

REALISE PAR ENCADRANT ACADEMIQUE


BOUKATAYA Omayma Mr GASSARA Hamdi

Année universitaire 2024/2025


Méthode de régression linéaire
I. Introduction :
La méthode de régression linéaire est une technique statistique puissante utilisée pour modéliser
et prédire la relation entre une variable dépendante et une ou plusieurs variables indépendantes.
Je vais analyser les concepts fondamentaux de la régression linéaire, ses hypothèses, ses
techniques d'estimation, les méthodes d'évaluation de la qualité du modèle, et ses applications
pratiques. De plus, j’aborderai les limites et les extensions de cette méthode.

1. Définition de la régression linéaire :

La régression linéaire est une technique statistique qui permet d'établir une relation linéaire entre
une variable dépendante (Y) et une ou plusieurs variables indépendantes (X).

2. Historique de la Régression Linéaire :

Origines et développement :

La régression linéaire a été développée au 19ème siècle par Francis Galton, qui a introduit le
concept de corrélation. Karl Pearson a ensuite formalisé ces idées, posant les bases des méthodes
statistiques modernes. La première utilisation de la régression linéaire pour prédire des résultats a
été faite dans le domaine de l'agriculture.

Contributions clés :

Des chercheurs comme Ronald Fisher ont joué un rôle crucial dans l'avancement des méthodes
statistiques, y compris la régression. Fisher a introduit des techniques d'analyse de variance qui
sont devenues essentielles pour l'évaluation des modèles de régression. Son livre "Statistical
Methods for Research Workers" a été un tournant dans le domaine.
3. Objectif de la régression linéaire :

L'objectif principal de la régression linéaire est de trouver une ligne droite qui représente au mieux
la relation entre les variables. Cette ligne droite est appelée "ligne de régression", et elle est définie
par une équation mathématique qui permet de prédire la valeur de Y en fonction de X.

La régression linéaire peut être utilisée pour répondre à plusieurs questions, notamment :

 Prédire la valeur d'une variable dépendante en fonction de la valeur d'une ou plusieurs


variables indépendantes.
 Identifier l'influence des variables indépendantes sur la variable dépendante.
 Évaluer la force de la relation entre les variables.

4. Hypothèses de la régression linéaire et équations :


La régression linéaire repose sur un certain nombre d'hypothèses qui doivent être vérifiées pour
assurer la validité du modèle.
 Linéarité :
La relation entre la variable dépendante et la variable indépendante doit être linéaire.
 Indépendance :
Les erreurs de prédiction doivent être indépendantes les unes des autres.
 Normalité :
Les erreurs de prédiction doivent suivre une distribution normale.
 Homoscédasticité :
La variance des erreurs de prédiction doit être constante pour toutes les valeurs de la
variable indépendante.
L'équation de la régression linéaire simple est la suivante :
Y = β0 + β1X + ε
Où:
 Y est la variable dépendante.
 X est la variable indépendante.
 β0 est l'ordonnée à l'origine (l'intercept).
 β1 est la pente de la droite de régression.
 ε est l'erreur de prédiction.
L'équation de la régression linéaire multiple est similaire, mais elle inclut plusieurs variables
indépendantes :
Y = β0 + β1X1 + β2X2 + ... + βnXn + ε
Où :
 Y est la variable dépendante.
 X1, X2, ..., Xn sont les variables indépendantes.
 β0, β1, β2, ..., βn sont les coefficients de régression.
 ε est l'erreur de prédiction.

Voici un tableau comparatif succinct qui résume les différences entre la régression linéaire simple
et la régression linéaire multiple :
Critère Régression Linéaire Simple Régression Linéaire Multiple
Nombre de Variables Une seule variable indépendante (X) Deux variables indépendantes ou plus
(X1, X2, ...)
Forme du Modèle Y=a+bXY=a+bX Y=a+b1X1+b2X2+…+bnXnY=a+b1
X1+b2X2+…+bnXn
Complexité Moins complexe, facile à visualiser Plus complexe, difficile à visualiser
(2D) (multidimensionnel)
Interprétation des Coefficient bb : effet d'un changement Chaque coefficient bibi : effet d'un
Coefficients d'une unité de XX sur YY changement d'une unité de XiXi
sur YY, en tenant compte des autres
variables
Applications Analyse d'impact d'une seule variable Analyse d'impact de plusieurs
variables
Hypothèses Simples, mais vérifications de base Simples + vérifications
supplémentaires (multicolinéarité)

La régression linéaire simple est utilisée pour des analyses simples avec une seule variable, tandis
que la régression linéaire multiple est utilisée pour des analyses plus complexes impliquant
plusieurs variables.

5. Estimation des coefficients de régression et équations :


L'objectif de la régression linéaire est d'estimer les coefficients de régression (β0, β1, β2, ..., βn)
qui minimisent la somme des carrés des erreurs de prédiction.
La méthode la plus couramment utilisée pour estimer les coefficients de régression est la méthode
des moindres carrés.
Cette méthode consiste à trouver la ligne droite qui minimise la somme des carrés des distances
verticales entre les points de données et la droite de régression.
Les coefficients de régression estimés sont souvent notés b0, b1, b2, ..., bn.
Une fois les coefficients de régression estimés, l'équation de régression peut être utilisée pour
prédire la valeur de Y en fonction de la valeur de X :
Y = b0 + b1X + ε
Ou, pour la régression multiple :
Y = b0 + b1X1 + b2X2 + ... + bnXn + ε
6. techniques fondamentales utilisé pour la régression linéaire et ses
équations :
La régression linéaire simple est l'un des outils les plus couramment utilisés pour la prédiction et
l'analyse. Il existe de nombreuses techniques pour la régression linéaire, qui peuvent être classées
en deux catégories principales :
 Régression linéaire simple : Cette technique implique une variable dépendante et une
seule variable indépendante. Elle est utilisée pour analyser l'impact d'une seule variable
indépendante sur une variable dépendante.
 Régression linéaire multiple : Cette technique implique une variable dépendante et
plusieurs variables indépendantes. Elle est utilisée pour analyser l'impact de plusieurs
variables indépendantes sur une variable dépendante.
7. Évaluation de la qualité du modèle
Une fois le modèle de régression linéaire créé, il est important d'évaluer sa qualité pour déterminer
s'il est adapté aux données et s'il peut être utilisé pour faire des prédictions précises. Il existe
plusieurs indicateurs statistiques qui peuvent être utilisés pour évaluer la qualité du modèle :
7.1.Coefficient de détermination (R²) :
Mesure la proportion de la variance de la variable dépendante expliquée par le modèle. Un R² élevé
indique que le modèle explique une grande partie de la variance de la variable dépendante.
Il varie entre 0 et 1, où :
 (𝑅 2 = 0) : le modèle n'explique aucune variance des données.
 (𝑅 2 = 1) : le modèle explique toute la variance des données.
7.1.1. Formule du Coefficient de Détermination (𝑹𝟐 ) :
La formule pour calculer (𝑅 2 ) est la suivante :
𝑺𝑺𝒓é𝒔𝒊𝒅𝒖𝒔
𝑹𝟐 = 𝟏 −
𝑺𝑺𝒕𝒐𝒕𝒂𝒍
Où :
- SS désigne la somme des carrés.
- 𝑆𝑆𝑟é𝑠𝑖𝑑𝑢𝑠 (ou somme des carrés des erreurs) est calculée comme suit :
𝟐
𝑺𝑺𝒓é𝒔𝒊𝒅𝒖𝒔 = 𝚺( 𝒀𝒊 − 𝒀̂𝒊 )

Avec 𝒀𝒊 étant les valeurs observées et 𝒀̂𝒊 les valeurs prédites par le modèle.
- 𝑺𝑺𝒕𝒐𝒕𝒂𝒍 (ou somme des carrés totaux) est calculée comme suit :
̂ )𝟐
𝑺𝑺𝒓é𝒔𝒊𝒅𝒖𝒔 = 𝚺( 𝒀𝒊 − 𝒀
Où :
̂ est la moyenne des valeurs observées.
-𝒀
7.2.Erreur quadratique moyenne (RMSE):
Mesure la différence moyenne entre les valeurs observées et les valeurs prédites par le modèle.
Une RMSE faible indique que le modèle est précis.
 RMSE = 0 : Cela signifie que le modèle prédit parfaitement toutes les valeurs.
 Valeurs plus élevées de RMSE :
Indiquent une plus grande différence entre les valeurs observées et prédites, ce qui suggère
une moins bonne performance du modèle.
7.2.1. Formule de l'Erreur Quadratique Moyenne (RMSE)
La formule pour calculer le RMSE est la suivante :

𝟏 𝒏 𝟐
𝑹𝑴𝑺𝑬 = √ 𝚺𝒊=𝟏 𝚺( 𝒀𝒊 − 𝒀̂𝒊 )
𝒏

où :
 n est le nombre d'observations.
 Yi est la valeur observée.
 Y^ii est la valeur prédite par le modèle.

7.3.Test T :
Utilisé pour tester l'hypothèse nulle selon laquelle le coefficient de régression est égal à zéro. Un
test t significatif indique que le coefficient de régression est différent de zéro et que la variable
indépendante a un impact significatif sur la variable dépendante.
 Hypothèse nulle (H0) : Le coefficient de régression est égal à zéro (aucun effet).
 Hypothèse alternative (H1) : Le coefficient de régression est différent de zéro (il y a un
effet).
Le calcul du test T pour un coefficient de régression se fait avec la formule suivante :
̂
𝜷
𝑻=
̂
𝑺𝑬𝜷
Où :
 ̂ est le coefficient estimé.
𝜷
 ̂ est l'erreur standard du coefficient.
𝑺𝑬𝜷
La statistique T suit une distribution t de Student avec n−k−1 degrés de liberté, où n est le nombre
d'observations et k est le nombre de prédicteurs.
Interprétation
On compare la valeur absolue de T à la valeur critique de T pour un niveau de signification donné
(généralement 0,05).
7.4.Test F :
Utilisé pour tester l'hypothèse nulle selon laquelle tous les coefficients de régression sont égaux à
zéro. Un test F significatif indique que le modèle est significatif et qu'au moins l'une des variables
indépendantes a un impact significatif sur la variable dépendante.
Hypothèses :
 Hypothèse nulle (H0) : Tous les coefficients de régression sont égaux à zéro (le modèle
n'explique pas mieux que le modèle sans variables explicatives).
 Hypothèse alternative (H1) : Au moins un des coefficients de régression est différent de
zéro (le modèle explique mieux que le modèle sans variables explicatives).
Le calcul du test F se fait avec la formule suivante :
𝑴𝑺𝑹
𝑭=
𝑴𝑺𝑬
Où :
 MSR (Mean Square Regression) est la moyenne des carrés de la régression.
 MSE (Mean Square Error) est la moyenne des carrés de l'erreur.
Formules de Calcul
𝑺𝑺𝑹
 Calcul de MSR : 𝑴𝑺𝑹 = 𝑲

Où SSR est la somme des carrés de la régression et k est le nombre de prédicteurs.


𝑺𝑺𝑬
 Calcul de MSE : 𝑴𝑺𝑬 = 𝒏−𝒌−𝟏

Où SSE est la somme des carrés des erreurs et n est le nombre d'observations.
8. Interprétation des résultats :
Une fois que le modèle de régression linéaire a été créé et évalué, il est important d'interpréter les
résultats et de comprendre la relation entre les variables.
Les coefficients de régression indiquent l'impact de chaque variable indépendante sur la variable
dépendante. Un coefficient de régression positif indique que la variable indépendante a un impact
positif sur la variable dépendante, tandis qu'un coefficient de régression négatif indique que la
variable indépendante a un impact négatif sur la variable dépendante.
La pente de la droite de régression indique la variation de la variable dépendante pour une variation
d'une unité de la variable indépendante.
L'ordonnée à l'origine indique la valeur de la variable dépendante lorsque la variable indépendante
est égale à zéro.
Il est important de noter que les résultats de la régression linéaire ne sont valables que dans le cadre
des données utilisées pour créer le modèle. Si les données sont différentes, les résultats peuvent
changer.
9. Applications pratiques :
La régression linéaire est une technique statistique largement utilisée dans de nombreux domaines,
notamment :
 Prévision économique : La régression linéaire peut être utilisée pour prédire la croissance
économique, l'inflation, le chômage et d'autres indicateurs économiques.
 Marketing : La régression linéaire peut être utilisée pour prédire les ventes, la part de
marché et l'efficacité des campagnes marketing.
 Finance : La régression linéaire peut être utilisée pour prédire les rendements des actions,
les taux d'intérêt et les prix des actifs.
 Santé : La régression linéaire peut être utilisée pour prédire le risque de maladie, l'efficacité
des traitements et l'impact des facteurs de style de vie sur la santé.
 Ingénierie : La régression linéaire peut être utilisée pour prédire la performance des
produits, la fiabilité des systèmes et l'impact des variables environnementales sur les
processus.

10.Limites et extensions :
Malgré sa puissance et sa large applicabilité, la régression linéaire présente certaines limites :
 Linéarité : La régression linéaire suppose une relation linéaire entre la variable dépendante
et la variable indépendante. Si la relation est non linéaire, la régression linéaire ne sera pas
un bon modèle.
 Hypothèses : La régression linéaire repose sur un certain nombre d'hypothèses qui doivent
être vérifiées pour assurer la validité du modèle. Si les hypothèses ne sont pas vérifiées, les
résultats de la régression linéaire peuvent être biaisés.
 Données : La qualité des données utilisées pour créer le modèle de régression linéaire est
cruciale. Des données incorrectes ou incomplètes peuvent entraîner des résultats biaisés.

Il existe des extensions de la régression linéaire qui permettent d'aborder certaines de ces limites.
Par exemple, la régression non linéaire peut être utilisée pour modéliser les relations non linéaires,
tandis que la régression robuste peut être utilisée pour gérer les données aberrantes.
II. Recherche de la base donnée :
1. Source de données : Présentation du site AIRLIQUIDEUCI :
Le site AIRLIQUIDEUCI propose une base de données sur la qualité de l'air, contenant des
enregistrements provenant d'un dispositif multi sensoriel de gaz déployé dans une ville italienne.
Cette base de données a été mise à disposition le 22 mars 2016 et comprend des réponses moyennes
horaires de capteurs chimiques à oxyde métallique, ainsi que des références de concentrations de
gaz fournies par un analyseur certifié.
2. Caractéristiques du jeu de données :
 Instances : 9,358
 Caractéristiques : 15
 Type : Multivarié, Série Temporelle
 Domaine : Informatique
 Tâches associées : Régression
3. Description de la base de données trouvée :
Dans le cadre de cette étude, une recherche a été effectuée pour trouver une base de données
pertinente concernant les capteurs environnementaux.
Une base de données a été trouvée sur le site AIRLIQUIDEUCI, qui fournit des enregistrements
sur les concentrations horaires moyennes des gaz polluants, notamment le monoxyde de carbone
(CO) et le dioxyde d'azote (NO2).
Cette base est essentielle pour analyser l'impact des polluants atmosphériques sur la santé publique
et l'environnement.
4. Détails supplémentaires :
Les données ont été enregistrées entre mars 2004 et février 2005, représentant les enregistrements
les plus longs disponibles gratuitement pour des dispositifs de capteurs chimiques de qualité de
l'air déployés sur le terrain.
Les capteurs mesurent des concentrations horaires moyennes pour plusieurs polluants, tels que le
CO (monoxyde de carbone), les hydrocarbures non méthaniques, le benzène, les oxydes d'azote
(NOx) et le dioxyde d'azote (NO2).
Des valeurs manquantes sont indiquées par la valeur -200.
5. Développement du Code MATLAB :
5.1.Objectif du code :
Visualisation de la courbe de régression linéaire.
5.2.Description du code :
 Fonctionnalité :
Ce code MATLAB permet d'ouvrir un fichier CSV contenant des données sur les concentrations
de CO et NO2, d'effectuer un nettoyage des données, puis d'analyser la relation entre ces deux
polluants par le biais d'une régression linéaire.
 Étapes principales :
 Ouverture d'une boîte de dialogue pour sélectionner le fichier CSV.
 Chargement des données avec un séparateur approprié.
 Affichage et renommage des colonnes pour éviter les problèmes.
 Filtrage des valeurs invalides (-200) ou manquantes.
 Calcul du coefficient de corrélation entre CO et NO2.
 Visualisation des données à l'aide d'un graphique, incluant les points de données et
la droite de régression.
 Résultats :
Les résultats ont montré un coefficient de corrélation (r = 0.6833), indiquant une relation modérée
entre les deux polluants, ce qui suggère qu'il existe une certaine association entre leurs
concentrations dans l'air ambiant.
La figure montre la corrélation entre les concentrations de CO (variable indépendante) et de NO2
(variable dépendante) mesurées sur le terrain.
Les points bleus représentent les données observées.
La droite de régression linéaire (en rouge) a été ajoutée pour illustrer la relation linéaire entre les
deux variables. Cette droite de régression a été calculée à l'aide de la méthode des moindres carrés,
qui permet d'estimer les coefficients de la régression linéaire (ordonnée à l'origine et pente).
Le coefficient de corrélation (r) calculé est de 0.6833.
Ce coefficient indique que la relation entre les concentrations de CO et de NO2 est moyennement
forte, avec une fiabilité moyenne selon les critères d'interprétation fournis.
Cela signifie que le modèle de régression linéaire peut être utilisé pour prédire la concentration de
NO2 à partir de la concentration de CO, mais avec une certaine marge d'erreur. Des analyses
complémentaires seraient nécessaires pour améliorer la fiabilité du modèle, par exemple en
intégrant d'autres variables explicatives.
En résumé, cette figure permet de visualiser la relation linéaire entre les concentrations de CO et
de NO2, ainsi que d'évaluer la qualité du modèle de régression linéaire à l'aide du coefficient de
corrélation.
Conclusion :
La régression linéaire est une technique statistique puissante permettant de modéliser et de prédire
la relation entre une variable dépendante et une ou plusieurs variables indépendantes.
Dans le cadre de cette étude, j’ai appliqué la régression linéaire pour analyser la corrélation entre
les concentrations de monoxyde de carbone (CO) et de dioxyde d'azote (NO2) mesurées par un
réseau de capteurs.
L'analyse a montré un coefficient de corrélation (r) de 0,6833, indiquant une relation modérée entre
les deux polluants. Cela signifie que le modèle de régression linéaire peut être utilisé pour prédire
la concentration de NO2 à partir de la concentration de CO, mais avec une certaine marge d'erreur.
Bien que le modèle soit moyennement fiable, cette étude démontre l'utilité de la régression linéaire
pour comprendre les liens entre les différents polluants atmosphériques.
Les résultats obtenus peuvent être utiles pour mieux appréhender l'impact des émissions de CO sur
les niveaux de NO2 et ainsi améliorer la gestion de la qualité de l'air.
Cependant, il est important de noter que la fiabilité du modèle pourrait être améliorée en intégrant
d'autres variables explicatives, telles que des facteurs météorologiques ou des données sur les
sources d'émission.
Des analyses complémentaires seraient nécessaires pour affiner le modèle et en accroître la
précision.
Dans l'ensemble, cette étude démontre l'intérêt de la régression linéaire comme outil d'analyse des
données environnementales et ouvre la voie à de futures recherches visant à mieux comprendre les
interactions complexes entre les différents polluants atmosphériques.
Programme MATLAB :
% Ouvrir une boîte de dialogue pour sélectionner le fichier CSV
[filename, pathname] = uigetfile('*.csv', 'Sélectionnez un fichier CSV');

% Vérifier si un fichier a été sélectionné


if isequal(filename, 0)
disp('Aucun fichier sélectionné');
else
% Charger les données avec un séparateur de point-virgule
data = readtable(fullfile(pathname, filename), 'Delimiter', ';');

% Afficher les noms des colonnes


disp('Noms des colonnes :');
disp(data.Properties.VariableNames);

% Renommer les colonnes pour éviter les problèmes


data.Properties.VariableNames = strrep(data.Properties.VariableNames, '(',
'_');
data.Properties.VariableNames = strrep(data.Properties.VariableNames, ')',
'');

% Afficher les nouveaux noms des colonnes


disp('Nouveaux noms des colonnes :');
disp(data.Properties.VariableNames);

% Définir les noms des colonnes


CO_column = 'CO_GT_';
NO2_column = 'NO2_GT_';

% Vérifier si les colonnes existent


if ismember(CO_column, data.Properties.VariableNames) &&
ismember(NO2_column, data.Properties.VariableNames)
% Récupérer les colonnes
CO_data_raw = data.(CO_column);
NO2_data_raw = data.(NO2_column);

% Traiter les données selon leur type


if iscell(CO_data_raw)
% Si c'est une cellule, convertir en texte
CO_data_cleaned = strrep(cellfun(@char, CO_data_raw,
'UniformOutput', false), ',', '.');
CO_data_numeric = str2double(CO_data_cleaned);
else
% Si c'est déjà numérique, pas besoin de conversion
CO_data_numeric = CO_data_raw;
end

if iscell(NO2_data_raw)
% Si c'est une cellule, convertir en texte
NO2_data_cleaned = strrep(cellfun(@char, NO2_data_raw,
'UniformOutput', false), ',', '.');
NO2_data_numeric = str2double(NO2_data_cleaned);
else
% Si c'est déjà numérique, pas besoin de conversion
NO2_data_numeric = NO2_data_raw;
end

% Filtrer les valeurs invalides (-200) ou manquantes


valid_indices = CO_data_numeric ~= -200 & NO2_data_numeric ~= -200 &
...
~isnan(CO_data_numeric) & ~isnan(NO2_data_numeric);
CO_data_filtered = CO_data_numeric(valid_indices);
NO2_data_filtered = NO2_data_numeric(valid_indices);

% Vérifier qu'il reste des données valides


if isempty(CO_data_filtered) || isempty(NO2_data_filtered)
error('Aucune donnée valide après le filtrage. Vérifiez votre
fichier CSV.');
end

% Calcul de la covariance entre CO et NO2


cov_XY = cov(CO_data_filtered, NO2_data_filtered);

% Calcul de la variance de CO et NO2


var_X = var(CO_data_filtered);
var_Y = var(NO2_data_filtered);

% Calcul du coefficient de corrélation


r = cov_XY(1, 2) / sqrt(var_X * var_Y);

% Afficher le coefficient de corrélation


disp('Coefficient de corrélation (r) :');
disp(r);

% Déterminer la fiabilité basée sur le coefficient de corrélation


if abs(r) >= 0.8
fiabilite = 'Le modèle est précis et fiable.';
elseif abs(r) >= 0.5
fiabilite = 'Le modèle est moyennement fiable.';
else
fiabilite = 'Le modèle est peu fiable.';
end

% Tracer les résultats


figure;
scatter(CO_data_filtered, NO2_data_filtered, 'b', 'filled'); % Points
de données
xlabel('Concentration de CO (GT)');
ylabel('Concentration de NO2 (GT)');
title('Corrélation entre CO et NO2');
grid on;

% Ajouter la droite de régression


% Calcul de la droite de régression (polynôme de degré 1)
p = polyfit(CO_data_filtered, NO2_data_filtered, 1);

% Calcul des valeurs de la droite de régression


y_fit = polyval(p, CO_data_filtered);

% Tracer la droite de régression


hold on; % Conserver le graphique existant
plot(CO_data_filtered, y_fit, '-r', 'LineWidth', 2); % Droite de
régression en rouge
legend('Données', 'Droite de régression', 'Location', 'Best');
hold off; % Libérer le graphique

% Afficher la fiabilité
disp(fiabilite);
else
error('Les colonnes spécifiées n''existent pas dans le tableau.');
end
end

Vous aimerez peut-être aussi