0% ont trouvé ce document utile (0 vote)

165 vues6 pages

Stat

Le document décrit l'analyse exploratoire de données et la construction d'un modèle de régression linéaire multiple. Il présente les étapes clés de l'EDA, de la division des données en ensembles d'entraînement et de test à l'interprétation et à la validation du modèle.

Transféré par

MééD ElboU

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

165 vues6 pages

Stat

Transféré par

MééD ElboU

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Notre dataset contient des observations sur le pourcentage de personnes se rendant au

travail à vélo chaque jour, le pourcentage de fumeurs et le pourcentage de personnes

souffrant de maladies cardiaques dans un échantillon imaginaire de 500 villes.

Overview – Linear Regression

En statistique, la régression linéaire est utilisée pour modéliser une relation entre une
variable dépendante continue et une ou plusieurs variables indépendantes. La variable
indépendante peut être qualitative ou quantitative. Le cas où nous n'avons qu'une seule
variable indépendante, cela s'appelle une régression linéaire simple. Si nous avons plus
d'une variable indépendante, cela s'appelle une régression multivariée ou multiple.

Une représentation mathématique d'un modèle de régression linéaire multiple est la

Y i=β 0 + β 1 × X 1 + β 2 × X 2 +…+ β n × X n + ε i

Dans l'équation ci-dessus, le coefficient β_0 représente l'interception et le coefficient β_i

représente la pente.

Examinons les six principales observations des données de notre dataset.

Insert output

Exploratory Data Analysis

L'exercice d'analyse exploratoire des données est essentiel à tout projet lié à a la
modelisation statistique. C'est une approche pour comprendre et synthétiser les principales
caractéristiques d'une donnée donnée. La plupart du temps, cela implique le découpage en
tranches et en dés des données à différents niveaux, et les résultats sont souvent présentés
avec des méthodes visuelles. S'il est fait correctement, il peut révéler de nombreux aspects
des données, ce qui nous aidera sûrement à créer de meilleurs modèles.

Chaque ensemble de données est différent et, par conséquent, il n'est pas facile de
répertorier les étapes à suivre dans le cadre de l'exploration des données. Cependant, la clé
d'une EDA réussie est de continuer à poser les questions qui, selon nous, aident à résoudre
le problème commercial ou à formuler toutes sortes d'hypothèses, puis de les tester à l'aide
de tests statistiques appropriés.
En d'autres termes, essayez de déterminer s'il existe une relation statistiquement
significative entre la cible et les variables indépendantes. Quelles sont les choses qui
dérivent des variables cibles ?

Voici quelques éléments que nous devrions envisager d'explorer d'un point de vue
statistique :
1. Checking distribution of target variable : Tout d'abord, nous allons essayer de
comprendre la nature de notre variable cible. Pour ce faire, nous allons
dessiner un histogramme avec un diagramme de densité.
Insert output and commentary
2. Analyzing Summary Statistics : Ici, nous allons simplement créer des
statistiques récapitulatives pour toutes les variables afin de comprendre le
comportement de toutes les variables indépendantes. Il fournira également
des informations sur les valeurs manquantes ou les valeurs aberrantes, le cas
échéant
Insert output and commentary
3. Checking Outliers Using Boxplots : Nous utilisons une boîte à moustaches pour
tracer la distribution de chaque variable numérique afin de vérifier les valeurs
aberrantes. Si les points se situent au-delà des chuchotements, alors nous
avons des valeurs aberrantes présentes. Pour l'instant, nous nous contentons
d'une analyse univariée des valeurs aberrantes.
Insert output and commentary
4. Correlation Matrix Visualization : Nous utiliserons le package corrgram pour
visualiser et analyser la matrice de corrélation.
Insert output and commentary

Training Regression Model

Pour construire une régression linéaire, nous utiliserons la fonction lm(). La fonction
prend deux arguments principaux.

 Formule indiquant les variables dépendantes et indépendantes séparées par

~(tilder).
 Le nom du jeu de données.
Diving data into train and test subsets.
Les données sont divisées en 70:30 d’entrainement et de test. La répartition 70:30 est la plus
courante et est principalement utilisée pendant la phase d'entraînement. 70 % des données
sont utilisées pour la formation, et les 30 % restants servent à tester la qualité de notre
model .

Insert output and commentary

Building Model
Insert output and commentary
Interpreting Regression Coefficients
Dans la sortie ci-dessus, Intercept représente la valeur minimale de ‘’ ‘’ qui sera reçue, si
toutes les variables sont constantes ou absentes.

Validating Regression Coefficients

and Models
Nous devons nous assurer que la valeur de chaque coefficient bêta est significative et n'est
pas venue par hasard. Dans R, la fonction lm exécute un t-test à un échantillon par rapport à
chaque coefficient bêta pour s'assurer qu'ils sont significatifs et ne sont pas venus par
hasard. De même, nous devons valider le modèle global. Tout comme un t-test à un
échantillon, la fonction lm génère également trois statistiques, qui aident les scientifiques
des données à valider le modèle. Ces statistiques incluent R-Square, R-Square ajusté et F-
test, également connu sous le nom de test global.

Pour afficher ces statistiques, nous devons passer l'objet lmModel à la fonction summary().

Insert output and commentary

Dans la sortie ci-dessus, Pr(>|t|) représente la valeur p, qui peut être comparée à la valeur
alpha de 0,05 pour vérifier si le coefficient bêta correspondant est significatif ou non. La
fonction lm prête ici un coup de main. Toutes les valeurs de la sortie qui ont un point (.) ou
un astrique (*) par rapport aux noms de variable indiquent que ces valeurs sont
significatives. Sur cette base, nous savons maintenant que toutes les variables sont
statistiquement significatives, à l'exception de ‘’ ‘’.

Pour la précision globale du modèle, discutons des statistiques générées par la fonction lm
une par une.

1. R-carré multiple : ‘’ ‘’ – La valeur R-carré est formellement appelée coefficient de

détermination. Ici, ‘’ ‘’ indique que les variables d'interception, ‘’ ‘’, lorsqu'elles sont mises
ensemble, peuvent expliquer ‘’ ‘’% de la variance de la variable ‘’ ‘’. La valeur de R au carré est
comprise entre 0 et 1. Dans les applications pratiques, si la valeur R2 est supérieure à 0,70,
nous considérons qu'il s'agit d'un bon modèle.

2. R-carré ajusté : ‘’ ‘’ – La valeur du R-carré ajusté indique si l'ajout de nouvelles informations

(variable) apporte ou non une amélioration significative au modèle. Donc, pour l'instant,
cette valeur ne fournit pas beaucoup d'informations. Cependant, l'augmentation de la valeur
R au carré ajustée avec l'ajout d'une nouvelle variable indiquera que la variable est utile et
apporte une amélioration significative au modèle.

3. F-statistic : ‘’ ‘’ sur ‘’ ‘’ et ‘’ ‘’ DF, p-value : < ‘’ ‘’– Cette ligne parle du test global du modèle. La
fonction lm exécute un test ANOVA pour vérifier la signification du modèle global. Ici,
l'hypothèse nulle est que le modèle n'est pas significatif, et l'alternative est que le modèle est
significatif. D'après les p-values < 0,05, notre modèle est significatif.

Cependant, il suffit de regarder ces statistiques pour prendre un appel sur la signification du
modèle. Mais il existe d'autres méthodes de validation pour la régression linéaire qui
peuvent être utiles pour décider si le modèle est bon ou mauvais. Certains d'entre eux sont
mentionnés ci-dessous:
4. Valeurs AIC et BIC - L'AIC (critère d'information d'Akaike, 1974) et le BIC (critère
d'information bayésien, 1978) sont des critères de probabilité pénalisés. Ces deux mesures
utilisent une « mesure d'ajustement + pénalité de complexité » pour obtenir les valeurs
finales.

AIC = – 2 * ln(vraisemblance) + 2 * p

BIC = – 2 * ln(probabilité) + ln(N) * p

Ici p = nombre de paramètres estimés et N = taille de l'échantillon.

Les valeurs AIC et BIC peuvent être utilisées pour choisir les meilleurs sous-ensembles de
prédicteurs dans la régression et pour comparer différents modèles. Lors de la comparaison
de différents modèles, le modèle avec les valeurs AIC et BIC minimales est considéré comme
le meilleur modèle.

Noter

AIC est susceptible de sur-ajuster les données, tandis que BIC est susceptible de sous-ajuster
les données.

Insert output

Checking Assumptions of Linear

Regression
La régression linéaire est paramétrique, ce qui signifie que l'algorithme fait certaines
hypothèses sur les données. Un modèle de régression linéaire n'est jugé adapté que si ces
hypothèses sont satisfaites. Il y a environ quatre hypothèses et sont mentionnées ci-
dessous. Si le modèle ne respecte pas ces hypothèses, nous ne pouvons tout simplement
pas utiliser ce modèle.

1. Les erreurs doivent suivre la distribution normale - Cela peut être vérifié en dessinant
un histogramme des résidus ou en utilisant la fonction plot(). La fonction de tracé
crée 4 graphiques différents. L'un d'eux est une NPP. Le graphique confirme si les
erreurs suivent une distribution normale ou non.
Generating histogram
Insert output and commentary

Generating NPP plot

Insert output and commentary

2. Il ne doit pas y avoir d'hétéroscédasticité - Cela signifie que la variance des termes
d'erreur doit être constante. Nous ne verrons aucun pattern lorsque nous tracerons
un graphique entre les résidus et les valeurs ajustées. Et la ligne moyenne devrait
être proche de zéro.

Generating the scatterplot between residuals and fitted values

3. Il ne devrait pas y avoir de multicolinéarité – Le modèle linéaire suppose que les
variables prédictives ne sont pas corrélées entre elles. S'ils présentent une
corrélation élevée, c'est un problème et on parle de multicolinéarité. Un test du
facteur d'inflation de variation peut aider à vérifier l'hypothèse de multicolinéarité.

VIF = 1/(1-R2)
VIF est un processus itératif. La fonction supprime une variable à la fois, ce qui est à
l'origine de la multicolinéarité et répète le processus jusqu'à ce que toutes les
variables à l'origine du problème soient supprimées. Donc, finalement, il nous reste
la liste des variables qui n'ont pas ou très peu de corrélation entre elles.

Insert output and commentary

3. Il ne devrait pas y avoir de corrélation sérielle automatique - L'autocorrélation signifie
que les termes d'erreur ne doivent pas être corrélés les uns avec les autres. Pour
vérifier cela, nous pouvons exécuter le test de Durbin-Watson (test dw). Le test
renvoie une valeur comprise entre 0 et 4. Si la valeur est deux, nous disons qu'il n'y a
pas de corrélation sérielle automatique. Cependant, une valeur supérieure à 2
représente une corrélation (-) ve et une valeur inférieure à 2 représente une
corrélation (+) ve.

Insert output and commentary

Predicting Dependent Variable(Y) in Test Dataset
Nous testons les performances du modèle sur un ensemble de données de test pour nous
assurer que notre modèle est stable, et nous obtenons des résultats identiques ou
suffisamment proches pour utiliser ce modèle formé pour prédire et prévoir les valeurs
futures des variables dépendantes. Pour prédire, nous utilisons la fonction de prédiction,
puis nous générons une valeur R-Squared pour voir si nous obtenons ou non le même
résultat que celui obtenu dans l'ensemble de données d'apprentissage.

Insert output and commentary

Generating R-Squared Value for the test dataset
Insert output and commentary
Conclusion:

Vous aimerez peut-être aussi

RégressionLineaire VF
100% (1)
RégressionLineaire VF
32 pages
Regression HD
Pas encore d'évaluation
Regression HD
64 pages
Régression Linéaire: Guide Pratique
Pas encore d'évaluation
Régression Linéaire: Guide Pratique
130 pages
Modelisation Statistique ENSGMM
Pas encore d'évaluation
Modelisation Statistique ENSGMM
27 pages
Régression Linéaire Simple et Modèles Statistiques
100% (1)
Régression Linéaire Simple et Modèles Statistiques
51 pages
2 - Apprentissage Supervisé
Pas encore d'évaluation
2 - Apprentissage Supervisé
10 pages
ML-BDIO&MIT Chap II Regression Linéaire
Pas encore d'évaluation
ML-BDIO&MIT Chap II Regression Linéaire
56 pages
Partie 2-1 Régression Linéaire Simple
Pas encore d'évaluation
Partie 2-1 Régression Linéaire Simple
25 pages
Régression Linéaire Simple en Python
Pas encore d'évaluation
Régression Linéaire Simple en Python
11 pages
Régression Linéaire avec R: Guide Complet
Pas encore d'évaluation
Régression Linéaire avec R: Guide Complet
27 pages
Chap 3 Régression
100% (1)
Chap 3 Régression
17 pages
Regression Lineaire Ols
Pas encore d'évaluation
Regression Lineaire Ols
63 pages
REGRESSION
Pas encore d'évaluation
REGRESSION
16 pages
Régression Linéaire Simple: Concepts et Estimations
Pas encore d'évaluation
Régression Linéaire Simple: Concepts et Estimations
7 pages
Regression Linéaire Simple PDF
Pas encore d'évaluation
Regression Linéaire Simple PDF
7 pages
9191modele Lineaire
Pas encore d'évaluation
9191modele Lineaire
155 pages
Régression Linéaire
Pas encore d'évaluation
Régression Linéaire
6 pages
TD 3
Pas encore d'évaluation
TD 3
6 pages
R Cours7
Pas encore d'évaluation
R Cours7
37 pages
Modèle linéaire en actuariat 2022-2023
Pas encore d'évaluation
Modèle linéaire en actuariat 2022-2023
49 pages
Régression Linéaire Multiple sous Excel
Pas encore d'évaluation
Régression Linéaire Multiple sous Excel
27 pages
Chapitre 2 ML
Pas encore d'évaluation
Chapitre 2 ML
50 pages
Analyse de la régression linéaire multiple
Pas encore d'évaluation
Analyse de la régression linéaire multiple
31 pages
Regression Lineaire
Pas encore d'évaluation
Regression Lineaire
106 pages
Modelisation
Pas encore d'évaluation
Modelisation
24 pages
Régression Linéaire Multiple
Pas encore d'évaluation
Régression Linéaire Multiple
26 pages
Seance5 Régression Simple
Pas encore d'évaluation
Seance5 Régression Simple
27 pages
Métriques de Régression en Data Science
Pas encore d'évaluation
Métriques de Régression en Data Science
27 pages
CH 9 - Droite de Régression
Pas encore d'évaluation
CH 9 - Droite de Régression
11 pages
A Lire GLM 1
Pas encore d'évaluation
A Lire GLM 1
293 pages
Chap 2
Pas encore d'évaluation
Chap 2
34 pages
La Regression
Pas encore d'évaluation
La Regression
3 pages
M13 PDF
Pas encore d'évaluation
M13 PDF
26 pages
Régression Linéaire
Pas encore d'évaluation
Régression Linéaire
18 pages
Analyse de la régression linéaire
Pas encore d'évaluation
Analyse de la régression linéaire
31 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
19 pages
Régression Linéaire Simple Et Multiple
Pas encore d'évaluation
Régression Linéaire Simple Et Multiple
13 pages
QM - Leçon 6-vbb
Pas encore d'évaluation
QM - Leçon 6-vbb
16 pages
Introduction à la Régression Linéaire
100% (1)
Introduction à la Régression Linéaire
49 pages
Régression Linéaire Simple: Concepts et Applications
Pas encore d'évaluation
Régression Linéaire Simple: Concepts et Applications
32 pages
Méthode Linéaire Gaussienne Simple
Pas encore d'évaluation
Méthode Linéaire Gaussienne Simple
60 pages
Probabilité Et Statistiques - Partie 6 - Régression
Pas encore d'évaluation
Probabilité Et Statistiques - Partie 6 - Régression
49 pages
Prévisions Quantitatives et Régression
100% (6)
Prévisions Quantitatives et Régression
25 pages
Régression linéaire et moindres carrés
100% (1)
Régression linéaire et moindres carrés
9 pages
RMSE et régression avec scikit-learn
Pas encore d'évaluation
RMSE et régression avec scikit-learn
5 pages
Chapitre 4 Regression Generalities
Pas encore d'évaluation
Chapitre 4 Regression Generalities
9 pages
CM08 Diagnostic Regression
Pas encore d'évaluation
CM08 Diagnostic Regression
54 pages
Notes D'étude Sur Les Méthodes Quantitatives Du CFA Niveau II
Pas encore d'évaluation
Notes D'étude Sur Les Méthodes Quantitatives Du CFA Niveau II
10 pages
Vijaya Liinéaire
Pas encore d'évaluation
Vijaya Liinéaire
16 pages
Exer Modelisation
Pas encore d'évaluation
Exer Modelisation
11 pages
Variables Expliquées et Explicatives
Pas encore d'évaluation
Variables Expliquées et Explicatives
20 pages
ML-BDIO&MIT Chap II Regression Linéaire
Pas encore d'évaluation
ML-BDIO&MIT Chap II Regression Linéaire
59 pages
Mi Session Pratique
Pas encore d'évaluation
Mi Session Pratique
10 pages
Chapitre 7-2 Analyse Des Donnees New-Finale 2025
Pas encore d'évaluation
Chapitre 7-2 Analyse Des Donnees New-Finale 2025
77 pages
Régression Logistique en Biomédical
Pas encore d'évaluation
Régression Logistique en Biomédical
27 pages
Régression Linéaire : Concepts et Méthodes
Pas encore d'évaluation
Régression Linéaire : Concepts et Méthodes
13 pages
Régression linéaire simple
Pas encore d'évaluation
Régression linéaire simple
10 pages
Incendie Chap IV
Pas encore d'évaluation
Incendie Chap IV
17 pages
Promotion des Femmes au Bénin : Stratégies et Actions
Pas encore d'évaluation
Promotion des Femmes au Bénin : Stratégies et Actions
129 pages
Brésil : Opportunités et Développement Durable
Pas encore d'évaluation
Brésil : Opportunités et Développement Durable
26 pages
Pendule Elastique Exercices Non Corriges 3
Pas encore d'évaluation
Pendule Elastique Exercices Non Corriges 3
6 pages
Convocation Concours Geipi Polytech 2023
Pas encore d'évaluation
Convocation Concours Geipi Polytech 2023
3 pages
Bilan Social en Ressources Humaines
Pas encore d'évaluation
Bilan Social en Ressources Humaines
33 pages
DM2 Cylindres Dielectriques
Pas encore d'évaluation
DM2 Cylindres Dielectriques
1 page
Cours Diagnostic Territorial
Pas encore d'évaluation
Cours Diagnostic Territorial
12 pages
RSView ME : Guide pour Développeurs
Pas encore d'évaluation
RSView ME : Guide pour Développeurs
4 pages
Fiche D'exercices N°9
Pas encore d'évaluation
Fiche D'exercices N°9
3 pages
Mesure de la Masse : Grammes et Kilogrammes
Pas encore d'évaluation
Mesure de la Masse : Grammes et Kilogrammes
16 pages
Rapport de Stage à l'ISTA Kolwezi
Pas encore d'évaluation
Rapport de Stage à l'ISTA Kolwezi
8 pages
Diapo Memoire Upl GRH - 101528
Pas encore d'évaluation
Diapo Memoire Upl GRH - 101528
12 pages
Champ Magnétostatique et Symétries
Pas encore d'évaluation
Champ Magnétostatique et Symétries
10 pages
Brochure MDC FR
Pas encore d'évaluation
Brochure MDC FR
70 pages
Exercices d'informatique théorique
Pas encore d'évaluation
Exercices d'informatique théorique
7 pages
NF en 13101
Pas encore d'évaluation
NF en 13101
41 pages
Réhabilitation de l'eau à Douhoua
Pas encore d'évaluation
Réhabilitation de l'eau à Douhoua
17 pages
Interview
Pas encore d'évaluation
Interview
2 pages
Examen Simili 4 Maths
Pas encore d'évaluation
Examen Simili 4 Maths
3 pages
Projet Travaux de VRD P/S Des 350 Logts Lpl+300 Logts Aadl A El Hamri Commune de Chetouane
Pas encore d'évaluation
Projet Travaux de VRD P/S Des 350 Logts Lpl+300 Logts Aadl A El Hamri Commune de Chetouane
9 pages
Manuel Technique MD4 Konecranes
Pas encore d'évaluation
Manuel Technique MD4 Konecranes
86 pages
Extensions de Merise 2 : Modélisation BD
Pas encore d'évaluation
Extensions de Merise 2 : Modélisation BD
4 pages
Amélioration de la disponibilité électrique
Pas encore d'évaluation
Amélioration de la disponibilité électrique
79 pages
Examen Strategie de Maintenance 2019
Pas encore d'évaluation
Examen Strategie de Maintenance 2019
2 pages
4e Leaon Fractions Gotz851vtq
Pas encore d'évaluation
4e Leaon Fractions Gotz851vtq
4 pages
Personnalisation de La Gestion Des Lots
Pas encore d'évaluation
Personnalisation de La Gestion Des Lots
76 pages
Étude Géotechnique Station d'Épuration
100% (1)
Étude Géotechnique Station d'Épuration
23 pages
Coupe A-A Echelle 1:2 / Section A-A SCALE 1:2 A2 A2 C H: Groove SC For Seal 5,3
Pas encore d'évaluation
Coupe A-A Echelle 1:2 / Section A-A SCALE 1:2 A2 A2 C H: Groove SC For Seal 5,3
1 page
Français Langue Seconde: Concepts et Évolutions
Pas encore d'évaluation
Français Langue Seconde: Concepts et Évolutions
238 pages