R 逐步和多元线性回归 [分步示例]

R 中的简单线性回归

线性回归回答了一个简单的问题：你能测量一个目标变量和一组预测变量之间的确切关系吗？

最简单的概率模型是直线模型：

协调

y = 因变量
x = 独立变量
= 随机误差分量
= 拦截
= x 的系数

考虑以下情节：

等式是是截距。如果 x 等于 0，y 将等于截距 4.77。是直线的斜率。它表示当 x 变化时 y 的变化比例。

估计最优值与，您可以使用名为 普通最小二乘法（OLS）。该方法试图找到最小化平方误差之和的参数，即预测的 y 值与实际 y 值之间的垂直距离。该差值称为 误差项.

在估计模型之前，您可以通过绘制散点图来确定 y 和 x 之间的线性关系是否合理。

散点图

我们将使用一个非常简单的数据集来解释简单线性回归的概念。我们将导入美国女性的平均身高和体重。该数据集包含 15 个观测值。您想测量身高是否与体重呈正相关。

library(ggplot2)
path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'
df <-read.csv(path)
ggplot(df,aes(x=height, y =  weight))+
geom_point()

输出：

散点图表明，随着 x 的增加，y 总体上呈增加趋势。在下一步中，您将测量每增加一个 y 会增加多少。

最小二乘估计

在简单的 OLS 回归中，计算与很简单。本教程的目的不是展示推导过程。您只需编写公式即可。

您想要估计：

OLS 回归的目标是最小化以下方程：

协调

是实际值并且是预测值。

解决方案 is

需要注意的是表示 x 的平均值

解决方案 is

在 R 中，你可以使用 cov() 和 var() 函数来估计你可以使用mean()函数来估计

beta <- cov(df$height, df$weight) / var (df$height)
beta

输出：

##[1] 3.45

alpha <- mean(df$weight) - beta * mean(df$height)
alpha

输出：

## [1] -87.51667

贝塔系数意味着身高每增加一米，体重就会增加 3.45。

手动估计简单的线性方程并不理想。 R 提供了一个合适的函数来估计这些参数。你很快就会看到这个函数。在此之前，我们将介绍如何手动计算一个简单的线性回归模型。在你的数据科学家之旅中，你几乎不会或永远不会估计一个简单的线性模型。在大多数情况下，回归任务是在很多估计器上执行的。

R 中的多元线性回归

回归分析的实际应用采用比简单直线模型更复杂的模型。包含多个独立变量的概率模型称为 多元回归模型该模型的一般形式为：

用矩阵符号重写该模型：

因变量 y 现在是 k 个独立变量的函数。系数的值确定独立变量的贡献与 .

我们简单介绍一下我们对随机误差的假设 OLS 的：

均值等于 0
方差等于
正态分布
随机误差是独立的（从概率意义上来说）

你需要解决，回归系数向量，最小化预测值和实际 y 值之间的平方误差之和。

闭式解为：

使用：

表示转矩阵 X
表示 可逆矩阵

我们使用 mtcars 数据集。您已经熟悉该数据集。我们的目标是通过一组特征预测每加仑英里数。

R 中的连续变量

目前，您将只使用连续变量，而将分类特征放在一边。变量 am 是一个二元变量，如果变速器是手动的，则取值为 1，如果是自动的，则取值为 0；vs 也是一个二元变量。

library(dplyr)
df <- mtcars % > %
select(-c(am, vs, cyl, gear, carb))
glimpse(df)

输出：

## Observations: 32
## Variables: 6
## $ mpg  <dbl> 21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19....
## $ disp <dbl> 160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1...
## $ hp   <dbl> 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180, ...
## $ drat <dbl> 3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9...
## $ wt   <dbl> 2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3...
## $ qsec <dbl> 16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2...

您可以使用 lm() 函数来计算参数。此函数的基本语法是：

lm(formula, data, subset)
Arguments:
	-formula: The equation you want to estimate	
	-data: The dataset used
	-subset: Estimate the model on a subset of the dataset

记住方程的形式如下

在R中

符号 = 被 ~ 取代
每个 x 都替换为变量名
如果要删除常数，请在公式末尾添加 -1

计费示例：

您想根据个人的身高和收入来估算他们的体重。公式为

R 中的方程式如下：

y ~ X1+ X2+…+Xn # 带截距

对于我们的例子来说：

体重～身高+收入

您的目标是根据一组变量估算每加仑英里数。估算公式为：

您将估计您的第一个线性回归并将结果存储在拟合对象中。

model <- mpg~.disp + hp + drat + wt
fit <- lm(model, df)
fit

代码说明

型号 <- mpg ~. disp + hp + drat + wt：存储要估计的模型
lm(model, df): 使用数据框 df 估计模型

## 
## Call:
## lm(formula = model, data = df)
## 
## Coefficients:
## (Intercept)         disp           hp         drat           wt  
##    16.53357      0.00872     -0.02060      2.01577     -4.38546  
##        qsec  
##     0.64015

输出没有提供足够的有关拟合质量的信息。您可以使用 summary() 函数访问更多详细信息，例如系数的重要性、自由度和残差的形状。

summary(fit)

输出：

## return the p-value and coefficient
## 
## Call:
## lm(formula = model, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.5404 -1.6701 -0.4264  1.1320  5.4996 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept) 16.53357   10.96423   1.508  0.14362   
## disp         0.00872    0.01119   0.779  0.44281   
## hp          -0.02060    0.01528  -1.348  0.18936   
## drat         2.01578    1.30946   1.539  0.13579   
## wt          -4.38546    1.24343  -3.527  0.00158 **
## qsec         0.64015    0.45934   1.394  0.17523   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.558 on 26 degrees of freedom
## Multiple R-squared:  0.8489, Adjusted R-squared:  0.8199 
## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10

从上表输出推断

上表证明，wt和里程数呈强烈的负相关关系，而与drat呈正相关关系。
只有变量 wt 对 mpg 有统计影响。请记住，为了检验统计中的假设，我们使用：
- H0：没有统计影响
- H3：预测变量对 y 有显著影响
- 如果 p 值低于 0.05，则表明该变量具有统计显著性
调整后的 R 平方：模型解释的方差。在您的模型中，模型解释了 y 方差的 82%。R 平方始终介于 0 和 1 之间。越高越好

你可以运行方差分析测试使用 anova() 函数估计每个特征对方差的影响。

anova(fit)

输出：

## Analysis of Variance Table
## 
## Response: mpg
##           Df Sum Sq Mean Sq  F value   Pr(>F)    
## disp       1 808.89  808.89 123.6185 2.23e-11 ***
## hp         1  33.67   33.67   5.1449 0.031854 *  
## drat       1  30.15   30.15   4.6073 0.041340 *  
## wt         1  70.51   70.51  10.7754 0.002933 ** 
## qsec       1  12.71   12.71   1.9422 0.175233    
## Residuals 26 170.13    6.54                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

估计模型性能的更传统的方法是显示针对不同度量的残差。

您可以使用 plot() 函数显示四个图表：

– 残差与拟合值

– 正态 QQ 图：理论四分位数与标准化残差

– 尺度-位置：拟合值与标准化残差的平方根

– 残差与杠杆：杠杆与标准化残差

在 plot(fit) 之前添加代码 par(mfrow=c(2,2))。如果不添加此行代码，R 会提示您按 Enter 命令以显示下一个图形。

par(mfrow=(2,2))

代码说明

(mfrow=c(2,2))：返回一个并排有四个图形的窗口。
前 2 个添加行数
第二个 2 增加了列数。
如果你写 (mfrow=c(3,2)): 你将创建一个 3 行 2 列的窗口

plot(fit)

输出：

lm() 公式返回一个包含大量有用信息的列表。您可以使用您创建的 fit 对象，后面跟着 $ 符号和要提取的信息来访问它们。

– 系数：`fit$coefficients`

– 残差：`fit$residuals`

– 拟合值：`fit$fitted.values`

R 中的因子回归

在最后一个模型估计中，您仅对连续变量进行 mpg 回归。将因子变量添加到模型中很简单。您将变量 am 添加到模型中。确保变量是因子级别而不是连续变量很重要。

df <- mtcars % > %
mutate(cyl = factor(cyl),
    vs = factor(vs),
    am = factor(am),
    gear = factor(gear),
    carb = factor(carb))
summary(lm(model, df))

输出：

## 
## Call:
## lm(formula = model, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.5087 -1.3584 -0.0948  0.7745  4.6251 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept) 23.87913   20.06582   1.190   0.2525  
## cyl6        -2.64870    3.04089  -0.871   0.3975  
## cyl8        -0.33616    7.15954  -0.047   0.9632  
## disp         0.03555    0.03190   1.114   0.2827  
## hp          -0.07051    0.03943  -1.788   0.0939 .
## drat         1.18283    2.48348   0.476   0.6407  
## wt          -4.52978    2.53875  -1.784   0.0946 .
## qsec         0.36784    0.93540   0.393   0.6997  
## vs1          1.93085    2.87126   0.672   0.5115  
## am1          1.21212    3.21355   0.377   0.7113  
## gear4        1.11435    3.79952   0.293   0.7733  
## gear5        2.52840    3.73636   0.677   0.5089  
## carb2       -0.97935    2.31797  -0.423   0.6787  
## carb3        2.99964    4.29355   0.699   0.4955  
## carb4        1.09142    4.44962   0.245   0.8096  
## carb6        4.47757    6.38406   0.701   0.4938  
## carb8        7.25041    8.36057   0.867   0.3995  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.833 on 15 degrees of freedom
## Multiple R-squared:  0.8931, Adjusted R-squared:  0.779 
## F-statistic:  7.83 on 16 and 15 DF,  p-value: 0.000124

R 使用第一个因子水平作为基组。您需要将另一组的系数与基组进行比较。

R 中的逐步线性回归

本教程的最后一部分涉及 逐步回归 算法。该算法的目的是在模型中添加和删除潜在候选变量，并保留对因变量有重大影响的候选变量。当数据集包含大量预测变量时，此算法很有意义。您无需手动添加和删除独立变量。逐步回归旨在选择最适合模型的候选变量。

让我们实际看看它是如何工作的。您使用带有连续变量的 mtcars 数据集仅用于教学说明。在开始分析之前，最好使用相关矩阵建立数据之间的变化。GGally 库是 ggplot2 的扩展。

该库包含不同的函数来显示汇总统计数据，例如矩阵中所有变量的相关性和分布。我们将使用 ggscatmat 函数，但您可以参考小插图有关 GGally 库的更多信息。

ggscatmat() 的基本语法是：

ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")
arguments:
-df:  A matrix of continuous variables
-columns: Pick up the columns to use in the function. By default, all columns are used
-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula

您显示所有变量的相关性，并决定哪一个变量是逐步回归的第一步的最佳候选变量。您的变量和因变量 mpg 之间存在一些很强的相关性。

library(GGally)
df <- mtcars % > %
	select(-c(am, vs, cyl, gear, carb))
ggscatmat(df, columns = 1: ncol(df))

输出：

逐步回归分步示例

变量选择是拟合模型的重要部分。逐步回归将自动执行搜索过程。要估计数据集中有多少个可能的选择，您需要计算其中 k 是预测因子的数量。独立变量的数量越多，可能性就越大。这就是为什么你需要自动搜索。

您需要从 CRAN 安装 olsrr 包。该包在 Anaconda 中尚不可用。因此，您可以直接从命令行安装它：

install.packages("olsrr")

您可以绘制符合拟合标准（即 R 平方、调整后的 R 平方、贝叶斯标准）的所有可能性子集。具有最低 AIC 标准的模型将成为最终模型。

library(olsrr)
model <- mpg~.
fit <- lm(model, df)
test <- ols_all_subset(fit)
plot(test)

代码说明

MPG ~.: 构建模型来估计
lm（模型，df）：运行 OLS 模型
ols_all_子集（拟合）：使用相关统计信息构建图表
图（测试）： 绘制图表

输出：

线性回归模型使用 t检验 估计独立变量对因变量的统计影响。研究人员将最大阈值设定为 10%，值越低，统计联系越强。逐步回归的策略是围绕这一测试构建的，以添加和删除潜在候选变量。该算法的工作原理如下：

第一步：分别对 y 上的每个预测变量进行回归。即，对 y 上的 x_1、y 上的 x_2 进行回归，直至 x_n。存储 p-值 并保留 p 值低于定义阈值（默认为 0.1）的回归变量。显著性低于阈值的预测变量将被添加到最终模型中。如果没有变量的 p 值低于进入阈值，则算法停止，最终模型只有一个常数。
第一步：使用具有最低 p 值的预测因子并分别添加一个变量。您回归一个常数、第一步的最佳预测因子和第三个变量。您将值低于进入阈值的新预测因子添加到逐步模型中。如果没有变量的 p 值低于 0.1，则算法停止，并且您最终的模型只有一个预测因子。您回归逐步模型以检查第 1 步最佳预测因子的重要性。如果它高于移除阈值，则将其保留在逐步模型中。否则，您将其排除。
第一步：在新的最佳分步模型上重复步骤 2。该算法根据输入值将预测变量添加到分步模型中，如果预测变量不满足排除阈值，则将其从分步模型中排除。
该算法一直进行，直到没有变量可以添加或排除。

您可以使用 olsrr 包中的函数 ols_stepwise() 执行该算法。

ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)

arguments:
-fit:  Model to fit. Need to use `lm()`before to run `ols_stepwise()
-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1
-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3
-details: Print the details of each step

在此之前，我们先向您展示算法的步骤。下面是包含因变量和自变量的表格：

因变量	独立变量
MPG	显示
	hp
	德拉特
	wt
	秒

开始

首先，算法首先对每个独立变量分别运行模型。表格显示了每个模型的 p 值。

## [[1]]
##  (Intercept)         disp 
## 3.576586e-21 9.380327e-10 
## 
## [[2]]
##  (Intercept)           hp 
## 6.642736e-18 1.787835e-07 
## 
## [[3]]
##  (Intercept)         drat 
## 0.1796390847 0.0000177624 
## 
## [[4]]
##  (Intercept)           wt 
## 8.241799e-19 1.293959e-10 
## 
## [[5]
## (Intercept)        qsec 
##  0.61385436  0.01708199

为了进入模型，算法保留 p 值最低的变量。从上面的输出来看，它是 wt

第一步

第一步，算法在 wt 和其他变量上独立运行 mpg。

## [[1]]
##  (Intercept)           wt         disp
## 4.910746e-16 7.430725e-03 6.361981e-02 
## 
## [[2]]
##  (Intercept)           wt           hp 
## 2.565459e-20 1.119647e-06 1.451229e-03 
## 
## [[3]]
##  (Intercept)           wt         drat 
## 2.737824e-04 1.589075e-06 3.308544e-01 
## 
## [[4]]
##  (Intercept)           wt         qsec 
## 7.650466e-04 2.518948e-11 1.499883e-03

每个变量都是进入最终模型的潜在候选变量。然而，算法只保留 p 值较低的变量。事实证明，hp 的 p 值比 qsec 略低。因此，hp 进入最终模型

第一步

该算法重复第一步，但这次在最终模型中使用两个独立变量。

## [[1]]
##  (Intercept)           wt           hp         disp 
## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01 
## 
## [[2]]
##  (Intercept)           wt           hp         drat 
## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01 
## 
## [[3]]
##  (Intercept)           wt           hp         qsec 
## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01

进入最终模型的所有变量均没有足够低的 p 值。算法到此结束；我们得到最终模型：

## 
## Call:
## lm(formula = mpg ~ wt + hp, data = df)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.941 -1.600 -0.182  1.050  5.854 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 37.22727    1.59879  23.285  < 2e-16 ***
## wt          -3.87783    0.63273  -6.129 1.12e-06 ***
## hp          -0.03177    0.00903  -3.519  0.00145 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.593 on 29 degrees of freedom
## Multiple R-squared:  0.8268, Adjusted R-squared:  0.8148 
## F-statistic: 69.21 on 2 and 29 DF,  p-value: 9.109e-12

您可以使用函数 ols_stepwise() 来比较结果。

stp_s <-ols_stepwise(fit, details=TRUE)

输出：

该算法经过两步找到解决方案，并返回与之前相同的输出。

最后，你可以说模型是由两个变量和一个截距来解释的。每加仑英里数与总马力和重量呈负相关

## You are selecting variables based on p value...
## 1 variable(s) added....
## Variable Selection Procedure
##  Dependent Variable: mpg 
## 
##  Stepwise Selection: Step 1 
## 
##  Variable wt Entered 
## 
##                         Model Summary                          
## --------------------------------------------------------------
## R                       0.868       RMSE                3.046 
## R-Squared               0.753       Coef. Var          15.161 
## Adj. R-Squared          0.745       MSE                 9.277 
## Pred R-Squared          0.709       MAE                 2.341 
## --------------------------------------------------------------
##  RMSE: Root Mean Square Error 
##  MSE: Mean Square Error 
##  MAE: Mean Absolute Error 
##		ANOVA                                 
## --------------------------------------------------------------------
##                 Sum of                                              
##                Squares        DF    Mean Square      F         Sig. 
## --------------------------------------------------------------------
## Regression     847.725         1        847.725    91.375    0.0000 
## Residual       278.322        30          9.277                     
## Total         1126.047        31                                    
## --------------------------------------------------------------------
## 
##                                   Parameter Estimates                                    
## ----------------------------------------------------------------------------------------
##       model      Beta    Std. Error    Std. Beta      t        Sig      lower     upper 
## ----------------------------------------------------------------------------------------
## (Intercept)    37.285         1.878                 19.858    0.000    33.450    41.120 
##          wt    -5.344         0.559       -0.868    -9.559    0.000    -6.486    -4.203 
## ----------------------------------------------------------------------------------------
## 1 variable(s) added...
## Stepwise Selection: Step 2 
## 
##  Variable hp Entered 
## 
##                         Model Summary                          
## --------------------------------------------------------------
## R                       0.909       RMSE                2.593 
## R-Squared               0.827       Coef. Var          12.909 
## Adj. R-Squared          0.815       MSE                 6.726 
## Pred R-Squared          0.781       MAE                 1.901 
## --------------------------------------------------------------
##  RMSE: Root Mean Square Error 
##  MSE: Mean Square Error 
##  MAE: Mean Absolute Error 
##			ANOVA                                 
## --------------------------------------------------------------------
##                 Sum of                                              
##                Squares        DF    Mean Square      F         Sig. 
## --------------------------------------------------------------------
## Regression     930.999         2        465.500    69.211    0.0000 
## Residual       195.048        29          6.726                     
## Total         1126.047        31                                    
## --------------------------------------------------------------------
## 
##                                   Parameter Estimates                                    
## ----------------------------------------------------------------------------------------
##       model      Beta    Std. Error    Std. Beta      t        Sig      lower     upper 
## ----------------------------------------------------------------------------------------
## (Intercept)    37.227         1.599                 23.285    0.000    33.957    40.497 
##          wt    -3.878         0.633       -0.630    -6.129    0.000    -5.172    -2.584 
##          hp    -0.032         0.009       -0.361    -3.519    0.001    -0.050    -0.013 
## ----------------------------------------------------------------------------------------
## No more variables to be added or removed.

机器学习

机器学习在数据科学家中越来越普遍，并部署在你每天使用的数百种产品中。第一个 ML 应用程序是 垃圾过滤器.

以下是机器学习的其他应用-

识别电子邮件中的垃圾邮件
细分客户行为以进行有针对性的广告
减少信用卡欺诈交易
住宅和办公楼的能源使用优化
面部识别

监督学习

In 监督学习，你输入给算法的训练数据包含一个标签。

分类可能是最常用的监督学习技术。研究人员处理的首批分类任务之一是垃圾邮件过滤器。学习的目标是预测电子邮件是被归类为垃圾邮件还是普通邮件（好邮件）。经过训练步骤后，机器可以检测出电子邮件的类别。

回归在机器学习领域中，通常用于预测连续值。回归任务可以预测 因变量 基于一组 自变量 （也称为预测器或回归器）。例如，线性回归可以预测股票价格、天气预报、销售额等。

以下是一些基本的监督学习算法的列表。

线性回归
逻辑回归
最近的邻居
支持向量机（SVM）
决策树和随机森林
神经网络

无监督学习

In 无监督学习，训练数据未标记。系统尝试在没有参考的情况下进行学习。以下是无监督学习算法的列表。

K均值
分级 Cluster 分析
期望最大化
可视化和降维
主成分分析
内核主成分分析
局部线性嵌入

结语

线性回归回答了一个简单的问题：你能测量一个目标变量和一组预测变量之间的确切关系吗？
普通最小二乘法试图找到最小化平方误差和的参数，即预测的 y 值和实际 y 值之间的垂直距离。
包含多个独立变量的概率模型称为多元回归模型。
逐步线性回归算法的目的是添加和删除模型中的潜在候选者，并保留那些对因变量有显著影响的候选者。
变量选择是拟合模型的重要部分。逐步回归会自动执行搜索过程。

普通最小二乘回归可以总结如下表：

自学资料库	目的	功能	参数
基地	计算线性回归	LM()	公式、数据
基地	总结模型	总结（）	适合
基地	提取系数	lm()$系数
基地	提取残差	lm()$残差
基地	提取拟合值	lm()$fitted.值
奥尔斯	运行逐步回归	ols_stepwise（）	适合，pent = 0.1，prem = 0.3，详细信息 = FALSE

R 逐步和多元线性回归 [分步示例]

R 中的简单线性回归

散点图

最小二乘估计

R 中的多元线性回归

R 中的连续变量

R 中的因子回归

R 中的逐步线性回归

逐步回归分步示例

机器学习

监督学习

无监督学习

结语

总结一下这篇文章：

注册简报

R 中的简单线性回归

散点图

最小二乘估计

相关文章

R 中的多元线性回归

R 中的连续变量

R 中的因子回归

R 中的逐步线性回归

逐步回归分步示例

机器学习

监督学习

无监督学习

结语

总结一下这篇文章：

注册简报