线性回归是什么?它是如何用于机器学习

2021年7月16日

线性回归

不是线性回归统计的一部分吗?

毫无疑问,是的。

事实上,大多数机器学习(毫升)算法借鉴了各个领域,主要统计数据。任何可以帮助模型预测更好的最终将成为毫升的一部分。所以,可以这么说线性回归统计和机器学习算法。

线性回归是一个流行和简单的算法用于数据科学和机器学习。这是一个监督式学习算法和最简单的形式回归用于研究变量之间的数学关系。

更准确地说,使用线性回归确定角色和力量之间的关系的因变量和一系列其他独立变量。它有助于建立模型进行预测,预测等公司的股票价格。

之前试图去适应一个线性模型,观察到的数据集,一个人应该评估是否有一个变量之间的关系。当然,这并不意味着一个变量的原因,但应该有明显的相关性。

例如,更高的大学成绩并不意味着更高的薪水包。但可以有两个变量之间的关联。

你知道吗?“线性”一词意味着类似于一条线或相关行。

创建一个散点图是理想的决定力量之间的关系说明(独立)依赖变量。如果散点图不显示任何增加或减少的趋势,应用线性回归模型的观测值可能不是有益的。

相关系数用于计算两个变量之间的关系是多强。通常是用r1和1之间有一个值。积极的相关系数值表示变量之间的积极关系。同样,负值表示变量之间的负相关关系。

提示:进行回归分析只有在相关系数是积极的还是消极的0.50或更高。

如果你是看学习时间和成绩之间的关系,你可能会看到一个积极的关系。另一方面,如果你看时间在社交媒体和成绩之间的关系,你很可能看到一个消极的关系。

在这里,“成绩”是因变量,学习时间或社交媒体是独立的变量。这是因为成绩t取决于你花了多少时间学习。

如果你能建立(至少)温和的变量之间的相关性通过散点图和相关系数,然后说变量有某种形式的一个线性关系。

简而言之,线性回归试图模型两个变量之间的关系用一个线性方程的观测数据。线性回归直线可以使用一条直线的方程来表示:

y= mx + b

在这个简单的线性回归方程:

  • y是估计的依赖变量(或输出)
  • 回归系数(或斜率)
  • x是独立变量(或输入)
  • b是常数(或y轴截距)

发现变量之间的关系可以预测值或结果。换句话说,线性回归可以根据现有的数据预测新值。

一个例子将是根据接收到的降雨量预测作物产量。在这种情况下,降雨是自变量,作物产量(预测值)是因变量。

也被称为独立变量预测变量。同样,也被称为因变量响应变量

线性回归的关键术语

理解线性回归分析也意味着熟悉一些新条款。如果你刚刚走进世界的统计和机器学习,拥有一个公平的理解这些术语将是有益的。

  • 变量:任何数量,数量,或者可以计算或测量的特点。它也被称为一个数据项。收入、年龄、速度、和性别。
  • 系数:这是一个数量(通常是一个整数)乘以变量在它旁边。例如,在7 x, 7是系数。
  • 离群值:这些都是数据点明显不同于其他。
  • 协方差:两个变量之间的线性关系的方向。换句话说,它计算的两个变量是线性相关的。
  • 多元:这意味着涉及两个或多个因变量导致一个结果。
  • 残差:观测值和预测值之间的差异的因变量。
  • 变化:缺乏一致性或程度分布是挤压或拉伸。
  • 线性:房地产的数学关系比例密切相关,可以图形化表示为一条直线。
  • 线性函数:这是一个函数的图像是一条直线。
  • 共线性:独立变量之间的相关性,这样他们展示一个回归模型的线性关系。
  • 标准偏差(SD):这是一个衡量的分散数据集相对于其意思。换句话说,这是一个衡量的数字。
  • 标准误差(SE):人口统计样本的近似SD。它是用来衡量可变性。

类型的线性回归

有两种类型的线性回归:简单线性回归多元线性回归

简单线性回归方法试图找到一个独立变量之间的关系和相应的因变量。独立变量是输入,和相应的因变量是输出。

提示:您可以实现线性回归在各种编程语言和环境,包括Python、R, MATLAB, Excel。

多元线性回归方法试图找到两个或两个以上的独立变量之间的关系和相应的因变量。还有多元线性回归的一个特例多项式回归

简单地说,一个简单的线性回归模型只有一个自变量,而一个多元线性回归模型有两个或两个以上的独立变量。是的,还有其他的非线性回归方法用于高度复杂的数据分析。

逻辑回归和线性回归

在线性回归预测连续给定组自变量,因变量逻辑回归预测分类因变量。

两者都是监督学习方法。虽然线性回归是用来解决回归问题,逻辑回归是用来解决分类问题。

线性回归与逻辑回归

当然,逻辑回归可以解决回归问题,但主要用于分类问题。其输出只能是0或1。有价值的情况下,您需要确定两个类之间的概率,或者换句话说,计算一个事件的可能性。例如,可以使用逻辑回归来预测是否今天会下雨。

假设的线性回归

在使用线性回归模型变量之间的关系,我们做一些假设。假设是必要的条件,应该见过我们使用一个模型来预测。

通常有四个假设与线性回归模型:

  • 线性关系:有一个独立变量之间的线性关系x和因变量y
  • 独立性:残差是独立的。没有连续的时间序列数据的残差之间的相关性。
  • 方差齐性:残差的方差相等。
  • 正常:残差正态分布。

线性回归模型的方法来解决

在机器学习和统计术语,学习线性回归模型意味着使用数据猜测系数的值。几种方法可以应用于一个线性回归模型,使之更有效率。

提示:使用机器学习软件消除单调的任务和作出准确的预测。

让我们看一下不同的技术用于解决线性回归模型来理解他们的差异和权衡。

简单线性回归

正如前面提到的,有一个输入或一个自变量和一个因变量简单线性回归。用来找到最好的两个变量之间的关系,考虑到他们在连续的性质。例如,它可以用于预测的体重量基于消耗的热量。

普通最小二乘法

普通最小二乘回归是另一种方法来估计系数的值,当有多个自变量或输入。这是最常见的一种方法求解线性回归,也被称为正规方程

这个过程试图最小化残差平方的总和。它将数据视为一个矩阵和利用线性代数操作来确定每个系数的最优值。当然,这种方法只能应用如果我们有访问所有数据,还应该有足够的内存来适应数据。

梯度下降法

梯度下降法是一种最简单和常用的方法来解决线性回归问题。是有用的,当有一个或多个输入和涉及优化的价值系数迭代通过最小化模型的误差。

梯度下降法始于随机值对于每个系数。每一对输入和输出值的平方误差的总和计算。它使用一个比例因子为学习速率,并且每个系数更新的方向误差降到最低。

重复这个过程,直到没有进一步的改进是可能的或最小平方和。梯度下降法是有用,当有一个大型数据集涉及大量的行和列,不适合在内存。

正则化

正则化是一个方法,试图最小化模型的平方误差的总和,与此同时,降低模型的复杂度。它减少了误差的平方和使用普通最小二乘法。

套索回归岭回归正则化的两个著名的例子是在线性回归。这些方法是有价值的独立变量共线性。

亚当的方法

自适应估计时刻,或亚当,是一种优化算法深度学习。这种迭代算法对噪声数据表现良好。它易于实现,计算效率高,最小的内存需求。

亚当-结合了两种梯度下降算法均方根传播(RMSprop)自适应梯度下降法。整个数据集的计算梯度,亚当使用随机选择的子集进行随机近似。

亚当适用于涉及大量的参数或数据的问题。同时,在此优化方法,hyperparameters通常需要最少的调优和直观的解释。

奇异值分解

奇异值分解,或圣言会,是一种常用的降维技术在线性回归。这是一个预处理步骤,减少了尺寸的数量的学习算法。

圣言会涉及到打破一个矩阵作为一个产品的三个矩阵。它适合高维数据和高效稳定的小型数据集。由于其稳定性,这是最首选方法求解线性方程组的线性回归。但是,它是容易受到异常值和一个巨大的数据集可能会不稳定。

准备数据线性回归

现实世界的数据,在大多数情况下,是不完整的。

像任何其他机器学习模型、数据准备和预处理在线性回归是一个至关重要的过程。会有缺失值,错误、异常值不一致,缺少属性值。

这里有一些方法来解释不完整的数据,并创建一个更可靠的预测模型。

  • 认为线性回归预测和响应变量不吵了。由于这一点,去除噪声与几个数据清算业务是至关重要的。如果可能,您应该删除离群值在输出变量。
  • 如果输入和输出变量高斯分布,线性回归将会做出更好的预测。
  • 如果你重新调节输入变量使用归一化或标准化、线性回归通常会做出更好的预测。
  • 如果有许多属性,你需要有一个转换数据线性关系
  • 如果输入变量是高度相关的,那么线性回归将overfit数据。在这种情况下,消除共线性

线性回归的优点和缺点

线性回归是一种最简单的算法来理解和简单的实现。这是一个伟大的工具来分析变量之间的关系。

这里有一些值得注意的优势线性回归:

  • 这是一个因为其简单的首选算法。
  • 虽然它容易过度拟合,可以避免与降维技术的帮助。
  • 它具有良好的可解释性。
  • 它执行线性可分的数据集。
  • 其空间复杂度低;因此,这是一个高延时算法。

然而,线性回归不是一般建议对于大多数实际应用。因为它简化了实际问题通过假设变量之间的线性关系。

这里有一些缺点线性回归:

  • 异常值可以有负面影响的回归
  • 因为应该有一个变量之间的线性关系符合线性模型,它假定有一个直线的变量之间的关系
  • 它认为数据是正态分布
  • 也看的均值之间的关系独立和相关的变量
  • 线性回归并不是一个完整的描述变量之间的关系
  • 变量之间存在高度的相关性可以显著影响性能的线性模型

先观察,然后预测

在线性回归,这是评估的关键变量是否有一个线性关系。虽然有些人试图预测不看的趋势,最好确保有一个适度强劲的变量之间的相关性。

如前所述,观察散点图和相关系数都是很好的方法。是的,即使相关性高,最好还是看看散点图。简而言之,如果数据是视觉上线性,然后线性回归分析是可行的。

而线性回归可以预测因变量的价值,有一种算法分类新数据点或预测他们的价值观通过观察他们的邻居。它被称为再邻居算法,它是一个懒惰的学生。

机器学习
机器学习:基础知识

了解更多关于机器学习、人工智能的一个分支,着重于构建应用程序,从经验中学习和提高。

机器学习
机器学习:基础知识

了解更多关于机器学习、人工智能的一个分支,着重于构建应用程序,从经验中学习和提高。

从来没有错过一个帖子。

订阅保持手指科技脉搏。

通过提交此表格,你同意接收来自G2的营销传播。
Baidu
map