不是线性回归统计的一部分吗?
毫无疑问,是的。
事实上,大多数机器学习(毫升)算法借鉴了各个领域,主要统计数据。任何可以帮助模型预测更好的最终将成为毫升的一部分。所以,可以这么说线性回归统计和机器学习算法。
线性回归是一个流行和简单的算法用于数据科学和机器学习。这是一个监督式学习算法和最简单的形式回归用于研究变量之间的数学关系。
更准确地说,使用线性回归确定角色和力量之间的关系的因变量和一系列其他独立变量。它有助于建立模型进行预测,预测等公司的股票价格。
之前试图去适应一个线性模型,观察到的数据集,一个人应该评估是否有一个变量之间的关系。当然,这并不意味着一个变量的原因,但应该有明显的相关性。
例如,更高的大学成绩并不意味着更高的薪水包。但可以有两个变量之间的关联。
你知道吗?“线性”一词意味着类似于一条线或相关行。
创建一个散点图是理想的决定力量之间的关系说明(独立)依赖变量。如果散点图不显示任何增加或减少的趋势,应用线性回归模型的观测值可能不是有益的。
相关系数用于计算两个变量之间的关系是多强。通常是用r1和1之间有一个值。积极的相关系数值表示变量之间的积极关系。同样,负值表示变量之间的负相关关系。
提示:进行回归分析只有在相关系数是积极的还是消极的0.50或更高。
如果你是看学习时间和成绩之间的关系,你可能会看到一个积极的关系。另一方面,如果你看时间在社交媒体和成绩之间的关系,你很可能看到一个消极的关系。
在这里,“成绩”是因变量,学习时间或社交媒体是独立的变量。这是因为成绩t取决于你花了多少时间学习。
如果你能建立(至少)温和的变量之间的相关性通过散点图和相关系数,然后说变量有某种形式的一个线性关系。
简而言之,线性回归试图模型两个变量之间的关系用一个线性方程的观测数据。线性回归直线可以使用一条直线的方程来表示:
y= mx + b
在这个简单的线性回归方程:
发现变量之间的关系可以预测值或结果。换句话说,线性回归可以根据现有的数据预测新值。
一个例子将是根据接收到的降雨量预测作物产量。在这种情况下,降雨是自变量,作物产量(预测值)是因变量。
也被称为独立变量预测变量。同样,也被称为因变量响应变量。
理解线性回归分析也意味着熟悉一些新条款。如果你刚刚走进世界的统计和机器学习,拥有一个公平的理解这些术语将是有益的。
有两种类型的线性回归:简单线性回归和多元线性回归。
的简单线性回归方法试图找到一个独立变量之间的关系和相应的因变量。独立变量是输入,和相应的因变量是输出。
提示:您可以实现线性回归在各种编程语言和环境,包括Python、R, MATLAB, Excel。
的多元线性回归方法试图找到两个或两个以上的独立变量之间的关系和相应的因变量。还有多元线性回归的一个特例多项式回归。
简单地说,一个简单的线性回归模型只有一个自变量,而一个多元线性回归模型有两个或两个以上的独立变量。是的,还有其他的非线性回归方法用于高度复杂的数据分析。
在线性回归预测连续给定组自变量,因变量逻辑回归预测分类因变量。
两者都是监督学习方法。虽然线性回归是用来解决回归问题,逻辑回归是用来解决分类问题。
当然,逻辑回归可以解决回归问题,但主要用于分类问题。其输出只能是0或1。有价值的情况下,您需要确定两个类之间的概率,或者换句话说,计算一个事件的可能性。例如,可以使用逻辑回归来预测是否今天会下雨。
在使用线性回归模型变量之间的关系,我们做一些假设。假设是必要的条件,应该见过我们使用一个模型来预测。
通常有四个假设与线性回归模型:
在机器学习和统计术语,学习线性回归模型意味着使用数据猜测系数的值。几种方法可以应用于一个线性回归模型,使之更有效率。
提示:使用机器学习软件消除单调的任务和作出准确的预测。
让我们看一下不同的技术用于解决线性回归模型来理解他们的差异和权衡。
正如前面提到的,有一个输入或一个自变量和一个因变量简单线性回归。用来找到最好的两个变量之间的关系,考虑到他们在连续的性质。例如,它可以用于预测的体重量基于消耗的热量。
普通最小二乘回归是另一种方法来估计系数的值,当有多个自变量或输入。这是最常见的一种方法求解线性回归,也被称为正规方程。
这个过程试图最小化残差平方的总和。它将数据视为一个矩阵和利用线性代数操作来确定每个系数的最优值。当然,这种方法只能应用如果我们有访问所有数据,还应该有足够的内存来适应数据。
梯度下降法是一种最简单和常用的方法来解决线性回归问题。是有用的,当有一个或多个输入和涉及优化的价值系数迭代通过最小化模型的误差。
梯度下降法始于随机值对于每个系数。每一对输入和输出值的平方误差的总和计算。它使用一个比例因子为学习速率,并且每个系数更新的方向误差降到最低。
重复这个过程,直到没有进一步的改进是可能的或最小平方和。梯度下降法是有用,当有一个大型数据集涉及大量的行和列,不适合在内存。
正则化是一个方法,试图最小化模型的平方误差的总和,与此同时,降低模型的复杂度。它减少了误差的平方和使用普通最小二乘法。
套索回归和岭回归正则化的两个著名的例子是在线性回归。这些方法是有价值的独立变量共线性。
自适应估计时刻,或亚当,是一种优化算法深度学习。这种迭代算法对噪声数据表现良好。它易于实现,计算效率高,最小的内存需求。
亚当-结合了两种梯度下降算法均方根传播(RMSprop)和自适应梯度下降法。整个数据集的计算梯度,亚当使用随机选择的子集进行随机近似。
亚当适用于涉及大量的参数或数据的问题。同时,在此优化方法,hyperparameters通常需要最少的调优和直观的解释。
奇异值分解,或圣言会,是一种常用的降维技术在线性回归。这是一个预处理步骤,减少了尺寸的数量的学习算法。
圣言会涉及到打破一个矩阵作为一个产品的三个矩阵。它适合高维数据和高效稳定的小型数据集。由于其稳定性,这是最首选方法求解线性方程组的线性回归。但是,它是容易受到异常值和一个巨大的数据集可能会不稳定。
现实世界的数据,在大多数情况下,是不完整的。
像任何其他机器学习模型、数据准备和预处理在线性回归是一个至关重要的过程。会有缺失值,错误、异常值不一致,缺少属性值。
这里有一些方法来解释不完整的数据,并创建一个更可靠的预测模型。
线性回归是一种最简单的算法来理解和简单的实现。这是一个伟大的工具来分析变量之间的关系。
这里有一些值得注意的优势线性回归:
然而,线性回归不是一般建议对于大多数实际应用。因为它简化了实际问题通过假设变量之间的线性关系。
这里有一些缺点线性回归:
在线性回归,这是评估的关键变量是否有一个线性关系。虽然有些人试图预测不看的趋势,最好确保有一个适度强劲的变量之间的相关性。
如前所述,观察散点图和相关系数都是很好的方法。是的,即使相关性高,最好还是看看散点图。简而言之,如果数据是视觉上线性,然后线性回归分析是可行的。
而线性回归可以预测因变量的价值,有一种算法分类新数据点或预测他们的价值观通过观察他们的邻居。它被称为再邻居算法,它是一个懒惰的学生。
从来没有错过一个帖子。
订阅保持手指科技脉搏。