你能想到的监督式学习作为教师监督整个学习过程。
这是最常见的一种机器学习方法,它是一个宝贵的工具领域的人工智能。这个学习过程与师生关系,虽然机器不一样顽固的人类。
如果你刚刚走进世界的人工智能,监督学习可能不是你以前遇到的一个术语。简而言之,这是一个机器学习策略,使人工智能系统学习和进步。
简单地说,监督学习算法旨在通过例子学习。这样的例子被称为训练数据,每个例子是一对输入对象和所需的输出值。两人的输入和输出数据送入系统通常被称为带安全标签的数据时。
通过喂养带安全标签的数据时,你表现出机器不同变量之间的连接和已知的结果。监督学习,人工智能系统是明确的告诉寻找给定的输入数据。这使得算法能够获得更好的定期和创造机器学习模型可以预测结果或数据准确当面对陌生的数据进行分类。
一般来说,三个数据集用于不同阶段模型的创建过程:
模型拟合指的是测量的模型推广到类似的数据,它是训练有素的。了一套合身模型产生精确的结果;一个overfitted模型匹配的数据过于密切;一个在安装模式不匹配的数据不够紧密。
在监督学习训练中起着关键的作用。在训练阶段,美联储AI系统海量标签的训练数据。正如前面提到的,训练数据指示系统等所需的输出应如何从每个不同的输入值。
然后考虑到训练模型测试数据。这使得数据科学家确定培训的有效性和模型的准确性。一个模型的准确性依赖于训练数据集的大小和质量以及使用的算法。
然而,高精度并不总是一件好事。例如,高精度模型可能意味着痛苦过度拟合——一个建模错误或不正确的优化模型的时候过度调整的训练数据集,甚至可能导致假阳性。
在这样的一个实例,该模型可能在测试场景中表现非常好,但可能无法在现实世界的情况下提供正确的输出。消除过度拟合的机会,确保测试数据从训练数据是完全不同的。同时,检查模型不把答案从以前的经验。
训练的例子也应该多样化。否则,当面对从未见过的情况下,模型将无法工作。
上下文中的数据科学与数据挖掘的过程(将原始数据转化为有用的信息),监督学习可以进一步分为两种类型:分类和回归。
一个分类算法试图确定数据的类别或类了。电子邮件垃圾邮件分类、计算机视觉、药品分类问题的分类有一些常见的例子。
另一方面,回归算法试图预测输出值的基础上提供的数据输入功能。预测数字广告的点击率和预测一个房子的价格根据其特点是一些常见的回归问题。
最好的方法之一来理解监督和非监督学习的区别是通过观察如何学会下棋,下棋。
一种选择是雇佣一个象棋导师。老师会教你如何玩国际象棋的游戏通过解释的基本规则,什么每一块下棋等等。一旦你意识到游戏的规则,每一块的范围,你可以继续玩对导师和实践。
老师会监督你的行动和纠正你每当你犯错误。一旦你收集了足够的知识和实践,您就可以开始对他人的竞争力。
这种学习过程是类似的监督式学习。在监督学习中,数据科学家就像一个导师和火车的机器喂养的基本规则和整体策略。
如果你不想请一个辅导老师,你仍然可以学习国际象棋的游戏。一种方法是看别人玩游戏。你可能不能问他们任何问题,但是你可以看和学习如何玩这个游戏。
尽管不知道每个棋子的名字,你可以学习如何通过观察每一个动作游戏。游戏你看得越多,你更好的理解,你会更了解不同的策略可以采取赢。
这个学习过程类似无监督学习。数据科学家让机器通过观察学习。虽然不知道具体的机器名称或标签,它将能够找到的模式。
简单地说,非监督学习算法时是一个训练数据集只包含输入数据和相应的输出数据。
正如您可以看到的,学习方法都有明显的优点和缺点。
监督学习,你需要一位知识渊博的老师能教机器的规则和策略。在国际象棋的例子中,这意味着你需要一个导师学习游戏。如果不是,你可能最终学习游戏错误。
在无监督学习的情况下,你需要海量数据机观察和学习。虽然无标号数据是廉价和丰富和易于收集和存储,它必须没有重复或垃圾数据。有缺陷的或不完整的数据也可以导致机器学习的偏见——这种现象的算法产生歧视的结果。
在国际象棋的例子,如果你正在学习通过观察其他玩家,这意味着您需要看几十个游戏在你理解它。同样,如果你在看玩家玩游戏不正确,你可能会做同样的事。
然后,有semi-supervised学习。
正如你可能已经猜到的,semi-supervised学习的监督和非监督学习。在这个学习的过程,数据科学家训练机一点点收益的高级概述。机器学习规则和策略通过观察模式。一小部分的训练数据将标记,剩下的将无标号。
的例子学习国际象棋,semi-supervised学习类似于一个导师解释只是基础,让你学习,有竞争力。
另一个学习的过程强化学习(RL)。这是一个机器学习策略的人工智能系统面临着游戏的情况。教AI,程序员使用reward-penalty技术,系统必须关注采取合适的行动回报最大化,避免处罚。
大量的计算技术和算法用于监督学习过程。
当你选择监督机器学习算法,通常被认为是以下因素:
下面是一些常见的监督机器学习算法你会遇到。
线性回归既是一个统计算法以及机器学习算法。这是一个算法,试图模型两个变量之间的关系通过附加一个线性方程的观测数据。的两个变量,一个被认为是一个解释变量,另一个因变量。
还可以使用线性回归确定因变量之间的关系和一个或多个独立的变量。在机器学习领域,使用线性回归预测。
逻辑回归是一种数学模型,用于估计一个事件的概率的基础上,提供以前的数据。信用评分和在线交易欺诈检测是该算法的实际应用。换句话说,它是一种基于概率的概念的预测分析算法用于解决二元分类问题。
就像逻辑回归,线性回归是借用了领域的统计数据。但是,与线性回归处理连续的因变量,逻辑回归处理二进制数据,如“true”或“false”。
人工神经网络(ann)主要是使用深度学习算法。他们一系列的算法模拟人类大脑的功能识别海量数据之间的关系。正如你可能已经猜到的,人工神经网络是人工智能系统的关键。
神经网络是由多个节点的层。每个节点包含输入、重量、偏见、和输出。安是训练通过调整输入权重基于网络的性能。例如,如果神经网络分类图像正确,体重增加导致正确的答案而其他权重降低。
朴素贝叶斯是一个基于分类方法的类条件独立性的原则贝叶斯定理。用更简单的术语来说,朴素贝叶斯分类器的方法假定存在一个特定的功能在一个类的存在并不影响任何其他特性。
例如,一个水果可能被认为是一个苹果如果是红色,圆形,直径大约三英寸。即使这些特性是相互依赖的,所有这些属性的概率分别为水果是苹果。
朴素贝叶斯模型在处理大型数据集时非常有用。很容易构建、快速和被执行甚至比高级的分类方法。
支持向量机(SVM)是一个著名的由弗拉基米尔Vapnik监督机器学习算法。尽管主要用于分类问题,支持向量机可以用于回归。
支持向量机是建立在寻找一个超平面的概念,最好的一个给定的数据集分为两类。这样一个超平面称为决定边界和分离的数据点。人脸检测、文本分类、图像分类的支持向量机的许多实际的应用程序。
再邻居(资讯)算法是一个监督机器学习算法用于解决回归和分类问题。这个算法组数据点根据他们的接近和与其他数据的关系。
很容易理解,易于实现,具有较低的计算时间。然而,该算法变得明显减缓随着数据在使用大小的增加。然而,通常用于图像识别和推荐系统。
随机森林是一个学习的方法,包括大量的操作作为一个决策树系综(使用多个学习算法来获得更好的预测性能)。每个预测决策树提供了一个类,类以最高票成为模型的预测。
随机森林算法广泛应用于股票市场,银行,和医学领域。例如,它可以用来识别的顾客更有可能按时偿还债务。
正如前面提到的,预测房价,网络广告的点击率,甚至客户愿意支付一个特定产品的监督学习模型的显著例子。
这里有一些更多的例子,在日常生活中你可能会遇到。
通过利用标记数据,监督学习算法可以轻松创建模型,可以将大数据,甚至对未来结果做出预测。这是一个杰出的机器学习技术,介绍了人类世界。
说到学习技术使机器智能,你可曾想过人工智能系统我们今天真正有能力吗?如果是这样,饲料通过阅读更多关于你的好奇心狭窄的人工智能。
从来没有错过一个帖子。
订阅保持手指科技脉搏。