无监督学习:机器学习

2021年3月19日

无监督学习

无监督学习让自己机器学习。

这种类型的机器学习(ML)赠款AI应用学习能力和发现隐藏的模式在大型数据集没有人监督。对实现无监督学习也是至关重要的人工总体智能

标签数据是劳动密集型和耗时的,在许多情况下,不切实际。这就是无监督学习带来了很大的不同,给予人工智能应用程序没有标签和监督学习的能力。

无监督学习是什么?

无监督学习(UL)机器学习技术用于识别模式数据集包含保密且无标号数据点。在这种学习方法,人工智能系统只给出相对应的输入数据和输出数据。

不像监督式学习,非监督机器学习不需要人监督模型。数据科学家让机器学习通过观察数据和找到自己的模式。换句话说,这子范畴的机器学习系统可以按照给定的信息没有任何外部指导。

无监督学习技术的关键创造人工智能与人类智能系统。这是因为智能机器必须能够(独立)决策通过分析大量的未标记数据。

监督学习算法相比,UL算法更擅长执行复杂的任务。然而,监督学习模型产生更精确的结果作为一个导师明确告诉系统在给定的数据。但是在无监督学习的情况下,事情可能非常难以预测。

人工神经网络,使深度学习现实,似乎非监督学习的支持。虽然这是真的,神经网络的学习算法也可以监督是否已知所需的输出。

无监督学习本身可以是一个目标。例如,UL模型可用于大量数据中发现隐藏的模式,甚至对分类和标签数据点。未排序的数据点的分组是由识别它们的相似与不同之处。

一些原因无监督学习是至关重要的。

  • 无标号数据是丰富的。
  • 标签数据是一个单调乏味的任务需要人类劳动。然而,过程可以ML-powered,简化标签的人类。
  • 这是有用的为探索未知和原始数据。
  • 它是有用的在大型数据集进行模式识别。
无监督学习可以进一步分为两类:参数无监督学习非参数无监督学习

无监督学习是如何工作的

简单地说,非监督学习通过分析未分类的工作,无标号数据和发现隐藏的结构。

在监督学习中,数据科学家提要系统带安全标签的数据时,例如,猫的图片贴上猫,让它通过例子学习。在无监督学习,数据科学家提供的照片,这是系统的责任来分析数据,得出无论是猫的图片。

非监督机器学习需要大量的数据。在大多数情况下,这同样适用于监督学习模型越来越准确,更多的例子。

无监督学习的过程始于数据科学家使用训练数据集训练算法。这些数据集的数据点标记和未分类的。

算法的学习目标是识别模式中的数据集和分类数据点基于相同的识别模式。猫的例子图像的非监督学习算法可以学会识别猫的不同特性,如它们的胡须,长尾,可伸缩的爪子。

如果你仔细想想,非监督学习是我们如何学会识别和分类。假设你从来没有尝过番茄酱或辣椒酱。如果给你两个“标记”瓶番茄酱,辣椒酱和要求品尝,你将能够区分他们的口味。

你也可以识别的特点酱(一个是酸和其他辣),即使你不知道的名字。品尝每几次会让你更熟悉的味道。很快,你将能够组织基于酱说仅仅通过品尝菜肴。

通过分析的味道,你可以找到特定的功能,区分这两个酱汁和组菜肴。你不需要知道酱汁的菜肴的名称或分类。你甚至可能最终调用的甜的酱和其他辣椒酱

这类似于机器如何识别模式和分类数据点在无监督学习的帮助。在相同的示例中,监督学习就会有人告诉你的名字酱和他们如何事先味道。

类型的无监督学习

可分为无监督学习问题聚类协会问题。

聚类

聚类或聚类分析是将对象分组为集群的过程。最相似的东西组合在一起,而其余落入其他集群。集群的一个例子将分组YouTube用户根据他们看历史。

根据它们是如何工作的,聚类可以分为四组如下:

  • 独家集群:顾名思义,独家集群指定一个数据点或对象可以只存在于一个集群。
  • 层次聚类:层次试图创建一个集群的层次结构。有两种类型的层次聚类:烧结的分裂的。凝结的遵循自底向上的方法,首先对每个数据点集群作为一个个体,和对集群合并转移的层次结构。分裂是凝结的相反。每一个数据点开始在一个集群和被分割向下移动的层次结构。
  • 重叠聚类:重叠允许将数据点分为两个或两个以上的集群。
  • 概率聚类:概率使用概率分布来创建集群。例如,“绿色袜子”、“蓝袜子,”“绿色t恤,”和“蓝色t恤”可以分为两类“绿色”和“蓝色”或“袜子”和“t恤”。

协会

关联规则学习支持)是一种无监督学习方法在大型数据库中寻找变量之间的关系。与一些机器学习算法不同的是,陆军研究实验室能够处理非数值的数据点。

简单来说,陆军研究实验室是寻找某些变量是如何彼此相关。例如,买一辆摩托车的人最有可能买一个头盔。

找到这样的关系可以赚钱的。例如,如果顾客购买产品X倾向于购买产品,在线零售商可以推荐产品Y任何人购买产品X。

关联规则学习使用if / then语句在其核心。这些语句可以揭示独立的数据之间的联系。此外,如果/那么模式或关系是观察使用支持信心

支持指定的频率如果/那么关系出现在数据库中。信心定义的次数如果/那么关系被发现是有效的。

市场购物篮分析web使用挖掘关联规则是可能的。

无监督学习算法

聚类和关联规则学习算法的帮助下实现。

先验的算法,辉煌的算法(FP)和频繁模式增长算法的一些显著的算法用于实现关联规则。集群是由算法如k - means聚类和主成分分析(PCA)。

先验的算法

先验的算法建立数据挖掘。是有用的对于挖掘数据库包含大量的交易,例如,一个数据库,其中包含由消费者在超市购买的产品的清单。用于确定药物的有害影响和在市场购物篮分析发现顾客更倾向于购买的物品一起。

辉煌的算法

等价类集群和自下而上的晶格遍历,或辉煌的成就简称,是一种数据挖掘算法用于实现项目集采矿和发现频繁项。

先验的算法使用水平数据格式和因此需要多次扫描数据库来识别频繁项。另一方面,辉煌的成就是一个垂直的方法,通常是更快,因为它只需要扫描一次数据库。

频繁模式增长算法(FP)

频繁模式增长算法(FP)是一个先验的算法的改进版本。该算法代表了数据库的形式称为树结构频繁的树模式

这种频繁树用于采矿最常见的模式。虽然先天算法需要扫描数据库n + 1次(其中n是最长的长度模型),FP-growth算法只需要两个扫描。

k - means聚类

许多迭代的k - means算法广泛应用于科学领域的数据。简而言之,k - means聚类算法组类似的物品到集群。集群为代表的数量k。如果k的值是3,总共有三个集群。

这种聚类方法将无标号数据集,这样每个数据点只属于一个组具有类似属性。关键是要找到K中心集群重心

每个集群将集群有一个重心,看到一个新的数据点,该算法将决定最接近集群数据点所属基于像欧氏距离度量。

主成分分析(PCA)

主成分分析(PCA)是一种降维方法通常用来降低大型数据集的维数。它通过将大量的变量转化为一个较小的一个,包含了几乎所有的大型数据集的信息。

减少变量的数量可能会影响精度,但它可以是简单的一个可以接受的折衷。这是因为较小的数据集更容易分析,和机器学习算法不需要汗水获得有价值的见解。

监督与非监督学习

监督式学习类似于有老师监督整个学习过程。还有一个标记的训练数据集类似于有正确答案你想解决的问题。

更容易理解你的答案是否正确与否,和老师也会纠正你当你犯一个错误。在无监督学习的情况下,没有老师或正确的答案。

从计算的角度来看,非监督学习比监督学习更复杂和耗时。但是,它是有用的对数据挖掘和洞察数据分配任何之前的结构分类器(自动分类数据的机器学习算法)。

尽管是有用的无标号数据时是巨大的,非监督学习可能会导致数据科学家不便。自监督学习中使用的验证数据集也标记,方便数据科学家测量模型的准确性。但同样的不是真正的无监督学习模型。

在许多情况下,非监督学习应用在监督学习。这有助于识别功能和创建类。

无监督学习过程发生在网上,而监督学习进行离线。这允许UL实时算法来处理数据。

在无监督学习问题分为协会和聚类问题,监督学习可以进一步分为回归和分类。

除了监督和非监督学习,semi-supervised学习强化学习

Semi-supervised学习是一个监督和非监督学习。在这个机器学习技术,系统训练一点这样的高级概述。训练数据将被标记的一小部分,剩下的将无标号。

强化学习(RL),人工智能系统会遇到游戏环境中最大限度地回报。系统必须学会通过试验和错误的方法和改善其与每一步获得奖励的机会。

这里有一个快速浏览监督和非监督学习之间的差异的关键。

无监督学习 监督式学习
这是一个复杂的过程,需要更多的计算资源,耗费时间。 它是相对简单的,需要更少的计算资源。
标记的训练数据集。 标记的训练数据集。
不那么准确,但不一定 高度准确
分为协会和集群 分为回归和分类
繁琐的测量模型的准确性以及不确定性。 更容易测量模型的准确性。
类的数量是未知的。 类的数量。
学习发生在实时。 离线学习发生。
先验的、辉煌的k - means聚类,(FP)和频繁模式增长算法使用的一些算法。 线性回归,逻辑回归、朴素贝叶斯和支持向量机(SVM)的一些算法。

非监督机器学习的例子

如前所述,非监督学习本身可以是一个目标,可以用于海量数据中发现隐藏的模式——人类的不切实际的任务。

非监督机器学习的一些实际应用。

  • 异常检测:这是一个寻找的过程典型数据点在数据集,因此,用于检测欺诈活动。
  • 计算机视觉:也被称为图像识别,这一壮举识别物体的图像对自动驾驶汽车至关重要,甚至宝贵的医疗行业的图像分割。
  • 推荐系统:通过分析历史数据,非监督学习算法推荐客户最有可能购买的产品。
  • 客户角色:无监督学习可以帮助企业构建准确的购买习惯的客户角色通过分析数据。

离开算法来自己的设备

自己学习的能力是无监督学习最快的方法来分析大量的数据。当然,选择监督或无监督学习(甚至semi-supervised)取决于你想要解决的问题和时间和浩瀚的数据可用。然而,非监督学习可以使您的整个工作更具有可伸缩性。

AI我们今天不能够统治世界,更不用说违反其创造者的命令。但它使难以置信的壮举像自动驾驶汽车,聊天机器人成为可能。它被称为狭窄的人工智能但并不像听起来那么弱。

机器学习软件
让软件消除单调乏味的任务

利用机器学习的自动化和预测功能,使枯燥的任务过去的事了。

机器学习软件
让软件消除单调乏味的任务

利用机器学习的自动化和预测功能,使枯燥的任务过去的事了。

从来没有错过一个帖子。

订阅保持手指科技脉搏。

通过提交此表格,你同意接收来自G2的营销传播。
Baidu
map