• 系列文章目录
  • 文章目录一、什么是非监督学习二、聚类算法1.什么是聚类算法2.聚类算法的应用三、非监督学习其他算法总结



一、什么是非监督学习

非监督学习 unsupervised learning

非监督学习的使用是非常广泛的。
那么什么是非监督学习 unsupervised learning 呢?

我们正确学习过什么是监督学习 supervised,
在有分类问题的的情况下,每个示例都与一个输出标签 label 相关联 。如我们知道肿瘤患者的年龄和肿瘤的大小,知道肿瘤是良性还是恶性。
但是在非监督分类中,我们得到的数据与任何输出 label 都不相关,我们知道肿瘤患者的年龄和肿瘤的大小,但不知道肿瘤是良性还是恶性。

我们没有被要求诊断肿瘤是良性还是恶性,因为我们没有任何标签 label ,
非监督学习就是让我们在非监督的数据集中找到一些结构或模式,或者只是在数据集中找到一些有趣的东西。

这就是非监督学习,无人监督,因为我们不想给监督算法一些 label ,对每一个输入都有正确答案,我们想做的是让算法自己找出 数据集中什么是有趣的,或者什么模式或结构可能在这个数据集中。

二、聚类算法

1.什么是聚类算法

非监督学习算法可能决定数据可以分配给两个不同的组或两个不同的集群,

所以我们可能会决定这里有一个集群或者群体,而另一个地方有另一个群体,

这是一种特殊类型的非监督学习,称为聚类算法。

因为它将未标记的数据放入不同的集群中,这被用于许多的应用中。

2.聚类算法的应用

例如浏览器的推荐

如果你很关注一件事,而去经常搜索的话,浏览器可能就会给你推荐关于这件事的信息,它会将多条关于这件事的信息放到一个集群。

那么浏览器怎么会知道在这么多互联网的信息中给你推荐这些内容呢,算法在没有监督的情况下,只能自己去想办法,这就使用到了非监督分类中的聚类算法。

又或者一个大型公司,它拥有许多的客户信息数据,根据这些数据,你需要自动把这些客户分成不同的市场,这样你就能更有效地为你的客户提供具体的服务。为了实现它,你就需要将每个客户的需求分成一个个的集群。

或者在职场中的许多人,一部分想通过学习技能去提升自己,一部分想寻找发展事业的途径,这就是两个集群。

三、非监督学习其他算法

自此,我们了解了一个非监督学习的算法,叫做聚类算法 clustering

除此之外还有很多,
异常检测 anomaly detection ,它被用来探测不寻常的事件。像金融系统中的诈骗检测,不寻常交易等。

降维 dimensionality reduction,它可以用来获取一个大的数据集,并可以将其压缩到一个小得多的数据集,同时损失尽可能少的信息。


总结

聚类算法,它是一种非监督学习算法,在没有标签的情况下获取数据,并尝试将他们自动分组到集群中。
处理聚类算法,还有其他的非监督学习算法。
在监督学习中,数据包含输入x和输出标签y,
在非监督学习中,数据只包含输入x,但不输出标签y。
算法必须在数据中找到一些结构或模式 或者有趣的东西。
我们只了解了一个非监督学习的算法,叫做聚类算法 clustering。
除此之外还有很多,
如异常检测 anomaly detection ,
降维 dimensionality reduction等。