浅显易懂！无监督学习中4个基本技巧_小言_互联网的博客

浅显易懂！无监督学习中4个基本技巧

2020-04-01 15:16 769人阅读评论(0)

全文共1635字，预计学习时长3分钟

如今杰出的深度学习技术都依赖于监督学习，然而我们深知人们学习东西、模式和概念时不会牵扯太多监督。从某种意义上讲，人类的学习是无监督的。

无监督学习并未受到广泛关注，有这么几个清晰原因：目前无监督学习很难，效果不是很好，对它的研究不是很多，而且其框架本身的概念都很难去精确定义。

话虽如此，但在一些特定的程序和设置中仍会用到无监督学习的一些基础技术，这些技术或许可以为AI未来的研究提供思路。本文会讲到4个基本的无监督学习技术和应用！

聚类

聚类会处理多组数据点。给出一组数据点，可以使用聚类算法将点分成不同的组。

理论上同组数据点应该有相似的性质和/或特性，不同组的就应大相径庭。通常会用基于某种特征变量集的距离度量对点之间的相似性进行量化。

常用的K-means聚类算法

聚类技术简单而有效，所需工作强度不大，却能经常提供有用的数据信息。正因如此，数十年来许多领域都应用到此技术：

• 生物学中基因和物种种群的研究

• 医学成像——区分不同人体组织

• 市场调研——根据一些属性了解不同的商业群体和顾客

• 推荐系统，比如告诉你使用Amazon的更好建议

不止如此，还有很多例子。

自编码器

在编程机器学习时，可能会遇到一些特定情况，就是数据特性太大而无法处理。比如，做面部识别应用时我们会把每个人脸图像模板都存放到数据集中，这样就可以再次识别。保存128*128的人脸彩色图像，就需要为每张照片保存128*128*3-49152的浮点值！如果只储存100张人脸图像，看似这很简单，但会消耗大量的磁盘空间！

自编码器由此问世。利用它可以自行编码，占据磁盘空间少并且仍具备相同功能。

为了证明这一点，我们将通过训练神经网络来预测输入值。听起来很奇怪是吗？这就是为什么有一个隐蔽的点：自动编码器中间层的特性比输入和输出的少得多。通过训练神经网络了解对面部特征并压缩，这样一来就可以只保存压缩版本，替代占据空间大的图像，同时也能提供高精度的数据！