小言_互联网的博客

浅显易懂!无监督学习中4个基本技巧

504人阅读  评论(0)

全文共1635字,预计学习时长3分钟

如今杰出的深度学习技术都依赖于监督学习,然而我们深知人们学习东西、模式和概念时不会牵扯太多监督。从某种意义上讲,人类的学习是无监督的。

无监督学习并未受到广泛关注,有这么几个清晰原因:目前无监督学习很难,效果不是很好,对它的研究不是很多,而且其框架本身的概念都很难去精确定义。

话虽如此,但在一些特定的程序和设置中仍会用到无监督学习的一些基础技术,这些技术或许可以为AI未来的研究提供思路。本文会讲到4个基本的无监督学习技术和应用!

聚类

聚类会处理多组数据点。给出一组数据点,可以使用聚类算法将点分成不同的组。

理论上同组数据点应该有相似的性质和/或特性,不同组的就应大相径庭。通常会用基于某种特征变量集的距离度量对点之间的相似性进行量化。

常用的K-means聚类算法

聚类技术简单而有效,所需工作强度不大,却能经常提供有用的数据信息。正因如此,数十年来许多领域都应用到此技术:

• 生物学中基因和物种种群的研究

• 医学成像——区分不同人体组织

• 市场调研——根据一些属性了解不同的商业群体和顾客

• 推荐系统,比如告诉你使用Amazon的更好建议

不止如此,还有很多例子。

自编码器

在编程机器学习时,可能会遇到一些特定情况,就是数据特性太大而无法处理。比如,做面部识别应用时我们会把每个人脸图像模板都存放到数据集中,这样就可以再次识别。保存128*128的人脸彩色图像,就需要为每张照片保存128*128*3-49152的浮点值!如果只储存100张人脸图像,看似这很简单,但会消耗大量的磁盘空间!

自编码器由此问世。利用它可以自行编码,占据磁盘空间少并且仍具备相同功能。

为了证明这一点,我们将通过训练神经网络来预测输入值。听起来很奇怪是吗?这就是为什么有一个隐蔽的点:自动编码器中间层的特性比输入和输出的少得多。通过训练神经网络了解对面部特征并压缩,这样一来就可以只保存压缩版本,替代占据空间大的图像,同时也能提供高精度的数据!

典型自动编码的说明图

功能分离技术

功能分离技术打破了数据集的整体特性,将每个特性都分开来看。在查看每个特性对数据集信息是如何提提供帮助时,或者分别输出预测时,自动编码就非常有用。这样一来便能证明哪些特性很重要,并且了解它们在数据集中所扮演的角色。

用于特征分离的两个最常见的技术:

• 在数据中找到包含最大方差和信息的线性组合

• 奇异值分析(SVD):将数据分到3个小得多的矩阵中

事实上,这两项技术都可以用于创建独立特征,并且独立实现数据分析。由于两者都会提供比原始数据集小得多的矩阵,于是逐渐用降维来压缩数据。

给定单独的特征向量,可以选择最能体现数据和其变量的特征向量,再重新用投影仪展示那些单独的向量。两项技术间降维的过程和联系如下。

降维PCA和SVD

最大期望值算法

最大期望值算法(EM算法)是一种迭代方法,用于估测特定统计模型的参数,以便得到模型的精准数据。例如,假设数据呈高斯分布(如下图),想要寻找该分布的最佳参数并建模,EM算法会提供自动估测参数的途径:即每个方向的均值和标准差!

EM算法中,在期望值(E)步骤和最大值(M)步骤之间交替。E步骤会利用当前参数创建统计模型并将其应用到数据中。

根据数据和统计模型呈现的数据之间的错误,即值的差异,M步骤会为模型计算一套新的参数。建立的新参数能够使差错最小化,或者说相当程度上把数据归入统计模型中的可能性最大化。EM算法可以用于任何场景,想创建数据的统计模型还希望能自动估测参数的话就可以选它。

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)


转载:https://blog.csdn.net/duxinshuxiaobian/article/details/101826777
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场