原文题目

A Differential Evolution Algorithm With Adaptive Niching and K-Means Operation for Data Clustering

摘要

该论文解决的问题：数据聚类
使用的算法：差分进化算法
创新点：

Adaptive Niching（自适应小生境）
目的：防止进化搜索的过早收敛（防止陷入局部最优）
Adaptive K-Means Operation（自适应 K-Means 操作） 局部搜索
目的：提高搜索效率（前人是固定 K-Means 的操作次数，这里改成自适应的了）

结果：优于相关算法

I. 引言

背景知识

聚类是数据挖掘中一个重要而又困难的任务。聚类的目的就是将数据集中的对象划分为不同的簇，使得相似的对象被划分到相同的簇而不相似的对象被划分到不同的簇。

聚类算法大致可以分为两类：

分层聚类算法
分层方法建立了一个树状的聚类层次结构，使每个聚类嵌套在层次结构的上一级的聚类中。
分区聚类算法
分区方法则是通过优化特定的标准，将数据集直接划分为不同的组。
根据数据对象是只被分配给一个簇还是具有一定成员关系的每个簇，分区方法可以进一步分类为硬聚类和模糊聚类。

Niching（小生境）

这个概念困扰了我好久，通过看论文和博客稍微理解了一点。

小生境（Niche）：来自于生物学的一个概念，是指特定环境下的一种生存环境，生物在其进化过程中，一般总是与自己相同的物种生活在一起，共同繁衍后代。例如，热带鱼不能在较冷的地带生存，而北极熊也不能在热带生存。把这种思想提炼出来，运用到优化上来的关键操作是：当两个个体的相似度小于预先指定的某个值（称之为小生境距离）时，由于存在竞争关系，所以惩罚其中适应值较小的个体。

在多峰函数求解的遗传算法中,通常把解空间中峰周围的子空间比作生物生长的小生境, 把峰周围的个体比作在该小生境中繁衍的物种。所谓适应值共享, 就是将该小生境中所有个体的适应值按照物种的规模以一定的方式降低。显然, 如果某个小生境中有较多的个体, 那么该小生境中所有个体的适应值将以较大幅度降低。

A niche can be defined generally as a subset of resources in the environment. A species, on the other hand, can be defined as a type or class of individuals that takes advantage of a particular niche. Thus, niches are divisions of an environment, while species are divisions of the population.

小生境一般可以定义为环境中资源的子集。另一方面，一个物种可以定义为利用特定小生境的一种或一类个体。因此，小生境是环境的划分，而物种是种群的划分。

在生物学中，物种被定义为具有类似生物特征的个体群体，它们之间能够杂交，但不能与不同群体的个体杂交。由于每个小生境的资源数量有限，必须由占据该生态位的物种成员共享，随着时间的推移，环境中自然出现了不同的小生境和物种。自然生态系统不是无动于衷地进化单一的个体群体，而是进化出不同的物种（或子种群）来占据不同的小生境。

适应度共享

一个经典的小生境方法是适应度共享，可能是最广泛使用的小生境方法。共享概念最初是由Holland提出的，后来被采纳为一种机制，根据种群中个体的相似性将种群划分为几个子种群。适应度共享的灵感来自于在自然中观察到的共享概念，在自然中，一个个体只有有限的资源，且必须与环境中处于同一小生境的其他个体共享。适应度共享试图通过降低一个个体的适应度来维持一个多样化的群体，这种方法基于其他邻近个体的存在。在选择过程中，同一环境中的许多个体会降低彼此的适应度，从而使占据同一小生境的个体数量减少。

参考文献

X. Li, M. G. Epitropakis, K. Deb, and A. Engelbrecht, “Seeking multiple
solutions: An updated survey on niching methods and their applications,”
IEEE Trans. Evol. Comput., vol. 21, no. 4, pp. 518–538, Aug. 2017.

提出 Niching Method 的动机

一般来说，对于某些搜索空间很少有局部最优解的聚类问题，基于EA和基于EA的混合方法都能识别出最优解，而非平凡聚类问题通常涉及大量甚至大量的局部最优解。在这种情况下，这些方法很容易陷入局部最优。这主要是由于传统的EAs和混合EAs在进化过程中难以保持解的多样性。

小生境方法可以使进化算法并行地搜索解空间中的多个峰值。同时，它们可以用来保持种群的多样性，防止 EAs 陷入前景较差的局部最优。

多峰值的例子如下图所示

上图引用自 X. Li, M. G. Epitropakis, K. Deb, and A. Engelbrecht “Seeking multiple solutions: An updated survey on niching methods and their applications,” IEEE Trans. Evol. Comput., vol. 21, no. 4, pp. 518–538, Aug. 2017.