0 前言
本章将讨论几类比较常用的保持进化群体分布性的方法和技术,如小生境技术、信息嫡 (information entropy) 、 聚集密度 (crowding density)、网格(hyper-grid) 、聚类分析 (clustering analysis)和最小生成树(minimum spaning tree),同时简单讨论非均匀问题的 分布性及其保持策略。
1. 小生境技术
目前有代表性的小生境技术主要有以下几种:
① 基于预选择(preselection)机制的小生境技术(Cavicchio, 1972)。在这种技术中, 只有当子个体的适应度优于其父代个体时,子个体才能替代其父个体,进入下一代进化。 这种相似个体的替代(父个体与子个体之间的性状遗传),能够较好地保持进化群体的多 样性。
② 基于排挤(crowding)机制的小生境技术(Goldberg et aL 1987) ,这种技术采用群体代间的覆盖方式,依据相似性替代群体中的个体。设置一个排挤因子 ,在进化群体中选取规模为
③ 基于共享(sharing)机制的小生境技术(Goldberg et al, 1987)。 在这种机制中定义了一个共享函数(sharing function),它表示两个个体之间的相似程度,两个个体越相似, 其共享函数值就越大,反之则越小。一个个体的共享度是该个体与群体中其他个体之间共享函数值的总和。设 为个体 和 之间的距离或相似程度(基因型或表现型), 表示 ,则:
个体 的共享适应度为 。其中, 为进化群体, 为共享函数, 为个体
这种计算个体共享适应度的方法考虑了一个个体与群体中所有其他个体之间的相似程度,时间开销比较大。目前,用得比较多的是设置一个共享半径(亦称小生境半径),只计算共享半径以内个体的相似程度。设个体 的适应度为 , 个体 的小生境计数为
为当前进化群体, 为个体 和 之间的距离或称相似程度, 为共享函数,
式中,
定义 为个体 的共享适应度,此处 实质上就是个体 在小生境中的聚集度。同 一小生境内的个体互相降低对方的共享适应度。个体的聚集程度越高,其共享适应度就被降低得越多。( 增加,
多目标优化中个体适应度的计算
(1)目标函数组合法
(2)简单支配关系法
(3)复合支配关系法
2. 信息熵
定义 4.1 群体 的规模为 ,个体 由 个基因构成,, 群体 中个体均值定义为 , 其中 (即所有个体相同位置的基因求和取平均),则解群体的方差定义为 ,其中 (同样按照不同个体相同位置的基因进行计算)
定义 4.2 若进化群体 的规模为 , 将它划分为 个子集 ,且满足: 且 ,,(即:所有子集的并集为全集,子集的交集为空集) 则定义解群体的熵为:
式中, 为
值得说明的是,解群体的方差在一定程度上反映了解群体的空间分布情况。当解群体中所有个体相同 (归为同一个子集) 时,即 这时熵取最小值 ) ;当 时,熵取最大值 。 个体在解群体中分布得越均匀,个体多样性越好,则其嫡就越大。对于十进制编码,嫡的最大值为 对于二进制编码,熵的最大值
对于单目标优化问题,当解群体的方差很小时收敛;对多目标优化问题,当非支配集收敛到 最优解时,方差和熵都达到较大值。最理想的情况是非支配集中的 个个体, 并且都均匀分布在
定义 4.2 为进化群体, 设 为一个符号集,,在 中的取值概率分别为 ,其中 ,则对应于基因座 的信息熵定义为 , 其中 为 中第 个符号出现在基因座 上的概率,即有 (基因座 上出现第 个符号的总数) / 。定义群体的平均信息熵为 。
3. 聚集密度
宏观上,进化群体的熵或群体的平均信息熵能够比较好地刻画群体中个体的多样性与分布性,但这种方法缺乏对群体内部个体之间关系的刻画,因此不便于调控群体进化过程中的多样性与分布性。刻画群体多样性的另一种方法是群体中个体的聚集密度或聚集距离,如果个体之间的聚集距离比较大,则表明个体的聚集密度比较小。这种方法的计算复杂性高于前 一种方法,但它既能从宏观上刻画群体的多样性与分布性,同时也比较好地刻画了个体之间的内在关系,可以用于进化过程中对群体的调控。
1. 用相似度来计算个体的聚集密度
定义 4.4 群体 中的个体 ,定义个体 和个体 之间的相异程度为 ,其中 为对应于基因座 的常数因子, 且通常有 为一常量。定义个体 和个体 之间的相似度为 。
定义 4.5 定义个体 的聚集度为与个体 相似的个体在群体中所占比重,即 与个体 相似度大于 的个体的总数 其中 为一常数,一般取值为
2. 用影响因子来计算个体的聚集密度???
3. 用聚集距离来计算个体的聚集密度
4. 网格
1. 网格边界
2. 个体在网格中的定位
归档集: 当前代的非支配集
3. 自适应网格
5. 聚类方法
5.1 聚类分析中的编码及其相似度计算
(1)实数编码及其相异度计算
(2) 二进制串编码及其相似度计算
(3) 树结构编码及其相似度计算
(4) 符号编码及其相似度计算
(5) 混合编码及其相似度计算
5.2 聚类分析
(1)基于中心点的聚类算法
(2)基于类距离的层次聚类算法
5.2 极点分析与处理
6. 非均匀问题的分布性
6.1 非均匀分布问题
6.2 杂乱度分析
定义4.9 对种群 生成一棵欧氏最小生成树(euclidean minimum spanning tree,EMST),对于 的任一个体 定义,杂乱度 为
式中, 为个体 在 中的度数; 分别为 中连接
由 的贪婪性和连通性可知, 中的边实质是连接不同聚类之间的最短距离(单个个体也可以看作一个聚类),即种群由 中任意一边划分的两个个体集(聚类)之间,不存在比该边更短的距离。这样, 中具有两个以上边的个体(即度数大于等于 2 的个体)可以看作连接不同聚类的中间个体,边的长度可以看作个体与聚类之间的距离。自然地,个体最大边与最小边的比反映了个体与不同聚类之间距离的最大差异,比值大表明了个体与周围不同聚类的 “联系” 参差不齐,相对混乱。另外,对于 中度数为 1 的个体,它们的最大边与最小边相同。这些个体只与一个聚类连接, 没有反映个体与不同聚类之间联系的差异,我们赋予它较小的杂乱度。此外,个体在
6.3 种群维护