参考:第4章  SOM自组织特征映射神经网络      

  生物学研究表明,在人脑的感觉通道上,神经元的组织原理是有序排列的。当外界的特定时空信息输入时,大脑皮层的特定区域兴奋,而且类似的外界信息在对应的区域是连续映像的。生物视网膜中有许多特定的细胞对特定的图形比较敏感,当视网膜中有若干个接收单元同时受特定模式刺激时,就使大脑皮层中的特定神经元开始兴奋,输入模式接近,与之对应的兴奋神经元也接近;在听觉通道上,神经元在结构排列上与频率的关系十分密切,对于某个频率,特定的神经元具有最大的响应,位置相邻的神经元具有相近的频率特征,而远离的神经元具有的频率特征差别也较大。大脑皮层中神经元的这种响应特点不是先天安排好的,而是通过后天的学习自组织形成的。
      据此芬兰Helsinki大学的Kohonen T.教授提出了一种自组织特征映射网络(Self-organizing feature Map,SOM),又称Kohonen网络[1-5]。Kohonen认为,一个神经网络接受外界输入模式时,将会分为不同的对应区域,各区域对输入模式有不同的响应特征,而这个过程是自动完成的。SOM网络正是根据这一看法提出的,其特点与人脑的自组织特性相类似。

 一、竞争学习算法基础:

1、自组织神经网络结构

(1)定义
  自组织神经网络是无导师学习网络。它通过自动寻找样本中的内在规律和本质属性,自组织、自适应地改变网络参数与结构。

(2)结构
  层次型结构,具有竞争层。典型结构:输入层+竞争层。如图1所示。

bp 自组织神经网络 som自组织神经网络实现_权值

 

      a. 输入层:接受外界信息,将输入模式向竞争层传递,起“观察”作用。
    b.竞争层:负责对输入模式进行“分析比较”,寻找规律,并归类。

二、自组织神经网络的原理 

1.分类与输入模式的相似性

  分类是在类别知识等导师信号的指导下,将待识别的输入模式分配到各自的模式类中,无导师指导的分类称为聚类,聚类的目的是将相似的模式样本划归一类,而将不相似的分离开来,实现模式样本的类内相似性和类间分离性。由于无导师学习的训练样本中不含期望输出,因此对于某一输入模式样本应属于哪一类并没有任何先验知识。对于一组输入模式,只能根据它们之间的相似程度来分为若干类,因此,相似性是输入模式的聚类依据。

2、相似性测量

  神经网络的输入模式向量的相似性测量可用向量之间的距离来衡量。常用的方法有欧氏距离法和余弦法两种。

(1)欧式距离法

设X,Xi为两行向量,其间的欧式距离

bp 自组织神经网络 som自组织神经网络实现_bp 自组织神经网络_02

d越小,X与Xi越接近,两者越相似,当d=0时,X=X以d=T(常数)为判据,可对输入向量模式进行聚类分析:由于d12d23d31均小于T,d45d56d46均小于T,而d1i>T (i=4,5,6);d2i>T(i=4,5,6),d3i>T(i=4,5,6),
故将输入模式 Xi按如下分类:

bp 自组织神经网络 som自组织神经网络实现_输入模式_03

 

 

 (2)余弦法:

设X,Xi为两向量,其间的夹角余弦

     cosΨ= 

 

 

举例:

SOM对这些样本分类。

1)、数据处理

训练集:取每个样本的前25个作为训练数据集,总共有75个数据;

测试集:每个样本的后25个构成测试数据集。总共75个数据。

2)、结构

输入层:每个样本有四维特征,所以输入层有4个神经元。

输出层:输入层神经元经过一个四维的权连接分别至三个输出神经元。

3)、参数的初始化

3*1

[0,1]之间的随机数

0.6;

7000;

2

 d、邻域函数:

bp 自组织神经网络 som自组织神经网络实现_权值_04

 

 e、权值调整公式:

bp 自组织神经网络 som自组织神经网络实现_输入模式_05

 

4)代码:

%som实现
%2016-11-12
%by wangbaojia
%  som原理及参数说明
% 1.竞争:匹配最佳神经元---------->计算每个样本和初始神经网络的距离,距离最近神经元作为获胜神经元
%
% 2.合作:在权值更新过程中,不仅获胜神经元的权
%值向量得到更新,而且其近邻神经元的权值向量也按照某个“近邻函数”进行更新。这样在开
%始时移动量很大,权值向量大致地可按它们的最终位置来排序;
%获胜神经元决定兴奋神经元的拓扑邻域的空间位置,从而提供了相邻神经元合作的基础
%   拓扑邻域:规则多边形一般都可以作为邻域形状,常用的主要有正方形或六边形,正方形更为普遍
%
%权重向量的调整就发生在获胜神经元的邻域内。在训练的刚开始阶段,这个邻域比较大,
%随着训练的进行,这个邻域开始不断减小
%
% 3.自适应:权值更新过程
% 算法:
% 1.初始化
%    1)迭代次数:时间步长iter
%    2)输出结点权值向量初始值,向量各元素可选区间(0,1)上的随机值,这里选择正方形邻域
%    3)学习率初始值
%    4)邻域半径的设置应尽量包含较多的邻神经元,整个输出平面的一半
% 2.求竞争获胜神经元;欧拉距离函数求解
% 3.权值更新:
%        获胜节点和邻域范围内神经元集合的m个节点更新权值,j=1:m;    
%            wj(t+1)=wj(t)+learnfun(t)*neighborfun(t)*(x-wj);
% 4.更新学习率,更新邻域函数 
%        neighborfun(t)=neighbor0*exp(-dij/t1);   t1=iter/log(neighbor0)
%         learnfun(t)=learn0*exp(-t/t2);     t2=iter
% 5.当特征映射不再发生明显变化时或达到最大网络训练次数时退出,否则转入第2步

%载入数据,data数据每一行为一个用空格区分的多维数据样本
tic;
%样本数据的位置
file_path='E:\machine learning\神经网络第二次作业\SOM\';
path=strcat(file_path,'data.txt');
%加载所有数据
full_data=load(path);
%数据处理:训练集和测试集各占一半
data=zeros(75,4);%训练数据集
test_data=zeros(75,4);%测试数据集
n=0;m=0;
for j=1:6
    if rem(j,2)==1
        data(25*n+1:25*(n+1),:)=full_data(25*(j-1)+1:25*j,:);
        n=n+1;
    else
        test_data(25*m+1:25*(m+1),:)=full_data(25*(j-1)+1:25*j,:);
        m=m+1;
    end
end
         


[data_row,data_clown]=size(data);

%自组织映射网络m*n
m=3;
n=1;
%神经元节点总数som_sum
som_sum=m*n;
%权值初始化,随机初始化
w = rand(som_sum, data_clown);
%初始化学习率
learn0 = 0.6;
learn_rate = learn0;
%学习率参数
learn_para=1000;
%设置迭代次数
iter =700;
%神经元位置
[I,J] = ind2sub([m, n], 1:som_sum);
%邻域初始化 
neighbor0 =2;
neighbor_redius = neighbor0;
%邻域参数
neighbor_para = 1000/log(neighbor0);

%迭代次数
for t=1:iter 
    %  样本点遍历
    for j=1:data_row  
        %获取样本点值
        data_x = data(j,:); 
        %找到获胜神经元
        [win_row, win_som_index]=min(dist(data_x,w'));  
        %获胜神经元的拓扑位置
        [win_som_row,win_som_cloumn] =  ind2sub([m, n],win_som_index);
        win_som=[win_som_row,win_som_cloumn];
        %计算其他神经元和获胜神经元的距离,邻域函数
        %distance_som = sum(( ([I( : ), J( : )] - repmat(win_som, som_sum,1)) .^2) ,2);
        distance_som = exp( sum(( ([I( : ), J( : )] - repmat(win_som, som_sum,1)) .^2) ,2)/(-2*neighbor_redius*neighbor_redius)) ;
        %权值更新
        for i = 1:som_sum
           % if distance_som(i)<neighbor_redius*neighbor_redius 
            w(i,:) = w(i,:) + learn_rate.*distance_som(i).*( data_x - w(i,:));
        end
    end

    %更新学习率
    learn_rate = learn0 * exp(-t/learn_para);   
    %更新邻域半径
    neighbor_redius = neighbor0*exp(-t/neighbor_para);  
end
%data数据在神经元的映射
%神经元数组som_num存储图像编号
som_num=cell(1,size(w,1));
for i=1:size(w,1)
    som_num{1,i}=[];
end
%每个神经元节点对应的data样本编号
for num=1:data_row
    [som_row,clown]= min(sum(( (w - repmat(test_data(num,:), som_sum,1)) .^2) ,2));
    som_num{1,clown}= [som_num{1,clown},num];    
end

%存储神经元数组,.mat格式
path1=strcat(file_path,'som_num.mat');
save(path1,'som_num');
toc;

实验结果:

分为三类:

第一类:51 54 55 56 57 58 61 62 63 65 66 67 69 70 71 73 74  

第二类: 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 52 53 59 60 64 68 72 75

第三类:1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

分类正确率:89.33%