TOPSIS算法
英文全称Technique for Order Preference by Similarity to Ideal Solution,翻译为逼近理想解排序法。使用层次分析法进行评价时,n不能很大,最多就15个,再多就没有随机一致性指标RI的值了。当评价的对象比较多的时候,我们可以利用数据信息进行评价。
基本过程为先将原始数据矩阵统一指标类型(一般正向化处理)得到正向化的矩阵,再对正向化的矩阵进行标准化处理以消除各指标量纲的影响,并找到有限方案中的最优方案和最劣方案,然后分别计算各评价对象与最优方案和最劣方案间的距离,获得各评价对象与最优方案的相对接近程度,以此作为评价优劣的依据。该方法对数据分布及样本含量没有严格限制,数据计算简单易行。
三种指标与正向化方法
- 极小型指标转化为极大型指标:,或者
- 中间型指标转化为极大型指标:
首先得到距离最远的值:,然后计算该对象这个指标正向化后的值: - 区间型指标转化为极大型指标:
首先计算距离这个区间最远的值:
计算方法
(1)原始矩阵正向化
将矩阵中的极小型,中间型和区间型指标正向化为极大型指标
(2)正向化矩阵标准化
也就是每一个元素/其所在列的元素平方和开平方
(3)计算得分和归一化排序
- 计算每一列的最大值 和最小值
- 计算每个对象与最大值的距离 和最小值
- 得分:
- 归一化:
代码
使用熵权法确定权重
clear;clc
load data_water_quality.mat
%% 第二步:判断是否需要正向化
[n,m] = size(X);
disp(['共有' num2str(n) '个评价对象, ' num2str(m) '个评价指标'])
Judge = input(['这' num2str(m) '个指标是否需要经过正向化处理,需要请输入1 ,不需要输入0: ']);
if Judge == 1
Position = input('请输入需要正向化处理的指标所在的列,例如第2、3、6三列需要处理,那么你需要输入[2,3,6]: '); %[2,3,4]
disp('请输入需要处理的这些列的指标类型(1:极小型, 2:中间型, 3:区间型) ')
Type = input('例如:第2列是极小型,第3列是区间型,第6列是中间型,就输入[1,3,2]: '); %[2,1,3]
% 注意,Position和Type是两个同维度的行向量
for i = 1 : size(Position,2) %这里需要对这些列分别处理
X(:,Position(i)) = Positivization(X(:,Position(i)),Type(i),Position(i));
end
disp('正向化后的矩阵 X = ')
disp(X)
end
%% 第三步:对正向化后的矩阵进行标准化
Z = X ./ repmat(sum(X.*X) .^ 0.5, n, 1);
disp('标准化矩阵 Z = ')
disp(Z)
%% 让用户判断是否需要增加权重
disp("请输入是否需要增加权重向量,需要输入1,不需要输入0")
Judge = input('请输入是否需要增加权重: ');
if Judge == 1
Judge = input('使用熵权法确定权重请输入1,否则输入0: ');
if Judge == 1
if sum(sum(Z<0)) >0 % 如果之前标准化后的Z矩阵中存在负数,则重新对X进行标准化
disp('原来标准化得到的Z矩阵中存在负数,所以需要对X重新标准化')
for i = 1:n
for j = 1:m
Z(i,j) = [X(i,j) - min(X(:,j))] / [max(X(:,j)) - min(X(:,j))];
end
end
disp('X重新进行标准化得到的标准化矩阵Z为: ')
disp(Z)
end
weight = Entropy_Method(Z);
disp('熵权法确定的权重为:')
disp(weight)
else
disp(['如果你有3个指标,你就需要输入3个权重,例如它们分别为0.25,0.25,0.5, 则你需要输入[0.25,0.25,0.5]']);
weight = input(['你需要输入' num2str(m) '个权数。' '请以行向量的形式输入这' num2str(m) '个权重: ']);
OK = 0; % 用来判断用户的输入格式是否正确
while OK == 0
if abs(sum(weight) -1)<0.000001 && size(weight,1) == 1 && size(weight,2) == m % 注意,Matlab中浮点数的比较要小心
OK =1;
else
weight = input('你输入的有误,请重新输入权重行向量: ');
end
end
end
else
weight = ones(1,m) ./ m ; %如果不需要加权重就默认权重都相同,即都为1/m
end
%% 第四步:计算与最大值的距离和最小值的距离,并算出得分
D_P = sum([(Z - repmat(max(Z),n,1)) .^ 2 ] .* repmat(weight,n,1) ,2) .^ 0.5; % D+ 与最大值的距离向量
D_N = sum([(Z - repmat(min(Z),n,1)) .^ 2 ] .* repmat(weight,n,1) ,2) .^ 0.5; % D- 与最小值的距离向量
S = D_N ./ (D_P+D_N); % 未归一化的得分
disp('最后的得分为:')
stand_S = S / sum(S)
[sorted_S,index] = sort(stand_S ,'descend')
我更改后的Positivization文件代码:
function [change_x] = Positive_Change(src_x, type, index)
if type == 1
disp(['极小型的列:' num2str(index)]);
change_x = max(src_x) - src_x;
disp('----------极小型正向化完成----------')
elseif type == 2
disp(['中间型的列:' num2str(index)]);
best_num = input('请输入该指标最好的值:');
M = max(abs(src_x - best_num)); % 得到距离最远的值
change_x = 1 - abs(src_x - best_num)/M;
disp('----------中间型正向化完成----------')
elseif type == 3
disp(['区间型的列:' num2str(index)]);
L = input('区间上界:');
R = input('区间下界:');
row_x = size(src_x, 1);
M = max([L - min(src_x), max(src_x) - R]);
for i = 1 : row_x
if src_x(i) < L % 距离上界的大小
change_x(i) = 1 - (L - src_x(i)) / M;
elseif src_x(i) > R % 距离下界的大小
change_x(i) = 1 - (src_x(i) - R) / M;
else
change_x(i) = 1;
end
end
disp('----------区间型正向化完成----------')
else
disp('类型输入错误!');
end
end
熵权法
层次分析法的权重大多是由自己确定的,主观性太强。熵权法是一种客观赋权方法,当数据变异程度越小,可以理解为方差越小,数据所含的信息越小,权重也就越低。常常使用差学生考生清华和好学生考上清华做为例子对比。
但是熵权法也有自己的弊端,对于一些极端情况,有些指标的变异程度虽然非常小,但是可能其权重很大,例如在评选奖学金的时候记档案次数和迟到次数,通过熵权法得到这两个指标的权值与实际常识不符。
信息熵
当越有可能发生的事情,信息量越小;当越不可能发生的事情,信息量越多。
我们使用概率表示事情发生的可能性大小,也就是概率与信息量呈反比,我们可以使用对数函数前加负号表示它们之间的关系。
设为事件发生的一种情况,这种情况发生的概率为,那么它的信息量 可以定义为:。如果事件所有可能发生的情况为:
那么事件的信息熵可以定义为:
可以看出信息熵其实是信息量的期望值。
当所有事件发生的情况概率相同时,信息熵最大(了解)
计算步骤
(1)首先对输入的矩阵进行正向化,对构成的正向化矩阵进行标准化得到矩阵,的元素:
如果Z中存在负数,需要对使用另一种标准化方法得到:
即x减去这一列最小值除去这一列的最大值减最小值
(2)计算第项指标下第i个样本的比重,将其看作相对熵计算中的概率
(3)计算每个指标的信息熵,并计算信息有效值,归一化得到每个指标的熵权
信息熵的计算公式:
- 当时最大,此时,除以可以使信息熵始终位于上面。
- 当越大,j指标的信息熵越大,那么第j个指标所包含的信息越少,当取得最大值的时候,那么,即所有的指标值都相同,信息效用值最小。
- 信息效用值:,当信息效用值越大,对应的信息越多。
- 我们将信息效用值进行归一化,就能得到每个指标的熵权:
代码
从得到标准化矩阵开始
function [W] = Entropy_Method(Z)
% 计算有n个样本,m个指标的样本所对应的的熵权
% 输入
% Z : n*m的矩阵(要经过正向化和标准化处理,且元素中不存在负数)
% 输出
% W:熵权,1*m的行向量
%% 计算熵权
[n,m] = size(Z);
D = zeros(1,m); % 初始化保存信息效用值的行向量
for i = 1:m
x = Z(:,i); % 取出第i列的指标
p = x / sum(x);
% 注意,p有可能为0,此时计算ln(p)*p时,Matlab会返回NaN,所以这里我们自己定义一个函数
e = -sum(p .* mylog(p)) / log(n); % 计算信息熵
D(i) = 1- e; % 计算信息效用值
end
W = D ./ sum(D); % 将信息效用值归一化,得到权重
end