我建议你看看图像之间的地球移动器的距离(EMD)。

这个度量给出了将标准化灰度图像转换成另一个图像有多难的感觉,但是可以将其概括为彩色图像。这种方法的非常好的分析可以在下面的文章中找到:

它可以在整个图像和直方图(这真的比整个图像方法更快)。我不知道哪个方法允许一个完整的图像比较,但对于直方图比较,你可以使用cv.CalcEMD2函数。

唯一的问题是,这种方法没有定义相似性的百分比,而是一个你可以过滤的距离。

我知道这不是一个完整的工作算法,但仍然是它的基础,所以我希望它有所帮助。

编辑:

这里是一个欺骗EMD如何工作原则。主要思想是有两个归一化矩阵(两个灰度图像除以它们的和),并定义一个通量矩阵,描述如何从第一个图像将灰色从一个像素移动到另一个像素,以获得第二个(它可以定义为对于非规范化,但更困难)。

在数学术语中,流矩阵实际上是四维张量,其给出从旧图像的点(i,j)到新图像的点(k,l)的流,但是如果平整图像,则可以将其变换到正常矩阵,只是有点更难读。

这个流矩阵有三个约束:每个项应该是正的,每行的和应该返回相同的值的表示像素,每列的和应该返回起始像素的值。

给定这个,你必须最小化变换的成本,由(i,j)到(k,l)的每个流的乘积之和对于(i,j)和(k,l)之间的距离给出。

它看起来有点复杂的话,所以这里是测试代码。逻辑是正确的,我不知道为什么scipy解决者抱怨它(你应该看看也许openOpt或类似的东西):

#original data, two 2x2 images, normalized
x = rand(2,2)
x/=sum(x)
y = rand(2,2)
y/=sum(y)
#initial guess of the flux matrix
# just the product of the image x as row for the image y as column
#This is a working flux, but is not an optimal one
F = (y.flatten()*x.flatten().reshape((y.size,-1))).flatten()
#distance matrix, based on euclidean distance
row_x,col_x = meshgrid(range(x.shape[0]),range(x.shape[1]))
row_y,col_y = meshgrid(range(y.shape[0]),range(y.shape[1]))
rows = ((row_x.flatten().reshape((row_x.size,-1)) - row_y.flatten().reshape((-1,row_x.size)))**2)
cols = ((col_x.flatten().reshape((row_x.size,-1)) - col_y.flatten().reshape((-1,row_x.size)))**2)
D = np.sqrt(rows+cols)
D = D.flatten()
x = x.flatten()
y = y.flatten()
#COST=sum(F*D)
#cost function
fun = lambda F: sum(F*D)
jac = lambda F: D
#array of constraint
#the constraint of sum one is implicit given the later constraints
cons = []
#each row and columns should sum to the value of the start and destination array
cons += [ {'type': 'eq', 'fun': lambda F: sum(F.reshape((x.size,y.size))[i,:])-x[i]} for i in range(x.size) ]
cons += [ {'type': 'eq', 'fun': lambda F: sum(F.reshape((x.size,y.size))[:,i])-y[i]} for i in range(y.size) ]
#the values of F should be positive
bnds = (0, None)*F.size
from scipy.optimize import minimize
res = minimize(fun=fun, x0=F, method='SLSQP', jac=jac, bounds=bnds, constraints=cons)

变量res包含最小化的结果…但是正如我所说的,我不知道为什么它抱怨一个奇异的矩阵。

这个算法的唯一问题是不是很快,所以不可能按需要做,但你必须在创建数据集时耐心地执行它,并将结果存储在某处