在 C++性能优化系列——3D高斯核卷积计算(五)2D卷积分离计算 中,基于可分离卷积的性质,先计算x维度卷积,再将y维度卷积计算过程打乱并重组,完成了两个维度的向量化计算。本篇以先计算y维度卷积,后计算x维度卷积的顺序计算2D高斯卷积。

代码实现

代码实现

void Conv2D_Fuse(float* pSrcSlice, int iDim[2], float* pKernel, int iKernelSize, float* pBuffer, float* pDstSlice,float* pSimdKernel)
	{
		int iHalfKernel = iKernelSize / 2;
		for (int y = 0; y < (iDim[1] - iKernelSize + 1); y++)
		{
			float* pDstLine = pDstSlice + (y + iHalfKernel) * iDim[0];
			float* pTmpLine = pBuffer + (y + iHalfKernel) * iDim[0];
			for (int kx = 0; kx < iKernelSize; ++kx)
			{
				float* pSrcLine = pSrcSlice + (y + kx) * iDim[0];
#pragma omp simd
				for (int i = 0; i < iDim[0]; i++)
				{
					pTmpLine[i] += pSrcLine[i] * pKernel[kx];
				}
			}
			Conv1D_Opt_Cmb(pTmpLine, iDim[0], pKernel, iKernelSize, pDstLine);
		}
	}

函数逻辑说明:for循环体内部将原始数据x维度的一条线与一维卷积核的一个元素相乘,将y维度一条线卷积结果计算出来,在调用函数 Conv1D_Opt_Cmb 计算x维度的卷积。

测试下来计算耗时结果跳变幅度大,为了使执行时间稳定,增加执行次数

#define CONV2DREPT 1000*5

执行时间

TestConv2D(Conv2D_Fuse) cost total Time(ms) 2809
TestConv2D cost Time(ms) 0.5618

执行速度比先x后y的计算顺序稍快。

VTune分析性能

总体执行情况

opencv 高斯导数卷积 高斯卷积核计算_并行计算


提示存在问题Vector Capacity Usage。关于该问题的描述如下:

Vector Capacity Usage is low, which usually indicates the use of floating point scalar instructions or vector instructions with partial vector capacity. Explore the instruction mix breakdown to learn more about vectorized code.

VTune给出的解释是向量化计算中夹杂着标量计算。

函数执行

opencv 高斯导数卷积 高斯卷积核计算_performance_02

可以看到函数执行总指令与上一版本相差不大。

热点问题

opencv 高斯导数卷积 高斯卷积核计算_并行计算_03


对应之前的Vector Capacity Usage。热点位置:

opencv 高斯导数卷积 高斯卷积核计算_simd_04


可以看到在计算x维度的卷积时,乘加运算是最大的热点。

热点语句汇编

opencv 高斯导数卷积 高斯卷积核计算_performance_05


从热点语句的汇编指令可以看到,执行了一部分标量运算。

联系之前的Vector Capacity Usage问题,这里对其进行解释:
本文是通过ICC编译器做的向量化优化,同时计算的长度是动态设置的,因此无法保证计算长度刚好是256bit的整数倍,因此ICC对于边界元素要进行标量计算。
因为计算长度不固定,而且指令CPI并没有很差,这个问题不需要特殊处理。

总结

本文通过改变2D高斯卷积计算维度顺序,即先y后x,使计算的执行速度进一步提升。后续将通过Intrinsic函数,用指令实现2D高斯卷积。