我将尝试通过使用CUDA来优化一些用MATLAB编写的代码。我最近开始对CUDA进行编程,但是我对它的工作原理有一个大致的了解。

所以,说我想将两个矩阵加在一起。在CUDA中,我可以编写一种算法,该算法将利用线程来计算结果矩阵中每个元素的答案。但是,这种技术可能与MATLAB已经执行的技术不相似吗?在那种情况下,效率是否不取决于技术而仅归因于硬件级别?

将MathWorks的解决方案与第三方工具和手工制作的CUDA进行比较可能会很有趣。 developer.nvidia.com/object/matlab_cuda.html

技术可能相似,但是请记住,使用CUDA时,您有数百个线程同时运行。如果MATLAB正在使用线程并且这些线程在Quad内核上运行,则每个时钟周期只会减少4个线程,而在相同的时钟周期下,您可以实现数百个线程在CUDA上运行。

因此要回答您的问题,是的,此示例中的效率与技术无关,并且仅归因于硬件。

看到加速我不会感到惊讶-实际上,只要输入大小值得开销,就可以期待它。但是,我的观点是,算法本身(即并行计算每个元素的加法)对硬件的加速没有贡献。

答案是肯定的,所有效率都是硬件级别的。我不了解matlab的工作原理,但是CUDA的优势在于,与matlab不同,可以同时执行多个线程。

顺便说一句,如果您的问题很小,或者需要执行许多读写操作,则CUDA可能只会让您更加头疼。

据推测,MATLAB在虚拟机级别使用了多个线程。

为简单起见,最好在Matlab PCT中使用gpuArray支持。你可以在这里检查

http://www.mathworks.de/de/help/distcomp/using-gpuarray.html

对于诸如添加gpuArrays,乘法,最小值,最大值等之类的东西,它们使用的实现往往是可以的。我确实发现,对于像abs(y-Hx)。^ 2这样的小矩阵进行批处理操作,最好编写一个为您执行此操作的小内核。

CUDA对matlab具有官方支持。

[需要链接]

您可以使用mex文件在MATLAB的GPU上运行。

瓶颈是数据从CPU-RAM传输到GPU的速度。因此,如果最小化传输并进行大块传输,则加速效果会很好。