AMD HSA 异构计算架构和AMD-KFD内核驱动

原创

豆豆爹 2022-12-05 10:00:33 博主文章分类：GPGPU ©著作权

©著作权归作者所有：来自51CTO博客作者豆豆爹的原创作品，请联系作者获取转载授权，否则将追究法律责任

当前的CPU和GPU是分立设计的处理器，不能高效率地协同工作，编写同时运行于CPU和GPU的程序也是相当麻烦。由于CPU和GPU拥有独立的地址空间，应用程序不得不明确地控制数据在CPU和GPU之间的流动。CPU代码通过系统调用向GPU发送任务，此类系统调用一般由GPU驱动程序管理，而驱动程序本身又受到其他调度程序管理。这么多的环节造成了很大的调用开销.

为了充分释放并行处理器的计算能力，架构设计者必须打破既有格局，采用新的思路。设计者必须重塑计算系统，把同一个平台上分立的处理单元紧密整合成为不断演进单颗处理器，同时无需软件开发者的编程方式发生重大的改变，这是HSA设计中的首要目标。

2012年6月份，AMD联合ARM、Imagination、联发科、德州仪器共同组建了非营利组织“异构系统架构基金会”(HSA Foundation)，随后吸引了三星电子、高通以及大批行业公司、科研机构的加盟。

10年前这个消息公布之后，AMD还给业界画了一个大饼——未来是属于HSA异构运算的，十六年前54亿美元收购ATI公司也是为了CPU+GPU异构运算的大业，其中CPU负责通用运算及管理，GPU则依靠强大的浮点性能提供主要输出。

不过10年过去了，HSA并没有推出什么重要的产品，实际上这几年盟主AMD都不怎么提HSA异构的事了，尽管自家的APU产品还在推。

意大利网站bitchips日前表示AMD的HSA异构运算死了，要被埋葬了，CPU、GPU共处一个核心的APU也会停止了，未来将是CPU+GPU同一封装的天下(猜测可能是chiplets 芯粒基数，GPU和CPU封装在一起，但不是同一颗DIE).

APU，APU是“Accelerated Processing Units”的简称，中文名字叫加速处理器，是AMD融聚未来理念的产品，它第一次将处理器和独显核心做在一个晶片上，协同计算、彼此加速，同时具有高性能处理器和最新支持DX11独立显卡的处理性能，大幅提升电脑运行效率，实现了CPU与GPU真正的融合。APU是处理器未来发展的趋势。

AMD HSA 异构计算架构和AMD-KFD内核驱动_异构计算

AMD HSA 异构计算架构和AMD-KFD内核驱动_架构_02

相比INTEL的酷睿系列集成显卡，APU的GPU所占面积要大很多，将近50%。

从APU的发展来看，AMD在做的事情是让CPU和GPU彻底融为一体，无论是AMD的Llano，还是Brazos，目标都是一致的。AMD认为，CPU和GPU的融合将分为四步进行：第一步是物理整合过程(Physical Integration)，将CPU和GPU集成在同一块硅芯片上，并利用高带宽的内部总线通讯，集成高性能的内存控制器，借助开放的软件系统促成异构计算。第二步称为平台优化(Optimized Platforms)，CPU和GPU之间互连接口进一步增强，并且统一进行双向电源管理，GPU也支持高级编程语言。第三步是架构整合(Architectural Integration)，实现统一的CPU/GPU寻址空间、GPU使用可分页系统内存、GPU硬件可调度、CPU/GPU/APU内存协同一致。第四步是架构和系统整合(Architectural & OS Integration)，主要特点包括GPU计算环境切换、GPU图形优先计算、独立显卡的PCI-E协同、任务并行运行实时整合等等。

HSA：

异构系统架构(HSA，Heterogeneous System Architecture)用一句话来概括就是：一种智能计算架构，通过无缝地分配相应的任务至最适合的处理单元，使CPU、GPU和其他处理器和谐工作在单一芯片上。上一代APU虽然已经将CPU和GPU无缝融合在了一起，但并没有实现“分配相应的任务至最适合的处理单元”，这就是HSA架构的精髓，也是AMD未来APU想要努力实现的方向。

PS：根据这段描述，似乎可以得出结论，APU是 HSA发展过程中的一个阶段，两者关系用欧拉图表示可以表示成：

AMD HSA 异构计算架构和AMD-KFD内核驱动_处理单元_03

HSA系统的几大特性：

　　 1. 任何处理单元的数据可以轻易地被其它处理单元所访问；
　　 2. 异构计算不仅包括GPU，还包括其它专用处理单元或协处理器；
　　 3. 编程人员不用知道程序在什么处理单元上运行；
　　 4. GPU和其它处理单元无缝访问虚拟内存，解决数据搬迁瓶颈，数据无需复制。

在硬件层面，HSA架构当中的异构统一内存访问是一项关键技术。

AMD在技术创新上相对intel已经保持了近十年的领先优势，从64位，直连架构，集成内存控制器，到APU，异构计算架构等。APU对Sandybridge作为现有的竞争对手，主要优势在于APU DX11 3D加速技术领先于Sandybridge DX10技术至少一代。而双显卡交火加速也是APU独有的强项。APU还可用于多种应用加速，如Steady Video，Office PPT 3D 图形加速，Adobe、Arcsoft、暴风影音、IE9、火狐等越来越多的软件都可受益于APU加速。AMD和Apple等业界领袖公司力推的OpenCL代表未来并行编程与目前串行编程的完美结合，而APU在这个未来发展方向上具有很大的优势。功耗方面APU也有较好的表现，尤其在需要3D图形加速运算的场景更显优势。预计在未来几年强调超轻薄、低功耗、图形性能的大趋势中，APU会越来越占优势。而且APU在重整的HSA异构系统架构的新技术发展中也会越来越显出结构性的优势。

AMD显卡产品

在AMD官网的产品目录页,AMD将显卡产品线分为两个大系列分别展示，其中一个是传统的渲染显卡，而另一个则是GPGPU计算卡。

https://www.amd.com/zh-hans/graphics

渲染显卡部分展示传统的独立显卡，比如 Radeon系列，以及嵌入式和定制显卡，也对基于HSA架构的APU进行了介绍。

AMD HSA 异构计算架构和AMD-KFD内核驱动_异构_04

而计算卡产品线则有MI200等产品，用于数据中心

AMD HSA 异构计算架构和AMD-KFD内核驱动_系统架构_05

AMDKFD内核驱动

作为 AMD 开源 HSA 异构计算核心的重要部分之一的 AMDKFD 内核驱动被纳入 Linux 3.19 内核，标志着 Linux 平台上的 HSA 计算基础架构完成。

本次合并入的 amdkfd 可以理解为在 DRM 子系统中提供了 CPU 与 GPU 沟通的快速通道，使得两者可以平等的访问内存资源而无需额外拷贝。结合前端时间同样开源的 HSA DRM 用户态组件改善，现有的 RadeonSI 开源驱动及 Mesa OpenCL State Tracker，Kaveri 系列 APU 即可实现异构计算。

AMDKFD在内核源码中的位置./linux-5.0/drivers/gpu/drm/amd

~/Workspace/linux/linux-5.0/drivers/gpu/drm/amd$ tree -L 1
.
├── acp
├── amdgpu
├── amdkfd
├── display
├── include
├── lib
└── powerplay

7 directories, 0 files
~/Workspace/linux/linux-5.0/drivers/gpu/drm/amd$

深入到代码，打开amdkfd/kfd_chardev.c文件，可以看到AMD KFD驱动是典型的字符设备，通过设备节点/dev/kfd 向外界暴露功能的。

AMD HSA 异构计算架构和AMD-KFD内核驱动_系统架构_06