cpu中的指令集优化 arm中的神经网络加速 gpu上神经网络的运行和加速 arm处理器指令集

转载

话不是这么说的 2023-10-08 20:05:21

文章标签 物联网编程语言区块链人工智能嵌入式 文章分类 神经网络人工智能

引言

笔者接触嵌入式领域软件开发已近五年，几乎用的都是 ARM Cortex M 内核系列的微控制器。在这五年期间，感谢C语言编译器的存在，让我不用接触汇编即可进行开发，但是彷佛也错过了一些风景，没有领域到编译器之美和CPU之美，所以决定周末无聊的休息时间通过寻找资料、动手实验、得出结论的方法来探索 ARM CPU 架构的美妙，以及C语言编译器的奥秘。（因为我个人实在是不赞同学校中微机原理类课程的教学方法）。

ARM探索之旅 | 一、带你认识ARM Cortex-M阵营

一、Arm指令集架构

ARM指令集架构简称为ISA，支持三种指令集：A64、A32、T32。

A64指令集在 Armv8-A 中，用于支持64位架构
A32指令集在 Armv6 和 Armv7架构中，称为ARM指令集
T32指令集在 Armv6 和 Armv7架构中，称为Thumb指令集

cpu中的指令集优化 arm中的神经网络加速 gpu上神经网络的运行和加速 arm处理器指令集_人工智能

A32 Instruction Set

A32指令集，在 armv8 之前的架构中也被称为 「ARM 指令集，指令长度固定32位，4字节对齐」。

T32 Instruction Set

T32指令集，在 armv8 之前的架构中被称为 Thumb 指令集。

最初，ARM 指令集的长度固定为 32 位，为了改善用户代码的代码密度，「Thumb 指令集被设计为 16 位指令集」，开发者可以同时使用ARM指令集和Thumb指令集来降低代码大小。但这是两套指令集，两个运行状态，需要在ARM状态和Thumb状态之间来回切换，非常麻烦。

随着时间的推移和Thumb-2技术的引入，「作为Thumb指令集的补充，ARM指令集的大部分功能都被纳入到了Thumb指令，Thumb指令集演化为16位和32位混合长度指令集，称为Thumb-2指令集」。

Thumb-2指令集的诞生，使得编译器可以在单个指令集中平衡性能和代码的大小，提供了极好的代码密度，最小化系统内存大小和成本。

二、Arm架构扩展

ARM还提供了一系列的架构扩展用于满足下一代处理器的需求，这些扩展为ARM处理器提供了一些新的功能。

cpu中的指令集优化 arm中的神经网络加速 gpu上神经网络的运行和加速 arm处理器指令集_编程语言_02

DSP扩展

DSP for Cortex-M 为 ARM Cortex-M 处理器提供了高性能的「信号处理能力」，用于声音、音频、传感器中枢、机器学习等场景，不需要额外的 DSP 设备即可完成信号处理的工作。

带有 DSP 扩展的处理器包括Cortex-M4、Cortex-M7、Cortex-M33、Cortex-M35P、Cortex-M55处理器。

DSP扩展指令在 Thumb 指令集和可选的浮点运算单元的基础上添加，使得在为Cortex-M处理器添加数字信号处理的同时，保持了原有Cortex-M编程模型的易用性。

SIMD指令

这些带有DSP扩展的 Cortex-M 处理器，还提供了 「SIMD 指令」来操作8位或者16位的整数。

SIMD表示单指令多数据，在所有寄存器仍是32位的基础上，「SIMD指令可以同时操作2个16 bit 的值或者4个8 bit 的值」。

cpu中的指令集优化 arm中的神经网络加速 gpu上神经网络的运行和加速 arm处理器指令集_嵌入式_03

工作于8位或16位数据的指令对于处理诸如视频数据或者音频数据的时候非常有用，因为这些数据不需要32位的宽度，SIMD指令提供了并行处理这些数据的能力。

浮点单元

ARM浮点单元技术为「半精度、单精度和双精度的浮点运算」提供了高性能和高效率的硬件支持。

Arm浮点单元使用完整的软件库支持，完全兼容IEEE-754标准，特别适用于对浮点计算精度要求比较高的应用场景。

浮点数据类型的应用场景如下：

汽车控制程序
3D图形
工业控制系统
运动控制系统

Helium

ARM Helium 技术是ARM Cortex-M处理器系列的 M配置向量扩展，简称MVE，该技术是Armv8.1-M架构的扩展，为小型嵌入式设备的机器学习应用提供给了显著的性能提升。

Cortex-M55是首款具有该扩展的处理器。

Helium技术添加了150多个新的标量和向量指令，其中整数Helium技术使8位、16位、32位固定点数据的高效计算成为可能，16位和32位固定点格式在传统的信号处理中广泛应用，比如音频处理，而8位固定点格式在机器学习处理中很重要，比如神经网络计算，图像处理等。

同样，Helium也支持浮点数据类型，包括单精度浮点数（32位）和半精度浮点数（16位）。

三、Cortex-M用什么指令集

讲述了ARM的基本指令集和扩展指令集，是时候来回答我们提出的问题：ARM Cortex-M用什么指令集？

「ARM Cortex-M 全部系列只支持唯一的指令集：Thumb指令集或Thumb-2指令集。确切的来说，是支持T32指令集。」

在Cortex-M阵营众多的成员中，每个处理器对 Thumb/Thumb-2 指令集的支持情况不同，「大部分处理器都是支持 Thumb/Thumb-2 指令集的子集」。

Cortex-M0、Cortex M3、Cortex M4、Cortex M7系列支持的Thumb指令集如图所示。

cpu中的指令集优化 arm中的神经网络加速 gpu上神经网络的运行和加速 arm处理器指令集_人工智能_04

Cortex-M23和Cortex-M33内核支持的Thumb指令如下图所示，图中黄色部分表示ArmV8-M系列新增的指令：

cpu中的指令集优化 arm中的神经网络加速 gpu上神经网络的运行和加速 arm处理器指令集_人工智能_05

至此，ARM探索之旅第二站就结束啦！下一站再会！

cpu中的指令集优化 arm中的神经网络加速 gpu上神经网络的运行和加速 arm处理器指令集_人工智能_06

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql8 重新初始化备份还原数据 mysql恢复出厂设置

下一篇：python 运维平台 python 运维模块

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯