cpu算力

起源

偶尔翻到一篇知乎,对各种跑分来了兴致
2020.12.1 刚刚11代intel、AMD Zen3、苹果M1都已经过去一阵,NVIDA的3系列显卡和RadeonRX显卡热火朝天。
我也来凑凑热闹,看看各个厂商最强旗舰都是啥来头。

背景

木头龙所说,现在cpu构架设计很稳定一直是在20年前P6/K7基础上,对模块的细节进行扩展和优化,根据面积(价格)、性能、功耗限制来缝缝补补。单说x86的话,从第一代的8086发布以来,提升单核性能很难,方法几乎都用过了,但除了提高频率以外,其它方法都有其适用范围和限制。

多核心多线程,超线程乱序执行, 流水线,指令并发,新指令集(AVX512)

另辟蹊径的新架构设计,如Intel的安腾、Netburst和AMD的推土机,都失败了。GPU算一个成功的计算机架构,但这里不展开讨论。

如今苹果移动低功耗M1比桌面X86平台部分表现更好,主要依靠台积电5nm 先进的制程,超宽架构(arm精简定长指令集天生优势,但是晶体管是Zen2的2倍左右),操作系统封闭带来的优势。
田忌赛马小故事:AMD4800U(Zen2)比M1的单线程频率高30%,性能落后20%,综合性能仍然能靠8核心+SMT超越。

所以这是一个处处看到商业影响的领域。人们都喜欢结论,所以大家喊口号。因为声音大了就有钱,事实挑有用的说。(k9000,Qualcomm888,A14)

频率和制程的性能影响:

  1. 晶体管看作小电容。
  2. 执行特定代码,工作晶体管比例Ka是CPU构架决定的,功率和频率、工作电压的平方成正比。
  3. 频率高了,需要电压高才能稳定运行。假设u=f*K
  4. 则功耗和频率三次方成比例。
  5. P = Ka * Kf * Kf * f

制程可以明显改变k,也就是 功率K 制程优势的平方成正比.

今天半导体工艺,即便是遇到工艺困难停滞下来五六年的Intel也是14nm,晶体管密度达到37.5 MT/mm²,也就是说边长1cm的正方形晶片,100 mm²面积也可以容纳下37.5亿晶体管。更别说一些服务器CPU、GPU高达600-700 mm²面积的巨型晶片,或者采用了7nm/5nm工艺晶体管密度更高的晶片了。这么多的晶体管,哪怕单次翻转功耗再低,例如低至0.01 pJ(1 pJ=1e-12焦耳,曾经看到过文章说5nm工艺的一般在0.5-1 pJ之间,与工作电压有关,仅作参考),以1 GHz的频率翻转,也就是一秒翻转10亿次,100 mm²的14nm晶片功耗也高达37500W。

麒麟9000芯片规格:
CPU:1* A77@3.13GHz+3 A77@2.54GHz+4 A55@2.04GHz
GPU:24核Mali-G78( G78最高可以支持到堆24个核)
NPU:双大核+微核NPU
麒麟9000E:麒麟9000 5G的GPU减配版。
NPU从2大核1小核缩减为1大核1小核,GPU缩减2个核心。
有一种说法是目前芯片稀缺,因此这种体质相对较差的,就屏蔽部分核心拿出来用,以前的话是直接处理掉的。

详细信息

DMIPS(Dhrystone Million Instructions executed Per Second,1秒处理指令数)

STC15约可以跑36 DMIPS
stm32F1可以达到90 DMIPS
stm32F4最高为255 DMIPS
stm32F7最高为462 DMIPS(2.14 DMIPS/MHz)
stm32H7最高为856 DMIPS

常见的linux开发板上的S3C2440是 550 DMIPS
骁龙400,频率1.2GHz,3.3DMIPS/MHz,双核,1.23.32*1000 = 7920DMIPS

MIPS: million instruction per second,表示每秒多少百万条指令
Dhrystone: 是于1984年由Reinhold P. Weicker设计的一套综合的基准程序
RISC(Reduced Instruction Set Computer精简指令集计算机)
[神威适配神威太湖之光来看,RISC-V架构没有问题]
和CISC(Complex Instruction Set Computer复杂指令集计算机)系统

cpuz

cpuz branchmark FPU Julia是利用朱利亚碎形几何运算,来评估CPU的单精度(32bit)浮点运算能力。
FLOPS(floating-point operations per second,每秒浮点运算次数)

DSP,

3DMark和PCMark,Geekbranch

原神,崩坏