性能测试连载 (27)-剖析 cpu 负载和 cpu 利用率

原创

性能恶化工程师 2021-09-02 13:35:19 ©著作权

文章标签 时间片双核 linux 时间段单核 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者性能恶化工程师的原创作品，请联系作者获取转载授权，否则将追究法律责任

概述

做压力测试的时候，我们经常会关注两个指标，CPU利用率和CPU负载
在Linux中，进程分为三种状态：

不可中断的进程blocked process
可运行的进程runnable process
正在运行的进程running process

当进程处于不可中断时，进程会等待I/O设备的数据或者系统调用；进程处于可运行状态时，它处在一个运行队列中，与其他可运行进程争夺CPU

CPU使用率

CPU使用率指的是程序在运行期间实时占用的CPU百分比，这是对一个时间段内CPU使用状况的统计。通过这个指标可以看出在某一个时间段内CPU被占用的情况

load-average

它指的是正在运行（running）和不可中断（等待IO）的平均进程数。在linux top命令中指的是是最近1分钟、5分钟和15分钟的系统平均负载

性能测试连载 (27)-剖析 cpu 负载和 cpu 利用率_时间段

cpu负载的计算

CPU数量和CPU内核数都会影响到CPU负载，因为任务最终是要分配到CPU内核去处理。两块CPU要比一块CPU好，双核要比单核好。因此，除去CPU性能上的差异，CPU负载是基于内核数来计算的。有多少内核，就有多少load”。如单核负载为1.00，双核负载为2.00.以此类推。

举例说明cpu负载

大家都要坐电梯坐电梯。假设一部电梯能站10个人，那当1-10人坐电梯时，可以认为电梯的load<1；
正好10人时，load=1；
超过10人时，load>1；
如果有15个人要坐电梯，那就是说能有10人直接上过山车，另外5人需要等待。
此时电梯的load=15/10 = 1.5
也就是说，1.5的负载表示系统当前满负荷运转，且还有相当于50%满负荷的请求在等待

对于load average的临界值，业内有两种判断依据

load average <= cpu核数 * 0.7
load average <= cpu核数 - 1

电梯与负载

为什么会有高Load，低CPU使用率的情况?

　　依然拿电梯的例子来说明。假设一共有20个人来坐电梯。电梯一次运行5分钟。两次运行之间，第一批10人下来，第二批10人来，电梯等人进来，加上关门时间时间也要3分钟。这种情况下电梯的使用率就是50%左右。而过山车的load是2。对应到我们的CPU上，当运行的进程（线程）过多时，频繁的上下文切换耗费了大量的CPU时间，导致真正用在运算的CPU时间片比较少（低CPU使用率），却有很多进程在等待运行（高Load）。

Cpu 利用率和 load 值高低没有必然关系
我们做压测的时候一般认为 CPU 利用率和 Load 值是正比的关系，Load 值越高，CPU 利用率就越高。但是事实上有时候 Load 很高，CPU 利用率却比较低（多核更可能出现分配不均的情况）。
因为 Load 是等待处理的任务队列，当你有大量任务在等待运行时，CPU 会将时间切片分配给这些进程。而真正运行的那些进程，却不得不在时间片用完以后暂时放弃工作被挂起。
　　CPU利用率高也并不意味着负载就一定大，可能这个任务是一个CPU密集型的。CPU低利用率的情况下也会有高Load Average的情况。当CPU分配时间片以后，是否使用完全取决于使用者，因此完全可能出现低利用率高Load Average的情况。