最近想起超频试试自己年初入手的工作站,也是纯玩,超超频,看看是什么个体验,不过这个过程中还真有所学习。


由于电脑的主板,电源,散热等配的都比较高端,所以上来直接超频5.2G,电压选择为自动,不过再整个测试阶段发现电压一直都是1.3v多,并没有跳到1.4v, 所以也算是凑合。各种跑程序,各种测试,发现还行,没有死机,没有蓝屏,所以感觉OK,于是就把自己平时工作用的一个深度学习的代码运行上,毕竟所谓的各种测试通过与否只是测试,最终行不行还是要看到底能不能胜任日常的工作需求。


这时就发生了一些诡异的事情,使用超频后的CPU跑日常工作用的深度学习代码居然会不定期的错误,其表现就是报段错误,segment error,然后程序直接挂断掉,中断,这时啥情况,直接懵了,而且这个问题的出现是不定时的,有时候十几分钟,有时候是半个多小时,有时候是一个多小时。


也就是说超频后的CPU即使通过了各种测试软件,没有蓝屏,没有重启,最后到了实际应用中还是有可能会不定期的出错,而对于需要工作站长期稳定运转的客户来说这种不稳定的性能是不可以接受的。所以,就有了本文title所说的,工作站CPU超频,通过测试软件的压力测试就OK了吗?终极测试还是要看具体的应用场景


为了了解这种超频后无法长时间稳定工作的问题,在网上查了查,发现了下面的一个帖子:

[CPU] 提醒大家注意一个cpu超频后的隐性错误。


看了这个帖子后还是很受益的。

其实就是说超频了这个东西,并不能说通过了压力测试就证明没有问题了,并且及时你的工作场景也OK了,也通过了,那也不证明超频后的CPU在工作时就不报错了。这里我想到了显卡超频的一个参考,就是图像显示不花屏,图像显示不出大问题,说明超频还是比较OK的了,那么是不是对于CPU超频也是同样,或者说CPU超频和不超频都是会有一个出错的概率的,只不过不超频的情况下(默频或睿频)错误概率小,而人为超频后错误概率大呢?

给出帖子中的部分内容:

------------------------------------------------------

工作站CPU超频,通过测试软件的压力测试就OK了吗?终极测试还是要看具体的应用场景_深度学习

 工作站CPU超频,通过测试软件的压力测试就OK了吗?终极测试还是要看具体的应用场景_蓝屏_02

------------------------------------------------

从上面的帖子中我们可以看到,超频后即使通过了测试平台的测试也是有可能存在错误问题的,只不过错误可能已经被操作系统内核进行了修正,也可能是并没有达到引起所运行进程报错(段错误)中断那么严重而已。也就是说虽然操作系统和有负荷的进程表明上还是在正常运行的,其实也是有错误报出的,只不过没有严重到导致操作系统死机,蓝屏,重启,进程没有中断、退出。


帖子中有这么一个回复,感觉还是很有道理的:

-----------------------------------------

工作站CPU超频,通过测试软件的压力测试就OK了吗?终极测试还是要看具体的应用场景_蓝屏_03

----------------------------------------

超频后稳定不稳定本身就是一个相对的问题,就如我本文最初所说,跑着跑着程序可能一个多小时后报错中断退出了,也有可能跑着跑着程序10多分钟后就中断退出了,这个稳定性就难以用测试数据来说明的。  而即使说你不超频,就一定没有问题了吗,也未必,如果不是那种服务器,工作站的电脑,比如家用的游戏主机,即使你不开程序,不开游戏,就这么闲挂着,空载开机几天甚至十几天,说不好也会报错,死机的,蓝屏的。所以说,不论是超频,更或者是默频的CPU,其稳定性都是一个相对的概念。


但是说CPU稳定性并不是一个绝对概念,而是一个相对的概念,那么是不是说你就没有办法相信你的CPU可以稳定运行你所需要运行的程序了呢,其实也不然,这本身也是要看你的应用场景的。比如你的是一个大型的商用服务器,那么我可能需要服务器在默频和睿频的情况下在一年甚至几年之内不出错,那么这就是一个可以稳定运行的服务器;又或者说你是一个工作站,你需要跑视频处理的程序,你需要跑计算机辅助设计的程序,物理学等、什么流体力学等数值仿真软件,你需要跑深度学习的程序等等,那么你的CPU可以稳定运行几周甚至几个月,那么你的CPU就可以说能够稳定运行的了;而如果你是用一个游戏主机,游戏类型的CPU,那么你的CPU不论是睿频还是人为超频可以稳定运行几个小时,或者是几天(比如你包宿,连着几天几夜极端情况下打游戏),那么你的CPU在这个时间内部报错,游戏进程不会因为CPU的问题中断退出,那么你的CPU就可以说是稳定运行了。这也说明你不能要求你的游戏类型CPU在4.9Ghz或者5.0Ghz的频率下也能如商用服务器那种2.6Ghz主频的CPU那样可以稳定运行以年为单位的时间,所以说电子器件,如CPU那种,虽然说稳定运行是个相对的概念,但是只要能满足你的应用场景,就可以说它是可以稳定运行的了


对CPU的稳定运行,或者说对电子器件的稳定运行有了如此认识后,我决定把自己工作站的CPU(i7-9700k)的主频锁定在4.9Ghz, 电压不限制(最高上限设为1.4v),也就是说我需要我的CPU可以使我的工作站在以天为单位甚至是周为单位的情况下稳定运行,即使说温度过高后CPU降频也不会导致正在运行的进程中断退出,那么就满足了我的需求,或者说对于我的需求来讲cpu是可以稳定运行的。同时该种设置也满足了我对硬件性能的需求,毕竟有时候稳定性要重于性能,因为我无奈接受工作站在运行几天或者数周后突然中断我的进程使我前面的工作归零,也正如在数小时的打游戏中无法接受团战时突然你的魔兽或者英雄联盟突然中断报错退出。

以上是通过对自己workstation的CPU超频后的所感,CPU超频小记。