很多运维对智能运维很抵触,多半是以为智能运维流行起来会让自己失业。

 

然而技术不可能发展这么快。不用人工干预、实现智能调优阶段还有很长的距离,目前顶多实现多个单场景 AI 运维模块串联起来的流程化 AI 运维能力。

 

这些不会取代运维的工作,而是帮助他们提高效率,减少故障。

 

现实场景中,最让运维工程师头疼的就是:很多时候故障并不是由运维工程师自己发现的。

 

而是顾客发现之后打电话给客服,客服再通知运维工程师,悲催的工程师往往是最后一个知道这个噩耗的。

 

出现这种情况后,不管风风火火的救急,还是尴尬又不失礼貌的微笑,都扛不住领导拉成苦瓜的脸。

 

机器学习与智能算法的出现给苦 X 的运维同学带来一丝曙光,他们可以通过故障发生前的先兆和分析历史数据做出模型,对即将发生的异常做出预判,大大提升了运维人员的工作效率。

 

所以,AIOps 诞生的首要职责就是基于多种算法的异常预测,减少发现故障的时间,然后顺便再通过日志模式监控报错信息,从而快速定位,最后再通过多方位展现系统状态,减少决策时间。

 

 

 

2016 年,中科院《软件学报》发表过一篇国防科大的《大规模软件系统日志研究综述》 ,里面引用了不少国内外的调查分析。

 

·在软件开发中进行日志记录是普遍的,平均 30 行代码中就有一行是日志

 

·日志信息对实际部署系统的运行故障调试帮助较大,缩短故障调试时间的加速比为 2.2

 

·日志代码的更新频率比其他代码要快约 1 倍

 

·约四分之一的日志修改是把新的程序变量写入日志

 

·约一半的日志修改是对日志消息静态文本的修改

 

这些研究是基于 Hadoop、OpenStack 这些大型分布式项目的,如果细致到企业内部的系统开发,说不定要严重的多,所以人无完人,输出日志的时候,格式这些东西很难做到完美规范。

 

以前运维人员最依赖的是关键字等方法,但是,这些都不足以做到日志异常检测,就在这个时候有一种层次聚类日志模式的出现解决了燃眉之急。

 

 

 

想了解大咖如何看待 AIOps 方面,智能的日志中心以及日志在 IT 领域中的价值。请锁定 8 月 29 日 20 点日志易 CEO 陈军老师带来的直播《海量日志分析与智能运维》。