一早刚上班,就听到小李抱怨:昨晚凌晨2点多,收到监控告警,磁盘空间满了;刚清理完成磁盘,又发现文件系统只读了;整整折腾了一晚上,才修复完成。运维太苦X了!

你也跟小李一样?

一会上线出问题;一会磁盘故障;一会硬件告警;一会应用性能不足。客户怨声载道,运维叫苦连天。每天忙忙碌碌,但是没有任何工作成果,还不断遭受老板、上司的批,苦X的运维,背锅侠之类的话也成了我们的口头禅。

给你句实话,这就是传统运维的真实写照!

1.传统运维的困境

在传统运维中,部门在制订IT设备和信息化系统管理目标时,关注的是一台台IT设备的故障率和一套套应用系统的可用性。在基础设施、数据库、中间件、灾备、存储等环节通常大量采用商业闭源的软硬件产品及其解决方案。设备的开放性差、标准也不统一,喜欢采用两地三中心这种典型的重量级、集中式运维管理方式。

随着IT规模越来越大、系统越来越复杂,运维保障工作由最初的硬件运维不断细分,网络工程师、系统运维工程师、DBA、安全工程师等岗位加入到运维体系中。

当业务系统发生故障时,IT主管首先召集自扫门前雪的各个运维岗位进行自检,查看各自负责的设备、应用组件、系统是否运行正常。所以,传统运维部门常常被称为“救火”队员,依靠人工巡检的工作方式,不但工作被动,而且效率低下。

2.自动化运维的到来

基于以上原因,自动化运维应运而生。自动化运维的作用就像工业革命时,织布机代替了大量的织布工人,给企业带来了利益;自动化运维就像织布机;他的核心诉求是提升效率;自动化运维是运维演进历程中的一环;从使用脚本的半自动化运维发展到集成到平台的自动化运维,未来也会发展为大数据运维。

自动化运维的基本目标解决的是“能程序完成的事情尽量不要用人去干”,具体来说就是把周期性、重复性、规律性的工作都交给工具去做,最终达到提升运维效率的目的。这件事情,说起来容易,但做起来却一点不容易,完成自动化运维,首先需要实现标准化、流程化

其中所谓流程化,就是将自动化的工作串起来,实现有序的协作,例如代码发布,通过制定流程,然后使用持续集成工具如jekins实现流程化发布。这种流程化的发布,可以实现文件的上传、分发、版本管理、回滚等各种操作。此外,对于其它运维工作,也可以实现流程化,制定运维流程规范、故障处理规范、故障告警规范等,通过多个流程规范可以实现运维工作的秩序化,合理化,从而提高运维效率。


免费直播
扫码报名
今天起!告别“救火”式运维

3.智能运维AIOps

自动化运维虽然提升了效率,解决了一部分问题,但也遇到了新的难题,比如面对繁多的报警信息,运维人员应该如何处理?故障发生时,又如何能够迅速定位问题?

这就是未来智能运维AIOps,它主要解决的是复杂运维环境下问题的快速发现甚至提前预判,以及出现问题后如何在复杂的告警、报错和日志中快速进行根因分析。甚至实现某些故障的自愈功能。

AI和Ops要解决的还是两个层面的问题,可以类比到人。AI相当于人的大脑,我们手脚和躯干是执行系统,大脑负责决策判断,手脚躯干负责完成大脑下发的动作指令。

对应到运维上面,AI 要解决的是怎么快速发现问题和判断根因,而问题一旦找到,就需要靠我们高度完善的自动化体系去执行对应的运维操作,比如容量不够就扩容、流量过大就应该触发限流和降级等等。然后是Ops,从Ops的角度,涉及的主要是运维自动化相关的技术,也就是说AIOps一定是建立在高度完善的运维自动化基础之上的,只有AI没有Ops,是谈不上AIOps。

报名《深入浅出解析大数据平台》免费直播,实操上手!

❥ 直播作者:运维专家·高俊峰
❥ 直播时间:11.02(今天)晚8:00
❥ 直播群:成功报名后,还可领取直播PPT+作者互动哦~


免费直播
扫码报名

今天起!告别“救火”式运维