【摘要】 本文简要介绍AIOps系统主要组成部分,介绍该系统在企业级IT运维场景下的作用和地位。

我们已经成功地应用了人工智能和机器学习来自动化传统的人工任务和IT操作过程。从异常检测到自动修复,现在将前沿算法融入到易于使用的工具中,允许组织通过从时间消耗和容易出错的过程中解放人力简化操作。

运维人员可能需要几个小时才能完成的事情,基于AIOps只需几秒钟就能完成,而且精度更高。这正被世界500强企业所认可,这些企业正在迅速采用这些技术,以及Gartner等领先的分析师公司,这些公司越来越关注这个问题。在过去几年中,为了应对数字化转型给企业带来的日益增加的系统复杂性,市场上也出现了很多AIOps或者ITOA的产品。

1      AIOps VS ITOA

正如Flercher所解释的那样,AIOps本质上是技术的演进,这些技术以前被归类为IT运营分析。虽然AIOps与ITOA非常相关,但它代表了一组相当广泛的功能,主要集中于分析IT操作数据,包括监控、日志分析、安全等。ITOA领域的供应商包含来自CA、EMC、Solarwinds和Zenoss等厂商,但他们在其核心ITOA产品中没有这种原生的机器学习能力,因此这些厂商并不算是AIOps。

AIOps平台接收从不同数据源发送过来的IT日志数据,并应用各种形式的算法。通过使用AIOps平台,IT组织可以实现运维自动化并提升运维实践,并对其业务服务的性能进行持续的洞察。

2      AIOps是否重要?

在这篇论文中, “Applying AIOps to Broader Datasets Will Create Unique Business Insights” Gartner报告说,2015年全球AIOps支出超过$ 17亿。此外,到2020年,大约50%的企业将积极使用AIOps平台来提供对业务执行和IT运营的洞察,而今天还不足10%。

随着企业在数字化转型的过程中经历了巨大的变化和扩张,企业将被迫在加大运营人数或采用AIOps平台之间做出选择。

3      AIOps平台关键部件

Gartner在论文中描述了AIOps平台的逻辑架构 “Innovation Insight for Algorithmic IT Operations”,这里我们使用一个简化的版本以理解AIOps平台的不同部分如何适合您更广泛的IT运营需求。

从众多大公司的IT运维实践中可以看到,一个企业级IT运营工具链的关键部件包括:监控生态系统、一个智能检测系统、一个工单与知识管理系统、一个自动化系统和一个数据湖。

AIOps产品与架构浅析_AI

监控生态系统,提供可视化和创建跨物理和虚拟堆栈的日志收集能力。这些工具包括AppDynamicSolarwinds。一个好的日志收集平台对于提升运维服务质量非常重要,但是过度负责的日志收集系统有时也会带来大量的数据噪声影响IT团队的工作效率。

数据智能检测系统,降低数据噪音,实时将分析结果推送给相关运维人员。这是运营团队在响应运维事件时的第一选项。事实上,运用智能检测系统能够让你在第一时间知道系统内发生了哪些预料之外的问题,并且在最短时间内告诉你如何消除影响,通过应用机器学习和实时计算,智能检测系统可以做到早发现早响应,比如Moogsoft AIOps

工单与知识库实现用户对IT需求的交互式响应,以及IT服务的文档化管理,通常我们用工单管理所有的问题单,并且会绑定资产库和服务目录以及案例库,从而实现知识积累和能力的不断提升。之类系统包括诸如ServiceNow和Jira。

自动化系统可以根据具体事件自动应用脚本,以便减少繁重的重复性的劳动。常见的动作包括编排、运行库自动化和IT自动化。自动化系统包括ansible和Puppet等工具。

最后,数据湖用于故障诊断、ad-hoc查询以及监控仪表盘。数据湖应包含所有与IT系统相关的数据和日志,数据湖对进行更深入的分析至关重要。数据湖工具包括Splunk版本和ELK。

4      AIOps平台是IT运营的下一代解决方案

IT平台的复杂度和集成度将继续以指数级增长,而人的能力相对保持不变,从而变成制约业务发展的内在原因,而AIOps可以真正提升运维效率,提升洞察力,让运维人员关注真正需要关注的事情-用户满意度

 来源:华为云社区  作者:菊花茶