之前我在学习 CodeBuddy AI 编程工具时,就自己搭了一个 MCP Server 用来部署网站,通过对话方式实现自动化部署,算是一个 AiOps 的缩影。
我在工作中不断思考,如何利用 AiOps 的思想来节省运维的成本,提高工作的效率,为公司带来更大的价值,通过在学习 TiDB 的过程中,我们是否可以将 TiDB 和 AiOps 结合在一起了,本篇我们来探讨下。
2016 年,Gartner 创新性地提出了 AIOps 的概念,开创了人工智能辅助运维决策的新篇章。
AIOps 系统能够持续收集 IT 系统的各种运行数据,利用机器学习算法分析这些数据,及时发现异常情况、故障根源,并提供智能化的修复建议。它可以减轻运维人员的工作强度,提高故障处理效率。
而传统的运维方式往往依赖数个具备专业知识的运维人员对某个特定场景下的服务进行监控与决策。随着公司体量的成长,业务场景及数量指数型增长,传统运维将面临着决策时间长、决策难度大、人力成本高等问题,一旦出现重大决策失误,就可能造成巨大的商业损失。然而,海量的数据正好是机器学习的擅长领域。
痛点
从 2009 年双十一开始到现在,已经经历了 16 个双十一,数据规模呈现爆发式的增长,业务系统的复杂度也急剧上升,这对开发人员和运维人员的挑战性也更大。
在第一次双十一之后,国内各企业看到了互联网的威力,纷纷开始进行数字化转型,而数据就成为了企业的核心资产,但是互联网的一个特点就是数据量和访问量巨大,依靠传统的人工经验来运维已经不堪重负了。
我记得 2018 年国庆的时候,我们产品上线了一个充值币的秒杀活动,上线前还得提前报备给运维团队,且需要项目团队预估流量和服务器资源,然后运维同事在活动期间的进行扩容,而且运行期间还需要一名运维同事专门盯着访问流量和系统性能,这种传统运维方式凸显出了很多弊端,确实需要做出转变了。
正式在这样的背景下,TiDB 与 AiOps(智能运维)的结合,给我们营造了一个数据库智能运维的清晰的蓝图:自动化、智能化、可预测的新模式。
传统运维往往是“事后响应”,而 AiOps 的目标是让 TiDB 运维从被动变主动:
节点宕机:人工告警、人工切换,自动检测、自动调度、自动恢复 SQL 慢查询:人工排查、手动优化,自动识别异常 SQL,推荐索引或重写建议 容量不足:人工巡检,基于历史趋势预测容量瓶颈,提前扩容
TiDB 的 TiDB Dashboard + Prometheus + TiUP 等工具链,已经具备暴露丰富指标的能力,AiOps 可以基于这些指标训练模型,实现异常检测、根因分析、自动修复。
















