TiDB + AiOps 实践路径
采集数据
全面、高质量地采集 TiDB 集群的全链路数据。
- Metrics:使用 Prometheus 无缝采集 TiDB 丰富的内部监控指标。
- Logs:收集 TiDB 各组件的日志,并接入 ELK 或 Loki 等日志平台。
- Traces:通过开启分布式链路追踪(如 OpenTelemetry),追踪 SQL 请求的全生命周期。
如下图所示:

平台建设
将采集到的数据都接入到 AiOps 平台或数据湖中。
平台需要具备强大的数据加工、算法模型管理和可视化能力。
迭代
- 初级阶段:对核心的性能指标实现智能的异常检测。
- 中级阶段:实施根因分析,并指出问题所在以及处理方案。
- 高级阶段:辅助决策、自动化整改,如自动扩容、SQL 优化自动执行等。
TiDB + AiOps 的优势
我思考了,TiDB 相比其他的数据库真的是具有天然的优势:
-
因为 TiDB 本身根据具有丰富的监控指标,为机器学习提供了高质量的数据源。
-
且 TiDB 完美支持 Prometheus、Grafana 等云原生监控生态,易于集成。
-
以及它的分布式架构,无状态计算层(TiDB-Server)和弹性存储层(TiKV)的设计,使得自动化扩缩容等非常方便。
总结
TiDB + AiOps 的结合,我觉得不是 1+1 的计算题,而是思维的转变,一场深刻的运维变革。就像现在我们团队一直用 Jenkins 来打包部署,和之前的人工打包相比,真的是彻底解放了双手,部署的时候还能喝一杯咖啡。而 TiDB + AiOps 可以将 DBA 从繁琐重复的日常监控和救火中解放出来,使其能更加专注于数据库架构设计、性能优化等更高层次的工作。
我之前写过 TiDB MCP Server 的实践文章,通过自然语言查询数据、操作数据库,我相信在未来,随着 AI Agent 的不断发展,我们可以通过自然语言与这套结合的系统进行交互,比如帮我分析下昨天的数据库性能瓶颈,或者帮我整理一份双十一的资源扩容计划等等。而 TiDB 依据自身架构的天然优势、以及开放的生态、友好的社区氛围,将走在这场变革的最前沿,真心祝愿 TiDB 越走越好!
















