在Kubernetes故障排除所需的大量信息中进行筛选,即使借助可观察性工具,也无异于大海捞针。对Kubernetes环境进行故障排除和优化通常是这样的:收集、发送和存储大量的指标、日志和跟踪,并依靠专家或外部顾问筛选数据,以分析问题的根本原因。

使用开源数据采集器的传统监控和可观察性工具存在固有缺陷,因为提供给它们的数据不完整。故障通常由许多单独的事件组成(下文将对此进行详细介绍),它们相互补充,构成更大的故障序列。

如果没有故障序列中的所有链接,则真正的根本原因是间接的。更不用说,这些工具都是反应性的,在出现问题后提示用户。这使得团队花费过多的时间进行故障排除工作,或者依靠昂贵的外部专家来寻找故障的根本原因;两者都不是理想的。我们如何突破这种传统方法并与现代技术一起发展,确保成功地洞察环境?Data Swirling(数据旋涡)。

数据漩涡是由Sosivio开发的一种方法,用于实时分析来自堆栈多层的大量数据,而无需向集群外发送任何数据。这需要超粒度和超精确的数据。Sosivio认识到当前数据采集器面临的挑战,构建定制化数据采集器,优化以从整个基础架构栈(内核信号、操作系统日志、进程信号、应用程序日志、容器运行时事件、网络流量、Kubernetes事件)收集非常细粒度的指标和信息,进而为ML/AI引擎提供燃料。

Sosivio为每个阶段使用“数据漩涡”机器学习引擎,被动地收集数据,压缩并将所有数据翻译成统一的语言,将数据关联起来,形成集群内部发生的情况的清晰画面,然后推荐可用于修复故障的解决方案。

Kubernetes的故障排除始于类似DNA的数据漩涡_数据

Sosivio集群概览

当Kubernetes出现问题或失败时,它是相关的单一事件的组合。这些事件的组合可以被认为类似于DNA序列。当序列中的一个事件发生在Kubernetes集群中时,DNA的“链”被填充。通过观察一个被填充的DNA序列,我们可以开始预测完整的DNA序列会是什么样子。当这些单一事件朝着故障序列发展时,Sosivio的ML预测引擎会分配上下文和严重性,并在即将发生的问题变成灾难之前持续显示这些问题。

Sosivio实时观察这些事件的优势使预测引擎能够检测故障序列中将发生什么。Sosivio仅提供相关数据和可操作的洞察,以避免当今工具带来的复杂警报疲劳。数据100%在内存中处理和分析,消除了向磁盘发送和从磁盘接收数据的额外延迟。由于数据是轻量级的,Sosivio可以分析大量数据,而不会对资源造成负担。

Sosivio平台作为Kubernetes集群上的另一个应用程序运行,这意味着它是一个非侵入式解决方案,可在完全断开/Air-Gapped的环境中工作。Sosivio利用来自环境所有层(操作系统、网络、内核、K8s、应用程序等)的信号和数据,可以在任何云平台(AWS、GCP、Azure、AKS、EKS等)或内部部署中运行。

Kubernetes的故障排除始于类似DNA的数据漩涡_kubernetes_02

原文链接:

​https://thenewstack.io/kubernetes-troubleshooting-starts-with-dna-like-data-swirling/​