作者:Gregg Siegfried, Matt Crossley, 以及其他3位作者
可观测性平台正在从根本上改变组织管理系统健康的方式,其驱动力来自于分析、成本优化方面的创新以及AI观察性(AI Observability)的出现。基础设施与运营(I&O)负责人可以利用这项研究来评估和应对不断发展的供应商及解决方案格局。
01.市场定义
Gartner将可观测性平台定义为用于理解应用程序、服务和基础设施的健康状况、性能和行为的产品。它们通过从各种来源摄取遥测数据(运营数据)来实现这一点,包括但不限于日志、指标、事件和追踪。可观测性平台支持通过人工操作员或机器智能对摄取的遥测数据进行分析,以确定影响最终用户体验的系统行为变化,例如中断或性能下降。这使得能够早期甚至先发制人地进行问题补救。可观测性平台被IT运维、站点可靠性工程师(SRE)、云和平台团队、应用程序开发人员和产品负责人使用。
现代企业严重依赖关键的数字应用程序和服务,这些应用和服务能够产生收入、面向客户并且对业务的高效运营至关重要。中断、性能下降和不可靠性直接影响收入、客户情绪和品牌认知。组织使用可观测性平台来理解和提高这些关键应用程序和服务的可用性、性能和弹性。对可观测性平台的投资和成功部署可以避免收入损失,并实现更快的产品开发周期和品牌认知的改善。
可观测性平台解决的示例用例场景或业务问题包括:
- IT运维: 负责实时生产环境的 IT 运维团队的任务是确保应用程序和服务始终可用、响应迅速且性能高,尤其是在高需求时期。可观测性平台允许这些团队在检测到问题时收到警报,并可以查询数据以确定根本原因。
- 平台工程: 平台工程师对可观测性平台的使用类似于IT运维和软件开发。可观测性平台帮助这些团队确保持续满足生产环境的服务级别目标(SLO),并支持数据驱动的持续改进和平台演进。
- 软件开发: 开发团队将可观测性平台作为CI/CD管道的一个集成部分,提供关于代码部署的快速反馈。这使得能够更快地交付新功能,并提高产品弹性。
- 业务分析师: 业务分析师可能使用可观测性平台来理解和分析关键业务指标。这些指标通常针对特定组织和客户(例如,零售商衡量废弃购物车的成本和客户平均支出)。
02.必备功能
- 数据采集与汇聚:统一摄取、存储与分析各类运营遥测数据流,包括但不限于指标、事件、日志和追踪数据。从主流公有云提供商(如AWS、Microsoft Azure、Oracle Cloud Infrastructure等)收集遥测数据。
- 数据关联与丰富:通过提供上下文信息(例如拓扑依赖关系或服务映射)来丰富原始的遥测数据。支持对受监控服务及其在业务事务中的角色之间的关系进行建模或可视化映射。
- 问题识别与诊断:识别与分析应用程序、服务和基础设施行为的变更,从而确定中断和性能下降的根本原因。量化这些异常行为对最终用户体验产生的实际影响。
- 探索分析与洞察:支持对多种遥测数据类型(包括追踪、指标和日志)进行交互式探索与分析,以深入挖掘并生成关于用户和应用程序行为的洞察。
03.常见功能
- 数字体验监控(DEM):支持通过浏览器、移动应用和API等多种方式交付应用程序和服务。
- 集成能力:可与各类运营、服务管理和软件开发技术集成,例如IT服务管理(ITSM)、配置管理数据库(CMDB)、事件和事件响应管理、编排和自动化以及DevOps工具。
- 智能分析与洞察:运用高级分析与机器学习技术,揭示通过手动查询难以或无法得出的深层洞察。
- 自动发现与映射:自动发现并可视化相关的基础设施、网络、应用程序组件及服务间的依赖关系。
- 成本管理:衡量和优化应用程序工作负载成本,管理及优化可观测性平台利用率或支出。
- 业务流程与用户旅程监控:追踪反映用户旅程的关键业务流程(如从登录到结账)。提供漏斗分析以跟踪转化率,并监控如客户入职、贷款申请等关键活动。
- AI可观测性:提供针对大型语言模型及相关生成式AI工作负载的性能、成本、容量和合规性分析能力。
- 自动化与补救:支持启动对应用程序和基础设施代码及配置的更改,以优化工作负载成本、容量或性能,或采取纠正措施来补救故障或性能下降。
- 应用程序安全:例如识别受监控应用程序中的已知漏洞以及阻止利用这些漏洞的尝试的能力。
04.魔力象限图

图1:可观测性平台魔力象限
05.供应商优势与注意事项
5.1 Amazon Web Services
Amazon Web Services (AWS) 在此魔力象限中属于挑战者。其观察性解决方案以 Amazon CloudWatch 为核心,这是一套用于指标、日志、事件和其他遥测数据类型的工具。其他AWS组件包括用于分布式追踪的AWS X-Ray、用于日志分析的Amazon OpenSearch Service、Amazon Managed Service for Prometheus和Amazon Managed Grafana。这套服务是AWS云运营(AWS Cloud Operations)的一部分,其中还包括治理和财务管理。AWS的客户和运营分布在全球各地。其客户包括各种规模的组织。AWS定期发布和宣布产品更新。
优势
- AI创新: Amazon 宣布了 Amazon CloudWatch 调查功能,以帮助SRE、IT运维和云工程团队快速诊断、排查和修复运营问题。此外,AWS为Amazon CloudWatch、AWS CloudTrail、Amazon OpenSearch Service和AWS Config推出了自然语言查询生成功能,这将使更广泛的受众能够查询和分析性能问题。
- 客户体验: AWS提供了市场上最全面的客户支持体验之一,为各种规模的客户提供强大的定制化 onboarding 支持、全球24/7支持、活跃的社区论坛和行业领先的认证计划。
- 生态系统: AWS观察性工具(如CloudWatch)的原生集成提供了与AWS服务的无缝遥测数据收集,且设置最少。这使得可以通过通用用户界面(UI)进行简单配置,通过AWS控制台进行统一管理和计费,并通过IAM实现一致的安全性。
注意事项
- 多云工作负载: Amazon CloudWatch 是为与AWS服务集成而设计和优化的。AWS确实提供了有限的预构建集成用于从Microsoft Azure摄取指标,其他数据源将需要使用OpenTelemetry (OTel) 代理、CloudWatch代理或自定义配置。用户还需要仔细评估费用,例如从其他环境流出指标的出口费用,以及摄入AWS的摄取成本。
- 营销策略: 与此魔力象限中的许多供应商不同,观察性并非AWS的主导产品。因此,AWS专门针对观察性的营销力度落后于本研究报告中的领导者。
- 成本: 客户反馈,无论是在问询中还是在Peer Insights上,都经常提到与Amazon CloudWatch和其他工具相关的高成本。虽然成本挑战是观察性领域的常见问题,但AWS的集成性质——服务可以轻松地将指标和日志推送到CloudWatch——增加了意外支出的可能性。客户应确保他们正在使用适当的管理工具,例如AWS Cost Explorer和AWS Budgets,并探索日志摄取频率和追踪的设置以减少摄取成本。
5.2 Apica
Apica 在此魔力象限中属于远见者(Visionary)。Apica Ascent 是其可观测性平台,并在其全面的数据管理组合中包含遥测管道能力。其业务运营主要集中在美国和EMEA地区,客户主要集中在北美。Apica成立于2005年,最初专注于综合监控,并以其支持合成工作流中多因素认证(MFA)等能力而闻名。该公司通过2023年收购LogIQ和2024年收购Circonus转向观察性领域,并正在将其综合监控能力迁移到Ascent平台中。
优势
- 易于采用: Apica Ascent 不分发或要求自定义代理来接入数据。相反,客户可以使用多种采集技术中的任何一种或全部,包括OpenTelemetry collector、Fluent Bit、Logstash,甚至Datadog代理。Flow(Ascent遥测管道解决方案)提供了额外的选项来塑造和摄取传入的遥测数据。
- 代理舰队管理: 除了数据源灵活性之外,Apica的代理管理子系统(称为Fleet)支持自动化这些遥测收集器的安装和配置。基于行业标准OpAMP协议,Fleet是同类最佳的,即使不使用Ascent的观察性能力,也值得评估。
- 自带存储(BYOS): Apica Ascent允许其SaaS产品的客户提供自己的对象存储来存储数据。这使Ascent用户能够完全控制其数据的位置,可以简化合规性并支持数据主权要求。
注意事项
- 产品完整性: 尽管能够支持高级用例(如AI观察性),但Apica Ascent仍在发展之中,并且缺乏一些功能,例如对服务级别目标(SLO)管理和真实用户监控(RUM)的原生支持。
- 有限 mind share(市场认知度): Apica作为一家公司已有20年历史,但作为可观测性平台提供商并不为人熟知,并且在Gartner客户中还不是常见的选择。
- 相对规模: 与本研究中包括的大多数其他公司相比,Apica的规模明显较小。在一个竞争激烈的市场中,这种相对规模差异值得注意。
5.3 BMC Helix
BMC Helix 在此魔力象限中属于特定领域者(Niche Player)。BMC Helix Observability & AIOps套件提供了一系列IT运维和观察性能力,由多个产品组成,包括BMC Helix Discovery和其他组件。BMC Helix在相邻的IT服务管理市场拥有重要地位,拥有其BMC Helix ITSM(前身为Remedy)产品。BMC Helix的业务运营在地理上多元化,拥有全球足迹,并支持各种规模和行业的客户。2024年10月,BMC宣布创建两家独立公司,将其自身拆分为两个独立的运营组织;一家保留BMC名称,另一家现称为BMC Helix。就可观测性平台市场而言,本研究专注于BMC Helix产品。
优势
- 创新: BMC Helix通过在其产品中嵌入AI进行了大量投资和增强。这包括BMC HelixGPT,一个用于协助事件调查的生成式AI解决方案。
- 全球影响力: BMC Helix的客户分布在全球各地,得到广泛的地区办事处、每个主要地区的合作伙伴以及全球托管选择的支持。
- 服务运营: 虽然设计为与第三方工具共存,但BMC Helix的方法将其自身的ITSM、发现和CMDB工具与观察性解决方案相集成,开启了工具和供应商整合的巨大潜力。
注意事项
- 战略方向不确定性: 客户应注意BMC Helix在向独立公司过渡期间的操作变化。这将包括客户关系、客户支持模式的潜在转变,以及两个实体巩固其运营的调整期。
- 市场执行: BMC Helix的营销专注于在现有客户和利益相关者中建立认知度,而不是面向更广泛的观察性市场。这或许可以解释为什么Gartner客户很少提及BMC Helix,并且它不常出现在竞争候选名单中。
- 产品完整性: BMC Helix的解决方案缺乏市场领导者所具备的一些功能,包括有限的成本控制工具和对eBPF的支持。虽然可以实施变通方案来提供部分缺失的功能,但这可能需要额外支出或影响实现价值的时间。
5.4 Chronosphere
Chronosphere 在此魔力象限中属于领导者(Leader)。其可观测性平台包括Chronosphere Observability Platform和Chronosphere Telemetry Pipeline。其业务运营主要集中在美国和EMEA地区,客户主要集中在北美。近期的产品增强包括用于追踪的差异诊断(DDx),该功能帮助操作员更快地识别性能下降或停机的原因。对指标的DDx支持于2025年5月发布,对日志的DDx以及业务影响分析已在路线图上。
优势
- 成本优化: Chronosphere控制平面使客户能够使用精细的策略控制来密切管理传入遥测数据的摄取、存储和保留。Chronosphere的摄取控制激发了其他可观测性平台供应商的类似功能。
- 基本无代理: Chronosphere雇用了流行的开源遥测处理器和转发器Fluent Bit的核心维护者。但Chronosphere可观测性平台不需要代理,主要依靠开放协议——如OpenTelemetry和Prometheus——将遥测数据摄取到其平台中。客户可以为给定的工作负载选择最方便的机制。
- 高可用性: Chronosphere的客户被配置到他们自己的租户中,并拥有私有存储。这减少了客户之间资源争用的可能性,并提供了额外的安全层。这使得Chronosphere持续满足其99.9%的可用性服务级别协议(SLA)。
注意事项
- 数字体验监控(DEM): Chronosphere目前通过与Checkly(用于综合监控)和Sentry(用于真实用户监控RUM)的合作关系提供数字体验监控(DEM)。DEM遥测数据可以像任何其他MELT(指标、事件、日志、追踪)遥测数据一样被摄取、分析和可视化。但生成并将其发送到Chronosphere是客户的责任,可以通过上述合作伙伴来促进。
- 权限结构: Chronosphere包含一个粗略的角色和权限结构,不支持基于对象的职责分离。具有此类要求的组织将需要多个Chronosphere租户或使用基于GitOps的机制。
- 名义上的AI: 与此研究中的许多供应商不同,Chronosphere并未在其可观测性平台中强调AI能力。迄今为止,这并未 materially 降低从平台获得的洞察和行动的质量,但关注特定AI能力的组织可能会选择评估其他解决方案。
5.5 Coralogix
Coralogix 在此魔力象限中属于远见者(Visionary)。Coralogix平台支持观察性和安全用例,并基于该公司品牌化为Streama的数据管道架构。其业务运营集中在美国和EMEA地区,客户主要分布在北美和EMEA地区。近期的产品发布包括Coralogix AI Center(基于对Aporia的收购)以及一个基于eBPF的遥测数据收集代理。其平台路线图包括对持续剖析(continuous profiling)和AI Center的增强,以及引入代理AI(agentic AI)。
优势
- 存储优化: Coralogix TCO Optimizer允许客户根据访问和使用需求,通过策略驱动的分层和保留来平衡日志和追踪遥测数据的成本和性能。这包括使用客户自己的S3存储桶。
- AI赋能: Coralogix AI Center包含监控基于LLM的应用程序的健康、性能和安全的工具。可用的测量包括令牌使用量、错误、响应质量问题和成本。当前版本支持OpenAI和Amazon Bedrock。Coralogix还包含一个名为Cora的内置GenAI助手。
- 客户支持: Coralogix优先考虑客户支持,提供24/7的产品内支持,中位响应时间为17秒,中位解决时间为1小时。新客户由客户成功团队协助onboarding,该团队可能包括解决方案架构师、实施工程师、客户成功架构师和技术项目经理。
注意事项
- 学习曲线: Coralogix平台是一个功能强大的观察性工具,但高度的能力也带来了复杂性。一些客户报告称,在熟悉产品的过程中学习曲线陡峭,且选项过多令人不知所措。
- 舰队管理: Coralogix不提供对代理或收集器部署、配置和生命周期的集中控制。这可能导致运营开销增加,并阻碍大型实施的可扩展性。
- 集成开发环境(IDE)集成: 目前,Coralogix缺乏一种机制,允许开发人员从IDE与其可观测性平台交互以诊断生产问题。工作流程需要此能力的组织可能希望评估其他解决方案。
5.6 Datadog
Datadog 在此魔力象限中属于领导者(Leader)。其可观测性平台是更广泛的监控和安全能力套件的一部分。Datadog保持全球多元化 focus,持续扩大其在北美和欧洲以外的存在点(POP)。2023年,它在日本建立了数据中心,并已宣布2025年在澳大利亚建立数据中心的计划。2024年,Datadog引入了新功能,包括旨在支持生成式AI工作负载的LLM Observability,以及用于管理事件响应的On-Call工具。该公司最近进行了几项值得注意的收购:Quickwit(日志搜索优化)、Metaplane(数据可观察性)和Eppo(功能标志和实验)。这些新增功能拓宽了Datadog在可观察性、数据质量和产品性能测量方面的覆盖范围。
优势
- SLO管理: Datadog提供了广泛的服务级别目标(SLO)管理能力,涵盖数据类型,包括历史数据回放、错误预算警报和最佳实践推荐。
- 扩展伯克利包过滤器(eBPF)的使用: 该平台广泛利用eBPF Linux内核技术来实现一系列用例,例如应用性能监控(APM)和云工作负载保护,无需插桩即以最小开销提供对系统和应用程序行为的深度可见性。
- 产品分析: 该平台利用RUM、漏斗分析、会话回放和热图来解决超越传统应用程序健康和性能的问题。这些能力旨在支持与产品采用、用户行为和新功能开发优先级相关的决策。
注意事项
- 许可模型: 由于Datadog提供的产品线广泛且不断增长,确定需求和谈判合同可能具有挑战性。这些产品线之间有限的灵活性增加了客户预算预测的复杂性。
- 成本: Datadog的成本仍然是Gartner客户关注的问题——具体来说,是日志摄取和保留,以及大规模自定义指标摄取的成本。Datadog通过诸如Flex Logs存储及其“无限制”模型等功能来应对这些挑战。
- 供应商锁定: Datadog的易用性和短实现价值时间可能非常有吸引力,但其紧密集成的生态系统可能使得切换或与非Datadog工具集成的成本和复杂性对客户来说成为一种挑战。
5.7 Dynatrace
Dynatrace 在此魔力象限中属于领导者(Leader)。Dynatrace的统一观察性和安全平台包含多个组件,包括基础设施和应用程序观察性、应用程序安全和威胁观察性、数字体验、自动化以及业务观察性。该公司最近增加了成本优化和AI/LLM观察性到其产品中。Dynatrace的客户遍布所有主要地区,包括LATAM和APAC。其客户往往是大型企业和技术中心型公司。该公司最近收购了Metis,一个AI驱动的数据库可观测性平台。
优势
- 产品组合广度: Dynatrace为观察性和安全性提供了广泛的解决方案,这对大型企业尤其具有吸引力。这包括对现代架构(如Kubernetes、容器、云函数和大型语言模型LLM)的观察性,以及对传统企业解决方案(如大型机和SAP监控)的监控。
- AI驱动的自动化和根本原因分析: Dynatrace的一个核心优势是其AI引擎Davis,它提供自动化的根本原因分析和预测建模。它可以自动发现和映射复杂的应用程序环境,实时识别性能异常并精确定位问题的确切原因,显著减少手动工作和平均修复时间(MTTR)。这种自动化扩展到基线确定、异常检测和提供可操作的洞察。
- 可扩展性和企业焦点: Dynatrace旨在处理大型、复杂和动态的企业环境,包括微服务、容器和多云架构。Dynatrace可以扩展到监控数万个主机和数百万个依赖关系,使其适用于拥有广泛IT景观的大型组织。其稳健的架构和自动化方法有助于管理现代企业固有的复杂性和规模。
注意事项
- 许可模型: Dynatrace平台订阅(DPS)合同包含许多先前许可模型中不存在的细项。虽然提供了额外的能力,但它们也增加了采购部门理解和预测观察性成本的难度。客户应确保团队充分了解Account Management界面中用于报告、警报和预测的成本控制机制。
- 平台复杂性: 由于Dynatrace中可用的功能数量和数据的深度,新用户可能需要onboarding协助。为了最大化投资回报(ROI),组织必须优先考虑培训和积极的用户采用。客户应寻求使用供应商或可信的第三方服务来协助初始部署。
- 对SMB的适用性: Dynatrace是一个功能齐全的可观测性平台,主要面向大型企业。虽然通过公有云市场等替代渠道使其更易获得,但中小型企业(SMB)可能会发现成本合理性限制了Dynatrace仅用于监控最业务关键的系统。
5.8 Elastic
Elastic 在此魔力象限中属于领导者(Leader)。该公司提供的产品组合支持多种部署模式:自托管、云托管以及具有无服务器架构的完全托管SaaS。Elastic Observability建立在其流行的Search AI Platform基础之上,该平台也支撑其搜索和安全产品。Elastic Cloud是一项托管服务,可在大多数主要云提供商上使用。其无服务器(Serverless)选项是Elastic Cloud内交付的完全托管、基于使用量的产品。Elastic总部位于北美,其客户主要分布在美洲和EMEA地区。Elastic的路线图包括增强其GenAI能力以及进一步标准化OpenTelemetry。
优势
- AI增强: Elastic的AI助手通过以自然语言格式查询大量数据,帮助用户快速识别问题和找到解决方案,使更广泛的用户无需学习类SQL语言即可获得洞察。
- 产品: Elastic的平台提供了市场领先的观察性能力,包括对SLO的强力支持、舰队管理和强大的分析能力,这将提高IT运维和SRE团队的生产力。
- 愿景: Elastic作为一个开源平台的愿景,不仅用于观察性遥测,还用于安全和企业搜索,这与市场上的其他供应商不同。
注意事项
- 市场认知度和覆盖范围: 虽然其搜索和安全产品相对知名,但Elastic Observability的认知度和采用率仍然相对较低。Elastic正在为其观察性产品建立销售和营销势头。
- 所需专业知识: 虽然Elastic Cloud消除了与自托管部署相关的基础设施管理的重大负担,但要释放平台的全部潜力仍然需要相当水平的内部技术专业知识。
- 定价估算: Elastic Cloud的定价模型(基于RAM、存储、数据传输和功能层级)使得在数据量增长时估算和预测使用量变得困难。该平台的定价计算器和数据分层能力在一定程度上缓解了这一挑战。
5.9 Grafana Labs
Grafana Labs 在此魔力象限中属于领导者(Leader)。Grafana Labs建立在流行的开源项目Grafana之上。该公司此后发起了其他开源项目,如Loki、Tempo、Mimir、Beyla和Faro,并雇用了大量Prometheus和OpenTelemetry的维护者。Grafana Cloud是Grafana Labs的可观测性平台。其客户遍布全球,但集中在北美和EMEA地区。Grafana Cloud近期的更新包括统一事件响应管理和云提供商观察性。增强的根本原因分析和简化的成本管理已在Grafana Cloud的未来路线图上。
优势
- 成本管理: Grafana Cloud的自适应遥测(Adaptive Telemetry)功能——目前支持日志和指标——使客户能够通过减少未使用或不重要的遥测数据的摄取来控制成本。客户管理系统推荐,并可以选择应用、暂停或配置例外。对追踪的自适应遥测已在路线图上。
- 地理和CSP覆盖范围: 截至本研究发布时,Grafana Cloud在全球25个AWS、Microsoft Azure和Google Cloud Platform(GCP)云区域中托管。这种广泛的覆盖范围使客户能够根据延迟要求和数据主权需求选择位置。
- 客户体验: Grafana Labs提供高接触、引导式的onboarding,包括激活和迁移规划、架构支持和培训。除了onboarding之外,还提供各种支持选项和社区,供客户相互交流以及与公司互动。
注意事项
- 学习曲线: 缺乏Prometheus经验的用户可能会发现配置文件语法和可用选项具有挑战性。组织应预见到需要培训,以确保其团队能够最大化平台新兴能力的价值。Grafana Labs正在通过为流行用例提供越来越多的开箱即用模板来解决这个问题。
- 文档: Grafana Cloud的开源基础从文档中可见一斑。平台的组件都有文档记录,这很重要。然而,文档在某些地方显得不完整,并且对初学者没有提供太多帮助。
- 集成和兼容性: Grafana Labs和Grafana社区创建了大量数据源插件和预构建仪表板;实际上,许多高级功能和集成依赖于社区驱动的插件。运营团队必须根据其风险管理策略,审查和管理他们纳入Grafana Cloud环境的第三方组件。
5.10 Honeycomb
Honeycomb 在此魔力象限中属于远见者(Visionary)。其可观测性平台专注于高基数(high-cardinality)遥测数据。它拥抱开放标准,并面向具有实时、探索性观察性需求的工程团队。尽管Honeycomb的主要客户群在北美,但它继续在其欧盟SaaS产品(于2024年推出)的基础上发展,并进一步针对APAC和LATAM地区开展举措。2024年,Honeycomb通过推出Honeycomb Telemetry Pipeline (HTP)、Honeycomb Log Analytics和Honeycomb for Frontend Observability,显著增加了其能力。2025年初,Honeycomb进行了首次收购,收购了Grit,一个开源代码库分析和自动插桩引擎。
优势
- 遥测管理: HTP使企业能够跨多个源和目标高效地路由、过滤和采样遥测数据,帮助它们扩展观察性,同时保持对遥测生命周期和相关成本的控制。
- 舰队管理: Honeycomb利用OpAMP为OpenTelemetry Collectors提供舰队管理。这提供了集中管理、配置和监控大规模OpenTelemetry部署的能力,同时最小化运营开销。
- 创新: 2025年4月,Honeycomb宣布收购Grit,一个AI代码库分析引擎。Grit的技术使软件开发团队能够更轻松地在现有代码库中实现OpenTelemetry,从而改善观察性。
注意事项
- 许可模型: Honeycomb差异化的基于事件的定价鼓励摄取高基数遥测数据而不会产生惩罚。然而,它最初可能使使用量估算和预测具有挑战性。
- 有限的渠道生态系统: Honeycomb主要通过直销模式运营,对渠道合作伙伴的依赖最小。因此,寻求本地化专业知识或第三方实施和集成服务的企业可能会发现合作伙伴选项有限。
- AI/ML能力的采用: 虽然Honeycomb通过BubbleUp异常检测等功能强调了遥测探索,但其生成式AI的采用相对有限,Query Assistant是主要产品。这使得Honeycomb落后于竞争对手——它旨在通过最近收购Grit来弥补这一差距。
5.11 IBM
IBM 在此魔力象限中属于领导者(Leader)。IBM的Instana Observability平台既提供SaaS也提供自托管解决方案,并采用单代理架构。IBM的业务运营在地理上多元化,其客户往往是大型企业。IBM更广泛的观察性产品组合从大型机监控延伸到通过SevOne进行的网络监控,再到现代云架构(如容器和Kubernetes)的监控。IBM最近收购了HashiCorp,它与Instana一起作为IBM自动化产品组合的一部分。此外,IBM收购了Kubecost,为Kubernetes成本监控和优化提供了额外能力。
优势
- 市场执行: IBM在全球企业内拥有显著的影响力,在所有主要市场都有销售和支持。此外,在IBM内部,Instana与Apptio和HashiCorp同属一个软件集团,为IT运维、自动化和FinOps提供了一个引人注目的企业捆绑包。
- 地理战略: IBM的销售和支持团队及其庞大的合作伙伴网络在所有地区提供本地化的客户支持。IBM还扩展了其数据中心和云提供商支持,包括更多区域和部署选项,其工具支持多种语言。
- 定价模型: 在客户日益关注成本的时代,Instana基于每主机指标的定价模型易于理解,随量扩展良好,并在市场上具有差异化。
注意事项
- 产品战略: 与本研究中评估的其他领导者相比,IBM在2024年引入的新颖AI功能较少。虽然Instana正在探索使用代理能力(agentic capabilities)并扩展其AI观察性产品,但IBM在这方面加强其地位的机会仍然很大。
- 市场认知: 在与客户问询中讨论IBM Instana作为可能的可观测性平台时,许多客户倾向于不予考虑,因为他们认为它只适用于大型企业,中小型企业(SME)除非他们已经是IBM解决方案的用户,并且销售机会依赖于从现有客户群进行交叉销售。
- 客户体验: 虽然存在供用户联系的在线论坛,但IBM Instana缺乏其他供应商用户社区中存在的同等水平的参与度。
5.12 ITRS
ITRS 在此魔力象限中属于特定领域者(Niche Player)。ITRS Analytics作为ITRS观察性产品组合的一部分,拥有广泛的功能,包括采集管道、分析平台和客户访问层。其业务运营集中在北美、欧洲和APAC地区。ITRS最近引入了一个采集管道来简化将遥测数据接入产品的过程。路线图上计划的能力示例包括SLO支持、代理舰队管理和安全威胁检测。
优势
- 定价模型: ITRS最近修订的定价策略为基本版和企业版提供了捆绑选项。在从多个产品迁移到单一平台解决方案的过程中,ITRS已将选项简化为两个层级,针对更大、更复杂的IT环境。
- 实时警报: 基于其在金融服务领域的传统,ITRS Analytics支持极快的摄取和警报。其声称时间少于1秒,这可能不适用于所有情况,但仍然可能比许多竞争对手更快。
- 细粒度RBAC: ITRS的RBAC(基于角色的访问控制)能力允许在实体级别进行精细的、可审计的控制。可以基于属性或条件限制访问。授权控制支持对命令进行精细的划分。这种控制水平在该市场的产品中并不常见。
注意事项
- 定价透明度: 尽管ITRS修订了其定价并开始提供分层捆绑选项,但并未公开价格表。潜在客户必须直接联系供应商,这使得估算成本变得困难。
- 缺少GenAI: ITRS目前不包含任何类型的生成式AI或大型语言模型支持。尽管相关能力已在路线图上,但这使该公司落后于已经在从基于聊天的助手转向代理AI的竞争对手。
- 代理管理: ITRS没有用于其监控代理的集中部署系统。相反,代理安装依赖于外部工具,如Puppet或Chef。虽然在部署后可以集中管理配置更改,但需要处理多个专用代理(如NetProbe、ITRS Infrastructure Agent和RUM收集器)增加了设置和维护的复杂性。
5.13 LogicMonitor
LogicMonitor 在此魔力象限中属于挑战者(Challenger)。LogicMonitor基于收集器的LM Envision平台提供混合观察性。它摄取跨云、本地、SaaS和容器化环境的指标、日志、追踪和事件,并具有GenAI驱动的根本原因分析、警报聚类和AI基础设施观察性功能,包括Nvidia GPU和OpenAI监控。其客户主要来自北美和EMEA地区,并在APAC地区的业务不断扩张。LogicMonitor在过去一年中进行了多次发布,包括诸如Edwin AI(用于跨域事件摄取和事件关联)、LM Co-Pilot(GenAI聊天机器人)和LM Cost Optimization(用于管理云成本)等工具。
优势
- 客户留存率: LogicMonitor 2024财年(FY24)的净留存率(net retention)记录为108%。该公司在企业和MSP(管理服务提供商)领域的现有客户中实现了强劲的扩张。促成这种高留存率的因素是平台的粘性、快速实现价值的时间以及多产品采用率的提高。
- MSP和合作伙伴计划: LogicMonitor 80%的收入来自合作伙伴计划。其计划支持系统集成商(SI)、增值经销商(VAR)、MSP和技术联盟合作伙伴,并且它继续通过对资源、赋能和联合市场推广(GTM)计划进行战略投资来构建其合作伙伴能力,以推动可扩展的增长。
- 强大的混合覆盖: LogicMonitor使用无代理采集方法管理混合IT环境(本地、云、边缘)。这种方法有效支持传统和现代系统,帮助组织从混合环境过渡或维持混合环境。
注意事项
- 不成熟的SLI/SLO支持: LogicMonitor目前在其SLI/SLO能力的成熟度方面落后于其他可观测性平台。该平台缺乏用于定义、建立和跟踪SLI(服务级别指标)、SLO和错误预算的简化方法——这些通常是SRE实践所寻求的功能。
- DevOps集成: LogicMonitor的DevOps工具链集成能力有限,缺乏完整的开发生命周期支持,并且CI/CD管道特定功能需要额外的工具。它的主要焦点围绕观察性和事件响应,但它确实有一些集成,例如Ops Notes用于跟踪变更,为发生的问题提供一些上下文。
- 真实用户监控(RUM): LogicMonitor目前不提供RUM,这可能会限制对前端性能和用户体验的可见性。需要详细了解客户端行为或用户旅程的组织可能需要集成单独的RUM解决方案,或考虑具有内置RUM功能的平台。
5.14 Microsoft
Microsoft 在此魔力象限中属于挑战者(Challenger)。Azure Monitor是其可观测性平台,也是Microsoft Azure原生的监控解决方案。该公司在地理上高度多元化,其客户往往是中型到大型企业。Azure Monitor近期的更新包括增强的Azure Kubernetes服务监控和Log Analytics跨区域工作区复制。Microsoft的观察性路线图包括扩展AI驱动的观察性以及与Microsoft Fabric和Microsoft Sentinel的更深度集成。
优势
- 日志分析: Azure Monitor Log Analytics是一个强大、成熟的日志管理解决方案,并且不断改进。过去一年引入的两项更新包括支持名为“辅助日志(Auxiliary Logs)”的低成本第三存储层,以及“简单模式(Simple Mode)”,该模式提供了一个低代码/无代码选项,无需学习Kusto查询语言(KQL)即可从日志数据中获得洞察。
- AI增强: Azure Monitor Application Insights包括AI驱动的代码优化功能,可根据实时遥测数据识别潜在的性能瓶颈,并建议解决这些问题所需的代码更改。这是对现有Microsoft Copilot in Azure的补充。
- 集成安全监控: Microsoft的安全监控产品Sentinel和Defender构建在Azure Monitor之上并与之良好集成,使整个套件能够支持跨运营和安全功能的统一分析、报告和事件响应能力。
注意事项
- SLO管理: Azure Monitor尚未包含一流(first-class)的SLO创建和监控能力,在这方面落后于竞争对手。在缺乏此功能的情况下,在Azure Monitor中进行SLO管理是可能的,但极其繁琐。
- 不一致的OpenTelemetry支持: Azure Monitor可以通过导出器(exporter)摄取OpenTelemetry数据,但缺少通过收集器接口直接摄取OpenTelemetry协议(OTLP)的支持。客户端SDK在Azure Monitor OpenTelemetry Distro中可用,并且尽管Application Insights支持分析OTel数据,但将数据从应用程序获取到Azure Monitor中可能相当复杂。
- 功能预览: Microsoft的惯例是以“预览(preview)”状态发布Azure功能。有些功能会处于公开预览状态一年或更长时间。尽管这些功能对所有客户可用,但支持有限,并且Microsoft不建议将预览项目用于生产环境。许多Azure Monitor功能已保持延长公开预览状态。
5.15 New Relic
New Relic 在此魔力象限中属于领导者(Leader)。其可观测性平台涵盖APM、AI监控、DEM、基础设施和安全监控以及日志管理。其客户群全球分布,主要涵盖各行业的 medium to large enterprises(中型到大型企业)。在北美和欧洲拥有数据中心的情况下,New Relic于2024年通过显著扩大其在印度的创新中心进一步扩展了其全球足迹。New Relic的路线图强调对代理AI(agentic AI)集成的战略投资,近期与ServiceNow和GitHub Copilot的合作关系凸显了这一点。
优势
- AI愿景: New Relic在观察性领域以其前瞻性的代理编排(agentic orchestration)愿景脱颖而出。通过引入用于代理集成的标准化API和不断增长的专业代理库,该平台鼓励智能的、跨平台的自动化。与GitHub和ServiceNow的早期合作凸显了AI驱动工作流的潜力。
- 产品: New Relic在过去一年中对其产品组合进行了显著增强,包括额外的eBPF功能、LLM观察性、额外的成本控制以及对其生成式AI界面的改进。
- 客户体验: 客户通过Peer Insights以及在客户问询中报告了对New Relic的服务和支持的高度满意度。
注意事项
- 销售执行: 虽然New Relic继续实现高客户续订率,但自被Francisco Partners和TPG收购并随后私有化以来,其市场增长似乎比观察性领域的几个主要竞争对手更为温和。
- 遥测成本控制: New Relic基于用户数量和摄取的遥测数据量的消费定价可能导致客户的成本高于预期。New Relic最近推出的成本优化器(cost-optimizer)功能旨在帮助遇到遥测数据激增的客户。
- 业务指标: New Relic的Pathpoint提供了对业务流程指标和“业务观察性”的视图。然而,似乎很少有客户了解这些功能可以帮助他们获得对其关键业务流程的洞察。
5.16 Oracle
Oracle 在此魔力象限中属于挑战者(Challenger)。Oracle的观察性与管理(O&M)平台包含一系列服务,包括应用性能监控(APM)、日志分析、数据库管理、运维洞察(Ops Insights)以及漏洞检测和补丁管理。它旨在支持监控跨超大规模云提供商、私有云和传统数据中心的工作负载。Oracle在所有地区都有存在点,客户群涵盖各行各业——包括政府机构以及从中型企业到大型企业的组织。
最近,Oracle引入了一个由GenAI驱动的观察性助手,旨在支持查询生成、故障排除和产品指导。其他新功能包括数据库漏洞检测和LLM观察性能力。Oracle的路线图建立在这些进步的基础上, strongly focus on AI(强烈关注AI),既用于增强观察性,也用于监控GenAI工作负载及其底层基础设施。
优势
- Oracle数据库漏洞检测: Oracle的可观测性平台提供内置的数据库漏洞检测,帮助组织识别Oracle数据库中的安全风险、错误配置和合规性问题。
- 主权云: 对于优先考虑数据主权、地理 repatriation、区域合规性或 residency 要求的企业,Oracle的可观测性平台在25个国家可用。它满足广泛的认证,包括FedRAMP和GDPR。组织可以从部署选项中进行选择,例如EU Sovereign Cloud、U.S. Government Cloud或直接托管在自己数据中心内的OCI Dedicated Region。
- Onboarding和支持: 对于技能或资源有限的组织,Oracle的Observability平台受益于全面的支持框架。这包括广泛的认证渠道合作伙伴和系统集成商生态系统、Oracle Observability Professional认证、面向SRE和DevOps团队的认证以及客户参与计划。
注意事项
- 有限的生成式AI集成: 除了基本的支持助手之外,Oracle在将其生成式AI能力嵌入可观测性平台方面相对缓慢。评估中的其他供应商为更广泛的用例集成了更深入的生成式AI。Oracle计划在2025年通过“观察性助手”来解决这一不足。
- 以业务为中心的观察性: 对于专注于关键业务服务弹性的团队,Oracle的O&M平台缺乏衡量业务成果的能力,例如SLO和错误预算管理,这些是SRE实践的基础。
- 以OCI为中心的战略: Oracle O&M紧密融入其OCI(Oracle Cloud Infrastructure)战略,为以OCI为中心的用户提供了更大的优势。然而,优先考虑独立的、独立的可观测性平台的组织应评估这种集成模型是否与其更广泛的观察性愿景相一致。
5.17 ScienceLogic
ScienceLogic 在此魔力象限中属于远见者(Visionary)。ScienceLogic AI平台包含四个产品:用于观察性的SL1、用于代理自动化的PowerFlow、用于安全和网络合规性的RestorePoint,以及用于无监督推理的Skylar AI。SL1可以作为自托管解决方案部署,也可以在AWS/Azure环境中部署。ScienceLogic的客户主要分布在北美和EMEA地区。该公司的路线图包括增强其生成式AI(GenAI)驱动的分析和智能自动化能力。
优势
- AI创新: ScienceLogic的战略重点和关键市场差异化因素是其事件智能和AI能力,特别是Skylar AI套件,其目标是实现智能、自动化的运营。
- 市场执行和存在感: ScienceLogic展示了有效的市场执行,通过直销、全球系统集成商(GSI)网络和广泛的渠道合作伙伴生态系统,在竞争日益激烈的IT运维管理(ITOM)领域取得了坚实的市场地位。
- 客户体验: 该公司提供强大的支持和客户成功渠道,包括社区讨论、学习服务和专门的客户成功经理(CSM)。它还有一个“SL360计划”,旨在帮助客户从其产品投资中实现长期业务价值。
注意事项
- SLO管理: ScienceLogic缺乏对定义、跟踪和可视化服务级别目标(SLO)的原生支持。缺乏专用的SLO能力使得SRE团队难以监控可靠性目标和管理错误预算。
- 应用程序开发支持: 由于其根源在于基础设施和网络监控,ScienceLogic在某些以应用程序为中心的能力方面落后于竞争对手。值得注意的是,它缺乏代码级洞察,并且与用于DevOps工作流的常见开发工具集的集成比其它评估平台少。
- 地理覆盖范围限制: 主要业务运营和强大影响力集中在北美和EMEA地区,ScienceLogic在进入其他地区市场时可能面临挑战。该公司对LATAM的直接关注较少,这代表了一个潜在的错失机会。
5.18 SolarWinds
SolarWinds 在此魔力象限中属于特定领域者(Niche Player)。SolarWinds Observability是其SaaS可观测性平台。该公司的业务运营在地理上多元化,其客户包括各种规模的组织。近期的产品更新包括Kubernetes自动插桩和改进的AWS支持。SolarWinds的当前路线图包括集成事件响应系统、警报抑制引擎、自动化团队工作流和运行手册触发,以及基于代理AI的工作流。
优势
- 产品:SolarWinds Observability 通过利用 eBPF 技术增强其功能,特别是提供对 Kubernetes 环境的性能洞察。这反过来又提供了对 Kubernetes 集群的详细可见性,比传统的监控方法能够更快地识别问题。
- 定价模式和透明度:为了支持客户在云和数据中心之间过渡,SolarWinds 提供了部署灵活性,允许客户混合部署选项,同时保持有竞争力的价格点。
- 收购 Squadcast:SolarWinds 最近收购了 Squadcast,提供了多项好处,例如事件响应和缩短 MTTR 的能力、第三方工具集成支持和 CI/CD 管道集成支持。它还带来了人工智能驱动的事件响应功能,例如重复数据删除,以减少警报疲劳并提高运营效率和弹性。
注意事项
- 有限的AI/ML能力: 虽然对AI/ML的额外投资已在路线图上,但如今的SolarWinds平台包括基本能力,例如动态阈值、异常检测和GenAI驱动的查询辅助。然而,相对于其竞争对手,SolarWinds的AI/ML能力有限。
- 代理管理: SolarWinds的“统一代理”使用基于插件的框架结合了其基础设施、网络和数据库监控代理。然而,APM和DEM都需要管理额外的代理。
- DevOps工具链集成: SolarWinds对DevOps工具链的支持是初级的。它主要支持集成到用于构建主机镜像的CI/CD工作流中的代理包,以及使用基础设施即代码(IaC)添加的Kubernetes收集器,但它缺乏对双向通信的支持,并且与DevOps工具链的配置复杂性较高。
5.19 Splunk
Splunk(思科旗下公司)在此魔力象限中属于领导者(Leader)。思科于2024年3月完成了对Splunk的收购,Splunk现在是负责观察性的业务部门。其观察性解决方案以Splunk Observability Cloud为核心,提供基础设施监控、APM、on-call、综合监控、日志分析和RUM。该解决方案包括Splunk Platform、Splunk IT服务智能(ITSI)和AppDynamics。其业务运营在地理上多元化,客户往往是大型企业。
优势
- 运营: 思科和Splunk拥有广泛的全球影响力,在所有主要地理区域都有销售和支持。此外,两家公司都带来了更广泛的销售和实施合作伙伴生态系统,这意味着客户在部署的所有阶段都能得到良好的服务。
- 整体可行性:思科在可观测性和监控方面拥有良好的记录,主要是通过收购 AppDynamics 和 ThousandEyes 等。Splunk 和思科的合并在许多垂直行业(包括银行、科技和公共部门)拥有深厚的专业知识和强大的客户群。
- 创新: 思科和Splunk在其整个产品组合中对AI进行了大量投资,并正在推出其Cisco AI Assistant以配合其观察性解决方案运作。这种生成式AI工具将帮助用户快速构建查询、解释结果并从观察性遥测数据中更快地获得洞察。
注意事项
- 产品组合复杂性: Splunk的观察性产品组合通过多次收购发展而来,目前在其多样化产品之间表现出有限的集成。这造成了复杂性,阻碍了工作流程并降低了操作员效率。
- 市场执行: 许多Splunk客户并不知道Splunk Observability Cloud的存在,尽管Splunk的日志记录和安全解决方案在市场上很普遍。
- 成本控制: 虽然Splunk的指标管道管理为管理大量指标提供了新功能,但客户在控制整体Splunk环境成本方面持续面临困难,尤其是在使用Splunk Cloud和ITSI时。
5.20 Sumo Logic
Sumo Logic 在此魔力象限中属于特定领域者(Niche Player)。其方法以大规模日志分析为中心,并包括安全用例,例如威胁检测和响应,以及观察性。虽然北美仍然是其主要目标市场,但Sumo Logic也服务于全球客户群,实例托管在多个AWS区域,并且最近在APAC地区进行了显著投资。2024年,它宣布了Mo Copilot,一个基于AI的助手,这是它期望继续发展的领域。Sumo Logic计划在2025年底发布AI驱动的调查能力。
优势
- 大规模日志分析: 对于主要关注点是日志分析的客户,Sumo Logic的平台提供了有针对性的能力,例如日志搜索(Log Search)、日志归纳(LogReduce)和日志比较(LogCompare),这些功能有助于大规模日志摄取和分析。其Flex Licensing(基于分析而非摄取数据量)对此进行了补充。
- 开源采用: Sumo Logic广泛使用开源技术。这包括通过OpenTelemetry收集器和OTLP进行遥测摄取,以及支持Telegraf和Fluent Bit。此外,它利用OpenSLO进行SLO管理,利用OpAMP进行OpenTelemetry收集器舰队管理。
- 观察性与安全: 对于拥抱DevSecOps的团队或旨在统一安全和IT运维的组织,Sumo Logic提供了一个在一个解决方案中交付两种用例的平台。
注意事项
- LLM观察性: Sumo Logic当前产品中的一个显著差距是缺乏对观察大型语言模型(LLM)的专用支持。虽然它提供了与AWS Bedrock和Google Cloud Vertex AI的集成以进行指标和日志收集,但它不提供LLM特定的观察性。用于分析令牌使用量、成本、偏差、漂移和幻觉的能力在可观测性平台中正变得越来越普遍。
- 基于GenAI的能力: 与其他可观测性平台相比,Sumo Logic引入LLM驱动的助手相对较晚。其Mo Copilot于2024年12月推出,仍处于早期成熟阶段,目前主要作为数据探索和可视化的查询助手。
- 代码调试: 对于需要将应用程序错误追踪回其源的DevOps团队来说,Sumo Logic与集成开发环境(IDE)之间缺乏集成可能是一个限制。
06.值得关注的厂商
Gartner正在跟踪可观测性平台市场的40多家供应商。本研究重点关注20家符合我们纳入标准的供应商。然而,排除特定供应商并不一定意味着不应考虑它,或者它不具备可能适合客户独特需求的可行性和能力。
- Dash0:一个现代化的可观测性平台,由被IBM收购的Instana的创始人之一创立。该平台基于OpenTelemetry标准构建,并利用ClickHouse作为底层存储。其核心特点是拥抱开放技术生态,除OTel外,还使用PromQL进行查询,并用Perses构建仪表板。尽管基于ClickHouse并非独有,但Dash0在此架构上表现优异,并辅以简洁的定价计划和以开发者为中心的UI。不过,由于今年未达到相关的性能阈值,它未被纳入正式的评估标准。
- groundcover:对于希望严格控制其遥测数据地理位置和主权的组织,groundcover 是一个值得考察的选项。它采用独特的 “自带云”架构:虽然提供SaaS管理平面,但所有遥测数据均被收集并存储于始终位于您云环境边界内的 ClickHouse 和 VictoriaMetrics 私有实例中。这种在您自己的云内托管数据的模式,未来可能会被更广泛地采用。需要注意的是,groundcover 今年因未达到性能阈值而未被纳入评估标准。
- HPE OpsRamp:一款基于SaaS的IT运维管理平台,其独特之处在于持续集成差异化功能,早期以事件智能解决方案闻名,而后重点发展持续预测市场。HPE于2023年完成了对该公司的收购,并将其与Morpheus Data一同整合,使其成为HPE GreenLake云平台运营能力的核心组成部分。不过,由于今年未达到市场认知度阈值,它未被纳入正式评估。
- Kloudfuse:是一个自托管的可观测性平台,客户可将其部署在自有公有云或私有云中。其核心架构围绕数据湖构建,旨在成为企业统一的观测平台。虽然不提供SaaS产品,但该公司提供托管控制平面服务,能在确保数据始终留存于客户环境的同时,降低运维负担。尽管该平台的设计理念受到认可,但由于其目前不提供SaaS交付模式,因此未能满足相关的能力纳入标准。
- Observe: 是可观测性领域内,首批将其平台构建于 Snowflake 云数据平台之上的供应商,并因此在2021年被认定为“Gartner酷厂商”。此后,其以数据分析为核心的可观测性平台实现了强劲增长,并获得众多企业采用,证明了其纳入评估的资格。然而,由于本年度魔力象限的供应商数量限制(最多20家)且市场竞争日趋激烈,Observe 最终因未达到预设的“认知度纳入门槛”而未能入选。
该文翻译自https://www.gartner.com/doc/reprints?id=1-2LEDRV5P&ct=250707&st=sb
















