引入DeepSeek后,大模型承担更多智能化工作,我们只需要提供数据源即可。
随着 AI 技术、运维自动化能力的不断发展,基于智能体的运维能力作为一种高效、自主的新型运维工具,能够实现更智能的资源调度、自动化运维和精准的故障预测,从而降低运营成本并提高系统稳定性。
文章探讨了企业遗留系统("古早应用")监控面临的挑战,这些系统多为早期开发的C/C++/汇编程序及老版本JDK应用,难以采
本文对主流APM监控探针的Java Agent启动耗时进行性能评测,发现在云原生高频发布场景下,探针启动延迟直接影响容器生
本文深度解析一款商用级OneAgent从零自研的全过程。揭秘我们如何实现50MB内存占用、非Root安装、SQL实时查询
Gartner最新发布的《可观测性平台魔力象限》报告显示,可观测性平台正通过创新分析和AI观察性技术改变企业系统管理方式。报告定义了可观测性平台的核心功能,包括数据采集、问题诊断和智能分析等,并指出其对IT运维、平台工程和软件开发的关键价值。AWS、Apica和BMC Helix等供应商因各自优势入选不同象限,但都面临成本优化、多云支持和市场认知度等挑战。企业应结合自身需求,评估这些平台在提升系统可靠性和业务连续性方面的潜力。
前言笔者最近跑了一些客户,发现虽然云化趋势明显,但很多客户依然存在着大量的“古早应用”在线运行(很早期开发的应用系统),比如银行的老核心、证券业的交易系统、制造业的生产系统等等,他们大多为C、C++甚至汇编语言编写、大量JDK老版本。这些系统相对封闭,不适合采用当下流行的字节码增强技术,想要对他们上点监控,动作要求相当苛刻。图:"古早"应用示意图笔者最近跑了一些客户,发现虽然云化趋势明显,但很多客
文章介绍了如何利用商业可观测平台DataBuff接管开源链路工具SkyWalking,实现一键接入和智能故障。通过修改SkyWalking Agent的数据接收地址指向DataBuff器,用户可快速构建监控管道。演示中,测试环境部署了大模型Demo应用和DataBuff平台,通过停止MySQL容器制造故障后,DataBuff的因果AI引擎成功识别出数据库异常导致的接口故障,并提供根因分析和修复建议。平台还提供链路观测、智能告警等辅助功能,帮助已部署SkyWalking的企业快速获得分钟级故障
在运维和可观测行业中,已经有不少优秀的终端数据采集器,其中包括不少的开源项目,如Datadog Agent, Elastic Beats,Telegraf等等,它们在一些特定的需求场景中可以很出色的工作。但是,对于一家商业化的可观测工具公司来说,这些数据采集器并没有完全满足当前数据智能对采集端的要求,尤其是现在GenAI、AgenticAI的时代,对数据工具
在云原生与微服务高频发布的背景下,APM Java监控探针对服务的启动延迟已成为影响容器生命周期与部署效率的关键因素。本文通过对比主流 APM 方案的启动耗时数据,剖析不同探针的性能表现与技术差异,为容器化部署场景下的探针选型及 K8s 配置优化提供实践参考。在微服务高频发布场景下,APM探针的启动延迟直接影响容器生命周期。例如:K8s的 startupProbe 若未适配探针加载时间,将导致Po
2025年7月23日,由中国通信标准化协会主办的 “2025可信云大会” 在京举行,《运维智能体(SRE AGENT)能力要求》标准正式发布,杭州乘云数字作为运维智能体及
耗时波动不同,会产生不同程度的故障,如何自适应定位?
摘要: 2025年7月23日,由中国通信标准化协会主办的 “2025可信云大会” 在京举行,《运维智能体(SRE AGENT)能力要求》标准正式发布,杭州乘云数字作为运维智能体及可观测领域领导者,重点参与了本次报告的编写。 2025年12月23日,由中国通信标准化协会主办、中国信通院承办的 “2025可信云大会-软件工程智能化分论坛” 在北京中关村国家自主创新示范区会议中心举行,《运维智能体(S
数据清洗可以像洗菜一样简单?乘云数字Datahub 帮助企业实现流水线式的自动化数据清洗。
2025年7月23日,由通信标准化协会主办的 “2025可信云大会” 在京举行,《运维智能体(SRE AGENT)能力要求》标准正式发布,杭州乘云数字作为运维智能体及可观测领域,重点参与了本次报告的编写。
在可观测性领域,Dynatrace可以说是公认的老牌王者,而Databuff是这一领域的后起新秀,二者都具备较强的故障定位能力。今
原文地址:https://databuff.com/resourceDetail/blog101在可观测性领域,Dynatrace可以说是公认的老牌王者,而Databuff是这一领域的后起新秀,二者都具备较强的故障定位能力。今天我们将进行一场测试,验证二者在故障定位能力上的差异。到底谁更胜一筹?请看下文。1 测试环境介绍**测试系统EasyShopping,**是一个包含17个业务服务的
当生产环境中的容器CPU出现异常时,可能会引发上层业务出现一系列问题,比如业务请求缓慢、网页卡顿甚至崩溃等,如果没有一个有效的故障方法,运维人员很难从海量的告警信息中快速找到根本原因并解决问题。
耗时波动不同,会产生不同程度的故障,如何自适应?
Web应用故障如何实现接口级别的根因定位?利用算法和接口耗时分解,可轻松解决难题。文中有演练和定位方法,结om/),可以立即上手体验。
前端数据埋点是一种常见的技术手段,它能够通过代码或工具在前端应用中采集用户行为、页面性能、错误日志等数、目标、埋点方式以及常见的挑战与解决方案。
验。
LCP(最大内容绘制)是衡量网页加载速度的重要指标,反映用户首次看到主要内容的时间。优化LCP可以提升用户体验,包括加快服务器响应、减少阻塞资源、优化图片等。
业务事件是指与特定业务逻辑相关的操作或事件。为了能够以业务视角进行观测,我们需要先对业务事件进行定义,明确其业务含义。例如,将 web应用服务 中的 POST /user/login 请求定义为“登录”业务。业务场景是指由多个业务事件组成的业务流程。通过创建业务场景,可以将各个业务事件串联起来,形成一个完整的业务流程进行分析
《云计算智能化可观测性能力成熟度模型》行业标准正式发布。该标准由中国信通院牵头,移动云、阿里云、中兴、科来、浪潮、乘云
在当今数据驱动的环境中,理解内存指标和程序行为对于确保应用程序的性能和可靠性至关重要。在依赖实时数据处理和高
深入探讨 OpenTelemetry 如何与左移和 GitOps 策略相结合,赋能 DevOps 流程中的各个环节。
近日,乘云数字荣获中国信通院稳定性保障实验室理事单位证书!
乘云数字经成为中国电子工业标准化技术协会、信息技术应用创新工作委员会技术活动单位!
作者:天明 在当今高度依赖Java技术栈的软件开发领域,Java虚拟机(JVM)的性能优化是提升系统响应速度、降低资源消耗、确保服务稳定性的关键环节。本文旨在深入探讨围绕DataBuff驱动的JVM性能优化实战,从监控到实施调优策略的全过程,为读者提供一套实战性强、可操作的优化指南。一、监控先行:构建全面的JVM性能监控体系1. 利用内置工具与第三方监控工具JVM自带了如JConsole、Visu
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号