ARMS实践｜日志在可观测场景下的应用

原创

GrumpyAmber 2022-08-24 18:22:36 ©著作权

©著作权归作者所有：来自51CTO博客作者GrumpyAmber的原创作品，如需转载，请与作者联系，否则将追究法律责任

作者：陈陈

日志在可观测场景下的应用

随着 IT 架构改变与云原生技术实践，融入开发与业务部门视角，运维团队具备比原有监控更广泛、更主动的可观测能力。日志作为可观测三支柱（Tracing、Metrics、Logs）之一，帮助运维团队追踪程序运行状态、定位故障根因、还原故障现场。以故障发现和故障定位为目的使用日志场景可大致分为日志搜索和日志分析两类：

1. 日志搜索：

通过日志关键字搜索日志；
通过线程名、类名搜索日志；
结合 Trace 上下文信息，衍生出根据 TraceID、根据 spanName、parentSpanName、serviceName、parentServiceName 搜索日志。

2. 日志分析：

查看、分析指定日志数量的趋势；
根据日志内容生成指标（比如每次交易成功打印一条日志，可以生成关于交易额的一个指标）；
自动识别日志模式（比如查看不同模式的日志数量的变化，占比）。

在实际生产中，通过灵活组合以上几种使用方式，运维团队可以很好地排除日常观测、故障定位过程中的干扰因素，更快的定界甚至定位问题根因。

常见开源日志解决方案的不足

常见的日志解决方案多是利用主机上安装日志采集 Agent，通过配置日志采集路径的方式将日志采集到第三方系统存储、查询、展示、分析。较为成熟的有 ELK(Elasticsearch、Logstash、Kibana)开源方案，其活跃的社区、简单的安装流程、便捷使用方式等优势吸引了不少用户。

ARMS实践｜日志在可观测场景下的应用_运维

但 ELK 方案也存在着些许不足：

1. 运维成本高：搭建一套完整的 ELK 系统需要部署 ES 集群，kafka 集群以及 logstash 组件等等，以及随着日志规模的增长带来多集群拆分、多集群升级、稳定性等问题，往往需要投入更多人力。

2. 资源开销大：ELK 架构中几乎所有组件的资源开销都会随着日志规模的增长线性增长，占用极大成本。

3. 企业级能力缺乏：日志中往往包含业务关键信息，需要一套完备的多租户隔离以及细粒度的权限控制方案，这在开源免费 ELK 架构中是缺乏的。

基于 ARMS 的日志解决方案

相较于 ELK 开源自建方案，是否可以有更轻量、更容易运维的日志解决方案呢？

目前，应用实时监控服务 ARMS 提供一套简单易用的日志解决方案，让运维团队可以一键集成应用日志。相较于开源方案，丰富功能性、压降成本的同时，进一步提升易用性。

功能性

1. 自动富化日志

关联调用链上下文包括 TraceID、ServerIP、spanName，parentSpanName，serviceName，parentServiceName。全面满足根据 TraceID 搜索日志、查找触发异常日志打印的上游应用、上游接口等需要将 Tracing 和 Logs 进行关联分析的可观测场景。