PromQL 介绍


PromQL 是 Prometheus 监控系统内置的一种查询语言,类似于MySQL的SQL语句,PromQL 允许你以灵活的方式选择、聚合等其他方式转换和计算时间序列数据,该语言仅用于读取数据。可以说 PromQL 是我们学习 Prometheus 最困难也是最重要的部分,本章节我们将介绍 PromQL 的基础知识、理论基础,然后会深入了解更加高级的查询模式。

 

 

目标


通过对本章节 PromQL 的学习你将能够有效地构建、分享和理解 PromQL 查询,可以帮助我们从容应对报警规则、仪表盘可视化等需求,还能够避免一些在使用 PromQL 表达式的时候遇到的一些陷进。

 

执行


前面基础章节我们介绍了 Prometheus 整体的架构:

PromQL 介绍_后端

当 Prometheus 从系统和服务收集指标数据时,它会把数据存储在内置的时序数据库(TSDB)中,要对收集到的数据进行任何处理,我们都可以使用 PromQL 从 TSDB 中读取数据,同时可以对所选的数据执行过滤、聚合以及其他转换操作。

PromQL 的执行可以通过两种方式来触发:

  • 在 Prometheus 服务器中,记录规则和警报规则会定期运行,并执行查询操作来计算规则结果(例如触发报警)。该执行在 Prometheus 服务内部进行,并在配置规则时自动发生。
  • 外部用户和 UI 界面可以使用 Prometheus 服务提供的​​HTTP API​​​ 来执行 PromQL 查询。这就是仪表盘软件(例如​​Grafana​​​、​​PromLens​​ 以及 Prometheus 内置 Web UI)访问 PromQL 的方式。

PromQL 介绍_读取数据_02

 

 

 

场景


PromQL 可以用于许多监控场景,下面简单介绍几个相关案例。

临时查询

我们可以用 PromQL 来对收集的数据进行实时查询,这有助于我们去调试和诊断遇到的一些问题,我们一般也是直接使用内置的表达式查询界面来执行这类查询:

PromQL 介绍_读取数据_03

仪表盘

同样我们也可以基于 PromQL 查询来创建可视化的图形、表格等面板,当然一般我们都会使用 Grafana:

PromQL 介绍_后端_04

Grafana 原生支持 Prometheus 作为数据源,并内置支持了 PromQL 表达式的查询。

报警

Prometheus 可以直接使用基于 PromQL 对收集的数据进行的查询结果来生成报警,一个完整的报警规则如下所示:

groups:
- name: demo-service-alerts
rules:
- alert: Many5xxErrors
expr: |
(
sum by(path, instance, job) (
rate(demo_api_request_duration_seconds_count{status=~"5..",job="demo"}[1m])
)
/
sum by(path, instance, job) (
rate(demo_api_request_duration_seconds_count{job="demo"}[1m])
) * 100 > 0.5
)
for: 30s
labels:
severity: critical
annotations:
title: "{{$labels.instance}} high 5xx rate on {{$labels.path}}"
description: "The 5xx error rate for path {{$labels.path}} on {{$labels.instance}} is {{$value}}%."

除了构成报警规则核心的 PromQL 表达式(上面 YAML 文件中的 ​​expr​​ 属性),报警规则还包含其他的一些元数据字段,后面在具体讲解报警的章节中会详细和大家讲解。

然后,Prometheus 可以通过一个名为 ​​Alertmanager​​ 的组件来发送报警通知,可以配置一些接收器来接收这些报警,比如用钉钉来接收报警:

PromQL 介绍_数据_05

自动化

此外我们还可以构建自动化流程,针对 PromQL 执行的查询结果来做出决策,比如 Kubernetes 中基于自定义指标的 HPA。(可以在Prometheus当中去定义一个promql语句,然后根据promql语句的查询结果来决定是否需要扩展一些pod)