k8s集群监控用什么

原创

mob64e737ff9afd 2024-02-07 11:29:59 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64e737ff9afd的原创作品，请联系作者获取转载授权，否则将追究法律责任

K8S集群监控是一个非常重要的任务，它可以帮助我们实时监控和管理整个Kubernetes集群的健康状况和性能指标。在这篇文章中，我将向新手开发者讲解如何实现K8S集群监控，从而帮助他们更好地了解和掌握这个过程。

整个流程可以分为以下几个步骤：

步骤 | 说明
------------|----------------------------------------------------
1. 安装Prometheus | Prometheus是一个非常流行的开源监控解决方案，因为它具有灵活的查询语言和强大的数据模型，适用于任意的监控需求。
2. 创建监控目标 | 在Kubernetes集群中，我们需要配置Prometheus监控的目标对象，比如节点、Pod、容器等。
3. 配置Prometheus | 为了让Prometheus能够主动地收集和存储监控数据，我们需要配置它的相关参数和规则。
4. 配置Alertmanager | Alertmanager可以帮助我们发送告警通知，当监控指标达到预定的阈值时，可以触发告警通知。
5. 可视化监控数据 | 为了更好地理解和分析监控数据，我们可以使用Grafana来可视化展示这些数据。

现在让我们来详细介绍每个步骤需要做的事情以及相应的代码实例：

### 步骤1：安装Prometheus

首先，我们需要在Kubernetes集群中安装Prometheus。可以使用Helm来进行此操作，以下是安装Prometheus的Helm命令和相应的注释：

```bash
helm install prometheus stable/prometheus-operator
```

> 这个命令会使用Helm安装`stable/prometheus-operator` chart，该chart包含了Prometheus及其相关的组件，如Grafana、Alertmanager等。

### 步骤2：创建监控目标

接下来，我们需要配置Prometheus来监控Kubernetes集群中的对象。我们可以使用Kubernetes的ConfigMap来定义监控目标，以下是一个示例ConfigMap文件的代码：

```yaml
apiVersion: v1
kind: ConfigMap
metadata:
name: prometheus-rules
data:
prometheus.rules: |
- alert: HighPodCPUUsage
expr: sum(rate(container_cpu_usage_seconds_total{namespace="kube-system"}[5m])) > 0.8
for: 5m
labels:
severity: critical
annotations:
summary: High CPU usage in pod
```

> 这个ConfigMap文件定义了一个名为`prometheus-rules`的ConfigMap，并在`prometheus.rules`字段中定义了一个告警规则。该规则会监控kube-system命名空间下所有容器的CPU使用率，如果CPU使用率超过0.8（80%），则触发高CPU使用率的告警。

### 步骤3：配置Prometheus

配置Prometheus是非常重要的，因为它决定了Prometheus如何去收集和存储监控数据。以下是一个示例的Prometheus配置文件的代码：

```yaml
global:
scrape_interval: 15s
evaluation_interval: 15s

scrape_configs:
- job_name: 'kubernetes-nodes'
kubernetes_sd_configs:
- role: node
relabel_configs:
- source_labels: [__address__]
target_label: __metrics_path__
replacement: /metrics/cadvisor

- job_name: 'kubernetes-pods'
kubernetes_sd_configs:
- role: pod
relabel_configs:
- source_labels: [__meta_kubernetes_pod_container_port_name]
action: keep
regex: (metrics)

- job_name: 'kubernetes-apiservers'
scheme: https
tls_config:
ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
insecure_skip_verify: true
bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
kubernetes_sd_configs:
- role: endpoints
api_server: https://kubernetes.default.svc.cluster.local
tls_config:
ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
```

> 这个配置文件主要定义了两个job（`kubernetes-nodes`和`kubernetes-pods`）来收集节点和Pod的监控指标。其中，`kubernetes-nodes`通过cAdvisor收集节点的监控指标，`kubernetes-pods`通过metrics endpoint收集Pod的监控指标。

### 步骤4：配置Alertmanager

为了能够在监控指标达到预定阈值时发送告警通知，我们需要配置Alertmanager。以下是一个示例Alertmanager配置文件的代码：

```yaml
route:
receiver: 'default-receiver'

receivers:
- name: 'default-receiver'
email_configs:
- to: 'admin@example.com'
from: 'noreply@example.com'
smarthost: 'smtp.example.com:587'
auth_username: 'user'
auth_password: 'password'
```

> 这个配置文件定义了一个名为`default-receiver`的接收者，并配置了发送邮件的相关参数。当告警触发时，Alertmanager会将告警信息发送给指定的邮件地址。

### 步骤5：可视化监控数据

为了更好地理解和分析监控数据，我们可以使用Grafana来进行可视化展示。以下是一个示例的Grafana配置文件的代码：

```yaml
apiVersion: v1
kind: Service
metadata:
name: grafana
spec:
selector:
app: grafana
ports:
- port: 80
protocol: TCP
targetPort: 3000
---
apiVersion: apps/v1
kind: Deployment
metadata:
name: grafana
spec:
selector:
matchLabels:
app: grafana
replicas: 1
template:
metadata:
labels:
app: grafana
spec:
containers:
- name: grafana
image: grafana/grafana
ports:
- containerPort: 3000
volumeMounts:
- name: grafana-data
mountPath: /var/lib/grafana
volumes:
- name: grafana-data
emptyDir: {}
```

> 这个配置文件定义了一个Grafana的Service和Deployment，用于部署和暴露Grafana服务。然后，我们可以通过访问Grafana的Web UI来查看和创建监控仪表盘。

通过以上的步骤和相应的代码示例，我们可以完成K8S集群监控的搭建。希望这篇文章对新手开发者能够有所帮助，并且能够让他们更好地理解和掌握K8S集群监控的实现过程。