Kubernetes中使用NVIDIA DCGM-Exporter监控GPU

原创

IvwDcwSo 2024-03-20 14:53:39 博主文章分类：云原生 ©著作权

文章标签 k8s 云原生监控 GPU DCGM-Exporter 文章分类 运维 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者IvwDcwSo的原创作品，请联系作者获取转载授权，否则将追究法律责任

在使用NVIDIA GPU的Kubernetes集群中，监控GPU的健康状态和性能对于维护系统的最佳性能至关重要。一种有效的方法是利用NVIDIA数据中心GPU管理器（DCGM）Exporter与Prometheus和Grafana结合使用。在本指南中，我们将演示如何在Kubernetes环境中设置GPU监控。

实例信息查询

先决条件

安装了NVIDIA GPU的Kubernetes集群
安装并配置了kubectl命令行工具
安装并配置了Prometheus和Grafana

安装步骤

下载DCGM Exporter配置文件：

wget https://raw.githubusercontent.com/NVIDIA/dcgm-exporter/master/dcgm-exporter.yaml

修改 dcgm-exporter.yaml 文件： 使用文本编辑器（例如vi）编辑文件，并更新 securityContext、nodeSelector 和 tolerations 部分如下：

nodeSelector:    #与containers同级
  node-type: gpu
        
securityContext: #与volumeMounts同级
  capabilities:
    add: ["SYS_ADMIN"]
     
tolerations:     #与volumes同级
- effect: NoSchedule
  operator: Exists

应用DCGM Exporter配置：

kubectl apply -f dcgm-exporter.yaml -n monitoring

创建 dcgm-exporter-servicemonitor.yaml 文件： 创建一个名为 dcgm-exporter-servicemonitor.yaml 的新YAML文件，内容如下：

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: dcgm-exporter
  namespace: monitoring
  labels:
    app.kubernetes.io/name: dcgm-exporter
    app.kubernetes.io/version: "3.4.0"
spec:
  jobLabel: app.kubernetes.io/name
  selector:
    matchLabels:
      app.kubernetes.io/name: dcgm-exporter
      app.kubernetes.io/version: "3.4.0"
  namespaceSelector:
    matchNames:
      - monitoring
  endpoints:
    - port: metrics
      interval: 15s
      path: /metrics

应用ServiceMonitor配置：

kubectl apply -f dcgm-exporter-servicemonitor.yaml -n monitoring

访问仪表板： 访问Grafana网站上的NVIDIA DCGM-Exporter仪表板，将其导入到您的Grafana实例中。

结论

通过按照这些步骤，您已成功在Kubernetes集群中使用NVIDIA DCGM Exporter、Prometheus和Grafana设置了GPU监控。这使您可以密切监视GPU的健康状态和性能指标，确保您的GPU资源的最佳利用和性能。

上一篇：Python 推导式实战

下一篇：ShellCheck 实战：提升 Shell 脚本质量的利器

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯