基于DCGM和Prometheus的GPU监控方案
基于DCGM和Prometheus的GPU监控方案 背景: 在早期的GPU监控中我们会使用一些NVML工具来对GPU卡的基本信息进行采集,并持久化到监控系统的数据存储层。因为我们知道,其实通过nvidia-smi这样的命令也是可以获取到GPU的基本信息的,但随着整个AI市场的发展和成熟,对于GPU的监控也越来越需要一套标准化的工具体系,也就是本篇文章讲的关于DCGM相关的监控解决方案。 DCGM(Data Center GPU Manager)即数据中心GPU管理器,是一套用于在集群环境中管理和...阅读全文