root@iZ0jl9l0fiw8iz23wegcqeZ:~# nvidia-smi
Wed May  1 11:18:34 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.154.05             Driver Version: 535.154.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA A10                     On  | 00000000:00:07.0 Off |                    0 |
|  0%   26C    P8               9W / 150W |      0MiB / 23028MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+
root@iZ0jl9l0fiw8iz23wegcqeZ:~#

nvidia-smi 是 NVIDIA System Management Interface 的缩写,这是一款用于监控和管理 NVIDIA GPU 设备的命令行工具。下面是nvidia-smi命令输出的一些关键参数详解:

  1. Driver Version: 显示当前安装的NVIDIA驱动版本,这里是 535.154.05。
  2. CUDA Version: 显示当前支持的CUDA版本,这里是 12.2。这告诉你安装的CUDA库版本,用于CUDA编程和运行CUDA应用程序。
  3. GPU Name (e.g., NVIDIA A10): 显示GPU的型号,这里是NVIDIA A10。
  4. Persistence-M: 持久性模式的开关状态,这里是开启状态(On)。持久性模式决定了GPU初始化是否保持激活状态,开启后有助于避免GPU重复初始化,从而减少延迟。
  5. Bus-Id: GPU的PCI总线ID,这里是00000000:00:07.0。这个信息有助于识别具体的物理或虚拟位置。
  6. Disp.A: 表示是否有显示输出连接到此GPU,这里是关闭状态(Off)。
  7. Volatile Uncorr. ECC: 显示易失性未校正的错误校验码(ECC)的状态,这里是0,意味着未启用或不支持ECC。
  8. Fan: GPU风扇速度百分比,这里是0%。
  9. Temp: GPU的温度,这里是26摄氏度。
  10. Perf: 性能状态,这里是P8。GPU的性能状态,从P0(最大性能)到P12(最低性能)不等。
  11. Pwr:Usage/Cap: 当前功率使用和功率上限,这里是9瓦特使用,150瓦特上限。
  12. Memory-Usage: GPU的显存使用情况,这里是0MiB / 23028MiB。
  13. GPU-Util: GPU利用率,这里是0%。
  14. Compute M.: 计算模式,这里是Default。这表明GPU是在默认计算模式下,没有特别的访问或使用限制。
  15. MIG M.: 如果支持MIG(多实例GPU)的话,显示MIG模式的状态,这里显示为N/A(不适用)。

通过这些信息,你可以了解到当前GPU的状态、使用情况以及系统配置。这对于进行系统监控、性能调优和资源管理非常有用。