命令

1
nvidia-smi

结果解析

| NVIDIA-SMI 550.54.14 Driver Version: 550.54.14 CUDA Version: 12.4 |
|—————————————–+————————+———————-+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 4090 Off | 00000000:41:00.0 Off | Off |
| 30% 37C P8 32W / 450W | 7848MiB / 24564MiB | 0% Default |
| | | N/A |
+—————————————–+————————+———————-+

+—————————————————————————————–+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|============================================================================|
| 0 N/A N/A 2321 G /usr/bin/X 9MiB |
| 0 N/A N/A 2907 G /usr/bin/gnome-shell 12MiB |
| 0 N/A N/A 6159 C python3 4386MiB |
| 0 N/A N/A 491107 C python3 3420MiB |

一、系统与驱动信息

  • NVIDIA-SMI 版本:550.54.14

  • 驱动版本:550.54.14

  • CUDA 版本:12.4

    说明:CUDA 是 NVIDIA 推出的并行计算平台,版本号需与驱动兼容,当前版本支持 CUDA 12.4 的应用程序。

二、GPU 硬件与状态信息

参数项 详情
GPU 编号 0
GPU 型号 NVIDIA GeForce RTX 4090
Persistence-M Off(持久模式关闭,关闭后 GPU 在无任务时功耗更低)
Bus-Id 00000000:41:00.0(PCIe 总线地址,用于定位硬件)
Display Active Off(未连接显示器或未作为主显示输出)
ECC 错误校验 Off(非服务器级 GPU,通常不启用 ECC)

三、硬件监控数据

  • 风扇转速:30%(根据温度自动调节)
  • 温度:37°C(正常工作温度,低于阈值)
  • 性能状态:P8(NVIDIA 功耗分级,P8 表示低负载状态)
  • 功耗:32W / 450W(当前功耗 32W,最大功耗限制 450W)
  • 显存使用:7848MiB / 24564MiB(已用 7.8GB,总容量 24GB)
  • GPU 利用率:0%(当前无计算任务)
  • 计算模式:Default(默认模式,支持图形和计算任务)

四、进程占用详情

GPU GI/CI PID 类型 进程名称 显存占用
0 N/A 2321 G X 窗口系统 9MiB
0 N/A 2907 G gnome-shell 12MiB
0 N/A 6159 C python3 4386MiB
0 N/A 491107 C python3 3420MiB

五、关键指标解读

  1. 性能状态(Perf)
    • P0-P12 表示不同功耗等级,P8 对应低负载(如待机或轻量任务),P0 为满负载状态。
  2. 显存使用分析
    • 总显存 24GB,当前占用约 32%,主要由两个 Python 进程占用(合计约 7.8GB),可能在运行深度学习或图形处理任务。
  3. 进程类型(Type)
    • G:图形任务(如桌面环境),C:计算任务(如 Python 脚本)。

六、常见场景参考

  • 正常待机状态:温度通常低于 40°C,功耗 <50W,GPU 利用率 0%。
  • 高负载场景:如游戏或深度学习训练时,温度可能升至 70-85°C,功耗接近 450W,利用率 90%+。
  • 故障排查方向:若温度持续高于 85°C 或频繁出现驱动崩溃,需检查散热或驱动兼容性。

七、延伸知识

  • MIG(多实例 GPU):N/A 表示当前 GPU 不支持或未启用 MIG 技术(主要用于数据中心多租户场景)。
  • 持久模式(Persistence-M):开启后可减少 GPU 重启延迟,适合长期计算任务,但会增加待机功耗。

通过该输出可全面了解 GPU 的硬件状态、资源占用及运行任务,是排查显卡问题、优化计算资源的重要工具。