简介:在测试GPU的性能问题时,通常需要考虑电力和散热问题。使用压力测试工具,可以测试GPU满载时的状态参数(如温度等)。gpu_burn是一个有效的压力测试工具。通过以下步骤可以进行测试。
官网:
http://www.wili.cc/blog/gpu-burn.html
1、下载软件gpu-burn:
wget https://codeload.github.com/wilicc/gpu-burn/zip/master
2、解压安装包:
unzip gpu-burn-master.zip
3、进入目录编译(确保cuda环境变量已经配置成功 nvcc -v能显示结果):
cd gpu-burn-master
make
4、编译成功后,会在当前目录生成 gpu_burn 这个文件:
gpu_burn
5、默认执行,跑全部GPU卡,空格后面参数为时间,一般快速测试设置120,稳定性测试为600等:
% ./gpu_burn 120
GPU 0: GeForce GTX 1080 (UUID: GPU-f998a3ce-3aad-fa45-72e2-2898f9138c15)
GPU 1: GeForce GTX 1080 (UUID: GPU-0749d3d5-0206-b657-f0ba-1c4d30cc3ffd)
Initialized device 0 with 8110 MB of memory (7761 MB available, using 6985 MB of it), using FLOATS
Initialized device 1 with 8113 MB of memory (7982 MB available, using 7184 MB of it), using FLOATS
10.8% proc'd: 3472 (4871 Gflop/s) - 3129 (4683 Gflop/s) errors: 0 - 0 temps: 56 C - 56 C
Summary at: Mon Oct 31 10:32:22 EET 2016
22.5% proc'd: 6944 (4786 Gflop/s) - 7152 (4711 Gflop/s) errors: 0 - 0 temps: 61 C - 60 C
Summary at: Mon Oct 31 10:32:36 EET 2016
33.3% proc'd: 10850 (4843 Gflop/s) - 10728 (4633 Gflop/s) errors: 2264 (WARNING!) - 0 temps: 63 C - 61 C
Summary at: Mon Oct 31 10:32:49 EET 2016
44.2% proc'd: 14756 (4861 Gflop/s) - 13857 (4675 Gflop/s) errors: 1703 (WARNING!) - 0 temps: 66 C - 63 C
Summary at: Mon Oct 31 10:33:02 EET 2016
55.0% proc'd: 18228 (4840 Gflop/s) - 17433 (4628 Gflop/s) errors: 3399 (WARNING!) - 0 temps: 69 C - 65 C
Summary at: Mon Oct 31 10:33:15 EET 2016
66.7% proc'd: 22134 (4824 Gflop/s) - 21009 (4652 Gflop/s) errors: 3419 (WARNING!) - 0 temps: 70 C - 65 C
Summary at: Mon Oct 31 10:33:29 EET 2016
77.5% proc'd: 25606 (4844 Gflop/s) - 25032 (4648 Gflop/s) errors: 5715 (WARNING!) - 0 temps: 71 C - 66 C
Summary at: Mon Oct 31 10:33:42 EET 2016
88.3% proc'd: 29078 (4835 Gflop/s) - 28161 (4602 Gflop/s) errors: 7428 (WARNING!) - 0 temps: 73 C - 67 C
Summary at: Mon Oct 31 10:33:55 EET 2016
100.0% proc'd: 33418 (4752 Gflop/s) - 32184 (4596 Gflop/s) errors: 9183 (WARNING!) - 0 temps: 74 C - 68 C
Killing processes.. done
Tested 2 GPUs:
GPU 0: FAULTY
GPU 1: OK
6、支持指定某几张卡跑,比如指定0和3号卡:
export CUDA_VISIBLE_DEVICES=0,3
./gpu_burn 100
如何找出故障卡:
1、dmesg -l err 筛选出错误卡的Bus-Id:
2、根据Bus-Id找出对应的GPU卡编号,在跑测试的时候排除它,比如机器8张卡,device 5 故障,则参数应该设置成:
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,6,7 #2不写在里面
./gpu_burn 120
3、 跑完之后关机,找出那张没有温度的卡,即故障卡。