您当前的位置:首页 > 计算机 > 软件应用 > 设备助手

GPU:使用gpu-burn压测GPU

时间:09-08来源:作者:点击数:

简介:在测试GPU的性能问题时,通常需要考虑电力和散热问题。使用压力测试工具,可以测试GPU满载时的状态参数(如温度等)。gpu_burn是一个有效的压力测试工具。通过以下步骤可以进行测试。

官网:

http://www.wili.cc/blog/gpu-burn.html

1、下载软件gpu-burn:

wget https://codeload.github.com/wilicc/gpu-burn/zip/master

2、解压安装包:

unzip gpu-burn-master.zip

3、进入目录编译(确保cuda环境变量已经配置成功 nvcc -v能显示结果):

cd gpu-burn-master
make

4、编译成功后,会在当前目录生成 gpu_burn 这个文件:

gpu_burn

5、默认执行,跑全部GPU卡,空格后面参数为时间,一般快速测试设置120,稳定性测试为600等:

% ./gpu_burn 120
GPU 0: GeForce GTX 1080 (UUID: GPU-f998a3ce-3aad-fa45-72e2-2898f9138c15)
GPU 1: GeForce GTX 1080 (UUID: GPU-0749d3d5-0206-b657-f0ba-1c4d30cc3ffd)
Initialized device 0 with 8110 MB of memory (7761 MB available, using 6985 MB of it), using FLOATS
Initialized device 1 with 8113 MB of memory (7982 MB available, using 7184 MB of it), using FLOATS
10.8%  proc'd: 3472 (4871 Gflop/s) - 3129 (4683 Gflop/s)   errors: 0 - 0   temps: 56 C - 56 C 
  Summary at:   Mon Oct 31 10:32:22 EET 2016

22.5%  proc'd: 6944 (4786 Gflop/s) - 7152 (4711 Gflop/s)   errors: 0 - 0   temps: 61 C - 60 C 
  Summary at:   Mon Oct 31 10:32:36 EET 2016

33.3%  proc'd: 10850 (4843 Gflop/s) - 10728 (4633 Gflop/s)   errors: 2264 (WARNING!) - 0   temps: 63 C - 61 C 
  Summary at:   Mon Oct 31 10:32:49 EET 2016

44.2%  proc'd: 14756 (4861 Gflop/s) - 13857 (4675 Gflop/s)   errors: 1703 (WARNING!) - 0   temps: 66 C - 63 C 
  Summary at:   Mon Oct 31 10:33:02 EET 2016

55.0%  proc'd: 18228 (4840 Gflop/s) - 17433 (4628 Gflop/s)   errors: 3399 (WARNING!) - 0   temps: 69 C - 65 C 
  Summary at:   Mon Oct 31 10:33:15 EET 2016

66.7%  proc'd: 22134 (4824 Gflop/s) - 21009 (4652 Gflop/s)   errors: 3419 (WARNING!) - 0   temps: 70 C - 65 C 
  Summary at:   Mon Oct 31 10:33:29 EET 2016

77.5%  proc'd: 25606 (4844 Gflop/s) - 25032 (4648 Gflop/s)   errors: 5715 (WARNING!) - 0   temps: 71 C - 66 C 
  Summary at:   Mon Oct 31 10:33:42 EET 2016

88.3%  proc'd: 29078 (4835 Gflop/s) - 28161 (4602 Gflop/s)   errors: 7428 (WARNING!) - 0   temps: 73 C - 67 C 
  Summary at:   Mon Oct 31 10:33:55 EET 2016

100.0%  proc'd: 33418 (4752 Gflop/s) - 32184 (4596 Gflop/s)   errors: 9183 (WARNING!) - 0   temps: 74 C - 68 C 
Killing processes.. done

Tested 2 GPUs:
  GPU 0: FAULTY
  GPU 1: OK

6、支持指定某几张卡跑,比如指定0和3号卡:

export CUDA_VISIBLE_DEVICES=0,3
./gpu_burn 100

如何找出故障卡:

1、dmesg -l err 筛选出错误卡的Bus-Id:

图片

2、根据Bus-Id找出对应的GPU卡编号,在跑测试的时候排除它,比如机器8张卡,device 5 故障,则参数应该设置成:

export CUDA_VISIBLE_DEVICES=0,1,2,3,4,6,7   #2不写在里面
./gpu_burn 120

3、 跑完之后关机,找出那张没有温度的卡,即故障卡。

图片
方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门
本栏推荐