pythorch显卡利用率过低的问题

在docker中pytorch显卡利用率过低的问题

​ 刚刚在用docker利用用pytorch训练模型的时候报了一个错:RuntimeError: DataLoader worker (pid 493) is killed by signal: Bus error. Details are lost due to multiprocessing. Rerunning with num_workers=0 may give better error trace.

​ 一开始是因为在训练的时候发现显卡的利用率太低了,显卡有一半的时间处于空闲状态,这不行啊,这得训练到何年何月去了,猜测应该是CPU预处理数据耗费了太多时间导致的,于是把DataLoader的num_workers参数设置为8,然后就报了上面那个错误,于是google查了一下,这应该是设置了num_works不为0的时候,导致docker和宿主计算机的共享内存不够了,于是就报了这个错,怎么解决呢?在创建docker的时候加上–shm-size=16G这个参数就ok啦。于是显卡利用率基本都能保持在99%这样了,当然会有点波动,训练速度提升了不少。

发布了4 篇原创文章 · 获赞 0 · 访问量 209

猜你喜欢

转载自blog.csdn.net/ogzhen/article/details/103977490