在服务器指定GPU进行训练

企业开发 2023-07-15 17:53:09 阅读次数: 0

Moviattion

在公司的服务器上的GPU共同使用，我申请到了使用GPU编号为6和7两块GPU，一般情况下代码的默认使用GPU是0，如果GPU 0被其他人占用，那么就需要指定GPU 进行训练。

Method

我整理了两种方法去实现指定的GPU去训练：

1. 在你的Terminal中输入命令。

export CUDA_VISIBLE_DEVICES = 7

然后可以执行你的py文件进行训练。

2. 修改你的python代码。

在你的python代码靠前的地方加上下面的代码：

os.environ["CUDA_VISIBLE_DEVICES"] = "7"

以上两种方法都可以达到使用第7块GPU学习的目的，很遗憾我的代码仅能使用一块GPU，以后我将学习如何使用多块GPU来同时训练模型。

补充，显存的使用关注的是Memory-Usage 这一列，不一定是Volatile GPU-util 利用率。下面这个就是显存占满了，但是却没有利用。利用率为0%。
在这里插入图片描述
这里应该遇到了僵尸进程：

查看pid号
sudo fuser -v /dev/nvidia*
然后kill PId 的进程号
sudo kill -9 pid号码

如果自己不是root用户，那么输入以下指令查看GPU被哪个用户使用

ps -f -p pid_number
ps u pid_number

Torch1.8 和RTX3080 不兼容的问题：

NVIDIA GeForce RTX 3080 Ti with CUDA capability sm_86 is not compatible with the current PyTorch installation. The current PyTorch
install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70.

解决方法：
安装环境的时候，先不要安装torch，使用如下命令去安装torch

> conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

实时查看GPU 的使用情况

 watch -n 1 -d nvidia-smi

实时查看nohup.out 的内容

tail -f nohup.out

Pycharm 中将一个代码部署到新的服务器上面：

记得右键设置 set as default 将对应的服务器的环境进行更新。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_41623632/article/details/125656662

在服务器指定GPU进行训练

指定服务器特定GPU进行训练的方法

【多GPU训练】选择服务器中部分指定GPU进行使用

在服务器上指定GPU编号进行训练模型（终端指令操作与代码文件内编写均有）

GPU服务器离线训练模型

linux服务器如何指定gpu以及用量

【环境配置】服务器后台指定 GPU 运行代码

在服务器上指定GPU跑代码

通过云服务器租用GPU进行基于YOLOV5的人体检测模型训练

GPU服务器

服务器有多台GPU 如何指定GPU运行程序

tensorflow在训练模型的时候如何指定GPU进行训练

[tensorflow] 在训练模型的时候如何指定GPU进行训练

阿里云GPU云服务器训练神经网络服务器训练深度学习模型

【目标检测实验系列】AutoDL线上GPU服务器租用流程以及如何用Pycharm软件远程连接服务器进行模型训练（以Pycharm远程训练Yolov5项目为例子超详细）

06服务器GPU

便宜的GPU服务器

服务器后台进行Python模型训练

TensorFlow指定GPU/CPU进行训练和输出devices信息

解决YOLOX不能指定GPU进行训练的问题

比对在训练CNN模型任务下ECS服务器和GPU服务器的速度差异

Tensorflow指定GPU训练

【Tensorflow】指定GPU训练

指定GPU训练模型

深度学习训练 | PyCharm远程连接免费云GPU服务器教程

拿到全新的GPU云服务器之后，如何部署环境以训练模型

yolov3 yolov4训练自己的数据集自建数据集训练提供gpu服务器

linux环境新NVIDIA-GPU服务器进行压力测试

向日葵远程控制服务器，辅助周末进行gpu推断监控

配置使用云服务器训练神经网络模型——在阿里GPU服务器训练yolov5模型

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)