跑深度学习框架常用指令和使用指南Mac
1. 连接app的选择
window下:可视化传文件使用winscp,在命令行输入指令使用putty或xshell等
Mac下:可视化传文件使用ForkLift,在命令行输入指令使用Mac自带的终端使用方法
2. 连接需要的信息
- 服务器的用户名如 ubuntu
- 服务器的地址 如 12.34.56.78
- 服务器的端口号 默认是22 如123
- [email protected] -p 123
3. 操作步骤
3.1 进入指定文件夹
- cd afile 进入afile文件夹
cd ..
退出当前文件夹cd ../..
退出两层文件夹- ls 查看当前文件夹里所有文件名
3.2 设置环境
如果服务器安装了anaconda,则非常简单
- conda creare -n test python=3.7 创建python版本是3.7的名字是test的环境
- conda activate test 激活环境
- conda deactivate 关闭环境
- conda env list 查看所有环境
- conda remove --name test --all 删除环境
- conda install xxx/ pip install xxx 安装需要的包
*如果工程中有写了需要哪些包的requirements.txt文件,也可以 conda/pip install requirements.txt 来安装工程需要的所有包 - conda uninstall xxx 删除某个包
- conda list 查看该环境下所有包
注意如果要安装tensorflow,pytorch,numpy,cuda,cudnn这些包时,最好按照官网指令安装,以免发生包冲突。这里也有介绍
3.3 训练前准备
nvidia-smi 查看gpu使用情况
gpu export CUDA_VISIBLE_DEVICES=0 规定使用0号gpu(有些代码也可以在train.py里规定)
3.4 训练过程
事例:
nohup python -u train.py --config-yml configs/lf_disc_faster_rcnn_x101.yml --load-pthpath checkold/checkpoint_31.pth --validate --gpu-id 0 1 --cpu-workers 8 >> outfile-name &
- 后面“–”都是args参数,可以自行修改
- nohup 表示把日志存储在当前目录下的nohup.out文件中,* 而不显示在终端中
- python -u 表示打印日志
- & 表示后台运行,这样关掉远程连接,程序可以继续运行
- tail -fn 50 nohup.out 查看最后50行日志(注意需要定位到nohup.out所在文件夹)
后台运行还可以用screen,主要是针对程序运行时还需要输入初始参数的情况(因为用nohup组合指令时,不能再输入参数)
- yum install screen -y 安装screen
- screen -S test 创建名字为test的session 在这个session里面运行需要的程序
- ctrl-a d 退出当前session
- screen -ls 查看所有的session
- screen -r test 重新进入test session
- ctrl-d 彻底关闭当前session
3.5 关闭训练程序
- ctrl-c 适用于关闭没有在后台运行的程序
- kill -9 1234 关闭job-id是1234的程序
- ps aux|grep python 查看目前所有在服务器上运行着的python指令的job-id
3.6 查看tensorboad训练图
- tensorboad --logdir “logs” logs是训练时生成的tensorboad文件所在的文件夹
4. 其他常用指令
ctrl-L 清除当前终端屏幕的所有东西