GPU集群平台使用

企业开发 2023-04-08 01:39:05 阅读次数: 0

一、登录的IP地址、端口

用户名和密码由管理员在每个课题组分配一个。（等老师通知，用户手册后面群发）

二、Conda环境配置和激活

通用包管理，该集群平台有Conda，但是最好在自己的Home目录装Conda（训练好的代码方便打包带走），注意用的时候激活环境。

三、Slurm调度系统

概念：集群、节点、队列（分区）。

机制：作业先交给调度器再分配给服务器计算。

注意：

一块卡一般一个GPU；一般情况下一个人占用一块卡，如果有特殊情况向管理员申请；
所有的GPU只能供几个人同时使用，而且是一种排队&等待&调度的机制，所以如果是训练或者测试小数据时候可以优先用CPU计算（该集群中CPU的核比GPU多）；
这里占用GPU的时间也并非“完全”，因为运行代码并非全部需要GPU，一般情况不会“揪住”一张卡不放；
可以共享服务器Home文件夹，大小目前没有限制

四、Sbatch—提交作业到集群平台

一些Sbatch命令（如提交作业：Sbatch tf-job.sh）

所以大概步骤：激活环境—写脚本—提交运行

五、Srun交互式作业

通常用Sbatch，Srun可用于调试；

六、Squeue查看作业结果

显示自己的运行状态，只能显示自己的正在算的，包括排队的。

七、Scontrol暂停和恢复作业

八、Sacct查看历史作业记录

九、Scancel取消作业

十、一些图

猜你喜欢

转载自blog.csdn.net/weixin_46720482/article/details/125048098

GPU集群平台使用

k8s集群使用gpu

昌平GPU集群使用指南 - 非官方版

[ 深度学习平台 ] —— Google Colab : 开源GPU的配置与使用

免费GPU：九天•毕昇平台使用教程

公共集群申请GPU

使用GPU

GPU的使用

Kubernetes的共享GPU集群调度

聊聊GPU集群网络优化

如何在k8s集群中安装nvidia、cuda并使用GPU进行训练

初识GPU（四）——开发平台

GPU算力平台对比

AutoDL平台租借GPU详解

初试 Kubernetes 集群中使用 Helm 搭建 Spinnaker 平台

Kubernetes 集群中使用 Helm 搭建 Spinnaker 平台

使用GFS集群部署KVM虚拟化平台(实例!!!)

使用GFS集群部署KVM虚拟化平台

【原创】新手入门 · FloydHub GPU云平台配置和使用

机器学习硬件设施差？免费使用谷歌的GPU云计算平台

一文教你使用租赁的GPU平台跑yolov5

【异构计算平台系列 - GPU + OpenCL - 01】GPU简介

TensorFlow GPU集群训练配置 ConfigProto

【prometheus】kubernetes GPU 集群性能监控

【nvidia-smi：command not found】如何在集群服务器上使用nvidia-smi查看GPU信息

大数据平台集群

hadoop集群平台的搭建

keras实现多GPU或指定GPU的使用

使用tensorflow-gpu时设置GPU

tensorflow设置gpu及gpu显存使用

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)