Skip to content

LeNet软件使用说明

本文主要介绍如何在超算互联网商城购买和使用LeNet软件。

1 购买商品

1.1 第一次购买软件

(1) 点击“开通区域>立即购买”在选择的区域部署软件。

1.png

(2)点击“立即购买”之后进入支付页面,点击“去支付”阅读《服务协议》后“同意并支付”。

2.png

(3)点击“查看我的订单”查看软件部署进度。

3.png

(4)等待安装完成后,点击“模板”使用软件。

4.png

1.2 使用已经购买过的软件

(1) 已经购买过的软件会在规格的右上角有一个绿色的“已购”标识,点击“去使用”可以直接使用本软件。

5.png

(2) 已经购买的软件可以选择其他“已经购买资源的区域”开通软件,或点击“命令行”在已经开通软件的区域直接使用。

6.png

2 使用软件

2.1 登录简介

点击“命令行”图标后进入eshell界面,从商城的“命令行”进入终端,终端会显示商品自带的软件应用版本、环境变量和启动路径信息。由启动路径可以得到软件部署的位置。(注:实际使用中请根据下方红框内提供的算例示例进入对应路径。)

7.png

2.2 目录结构

本产品软件安装目录 ~/apprepo/LeNet/1.0-dtk23.04,包含app、case、install.log、scripts四个子目录,其中app包含应用软件主体和依赖库;case 包含相关运行算例、作业日志、作业提交脚本等信息;install.log 为LeNet安装日志,scripts 为软件环境变量。目录结构如下:
.
├── app # 应用软件主体和依赖库
│ ├── . . .
├── case # 可运行算例、脚本
│ ├── dtk2304_single.slurm # slurm脚本文件
│ └── . . .
├── install.log # LeNet安装日志
└── scripts
├── env.sh # 应用环境变量
└── . . .

2.3 作业提交

资源调用逻辑如下:用户在登录节点执行脚本,脚本将自动申请计算资源,并在该计算资源上运行计算指令,并将计算结果实时同步到当前目录下。

8.png

我们已经为您提供完整的使用脚本:

(1)执行cd ~/apprepo/LeNet/1.0-dtk23.04/case进入软件部署目录,在目录下的case 文件夹中有软件对应的提交脚本。

9.png

(2) 输入whichpartition可以查询可用队列,复制选中合适的队列名称,这里选择了“kshdnormal”,并打开脚本dtk2304_single.slurm进行脚本文件的修改。

10.png

(3) 替换脚本dtk2304_single.slurm中的队列名称为已有的队列名称,并根据自己的需求更改脚本的配置信息。

11.png

(4) 如果您需要进行其他修改可参考如下命令:

参数含义
-J lenet-single-dtk2304指定作业名为lenet-single-dtk2304
-p kshdnormal指定使用队列为kshdnormal
-N 1申请一个计算节点
--ntasks-per-node=8每个节点使用8核
--gres=dcu:1每个节点使用1张卡
python3 train.py计算命令

注意:
1) -J、-p、-N、--ntasks-per-node=32为slurm调度参数,更多调度命令可使用sbatch --help命令查看;
2) slurm脚本中的命令依次执行,提交作业时需把脚本和输入文件放在相同文件夹,并在该文件夹下提交作业;
3) 该示例以仅供参考,其他中心资源请根据实际对应修改队列、核数和软件环境等;
4) 上述描述为命令行提交作业方式,除此之外还有模板提交和图形提交两种方式(需软件自身支持),具体见“其他作业提交方式”。
5) 以上为开源部署软件使用方法,常用商业软件(如 VASP、Material Studio、Gaussian)均可正常在计算服务平台上使用,若使用这类商业软件,需提前购买版权以获取使用许可,上传安装包后可在微信群内联系工程师协助完成软件的安装和测试。

2.4 作业提交与结果查看

(1) 确认环境变量、修改好脚本后保存退出,使用sbatch dtk2304_single.slurm提交作业,并通过squeue查看作业的运行状态。

12.png

13.png

(2) 任务完成后作业会自动结束,并在当前目录生成日志文件slurm-作业号.out或使用tail -f slurm-作业号.out实时查看。

14.png

(3) 另外可参考如下常用指令进行作业管理:

命令含义简单示例
sbatch批量提交作业命令,后面跟脚本文件sbatch xxx.sh
squeue查看目前提交作业的信息squeue(可显示作业号、作业状态等)
salloc占用空闲计算资源命令salloc -p kshctest -N 1 -n 32
scontrol查看正在计算作业信息scontrol show job jobid
scancel取消作业scancel jobid
sacct查看历史作业sacct -j jobid -X -o elapsed,state,nodelist

注意:请不要在登录节点(login)上直接运行作业计算(编译等日常操作除外),以免影响您的作业正常运行。