Skip to content

Pytorch-加速版软件使用说明

本文主要介绍如何在超算互联网商城购买和使用Pytorch-加速版软件。

1购买商品

1.1 第一次购买软件

(1)点击“开通区域>立即购买”在选择的区域部署软件。

1.jpg

(2)点击”立即购买”之后进入支付页面,点击“去支付”阅读《服务协议》后“同意并支付”。

2.jpg

(3)点击“查看我的订单”查看软件部署进度。

3.jpg

(4)等待安装完成后,点击“模板“使用软件。

4.jpg

1.2 使用已经购买过的软件

(1)已经购买过的软件会在规格的右上角有一个绿色的“已购”标识,点击“去使用”可以直接使用本软件。

5.jpg

(2)已经购买的软件可以选择其他“已经购买资源的区域”开通软件,或点击“模板”在已经开通软件的区域直接使用。

6.jpg

2 使用软件

2.1 启动容器

点击“模板”图标后进入容器创建界面,可以看到新的界面左侧为中心、可用资源信息,如队列名、空闲节点数等,右侧可以修改任务名称,资源规格、运行时间等参数。

7.jpg

配置完上述参数后,点击“创建容器”会展开容器实例详情页面,(若队列资源紧张,点击创建容器按钮后需要等待一段时间),可以查看容器实例的基础信息,如状态、创建时间、自动停止时间等,除此之外,还能看到DCU利用率、显存占用率、CPU利用率及内存利用率。

8.jpg

2.2 进入容器实例

点击容器实例详情页面>资源详情>SSH,会自动弹出新的Eshell网页页面:

9.jpg

10.jpg

此时已进入容器内,先查看python是否来自容器内,若来自容器内,打开python解释器,测试Pytorch是否已经安装,并测试Pytorch是否能够正常调用加速卡。

11.jpg

可以使用hy-smi命令,查看容器内的DTK版本(国产加速卡的软件栈,可以理解为N卡的CUDA),以及DCU的运行情况。显示内容中,倒数第二列“VRAM%”代表显存的占用率,倒数第一列“DCU%”代表DCU的利用率。

12.jpg

2.3 软件运行

Pytorch-加速版软件提供了封装好的开机即用的容器环境,目前只支持单机测试或运行。容器实例运行在DCU异构计算节点上,卡数和申请的资源规格保持一致。可以在容器SSH环境下运行包含Pytorch-gpu代码的python脚本,也可以用python解释器进行逐行调试。

2.4 容器运行管理

进入控制台>容器实例,可以找到启动运行中以及历史启动的容器实例,此页面提供了进入容器、固化、停止、删除操作。

13.jpg还可以进入科学计算>作业管理,管理和查看容器实例作业详细信息,延长运行时限、取消作业运行。

14.jpg

点击作业ID可以查看详细信息。点击“取消运行”可以取消作业。

15.jpg

2.5 容器固化

在容器中安装好依赖库后,可以将容器固化,填写“名称”和“标签”之后,生成新的容器,方便下次快速调用。

16.jpg

点击“固化”,如果固化成功,会显示固化完成。

17.jpg

可以点击“镜像管理”,查看已经固化的镜像。

18.jpg

2.6 容器推送

可以在“镜像管理”中点击“推送”按钮,将镜像推送至需要的位置,例如:Jupyter

19.jpg

默认为Base(在“容器”界面的创建容器中可以找到),可以使用Ctrl+F快速搜索关键词来找到对应框架版本。

20.jpg