Skip to content

模型训练

一、创建训练

点击“创建训练”进入任务添加页面,各参数解释如下:
任务名:表示该任务的名称且不允许重复;
Python 代码:表示训练所需要的 python 程序的路径地址,支持手动输入、集群文件选取(详见文件搜索章节)、和本地文件上传(详见文件上传章节)等三种输入方式,可以点击“预览”按 钮预览选中的 python 程序(详见文件预览章节);
Python 参数:表示 python 代码所需要的参数;(选填)
工作空间:表示 python 程序执行时所在的工作目录,可以通过右边的文件夹浏览按钮选择工作空间的地址;
框架版本:表示用来进行训练的镜像版本;
TB 日志路径:表示用于 TensorBoard 的日志文件输出目录,可以通过右边的文件夹浏览按钮选择生成日志所在的文件夹;(选填)
环境变量:表示训练过程中所需要的环境变量,可以通过右边的文件浏览按钮、文件上传按钮进行环境变量文件的集群选取和本地上传;(选填)
任务类型:表示训练任务的提交方式,提交分布式任务选中“分布式”;
实现方式:表示分布式的种类,分为 PS-Worker 分布式和 Horovod 分布式两种方式;
资源分组:表示训练任务使用的资源分组(默认以 GPU 型号作为分组);
Parameter Server:表示参数服务器节点的数量;
Worker:表示工作节点的数量。
CPU 数量:表示一个 PS 或 Worker 占用的 CPU 数量;
GPU 数量:表示一个 PS 或 Worker 占用的 GPU 数量;
内存:表示一个 Worker 占用的内存大小;
超时限制:表示该 TensorFlow 训练任务所需要的最长运行时间。输入相关参数,点击“运行”按钮进入训练任务的详情页面。

1.png

二、管理训练任务

训练任务列表页面显示已经创建过的模型训练任务,分为“任务名称”、“框架版本”、“提交时间”、“持续时间”、“状态”和“操作”六列,其中部分参数含义如下:
提交时间:表示训练任务的创建时间;
持续时间:表示训练任务的运行时长;
状态:表示当前任务的状态,有以下 6 种:“等待”表示训练任务已创建成功,正在等待计算资源,“部署”表示正在部署执行训练的环境,“运行”表示训练任务正在运行,“停止”表示训 练任务终止,“完成”表示训练任务已经完成,“失败”表示训练任务执行失败;
操作:表示的是可进行的操作,可以进行“推理”、“克隆”、“日志”、“原因”、“停止” 和“删除。

2.png