人工智能服务
>
模型部署
模型部署模块,提供将模型部署为在线推理服务的能力,支持一键部署或自定义创建两种部署方式。供三方用户通过API接口调用或者Web应用的方式对接模型业务应用。在线服务在部署时提供进入容器调试的功能及快速验证服务情况的在线测试功能,部署后根据业务情况进行扩缩容的能力。帮助用户快速在SCNet平台上部署复杂模型,调试及验证的流程。同时在线服务还支持服务版本管理,回滚至历史部署版本,以支撑在线推理场景中的多元应用诉求。
登录SCNet控制台,在左侧导航栏中选择“模型部署”,进入“在线服务”列表,可以看到两种部署方式的创建按钮:一键部署及自定义创建。
无需配置推理参数,使用已经配置好推理参数的社区模型、我的模型,仅需选择加速卡资源,即可启动推理服务。
(1)首先选择一个部署区域,开始创建模型部署服务。
(2)填写服务信息:服务名称、服务来源,参数详情见下表说明:
参数名称 | 说明 |
---|---|
服务名称 | 服务的名称,提交创建服务后不可修改。 |
服务来源 | (1)社区模型:只显示SCNet社区里支持部署的模型。其他模型不显示。 (2)我的模型:只显示控制台模型管理中配置了推理参数的模型,未按要求配置推理参数的模型不显示。 |
(3)选择资源配置:加速卡型号、加速卡数量、实例数等关键信息,参数详情见下表说明:
参数名称 | 说明 |
---|---|
加速卡型号 | 其中加速卡型号为“异构加速卡”指的是国产加速卡 |
加速卡数量 | 当前节点可用的最大加速卡数量 |
实例数 | 启动几个相同的实例 |
(4)确认服务配置信息无误后,点击创建进行服务部署。服务状态会进入部署中。该过程中将为您调度计算资源,创建容器服务,需要等待一段时间,待服务成功完成部署时,服务状态将变为运行中。
相较于一键部署,灵活性更高,可自定义配置服务来源及其他推理参数,满足各种业务场景的个性化需求。
(1)首先选择一个部署区域,开始创建模型部署服务。
(2)填写服务信息:服务名称、服务来源,参数详情见下表说明:
参数名称 | 说明 |
---|---|
服务名称 | 服务的名称,提交创建服务后不可修改。 |
服务来源 | (1)从镜像中选择 该方式以镜像为主要条件,选择控制台镜像管理中的镜像创建服务,如需挂载模型文件、配置文件,可以展开更多配置进行选择。 (2)从模型中选择 该方式以模型为主要条件,选择需要的部署的模型后,再选择匹配的镜像,填写相应的推理参数,进行部署。 (3)从文件存储(E-File)中选择 该方式以文件方式作为主要条件,选择需要使用的模型文件、配置文件,再选择匹配的镜像,填写相应的推理参数,进行部署。 |
服务方式 | 服务方式有两种,分别为提供API调用地址或者提供Web应用。 (1)API调用地址 最终提供的服务为一个API接口地址给第三方用户使用。 (2)Web应用 最终提供的服务为一个Web应用的页面给第三方用户使用。 服务方式需要配置两个参数: (1)服务端口:该端口指在容器内部服务暴露的端口号,范围从1~65536。 (2)路由地址:指该服务所在的具体路径。 服务最终提供的地址的根据URL分配请求到对应的处理程序 |
(3)选填更多配置:根据实际业务情况,选择性进行填写,参数详情见下表说明:
参数名称 | 说明 |
---|---|
文件挂载 | 在容器内挂载文件,挂载路径推荐使用/root/file,支持修改,但以下路径为系统已占用路径,不可重复。 用户个人存储路径: /root/private_data 团队共亨存储路径: /root/group_data 共亨中心存储路径: /root/public_data |
环境变量 | 指定运行环境的一些参数 |
(4)选择资源配置:加速卡型号、加速卡数量、实例数等关键信息,参数详情见下表说明:
参数名称 | 说明 |
---|---|
加速卡型号 | 其中加速卡型号为“异构加速卡”指的是国产加速卡 |
加速卡数量 | 当前节点可用的最大加速卡数量 |
实例数 | 启动几个相同的实例 |
(5)确认服务配置信息无误后,点击创建进行服务部署。服务状态会进入部署中。该过程中将为您调度计算资源,创建容器服务,需要等待一段时间,待服务成功完成部署时,服务状态将变为运行中。
模型部署成服务后,目前主要提供两种方式:API接口调用以及Web应用。根据实际情况,两种方式可以同时配置。部署完成后,在列表上,查看服务方式:
点击查看后,弹出服务方式弹框,查看服务详情。
服务方式为API调用地址时,服务方式弹框显示:
地址后有两个操作:复制、在线测试。点击在线测试,跳转至“在线测试”功能页,即可进行服务自测。
服务方式为Web应用时,服务方式弹框显示
地址后有三个操作:复制、在浏览器打开、发布至社区。点击“在浏览器打开”则会打开一个新的页面,呈现该推理服务,“发布至社区”可以将该模型发布至社区应用空间。
模型部署完成后,可以提供以下功能:
服务部署完毕后,可在服务详情页“在线测试”功能里,对服务发起请求,查看服务是否调通。使用方式与Postman类似,支持常见的请求方式如GET、POST、PUT、PATCH、DELETE。
服务部署成功后,在列表中,当前版本点击具体版本号后,可以查看该服务的历史版本信息。
进入服务详情后,也可以查看:
打开版本信息后可以看到该服务历史版本信息:
操作中可以查看部署信息、查看运行记录,当版本大于等于2之后,还可以选择回到指定历史版本。
对已部署的服务进行更新,进入列表页,在操作中的更多功能里,选择“更新服务”。除了服务名称不可以修改,其他的信息都可以修改,填写更新说明,点击“更新”后会自动生成一个新版本。生成的版本记录可以在版本信息中进行查看。
根据业务实际情况,可以对服务进行实例数量的扩缩。
入口:列表页内,在操作中的更多功能里,选择“手动扩缩”。弹出手动扩缩弹框:
服务详情页内,在右下方点击“手动扩缩”按钮:
调整实例数,实例数显示的是当前服务使用的实例个数,在此基础上对实例数进行加减。目前系统最大支持调整为20个实例。
显示当前服务容器实例内部产生的日志,即时显示10MB以内的数据,因此请及时查看。注意:日志在已停止状态时暂无数据显示。
入口:列表页内,在操作中的更多功能里,选择“查看日志”。跳转至服务日志详情。
或者在服务详情中直接切换至“服务日志”即可。
提供3类指标反馈服务的情况,分别为:资源使用监控、服务响应记录、服务调用情况显示。其中资源使用监控提供4个指标:CPU平均使用率、内存使用率、GPU平均使用率、GPU显存平均使用率。
服务响应记录提供2个指标:QPM、RT。
服务调用情况提供2个指标:调用失败数/调用总次数。
入口:列表页内,在操作中的更多功能里,选择“查看监控”。跳转至服务监控详情。
或者在服务详情中直接切换至“服务监控”即可。
记录部署过程中调度系统产生的日志。
入口:列表页内,在操作中的更多功能里,选择“部署事件”。跳转至部署事件详情。
或者在服务详情中直接切换至“部署事件”即可。
记录整个服务运行的历史记录
在服务详情中直接切换至“运行记录”即可查看。
1.计费从何时开始?
只有服务状态为运行中时,才进入计费周期,其他状态都不收费;
2.更新服务服务会不会中断?
运行中的服务更新时,服务会中断,等服务重新启动成功后,服务才会恢复。