Skip to content

常见问题 FAQ

一、调度系统问题

1. 平台的调度是什么调度系统?slurm是什么?
答:集群采用slurm调度系统,了解slurm 请详细参考 Slurm作业调度系统

2. 队列有空闲节点,但任务在排队?
答:可以命令行执行squeue查看排队情况,当NODELIST(REASON)列显示状态为resource或者priority时,代表正常排队中,有资源释放排队任务会自动运行。如果显示的是AssocGrpCpuLimit,表示脚本设置的核心数加上正在运行作业使用的核心数超过了账号的最大核数限制,如有需要可以联系业务经理或者群工程师申请核数限制调整。

img_01.png

3. 文件不小心误删了怎么办?
答:由于集群采用共享存储,文件删除无法找回,请谨慎执行rm命令。

4. 作业显示节点异常nodefile怎么办?
答:如果是脚本提交,提交作业时可以使用SBATCH -x 节点名 脚本名排除异常节点再重新提交,如果是其他方式提交,您可以直接重新提交。 温馨提示:节点异常的情况后台会进行统一赔付。

5. 如何独占节点?
答:脚本添加#SBATCH --exclusive是独占节点的意思,独占节点会按照满核收费。

img_02.png

6. 计算账号名是什么?
答:点击首页的命令行 [E-Shell],选择区域后,左下角@之前的字母就是计算账户名。

img_03.png

7. 计算节点无法联网下载?
答:目前计算节点是不支持上网功能的,可以告知值班工程师具体需求,工程师评估后会帮忙申请开通代理,配置后进行上网。

8. 如何查看可使用的队列?
答:
1)点击首页,选择要查询的区域,就可以看到可访问队列;
2)在登录节点中执行whichpartition命令进行查看。

img_04.png

二、控制台使用相关问题

1. 登录E-shell后一直卡在登录界面或者E-shell使用起来比较卡顿怎么处理?
答:(1)清除下浏览器缓存,更换浏览器重新登陆; (2)更换网络测试,排除下本地网络连接问题; (3)上述方法都测试后依然卡顿,请在专属用户群寻求值班工程师帮助。

2. 快传客户端在运行,点击上传文件一直提示未检测到快传客户端,该怎么操作?
答:退出快传客户端重新打开。

3. 使用快传上传一个 70G 的包,一到 30GB 就提示重新上传,但没有具体报错,就开始从0上传,是什么原因?
答:可能受网络波动的影响,右键点击电脑桌面任务栏快传图标,在快传高级设置里面优先使用TCP要更稳定一些。

4. 如何修改密码?
答:重置/修改密码请参考 个人中心

5. 上传/下载速度太慢?

答:如果是使用网页进行下载,请换成快传客户端进行上传下载。

6. 如何上传/下载文件?
答:打开首页-数据管理-文件管理(E-File),点击上传即可上传文件,选择需要下载的文件,点击下载既可下载文件,若有多个中心需在左上角选择使用中心以后再上传下载。

7. 如何进行scp传输?
答:在linux终端界面,可以使用scp传输文件,具体步骤如下:
1)AC进入eshell,点击右上角的小钥匙,下载秘钥例如 xh11.xxx_rsa.txt,记录域名和端口(例如xh1eshell.hpccube.com和65073)
2)把密钥上传到需要下载或上传文件的linux服务器上,给密钥文件赋权600 chmod 600 密钥文件名字,再执行scp -P 65073 -i xh1eshell.hpccube.com_1124170957_rsa.txt -r 要上传目录 用户名@xh1eshell.hpccube.com:/public/home/用户名/目录(若下载对换目录路径即可)

8. 打开图形桌面时,弹出式窗口被拦截怎么办?
答:方法一:在弹出的“已拦截弹出式窗口:”选中“始终允许 https://www.scnet.cn显示弹出式窗口和进行重定向”; img_2.png 方法二:手动设置,以谷歌浏览器为例,在“浏览器的设置”>“隐私和安全”>“网站设置”>“弹出式窗口和重定向”,在下面的“允许发送弹出式窗口并使用重定向”添加网站 https://www.scnet.cnimg_3.png

三、作业相关问题及排查

1. 作业排队

查看排队作业:squeue

shell
[slurmtest@login02 ~]$ squeue
JOBID PARTITION     NAME     USER   ST       TIME  NODES NODELIST(REASON)
8977234      test TF_Datas slurmtest  PD                 1 (AssocGrpCpuLimit)
8977235      test TF_Datas slurmtest  PD                 1 (Resource)

1. Reason为AssocGrpCpuLimit的作业
原因:AssocGrpCpuLimit的提示信息表示该作业的使用核心数超过了该用户的限额
解决方案:请取消该作业(scancel 作业ID)并尝试减少作业脚本中占用核心数后重新提交

2. Reason为Resource的可用如下步骤排查
1)sinfo | grep 使用的队列中是否有空闲节点
2)scontrol show job 8977235 查看作业中申请的节点数,核心数,内存数等信息
3)确认队列中剩余的节点数,核心数,内存数是否大于作业中申请的数量: 如果还有可用资源,但是小于作业中申请的数量,则需要继续登录该作业; 如果剩余的资源大于作业中申请的,但是作业还是不运行,则需要联系管理员查看。

2. 提交作业报错

  1. 报错一:Invalid account or account/partition combination specified

    shell
    error: Unable to allocate resources: Invalid account or account/partition combination specified

    解决方案:该报错是因为没有使用正确的可访问队列,需要在“概览”中的可访问队列查看您可用的队列名,或者直接在命令行执行whichpartition查询可用队列修改脚本中-p后面的队列名 sbatch -p <PARTITION>

  2. 报错二: Job violates accounting/QOS policy

    shell
    sbatch: error: QOSsbatch: error: QOSMinGRES
    sbatch: error: Batch job submission failed: Job violates accounting/QOS policy (job submit limit, user's size and/or time limits)

    解决方案: 该报错原因是加速卡队列不能提交纯CPU任务。需要更换CPU队列提交纯CPU任务。

  3. 报错三:Requested node configuration is not available

    shell
    sbatch: error: Batch job submission failed: Requested node configuration is not available

    报错原因:没有在DCU队列申请加速卡。 错误示范如下:

    shell
    #!/bin/bash
    #SBATCH -N 1
    #SBATCH -n 32
    #SBATCH --gres=dcu:4  ##申请四张加速卡
    #SBATCH -p wzhctest  ##CPU队列

    解决方案:更换DCU队列申请加速卡。 正确示范如下:

    shell
    #!/bin/bash
    #SBATCH -N 1
    #SBATCH -n 32
    #SBATCH --gres=dcu:4  ##申请四张加速卡
    #SBATCH -p wzhdtest  ##DCU队列
  4. 报错四:CPU count per node can not be satisfied

    shell
    sbatch: error: CPU count per node can not be satisfied
    sbatch: error: Batch job submission failed: Requested node configuration is not available

    报错原因:任务脚本中节点配置不正确,单节点使用的核数(ntasks-per-node*cpus-per-task)超过了单节点最大核数(可通过AC首页>可访问队列>详情查看)

    img.png

    错误示范如下:

    shell
    #!/bin/bash
    #SBATCH -N 1
    #SBATCH --ntasks-per-node=64  ##单节点进程数
    #SBATCH --cpus-per-task=2  ##单进程使用的核数
    #SBATCH -p wzhctest

    正确示范如下:

    shell
    #!/bin/bash
    #SBATCH -N 1
    #SBATCH --ntasks-per-node=32  ##单节点进程数
    #SBATCH --cpus-per-task=2  ##单进程使用的核数
    #SBATCH -p wzhctest
  5. 报错五:AssocGrpCpuLimit

    shell
    sbatch: error: AssocGrpCpuLimit
    sbatch: error: Batch job submission failed: Job violates accounting/QOS policy (job submit limit, user's size and/or time limits)

    报错原因:申请的总核数(包括当前在运行的任务)达到了账号最大可用核数限制

    img_1.png

    解决方案:减少申请核数并重新提交任务。例如:当前帐号可用资源为64核8卡,单节点配置为32核4卡,则任务最多可以申请2个节点,申请3个节点时会因可用核数受限而无法成功提交任务。

    错误示范如下:

    shell
    #!/bin/bash
    #SBATCH -N 3  ##节点数为3,任务申请总核数=N*ntasks-per-node=96核
    #SBATCH --ntasks-per-node=32  ##单节点核数
    #SBATCH --gres=dcu:4  ##单节点使用的加速卡数
    #SBATCH -p wzhdtest

    正确示范如下:

    shell
    #!/bin/bash
    #SBATCH -N 2  ##节点数为2,任务申请总核数=N*ntasks-per-node=64核
    #SBATCH --ntasks-per-node=32  ##单节点核数
    #SBATCH --gres=dcu:4  ##单节点使用的加速卡数
    #SBATCH -p wzhdtest