Skip to content

AlphaFold3实操:上超算互联网轻松开启蛋白质结构预测之旅

上周,谷歌DeepMind宣布AlphaFold3 正式开源,进一步拓展了生物分子研究的应用边界。然而,复杂的环境搭建和配置步骤成为科研人员快速上手使用的难题。

现在,超算互联网上线了AlphaFold 3一键部署服务,使科研人员能够绕过繁琐的设置和调试,轻松体验AlphaFold3的强大功能。

本次实操,我们将通过AlphaFold3官方算例,输入流感嗜血杆菌 tyrA 基因的氨基酸序列(2Copies),利用AlphaFold3预测其三维结构,并对分析结果进行可视化。

一、基于SCNet运行AlphaFold3

1.安装配置AlphaFold3软件:

在实际应用中,运行AlphaFold3至少需要配备8核CPU、64GB内存、1TB SSD存储,以及支持算力为8.0的 NVIDIA GPU(具备80GB显存)。此外,还需下载并解压相关数据库文件,安装容器引擎,构建镜像并进行算例配置等操作。

为简化这一过程,超算互联网提供的AlphaFold3快速试用服务,支持开箱即用。您可通过以下链接或者在超算互联网首页搜索“AlphaFold3”立即使用。

https://www.scnet.cn/ui/mall/detail/goods?type=software&common1=APP_SOFTWARE&id=1858803422940901378&resource=APP_SOFTWARE&keyword=alphafold3

此外,在启动AlphaFold3前,您需要提前购买NVIDIA A800 显存80GB计算资源。

1.png

我们进入E-Shell界面,复制算例示例路径并进入对应目录,详细的目录结构说明可参阅 README 文件。 参考命令:cd /work/home/jsyadmin/apprepo/AlphaFold/v3.0.0-Apptainer/case。

2.png

3.png

2.上传参数文件

根据 AlphaFold3 的许可要求,不同组织间禁止共享模型参数文件。 您需自行提交申请并获取 Google 的官方审核邮件,收到审核通过邮件后,下载 af3.bin.zst 模型参数文件,将其上传至模型参数文件夹。

4.png

3.投递Slurm任务

根据AlphaFold3 GitHub自述文件,用户可选择直接运行完整流程,或分步执行。

本次实操,我们对比分析了两种不同的执行方式:一是在GPU节点运行完整的分析流程,二是分两步运行:先在CPU节点运行同源序列搜索,再去GPU节点进行模型推理。

运行完整分析流程时,只需执行任务投递命令 sbatch alphafold3.non-stepwise.slurm.sh。进入计算节点后,输入top和nvidia-smi命令可以发现,流程前期仅使用4个进程进行同源序列搜索,两张A800 的显存利用率始终为0%。数据库约包含400 GB的Fasta文件,同源序列搜索在整个分析流程中耗时占比较高。直接运行完整流程不仅效率低下,还会导致资源浪费,因此不建议采用此方式运行任务。

5.png

6.png

在分步运行任务时,首先执行命令sbatch alphafold3.stage1.slurm.sh,将任务投递到CPU节点进行同源序列搜索。待任务运行完成后,再执行命令 sbatch alphafold3.stage2.slurm.sh,在GPU节点上进行模型推理。以下是两步的日志输出,显示任务已顺利完成。

7.png

二、任务运行时间统计

当氨基酸序列结构推理任务结束后,依次点击“控制台”->“作业”->“历史作业”,输入作业ID,查询任务运行时间。第一步同源序列搜索运行时长为37分钟49秒,第二步模型推理运行时长为2分钟39秒,两步分析总时长仅需40分钟28秒。

8.png

三、结果可视化

最终的分析结果见下图,值得注意的是,AlphaFold3并未集成类似在线Server的结果可视化模块。为此,我们推荐使用可视化分析工具:paeViewer。只需输入结果文件中的2pv7_model.cif和2pv7_confidences.json文件,即可生成比AlphaFold3 Server更为丰富的图表,并支持将结果导出为矢量图片。

9.png

10.png

11.png

四、结果准确性分析

为了验证分析结果的准确性和可靠性,我们在 AlphaFold3 Server上提交了相同的任务,并通过对比,确认两者的分析结果一致。

12.png

以上,我们就完成了在超算互联网使用AlphaFold3预测流感嗜血杆菌 tyrA 基因的氨基酸序列(2Copies)的三维结构,并对分析结果进行可视化。此外,通过实践计算对比,我们给出了如何更高效、经济地利用超算资源来完成AlphaFold3的运行流程建议。

希望本篇最佳实践为您提供一些指导和建议。