Skip to content

基础环境搭建-以常用框架vLLM为例

DAS软件栈提供国产加速卡适配版的vLLM大语言模型高速推理框架。开发者可以基于加速卡快速开发简洁且通用的应用程序,DAS软件栈对vllm推理框架的常用算子的支持及融合算子的优化技术,能够减少计算和内存开销,为开发者提供更高效的执行效率。

vllm0.3.3版本暂不支持的官方功能:

1.量化推理:目前支持fp16的推理和gptq推理,awq-int4和mralin的权重量化、kv-cache fp8推理方案暂不支持

2.模块支持:目前不支持Sliding window attention、 moe kernel和lora模块

最新vllm版本会第一时间发布,可以从光合开发者社区-DAS获取

使用pip命令安装: 从光合开发者社区-DAS中下载此工具的安装包,在das 最新版本命名的文件夹中包含了最新发布的vllm适配版本。软件名称中标识了该软件适配的dtk版本和支持的python版本,请注意选择与你环境匹配的软件包下载。

软件下载到个人目录后,执行pip命令安装软件:

shell
pip3 install vllm-xxx.whl

安装完成之后,可通过以下指令验证是否安装成功,指令执行后会显示当前vllm的版本号。

shell
python -c "import vllm; print(vllm.__version__)"