人工智能服务
>
附录
>
基础环境搭建-以常用框架vLLM为例
DAS软件栈提供国产加速卡适配版的vLLM大语言模型高速推理框架。开发者可以基于加速卡快速开发简洁且通用的应用程序,DAS软件栈对vllm推理框架的常用算子的支持及融合算子的优化技术,能够减少计算和内存开销,为开发者提供更高效的执行效率。
vllm0.3.3版本暂不支持的官方功能:
1.量化推理:目前支持fp16的推理和gptq推理,awq-int4和mralin的权重量化、kv-cache fp8推理方案暂不支持
2.模块支持:目前不支持Sliding window attention、 moe kernel和lora模块
最新vllm版本会第一时间发布,可以从光合开发者社区-DAS获取
使用pip命令安装: 从光合开发者社区-DAS中下载此工具的安装包,在das 最新版本命名的文件夹中包含了最新发布的vllm适配版本。软件名称中标识了该软件适配的dtk版本和支持的python版本,请注意选择与你环境匹配的软件包下载。
软件下载到个人目录后,执行pip命令安装软件:
pip3 install vllm-xxx.whl
安装完成之后,可通过以下指令验证是否安装成功,指令执行后会显示当前vllm的版本号。
python -c "import vllm; print(vllm.__version__)"