NPU¶
vLLM-Omni 通过 vLLM Ascend 插件 (vllm-ascend) 支持 NPU。这是一个社区维护的硬件插件,用于在 NPU 上运行 vLLM。
要求¶
- 操作系统:Linux
- Python:3.12
注意
vLLM-Omni 目前不原生支持 Windows。
有关详细的硬件和软件要求,请参阅 vllm-ascend 安装文档。
安装¶
推荐¶
在 NPU 上使用 vLLM-Omni 的推荐方式是通过 vllm-ascend 预编译的 Docker 镜像
# Update DEVICE according to your NPUs (/dev/davinci[0-7])
export DEVICE0=/dev/davinci0
export DEVICE1=/dev/davinci1
# Update the vllm-ascend image
# Atlas A2:
# export IMAGE=quay.io/ascend/vllm-ascend:v0.12.0rc1
# Atlas A3:
# export IMAGE=quay.io/ascend/vllm-ascend:v0.12.0rc1-a3
export IMAGE=quay.io/ascend/vllm-ascend:v0.12.0rc1
docker run --rm \
--name vllm-omni-npu \
--shm-size=1g \
--device $DEVICE0 \
--device $DEVICE1 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-p 8000:8000 \
-it $IMAGE bash
# Inside the container, install vLLM-Omni from source
cd /vllm-workspace
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
pip install -v -e .
export VLLM_WORKER_MULTIPROC_METHOD=spawn
默认工作目录为 /workspace,vLLM、vLLM-Ascend 和 vLLM-Omni 代码放置在 /vllm-workspace 中,并以开发模式安装。
对于其他安装方法(pip 安装、从源码构建、自定义 Docker 构建),请参阅 vllm-ascend 安装指南。