NPU¶

vLLM-Omni 通过 vLLM Ascend 插件 (vllm-ascend) 支持 NPU。这是一个社区维护的硬件插件，用于在 NPU 上运行 vLLM。

要求¶

操作系统：Linux
Python：3.12

注意

vLLM-Omni 目前不原生支持 Windows。

NPU

有关详细的硬件和软件要求，请参阅 vllm-ascend 安装文档。

安装¶

推荐¶

NPU

在 NPU 上使用 vLLM-Omni 的推荐方式是通过 vllm-ascend 预编译的 Docker 镜像

# Update DEVICE according to your NPUs (/dev/davinci[0-7])
export DEVICE0=/dev/davinci0
export DEVICE1=/dev/davinci1
# Update the vllm-ascend image
# Atlas A2:
# export IMAGE=quay.io/ascend/vllm-ascend:v0.12.0rc1
# Atlas A3:
# export IMAGE=quay.io/ascend/vllm-ascend:v0.12.0rc1-a3
export IMAGE=quay.io/ascend/vllm-ascend:v0.12.0rc1
docker run --rm \
    --name vllm-omni-npu \
    --shm-size=1g \
    --device $DEVICE0 \
    --device $DEVICE1 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --device /dev/hisi_hdc \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /root/.cache:/root/.cache \
    -p 8000:8000 \
    -it $IMAGE bash

# Inside the container, install vLLM-Omni from source
cd /vllm-workspace
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
pip install -v -e .
export VLLM_WORKER_MULTIPROC_METHOD=spawn

默认工作目录为 /workspace，vLLM、vLLM-Ascend 和 vLLM-Omni 代码放置在 /vllm-workspace 中，并以开发模式安装。

对于其他安装方法（pip 安装、从源码构建、自定义 Docker 构建），请参阅 vllm-ascend 安装指南。