安装¶
本指南提供了安装和运行 tpu-inference 的说明。
有三种安装 tpu-inference 的方法
通过 uv 使用 pip 安装¶
我们建议使用 uv (uv pip install) 而不是标准的 pip,因为它能提高安装速度。
-
创建工作目录
-
安装
uv并设置 Python 虚拟环境 -
使用以下命令通过
uv或pip安装 vllm-tpu
使用 Docker 运行¶
包含 --privileged、--net=host 和 --shm-size=150gb 选项,以启用 TPU 交互和共享内存。
export DOCKER_URI=vllm/vllm-tpu:latest
sudo docker run -it --rm --name $USER-vllm --privileged --net=host \
-v /dev/shm:/dev/shm \
--shm-size 150gb \
-p 8000:8000 \
--entrypoint /bin/bash ${DOCKER_URI}
从源码安装¶
出于调试或开发目的,您可以从源码安装 tpu-inference。tpu-inference 是 vllm 的一个插件,因此您需要同时从源码安装两者。
-
安装系统依赖
-
克隆
vllm和tpu-inference仓库 -
安装
uv并设置 Python 虚拟环境 -
从源码安装
vllm,并指定目标为 TPU 设备注意:
tpu-inference仓库在vllm_lkg.version文件中锁定了vllm的版本,请确保提前检出正确的版本。 -
从源码安装
tpu-inference
验证安装¶
若要快速验证上述任一方法是否安装成功,以及 vllm-tpu 是否配置正确
python -c '
import jax
import vllm
import importlib.metadata
from vllm.platforms import current_platform
tpu_version = importlib.metadata.version("tpu_inference")
print(f"vllm version: {vllm.__version__}")
print(f"tpu_inference version: {tpu_version}")
print(f"vllm platform: {current_platform.get_device_name()}")
print(f"jax backends: {jax.devices()}")
'
# Expected output:
# vllm version: 0.x.x
# tpu_inference version: 0.x.x
# vllm platform: TPU V6E (or your specific TPU architecture)
# jax backends: [TpuDevice(id=0, process_index=0, coords=(0,0,0), core_on_chip=0), ...]