安装¶
本指南提供安装和运行 tpu-inference 的说明。
有三种安装 tpu-inference 的方法
使用 pip 安装¶
-
创建工作目录
-
设置 Python 虚拟环境
-
使用以下命令使用
pip安装 vllm-tpu
使用 Docker 运行¶
包含 --privileged、--net=host 和 --shm-size=150gb 选项以启用 TPU 交互和共享内存。
export DOCKER_URI=vllm/vllm-tpu:latest
sudo docker run -it --rm --name $USER-vllm --privileged --net=host \
-v /dev/shm:/dev/shm \
--shm-size 150gb \
-p 8000:8000 \
--entrypoint /bin/bash ${DOCKER_URI}
从源码安装¶
出于调试或开发目的,您可以从源码安装 tpu-inference。tpu-inference 是 vllm 的一个插件,因此您需要同时从源码安装两者。
-
安装系统依赖
-
克隆
vllm和tpu-inference仓库 -
设置 Python 虚拟环境
-
从源码安装
vllm,目标是 TPU 设备 -
从源码安装
tpu-inference