安装¶

本指南提供安装和运行 tpu-inference 的说明。

有三种安装 tpu-inference 的方法

使用 pip 安装
使用 Docker 运行
从源码安装

使用 pip 安装¶

创建工作目录
```
mkdir ~/work-dir
cd ~/work-dir
```

设置 Python 虚拟环境

python3.12 -m venv vllm_env --symlinks
source vllm_env/bin/activate

使用以下命令使用 pip 安装 vllm-tpu
```
pip install vllm-tpu
```

使用 Docker 运行¶

包含 --privileged、--net=host 和 --shm-size=150gb 选项以启用 TPU 交互和共享内存。

export DOCKER_URI=vllm/vllm-tpu:latest
sudo docker run -it --rm --name $USER-vllm --privileged --net=host \
    -v /dev/shm:/dev/shm \
    --shm-size 150gb \
    -p 8000:8000 \
    --entrypoint /bin/bash ${DOCKER_URI}

从源码安装¶

出于调试或开发目的，您可以从源码安装 tpu-inference。tpu-inference 是 vllm 的一个插件，因此您需要同时从源码安装两者。

安装系统依赖

sudo apt-get update && sudo apt-get install -y libopenblas-base libopenmpi-dev libomp-dev

克隆 vllm 和 tpu-inference 仓库

git clone https://github.com/vllm-project/vllm.git
git clone https://github.com/vllm-project/tpu-inference.git

设置 Python 虚拟环境

python3.12 -m venv vllm_env --symlinks
source vllm_env/bin/activate

从源码安装 vllm，目标是 TPU 设备

cd vllm
pip install -r requirements/tpu.txt
VLLM_TARGET_DEVICE="tpu" pip install -e .
cd ..

从源码安装 tpu-inference

cd tpu-inference
pip install -e .
cd ..