跳到内容

安装

本指南提供安装和运行 tpu-inference 的说明。

有三种安装 tpu-inference 的方法

  1. 使用 pip 安装
  2. 使用 Docker 运行
  3. 从源码安装

使用 pip 安装

  1. 创建工作目录

    mkdir ~/work-dir
    cd ~/work-dir
    
  2. 设置 Python 虚拟环境

    python3.12 -m venv vllm_env --symlinks
    source vllm_env/bin/activate
    
  3. 使用以下命令使用 pip 安装 vllm-tpu

    pip install vllm-tpu
    

使用 Docker 运行

包含 --privileged--net=host--shm-size=150gb 选项以启用 TPU 交互和共享内存。

export DOCKER_URI=vllm/vllm-tpu:latest
sudo docker run -it --rm --name $USER-vllm --privileged --net=host \
    -v /dev/shm:/dev/shm \
    --shm-size 150gb \
    -p 8000:8000 \
    --entrypoint /bin/bash ${DOCKER_URI}

从源码安装

出于调试或开发目的,您可以从源码安装 tpu-inferencetpu-inferencevllm 的一个插件,因此您需要同时从源码安装两者。

  1. 安装系统依赖

    sudo apt-get update && sudo apt-get install -y libopenblas-base libopenmpi-dev libomp-dev
    
  2. 克隆 vllmtpu-inference 仓库

    git clone https://github.com/vllm-project/vllm.git
    git clone https://github.com/vllm-project/tpu-inference.git
    
  3. 设置 Python 虚拟环境

    python3.12 -m venv vllm_env --symlinks
    source vllm_env/bin/activate
    
  4. 从源码安装 vllm,目标是 TPU 设备

    cd vllm
    pip install -r requirements/tpu.txt
    VLLM_TARGET_DEVICE="tpu" pip install -e .
    cd ..
    
  5. 从源码安装 tpu-inference

    cd tpu-inference
    pip install -e .
    cd ..