跳到内容

Cloud TPU 设置

本指南提供有关设置和配置 Google Cloud TPU 以与 tpu-inference 配合使用信息。

TPU 版本和拓扑结构

张量处理单元 (TPU) 是 Google 定制开发的专用集成电路 (ASIC),用于加速机器学习工作负载。TPU 有不同版本,每个版本都有不同的硬件规格。有关 TPU 的更多信息,请参阅 TPU 系统架构

以下 TPU 版本与 tpu-inference 兼容

实验性

这些 TPU 版本允许您配置 TPU 芯片的物理布局。这可以提高吞吐量和网络性能。有关更多信息,请参阅

配额和定价

要使用 Cloud TPU,您的 Google Cloud 项目需要获得 TPU 配额。有关更多信息,请参阅 TPU 配额

有关 TPU 定价信息,请参阅 Cloud TPU 定价

您的 TPU VM 可能需要额外的持久存储。有关更多信息,请参阅 Cloud TPU 数据存储选项

配置 Cloud TPU

您可以使用 Cloud TPU API队列资源 API(推荐)来配置 Cloud TPU。本节将介绍如何使用队列资源 API 创建 TPU。

使用队列资源 API 配置 Cloud TPU

使用以下命令配置 Cloud TPU。请将所有大写字母的参数替换为您自己的值。

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
  --node-id TPU_NAME \
  --project PROJECT_ID \
  --zone ZONE \
  --accelerator-type ACCELERATOR_TYPE \
  --runtime-version RUNTIME_VERSION \
  --service-account SERVICE_ACCOUNT
参数名称 描述
QUEUED_RESOURCE_ID 队列资源请求的用户分配 ID。
TPU_NAME TPU 的用户分配名称,该名称在队列资源请求分配时创建。
PROJECT_ID 您的 Google Cloud 项目
ZONE 您要在其中创建 Cloud TPU 的 Google Cloud 区域。您使用的值取决于您使用的 TPU 版本。有关更多信息,请参阅 TPU 区域和可用区
ACCELERATOR_TYPE 指定 TPU 版本,例如 v5litepod-4 指定具有 4 个核心的 v5e TPU,v6e-1 指定具有 1 个核心的 v6e TPU。有关更多信息,请参阅 TPU 版本
RUNTIME_VERSION 要使用的 TPU VM 运行时版本。例如,使用 v2-alpha-tpuv6e 来使用加载了一个或多个 v6e TPU 的 VM。有关更多信息,请参阅 TPU 软件版本
SERVICE_ACCOUNT 您的服务账号的电子邮件地址。您可以在 IAM Cloud Console 的“服务账号”下找到它。例如:tpu-service-account@<your_project_ID>.iam.gserviceaccount.com

通过 SSH 连接到您的 TPU VM

gcloud compute tpus tpu-vm ssh TPU_NAME --project PROJECT_ID --zone ZONE

注意

配置 TPU 的 RUNTIME_VERSION(“TPU 软件版本”)时,请参考 TPU VM 镜像兼容性矩阵,确保其与您选择的 TPU 代系匹配。使用不兼容的版本可能会导致 vLLM 无法正常运行。