跳到内容

主页

vLLM TPU vLLM TPU

| 文档 | 博客 | 用户论坛 | 开发者 Slack |


关于

vLLM TPU 现在由 tpu-inference 提供支持,这是一个富有表现力和强大的新硬件插件,在 vLLM 项目中统一了 JAX 和 PyTorch 的单一降低路径。新后端现在为开发者提供了一个框架,可以

  • 推动开源 TPU 硬件性能的极限。
  • 通过在 TPU 上高性能运行 PyTorch 模型定义,而无需任何额外的代码更改,为 JAX 和 PyTorch 用户提供更大的灵活性,同时还为 JAX 提供了原生支持。
  • 保持 vLLM 标准化:保持相同的用户体验、遥测和界面。

尽管 vLLM TPU 的新统一后端使开箱即用的高性能服务成为可能,支持 vLLM 中的任何模型,但现实是我们仍在实现一些核心组件的过程中。

因此,我们提供了一个推荐模型和功能页面,其中详细介绍了通过单元、集成和性能测试的验证模型和功能。

入门

如果您是 vLLM on TPU 的新手,我们建议从快速入门指南开始。它将引导您完成设置环境和运行第一个模型的过程。有关更详细的安装说明,您可以参考安装指南。

兼容的 TPU 代

  • 推荐:v5e, v6e
  • 实验性:v3, v4, v5p

tpu-recipes 仓库 中查看一些 v6e 配置!

开发者指南

如果您有兴趣为项目做贡献或想了解更多内部信息,请查看我们的开发者指南

贡献

我们一直在寻找与社区合作以加速 vLLM TPU 开发的方法。如果您有兴趣为这项工作做出贡献,请查看贡献指南问题以开始。如果您是第一次贡献,我们建议在“很好的第一个问题”标签上过滤问题。

联系我们