跳到内容

主页

vLLM TPU vLLM TPU

| 文档 | 博客 | 用户论坛 | 开发者 Slack |


关于

vLLM TPU 现在由 tpu-inference 提供支持,这是一个极具表现力和功能强大的新型硬件插件,在 vLLM 项目中通过统一的降低(lowering)路径整合了 JAX 和 PyTorch。该新后端现在为开发者提供了一个框架,旨在:

  • 在开源领域突破 TPU 硬件性能的极限。
  • 为 JAX 和 PyTorch 用户提供更高的灵活性,无需修改代码即可在 TPU 上高性能运行 PyTorch 模型定义,同时也扩展了对 JAX 的原生支持。
  • 保持 vLLM 的标准化:维持相同的用户体验、遥测技术和接口。

尽管 vLLM TPU 的新型统一后端使得 vLLM 支持的任何模型都能实现开箱即用的高性能服务,但事实上,我们仍处于实施某些核心组件的过程中。

因此,我们提供了 推荐模型与特性 页面,详细介绍了通过单元测试、集成测试和性能测试验证过的模型及特性。

入门

如果您是 vLLM on TPU 的新手,建议从 快速入门 指南开始。它将引导您完成环境设置并运行您的第一个模型。如需更详细的安装说明,请参考 安装 指南。

兼容的 TPU 代际

  • 推荐:v7x, v5e, v6e
  • 实验性:v3, v4, v5p

方案(Recipes)

针对在特定 TPU 代际上托管特定模型的经过验证的端到端指南。

开发者指南

如果您有兴趣为该项目做贡献,或者想深入了解内部机制,请查看我们的开发者指南。

参与贡献

我们一直在寻找与社区合作的方式,以加速 vLLM TPU 的开发。如果您有兴趣参与这项工作,请查看 贡献指南Issue 列表 以便开始。如果是您第一次贡献,建议过滤带有 good first issue(适合初学者的任务) 标签 的 Issue。

联系我们