主页
| 文档 | 博客 | 用户论坛 | 开发者 Slack |
关于¶
vLLM TPU 现在由 tpu-inference 提供支持,这是一个富有表现力和强大的新硬件插件,在 vLLM 项目中统一了 JAX 和 PyTorch 的单一降低路径。新后端现在为开发者提供了一个框架,可以
- 推动开源 TPU 硬件性能的极限。
- 通过在 TPU 上高性能运行 PyTorch 模型定义,而无需任何额外的代码更改,为 JAX 和 PyTorch 用户提供更大的灵活性,同时还为 JAX 提供了原生支持。
- 保持 vLLM 标准化:保持相同的用户体验、遥测和界面。
推荐模型和功能¶
尽管 vLLM TPU 的新统一后端使开箱即用的高性能服务成为可能,支持 vLLM 中的任何模型,但现实是我们仍在实现一些核心组件的过程中。
因此,我们提供了一个推荐模型和功能页面,其中详细介绍了通过单元、集成和性能测试的验证模型和功能。
入门¶
如果您是 vLLM on TPU 的新手,我们建议从快速入门指南开始。它将引导您完成设置环境和运行第一个模型的过程。有关更详细的安装说明,您可以参考安装指南。
兼容的 TPU 代
- 推荐:v5e, v6e
- 实验性:v3, v4, v5p
在 tpu-recipes 仓库 中查看一些 v6e 配置!
开发者指南¶
如果您有兴趣为项目做贡献或想了解更多内部信息,请查看我们的开发者指南
贡献¶
我们一直在寻找与社区合作以加速 vLLM TPU 开发的方法。如果您有兴趣为这项工作做出贡献,请查看贡献指南和问题以开始。如果您是第一次贡献,我们建议在“很好的第一个问题”标签上过滤问题。
联系我们¶
- 有关技术问题和功能请求,请在 GitHub 上创建一个问题
- 对于功能请求,请在此处 在 Github 上创建一个
- 要与其他用户讨论,请使用 vLLM 论坛上的TPU 支持主题
- 要协调贡献和开发,请使用开发者 Slack
- 如需合作和伙伴关系,请通过 [email protected] 联系我们

