主页
| 文档 | 博客 | 用户论坛 | 开发者 Slack |
关于¶
vLLM TPU 现在由 tpu-inference 提供支持,这是一个极具表现力和功能强大的新型硬件插件,在 vLLM 项目中通过统一的降低(lowering)路径整合了 JAX 和 PyTorch。该新后端现在为开发者提供了一个框架,旨在:
- 在开源领域突破 TPU 硬件性能的极限。
- 为 JAX 和 PyTorch 用户提供更高的灵活性,无需修改代码即可在 TPU 上高性能运行 PyTorch 模型定义,同时也扩展了对 JAX 的原生支持。
- 保持 vLLM 的标准化:维持相同的用户体验、遥测技术和接口。
推荐模型与特性¶
尽管 vLLM TPU 的新型统一后端使得 vLLM 支持的任何模型都能实现开箱即用的高性能服务,但事实上,我们仍处于实施某些核心组件的过程中。
因此,我们提供了 推荐模型与特性 页面,详细介绍了通过单元测试、集成测试和性能测试验证过的模型及特性。
入门¶
如果您是 vLLM on TPU 的新手,建议从 快速入门 指南开始。它将引导您完成环境设置并运行您的第一个模型。如需更详细的安装说明,请参考 安装 指南。
兼容的 TPU 代际
- 推荐:v7x, v5e, v6e
- 实验性:v3, v4, v5p
方案(Recipes)
针对在特定 TPU 代际上托管特定模型的经过验证的端到端指南。
开发者指南¶
如果您有兴趣为该项目做贡献,或者想深入了解内部机制,请查看我们的开发者指南。
参与贡献¶
我们一直在寻找与社区合作的方式,以加速 vLLM TPU 的开发。如果您有兴趣参与这项工作,请查看 贡献指南 和 Issue 列表 以便开始。如果是您第一次贡献,建议过滤带有 good first issue(适合初学者的任务) 标签 的 Issue。
联系我们¶
- 如有技术问题或功能请求,请在 GitHub 上开启一个 Issue
- 如需提交功能请求,请点击 此处 在 GitHub 上开启
- 如需与其他用户讨论,请使用 vLLM 论坛中的 TPU 支持主题
- 如需协调贡献和开发事宜,请使用 开发者 Slack
- 如需开展合作与伙伴关系,请通过 [email protected] 联系我们

