摘要¶

重要

现在可以使用 Transformers 后端自动加载许多解码器语言模型，而无需在 vLLM 中实现它们。请先尝试 vllm serve <model> 是否有效！

vLLM 模型是专门的 PyTorch 模型，利用各种特性来优化其性能。

将模型集成到 vLLM 的复杂性在很大程度上取决于模型的架构。如果模型与 vLLM 中现有模型共享相似架构，则过程会相当简单。然而，对于包含新算子（例如，一种新的注意力机制）的模型，这可能会更复杂。

请阅读这些页面以获取分步指南

提示

如果您在将模型集成到 vLLM 时遇到问题，请随时在 GitHub 上提交问题或在我们的开发者 Slack 上提问。我们将很乐意为您提供帮助！