跳到内容

摘要

重要

许多解码器语言模型现在可以使用 Transformers 模型后端 自动加载,而无需在 vLLM 中实现它们。请先尝试 vllm serve <model> 是否有效!

vLLM 模型是专门的 PyTorch 模型,它们利用各种 特性 来优化其性能。

将模型集成到 vLLM 的复杂程度在很大程度上取决于模型的架构。如果模型与 vLLM 中现有模型具有相似的架构,则过程会相当直接。但是,对于包含新运算符(例如,新的注意力机制)的模型,这可能会更复杂。

请阅读这些页面以获取分步指南

提示

如果您在将模型集成到 vLLM 时遇到问题,请随时在我们的 GitHub 问题 中打开一个问题,或在我们的 开发者 Slack 上提问。我们很乐意为您提供帮助!