跳到内容

摘要

重要

现在,许多解码器语言模型可以通过 Transformers 建模后端自动加载,无需在 vLLM 中进行实现。请先尝试运行 vllm serve <model> 看看是否有效!

vLLM 模型是专用的 PyTorch 模型,利用各种 功能特性来优化性能。

将模型集成到 vLLM 中的复杂程度很大程度上取决于模型的架构。如果模型与 vLLM 中现有的模型架构相似,那么这个过程相当简单。然而,对于包含新算子(例如新的注意力机制)的模型,集成过程可能会更加复杂。

阅读这些页面以获取分步指南

提示

如果您在将模型集成到 vLLM 的过程中遇到问题,请随时在 GitHub 上提交 issue,或在我们的 开发者 Slack 上提问。我们将非常乐意为您提供帮助!