模型解析¶

vLLM 通过检查模型仓库中 HuggingFace 兼容模型的 config.json 文件中的 architectures 字段，并查找 vLLM 注册的相应实现来加载模型。然而，我们的模型解析可能会因以下原因而失败：

为了解决这个问题，可以通过将 config.json 覆盖传递给 hf_overrides 选项来明确指定模型架构。例如：

from vllm import LLM

llm = LLM(
    model="cerebras/Cerebras-GPT-1.3B",
    hf_overrides={"architectures": ["GPT2LMHeadModel"]},  # GPT-2
)

我们的支持模型列表显示了 vLLM 可识别的模型架构。