跳到内容

模型解析

vLLM 通过检查模型仓库中 config.json 文件中的 architectures 字段来加载兼容 HuggingFace 的模型,并查找在 vLLM 中注册的相应实现。尽管如此,我们的模型解析可能会因以下原因失败:

  • 模型仓库的 config.json 文件缺少 architectures 字段。
  • 非官方仓库使用 vLLM 中未记录的替代名称来引用模型。
  • 相同的架构名称用于多个模型,造成应该加载哪个模型的歧义。

为了解决这个问题,通过将 config.json 覆盖项传递给 hf_overrides 选项来明确指定模型架构。例如:

from vllm import LLM

model = LLM(
    model="cerebras/Cerebras-GPT-1.3B",
    hf_overrides={"architectures": ["GPT2LMHeadModel"]},  # GPT-2
)

我们的支持的模型列表展示了 vLLM 识别的模型架构。