可选接口

可选接口#

vllm.model_executor.models.interfaces.MultiModalEmbeddings[source]#

输出嵌入必须是以下格式之一

class vllm.model_executor.models.interfaces.SupportsMultiModal(*args, **kwargs)[source]#

所有多模态模型所需的接口。

supports_multimodal: ClassVar[Literal[True]] = True[source]#: 一个标志，指示此模型支持多模态输入。

注意

如果此类在您的模型类的 MRO 中，则无需重新定义此标志。

get_multimodal_embeddings(**kwargs: object) → list[torch.Tensor] | torch.Tensor | tuple[torch.Tensor, ...] | None[source]#: 返回从多模态 kwargs 生成的多模态嵌入，以便与文本嵌入合并。

注意

返回的多模态嵌入必须与其对应的多模态数据项在输入提示中的出现顺序相同。

get_language_model() → torch.nn.Module[source]#

返回用于文本生成的底层语言模型。

这通常是负责处理合并后的多模态嵌入并生成隐藏状态的 torch.nn.Module 实例

get_input_embeddings(input_ids: Tensor, multimodal_embeddings: MultiModalEmbeddings | None = None, attn_metadata: 'AttentionMetadata' | None = None) → Tensor[source]#
get_input_embeddings(input_ids: Tensor, multimodal_embeddings: MultiModalEmbeddings | None = None) → Tensor: @overload 的助手，在调用时引发异常。

class vllm.model_executor.models.interfaces.SupportsLoRA(*args, **kwargs)[source]#

所有支持 LoRA 的模型所需的接口。

supports_lora: ClassVar[Literal[True]] = True[source]#: 一个标志，指示此模型支持 LoRA。

注意

如果此类在您的模型类的 MRO 中，则无需重新定义此标志。

class vllm.model_executor.models.interfaces.SupportsPP(*args, **kwargs)[source]#

所有支持流水线并行的模型所需的接口。

supports_pp: ClassVar[Literal[True]] = True[source]#: 一个标志，指示此模型支持流水线并行。

注意

如果此类在您的模型类的 MRO 中，则无需重新定义此标志。

make_empty_intermediate_tensors(batch_size: int, dtype: torch.dtype, device: torch.device) → IntermediateTensors[source]#: 在 PP 秩 > 0 时调用，用于性能分析目的。

forward(*, intermediate_tensors: IntermediateTensors | None) → torch.Tensor | IntermediateTensors[source]#

当 PP 秩 > 0 时接受 IntermediateTensors。

仅为最后一个 PP 秩返回 IntermediateTensors。

class vllm.model_executor.models.interfaces.HasInnerState(*args, **kwargs)[source]#

所有具有内部状态的模型所需的接口。

has_inner_state: ClassVar[Literal[True]] = True[source]#: 一个标志，指示此模型具有内部状态。具有内部状态的模型通常需要访问 scheduler_config 以获取 max_num_seqs 等。例如，Mamba 和 Jamba 都为 True。

class vllm.model_executor.models.interfaces.IsAttentionFree(*args, **kwargs)[source]#

所有像 Mamba 这样缺少注意力机制，但确实具有状态（其大小相对于 token 数量恒定）的模型的接口。

is_attention_free: ClassVar[Literal[True]] = True[source]#: 一个标志，指示此模型没有注意力机制。用于块管理器和注意力后端选择。Mamba 为 True，但 Jamba 不为 True。

class vllm.model_executor.models.interfaces.IsHybrid(*args, **kwargs)[source]#

所有像 Jamba 这样既有注意力模块又有 Mamba 模块的模型的接口，指示 hf_config 具有 ‘layers_block_type’

is_hybrid: ClassVar[Literal[True]] = True[source]#: 一个标志，指示此模型既有 Mamba 模块又有注意力模块，也指示模型的 hf_config 具有 ‘layers_block_type’

class vllm.model_executor.models.interfaces.HasNoOps(*args, **kwargs)[source]#

class vllm.model_executor.models.interfaces.SupportsCrossEncoding(*args, **kwargs)[source]#: 所有支持交叉编码的模型的接口。

class vllm.model_executor.models.interfaces.SupportsQuant(*args, **kwargs)[source]#: 所有支持量化的模型所需的接口。

class vllm.model_executor.models.interfaces.SupportsTranscription(*args, **kwargs)[source]#: 所有支持转录的模型所需的接口。

class vllm.model_executor.models.interfaces.SupportsV0Only(*args, **kwargs)[source]#: 具有此接口的模型与 V1 vLLM 不兼容。