您正在查看最新的开发者预览文档。点击这里查看最新稳定版本的文档。

数据解析

目录

数据解析#

模块内容#

class vllm.multimodal.parse.ModalityDataItems(data: _T, modality: str)[source]#

表示 MultiModalDataItems 中模态的数据项。

abstract get_count() → int[source]#: 获取数据项的数量。

abstract get(index: int) → _I[source]#: 通过索引获取数据项。

get_all() → list[_I][source]#: 获取所有数据项。

abstract get_processor_data() → Mapping[str, object][source]#: 获取传递给 HF processor 的数据。

abstract get_passthrough_data() → Mapping[str, object][source]#: 获取直接传递给模型的数据。

class vllm.multimodal.parse.ProcessorBatchItems(data: _T, modality: str)[source]#

数据项的基类，以列表形式排列。

get_count() → int[source]#: 获取数据项的数量。

get(index: int) → _T[source]#: 通过索引获取数据项。

get_processor_data() → Mapping[str, object][source]#: 获取传递给 HF processor 的数据。

get_passthrough_data() → Mapping[str, object][source]#: 获取直接传递给模型的数据。

class vllm.multimodal.parse.EmbeddingItems(data: _T, modality: str)[source]#

数据项的基类，表示为批处理嵌入张量或嵌入张量列表（每个项目一个）。

get_count() → int[source]#: 获取数据项的数量。

get(index: int) → torch.Tensor[source]#: 通过索引获取数据项。

get_processor_data() → Mapping[str, object][source]#: 获取传递给 HF processor 的数据。

get_passthrough_data() → Mapping[str, object][source]#: 获取直接传递给模型的数据。

class vllm.multimodal.parse.DictEmbeddingItems(data: Mapping[str, torch.Tensor], modality: str, required_fields: set[str], fields_factory: Callable[[Mapping[str, torch.Tensor]], Mapping[str, MultiModalFieldConfig]])[source]#

数据项的基类，表示为张量字典。

通常，字典键对应于 HF processor 的输出。

get_count() → int[source]#: 获取数据项的数量。

get(index: int) → Mapping[str, torch.Tensor][source]#: 通过索引获取数据项。

get_processor_data() → Mapping[str, object][source]#: 获取传递给 HF processor 的数据。

get_passthrough_data() → Mapping[str, object][source]#: 获取直接传递给模型的数据。

class vllm.multimodal.parse.AudioProcessorItems(data: Sequence[list[float] | numpy.ndarray | torch.Tensor])[source]#

class vllm.multimodal.parse.AudioEmbeddingItems(data: torch.Tensor | list[torch.Tensor])[source]#

class vllm.multimodal.parse.ImageSize(width, height)[source]#

width: int[source]#: 字段编号 0 的别名

height: int[source]#: 字段编号 1 的别名

class vllm.multimodal.parse.ImageProcessorItems(data: Sequence[Image | numpy.ndarray | torch.Tensor])[source]#

class vllm.multimodal.parse.ImageEmbeddingItems(data: torch.Tensor | list[torch.Tensor])[source]#

class vllm.multimodal.parse.VideoProcessorItems(data: Sequence[list[PIL.Image.Image] | numpy.ndarray | torch.Tensor | list[numpy.ndarray] | list[torch.Tensor]])[source]#

class vllm.multimodal.parse.VideoEmbeddingItems(data: torch.Tensor | list[torch.Tensor])[source]#

class vllm.multimodal.parse.MultiModalDataItems(dict=None, /, **kwargs)[source]#

作为 MultiModalDataDict，但已标准化，因此每个条目都对应一个列表。

get_count(modality: str, *, strict: bool = True) → int[source]#

获取属于某种模态的数据项数量。

如果 strict=False，即使找不到模态，也返回 0 而不是引发 KeyError。

get_all_counts() → Mapping[str, int][source]#: 获取属于每种模态的项目数量。

get_items(modality: str, typ: type[_D] | tuple[type[_D], ...]) → _D[source]#: 获取属于某种模态的数据项，要求它们属于特定类型。

class vllm.multimodal.parse.MultiModalDataParser(*, target_sr: float | None = None)[source]#

将 MultiModalDataDict 解析为 MultiModalDataItems。

参数:: target_sr (float, optional) – 启用音频项自动重采样到模型期望的采样率。