数据解析#
模块内容#
- class vllm.multimodal.parse.ModalityDataItems(data: _T, modality: str)[source]#
表示
MultiModalDataItems
中模态的数据项。
- class vllm.multimodal.parse.EmbeddingItems(data: _T, modality: str)[source]#
数据项的基类,这些数据项表示为批处理的嵌入张量,或嵌入张量列表(每个项一个)。
- get(index: int) torch.Tensor [source]#
通过索引获取数据项。
- class vllm.multimodal.parse.DictEmbeddingItems(data: Mapping[str, torch.Tensor], modality: str, required_fields: set[str], fields_factory: Callable[[Mapping[str, torch.Tensor]], Mapping[str, MultiModalFieldConfig]])[source]#
数据项的基类,这些数据项表示为张量字典。
通常,字典键对应于 HF 处理器的输出。
- class vllm.multimodal.parse.AudioProcessorItems(data: Sequence[list[float] | numpy.ndarray | torch.Tensor])[source]#
- class vllm.multimodal.parse.AudioEmbeddingItems(data: torch.Tensor | list[torch.Tensor])[source]#
- class vllm.multimodal.parse.ImageProcessorItems(data: Sequence[Image | numpy.ndarray | torch.Tensor])[source]#
- class vllm.multimodal.parse.ImageEmbeddingItems(data: torch.Tensor | list[torch.Tensor])[source]#
- class vllm.multimodal.parse.VideoProcessorItems(data: Sequence[list[PIL.Image.Image] | numpy.ndarray | torch.Tensor | list[numpy.ndarray] | list[torch.Tensor]])[source]#
- class vllm.multimodal.parse.VideoEmbeddingItems(data: torch.Tensor | list[torch.Tensor])[source]#
- class vllm.multimodal.parse.MultiModalDataItems(dict=None, /, **kwargs)[source]#
如同
MultiModalDataDict
,但已标准化,使得每个条目都对应一个列表。
- class vllm.multimodal.parse.MultiModalDataParser(*, target_sr: float | None = None)[source]#
将
MultiModalDataDict
解析为MultiModalDataItems
。- 参数:
target_sr (float, 可选) – 启用音频项自动重采样到模型期望的采样率。