llmcompressor.transformers.data.base
为文本生成数据集处理和提供基础支持。
此模块提供了基础的 TextGenerationDataset 类,并支持不同数据集类型的注册。它负责数据集的加载、标记化、预处理以及针对文本生成微调工作流的特定格式化。
类
-
TextGenerationDataset–文本数据集的基类。将以下转换应用于数据集
TextGenerationDataset
继承自:RegistryMixin
文本数据集的基类。应用以下转换到数据集,以准备数据集供数据加载器加载。
- 从 huggingface 或本地缓存加载数据集
- 根据预处理函数或聊天/数据集模板预处理数据集
- 使用模型分词器/处理器标记化数据集
- 应用后处理,例如文本分组和/或为微调添加标签
参数
-
(dataset_argsDatasetArguments) –数据集加载的配置设置
-
(splitstr) –从数据集中加载的拆分,例如
test或train[:5%] -
(processorProcessor) –要在数据集上使用的处理器或分词器
方法
-
load_dataset–从 Hugging Face 加载原始数据集,如果可用则使用缓存副本。
-
map–Dataset.map 和 IterableDataset.map 的包装函数。
属性
-
preprocess(Callable[[LazyRow], Any] | None) –该函数必须返回对应于处理器/分词器 kwargs 的键。
源代码在 llmcompressor/transformers/data/base.py
preprocess 缓存 属性
该函数必须返回对应于处理器/分词器 kwargs 的键,可选地包括 PROMPT_KEY。
load_dataset
从 Hugging Face 加载原始数据集,如果可用则使用缓存副本。
参数
-
–cache_dir用于搜索缓存数据集的磁盘位置。
返回
- –
请求的数据集。
源代码在 llmcompressor/transformers/data/base.py
map
map(
dataset: Dataset | IterableDataset,
function: Callable[[Any], Any],
**kwargs,
) -> Dataset | IterableDataset
Dataset.map 和 IterableDataset.map 的包装函数。
如果数据集是流式的(在 IterableDataset 的情况下),则会忽略不适用的参数,并解析数据集的特征。