llmcompressor.transformers.data.data_helpers
函数
-
get_custom_datasets_from_path–从目录路径获取自定义数据集字典。支持 HF 的 load_dataset
-
get_raw_dataset–加载 Hugging Face 的原始数据集,如果可用则使用缓存副本
get_custom_datasets_from_path
从目录路径获取自定义数据集字典。支持 HF 的 load_dataset 用于本地文件夹数据集 https://hugging-face.cn/docs/datasets/loading
此函数扫描指定目录路径中具有特定扩展名(默认为 '.json')的文件。它构建一个字典,其中键是子目录名称或直接数据集名称(取决于目录结构),值是文件路径(如果只有一个同名文件)或文件路径列表(如果存在多个文件)。
参数
-
(路径str) –包含数据集文件的目录路径。
-
(extstr, 默认:'json') –用于过滤文件的文件扩展名。默认为 'json'。
返回
-
dict[str, str]–一个将数据集名称映射到其文件路径或文件路径列表的字典。示例:dataset = get_custom_datasets_from_path("/path/to/dataset/directory", "json") 注意:如果数据集按子目录组织,则函数会使用文件路径列表构建字典。如果数据集直接在主目录中找到,则包含在内,并带有其各自的名称。接受: - 路径 train.json test.json val.json - 路径 train data1.json data2.json ... test ... val ...
源代码位于 llmcompressor/transformers/data/data_helpers.py
get_raw_dataset
get_raw_dataset(
dataset_args,
cache_dir: str | None = None,
streaming: bool | None = False,
**kwargs,
) -> Dataset
加载 Hugging Face 的原始数据集,如果可用则使用缓存副本
参数
-
(cache_dirstr | None, 默认值:None) –用于搜索缓存数据集的磁盘位置
-
(streamingbool | None, 默认:False) –True 表示从 Hugging Face 流式传输数据,否则下载
返回
-
Dataset–请求的数据集
源代码位于 llmcompressor/transformers/data/data_helpers.py
transform_dataset_keys
如果存在与现有键匹配的情况,则将给定输入字典的键转换为 train、val 或 test。请注意,只能有一个匹配的文件名。例如:Folder(train_foo.json) -> Folder(train.json) Folder(train1.json, train2.json) -> Same
参数
-
(data_filesdict[str, Any]) –将要转换键的字典