llmcompressor.modeling
用于压缩工作流程的模型准备和融合实用程序。
提供用于准备模型进行压缩的工具,包括层融合、模块准备和模型结构优化。处理预压缩转换和高效压缩所需的架构修改。
模块
-
deepseek_v3– -
fuse– -
gpt_oss– -
granite4– -
llama4– -
moe_context–MoE 模型校准的简化接口。
-
qwen3_moe– -
qwen3_next_moe– -
qwen3_vl_moe–
函数
-
center_embeddings–将每个嵌入的均值设为零
-
fuse_norm_linears–将归一化层的缩放操作融合到后续的线性层中。
center_embeddings
将每个嵌入的均值设为零
参数
-
(embeddingModule) –包含要居中嵌入的嵌入模块
源代码在 llmcompressor/modeling/fuse.py
fuse_norm_linears
将归一化层的缩放操作融合到后续的线性层中。这对于确保归一化层和线性层之间的变换不变性很有用。
请注意,幺正变换(旋转)与归一化可交换,但与缩放不可交换
参数
-
(normModule) –归一化层,其权重将融合到后续的线性层中
-
(linearsIterable[Linear]) –紧跟在归一化层之后的线性层