llmcompressor.modifiers.transform.spinquant.mappings
类
-
SpinQuantMapping–SpinQuant 需要知道模型的整个架构,
SpinQuantMapping
基类:BaseModel
SpinQuant 需要知道模型的整个架构,因为 R1、R2、R3 和 R4 旋转需要应用于特定的层 (https://arxiv.org/pdf/2405.16406 图 1)。
参数
-
–embeddingembedding 层的名称或正则表达式
-
–attndecoder 层中 attention 块的名称或正则表达式
-
–attn_qattention 块中 q_proj 层的名称或正则表达式
-
–attn_kattention 块中 k_proj 层的名称或正则表达式
-
–attn_vattention 块中 v_proj 层的名称或正则表达式
-
–attn_oattention 块中 o_proj 层的名称或正则表达式
-
–attn_head_dimattention 模块的 head_dim,这是必需的,因为 R2 需要“逐头”应用于 v_proj 和 o_proj。
-
–mlp_in构成 MLP 块输入(通常是 up_proj 和 gate_proj)的名称或正则表达式列表
-
–mlp_out构成 MLP 块输出(通常是 down_proj)的名称或正则表达式列表