跳到内容

llmcompressor.modifiers.transform.spinquant.mappings

SpinQuantMapping

基类:BaseModel

SpinQuant 需要知道模型的整个架构,因为 R1、R2、R3 和 R4 旋转需要应用于特定的层 (https://arxiv.org/pdf/2405.16406 图 1)。

参数

  • embedding

    embedding 层的名称或正则表达式

  • attn

    decoder 层中 attention 块的名称或正则表达式

  • attn_q

    attention 块中 q_proj 层的名称或正则表达式

  • attn_k

    attention 块中 k_proj 层的名称或正则表达式

  • attn_v

    attention 块中 v_proj 层的名称或正则表达式

  • attn_o

    attention 块中 o_proj 层的名称或正则表达式

  • attn_head_dim

    attention 模块的 head_dim,这是必需的,因为 R2 需要“逐头”应用于 v_proj 和 o_proj。

  • mlp_in

    构成 MLP 块输入(通常是 up_proj 和 gate_proj)的名称或正则表达式列表

  • mlp_out

    构成 MLP 块输出(通常是 down_proj)的名称或正则表达式列表