量化 量化牺牲了模型精度,以换取更小的内存占用,从而使大型模型能够在更广泛的设备上运行。 目录 支持的硬件 Auto_Awq Bnb Bitblas Gguf Gptqmodel Int4 Int8 Fp8 Modelopt Quark 量化_Kvcache Torchao