量化# 量化以模型精度为代价,换取更小的内存占用,从而使大型模型能够在更广泛的设备上运行。 目录 支持的硬件 AutoAWQ BitsAndBytes GGUF GPTQModel INT4 W4A16 INT8 W8A8 FP8 W8A8 AMD QUARK 量化 KV 缓存 TorchAO