量化# 量化牺牲模型精度以换取更小的内存占用,从而允许大型模型在更广泛的设备上运行。 目录 支持的硬件 AutoAWQ BitsAndBytes GGUF INT4 W4A16 INT8 W8A8 FP8 W8A8 量化 KV 缓存