量化¶ 量化以模型精度为代价,换取更小的内存占用,从而使大型模型能在更广泛的设备上运行。 目录 支持的硬件 AutoAWQ AutoRound BitsAndBytes BitBLAS GGUF GPTQModel INC INT4 W4A16 INT8 W8A8 FP8 W8A8 NVIDIA TensorRT 模型优化器 AMD Quark 量化 KV 缓存 TorchAO