LLaMA-Factory#
简介
LLaMA-Factory 是一个易于使用且高效的平台,用于训练和微调大型语言模型。使用 LLaMA-Factory,您无需编写任何代码即可在本地微调数百个预训练模型。
LLaMA-Facotory 用户在微调模型后需要对其进行评估和推理。
业务挑战
LLaMA-Factory 使用 Transformers 在 Ascend NPU 上进行推理,但速度很慢。
使用 vLLM Ascend 的优势
通过 LLaMA-Factory 和 vLLM Ascend 的共同努力(LLaMA-Factory#7739),LLaMA-Factory 在模型推理方面取得了显著的性能提升。基准测试结果显示,其推理速度比 Transformers 实现快 2 倍。
了解更多
有关 LLaMA-Factory 及其如何使用 vLLM Ascend 在 Ascend NPU 上进行推理的更多详细信息,请参阅 LLaMA-Factory Ascend NPU 推理。