LoRA 适配器指南

LoRA 适配器指南#

概述#

与 vLLM 类似,vllm-ascend 也支持 LoRA。用法和更多详情请参阅 vLLM 官方文档

您可以参考 支持的模型 来查找 vLLM 中哪些模型支持 LoRA。

您现在可以使用 ACLGraph 模式运行 LoRA。请参考 图模式指南 以获得更好的 LoRA 性能。

下载模型的地址
基础模型: https://www.modelscope.cn/models/vllm-ascend/Llama-2-7b-hf/files
lora 模型: https://www.modelscope.cn/models/vllm-ascend/llama-2-7b-sql-lora-test/files

示例#

我们在此提供了一个简单的 LoRA 示例,该示例默认启用 ACLGraph 模式。

vllm serve meta-llama/Llama-2-7b \
    --enable-lora \
    --lora-modules '{"name": "sql-lora", "path": "/path/to/lora", "base_model_name": "meta-llama/Llama-2-7b"}'

自定义 LoRA 算子#

我们实现了 LoRA 相关的 AscendC 算子,例如 bgmv_shrink、bgmv_expand、sgmv_shrink 和 sgmv_expand。您可以在 vllm-ascend 仓库 的 “csrc/kernels” 目录下找到它们。