检索增强生成 (Retrieval-Augmented Generation)¶
检索增强生成 (RAG) 是一种使生成式人工智能 (Gen AI) 模型能够检索并整合新信息的技术。它通过修改与大语言模型 (LLM) 的交互方式,使模型能够参考一组指定的文档来回答用户查询,并利用这些信息补充其预先训练数据中的知识。这使得大语言模型能够使用特定领域和/或更新的信息。应用场景包括为聊天机器人提供内部公司数据的访问权限,或根据权威来源生成回答。
以下是集成方案
- vLLM + langchain + milvus
- vLLM + llamaindex + milvus
vLLM + langchain¶
先决条件¶
设置 vLLM 和 langchain 环境
pip install -U vllm \
langchain_milvus langchain_openai \
langchain_community beautifulsoup4 \
langchain-text-splitters
部署¶
-
启动带有支持的嵌入 (embedding) 模型的 vLLM 服务器,例如:
-
启动支持聊天完成模型的 vLLM 服务器,例如
-
使用脚本: examples/online_serving/retrieval_augmented_generation_with_langchain.py
-
运行脚本
vLLM + llamaindex¶
先决条件¶
设置 vLLM 和 llamaindex 环境
pip install vllm \
llama-index llama-index-readers-web \
llama-index-llms-openai-like \
llama-index-embeddings-openai-like \
llama-index-vector-stores-milvus \
部署¶
-
启动带有支持的嵌入 (embedding) 模型的 vLLM 服务器,例如:
-
启动支持聊天完成模型的 vLLM 服务器,例如
-
使用脚本: examples/online_serving/retrieval_augmented_generation_with_llamaindex.py
-
运行脚本