跳到内容

检索增强生成

检索增强生成(RAG)是一种使生成式人工智能(Gen AI)模型能够检索和整合新信息的技术。它修改了与大型语言模型(LLM)的交互方式,使模型在响应用户查询时能够参考一组指定文档,并利用这些信息补充其预先训练数据中的信息。这使得 LLM 能够使用领域特定和/或更新的信息。应用场景包括为聊天机器人提供访问公司内部数据的能力,或根据权威来源生成回复。

以下是集成:- vLLM + langchain + milvus - vLLM + llamaindex + milvus

vLLM + langchain

前提条件

  • 设置 vLLM 和 langchain 环境
pip install -U vllm \
            langchain_milvus langchain_openai \
            langchain_community beautifulsoup4 \
            langchain-text-splitters

部署

  • 启动支持 Embedding 模型的 vLLM 服务器,例如:
# Start embedding service (port 8000)
vllm serve ssmits/Qwen2-7B-Instruct-embed-base
  • 启动支持聊天补全模型的 vLLM 服务器,例如:
# Start chat service (port 8001)
vllm serve qwen/Qwen1.5-0.5B-Chat --port 8001
python retrieval_augmented_generation_with_langchain.py

vLLM + llamaindex

前提条件

  • 设置 vLLM 和 llamaindex 环境
pip install vllm \
            llama-index llama-index-readers-web \
            llama-index-llms-openai-like    \
            llama-index-embeddings-openai-like \
            llama-index-vector-stores-milvus \

部署

  • 启动支持 Embedding 模型的 vLLM 服务器,例如:
# Start embedding service (port 8000)
vllm serve ssmits/Qwen2-7B-Instruct-embed-base
  • 启动支持聊天补全模型的 vLLM 服务器,例如:
# Start chat service (port 8001)
vllm serve qwen/Qwen1.5-0.5B-Chat --port 8001
python retrieval_augmented_generation_with_llamaindex.py