二、RAG的原理、流程及架构

1、RAG工作原理是什么?

大型语言模型(LLM)面临两个问题,第一个问题是LLM会产生幻觉,第二个是LLM的知识中断。

  1. 知识截止:当 LLM 返回的信息与模型的训练数据相比过时时。每个基础模型都有知识截止,这意味着其知识仅限于训练时可用的数据。
  2. 幻觉:当模型自信地做出错误反应时,就会发生幻觉。

检索增强生成 (RAG) 摆脱了知识限制,整合了外部数据,从外部知识库中检索相关信息,增强模型的生成能力。

大模型RAG技术入门到精通(二):RAG的工作原理、流程及架构_大模型

2、RAG工作流程是什么?

通过检索增强技术,将用户查询与索引知识融合,利用大语言模型生成准确回答。

  1. 知识准备:收集并转换知识文档为文本数据,进行预处理和索引。
  2. 嵌入与索引:使用嵌入模型将文本转换为向量,并存储在向量数据库中。
  3. 查询检索:用户查询转换为向量,从数据库中检索相关知识。
  4. 提示增强:结合检索结果构建增强提示模版。
  5. 生成回答:大语言模型根据增强模版生成准确回答。

大模型RAG技术入门到精通(二):RAG的工作原理、流程及架构_LLM_02

3、RAG技术架构是什么?

RAG技术架构主要由两个核心模块组成,检索模块(Retriever)和生成模块(Generator)。

1)检索模块(Retriever):

  • 文本嵌入:使用预训练的文本嵌入模型(如GLM)将查询和文档转换成向量表示,以便在向量空间中进行相似度计算。
  • 向量搜索:利用高效的向量搜索技术(如FAISS、Milvus等向量数据库)在向量空间中检索与查询向量最相似的文档或段落。
  • 双塔模型:检索模块常采用双塔模型(Dual-Encoder)进行高效的向量化检索。双塔模型由两个独立的编码器组成,一个用于编码查询,另一个用于编码文档。这两个编码器将查询和文档映射到相同的向量空间中,以便进行相似度计算。

2)生成模块(Generator):

  • 强大的生成模型:生成模块通常使用在大规模数据上预训练的生成模型(如GLM),这些模型在生成自然语言文本方面表现出色。
  • 上下文融合:生成模块将检索到的相关文档与原始查询合并,形成更丰富的上下文信息,作为生成模型的输入。
  • 生成过程:生成模型根据输入的上下文信息,生成连贯、准确且信息丰富的回答或文本。

结合高效的检索模块(Retriever)与强大的生成模型(Generator),实现基于外部知识增强的自然语言生成能力。

大模型RAG技术入门到精通(二):RAG的工作原理、流程及架构_大模型_03