大规模语言模型(LLMs)已成为日常信息检索的必备工具,但受限于预训练阶段获取的知识,缺乏实时更新能力。RAG技术可以通过整合外部知识库与生成模型的能力,提高问答的准确性和相关性。但是现有RAG存在局限性,如检索文档可能与查询不完全相关,导致错误信息或不一致性;若未检索到相关内容,模型可能编造答案或生成不准确响应。

MSRAG通过整合网络检索和GPT检索,有效减少了检索信息中的噪声,并通过语义分割问题提高了检索信息的粒度和相关性。

基于RAG的多源检索问答框架--MSRAG_模态

1 工作流程

  1. 首先使用GPT-3.5对原始问题进行语义分割,生成三个最相关且不重复的子问题,并进行网络检索。
  2. 利用GPT-3.5的强大推理能力,对检索到的信息进行汇总和总结,得到Web信息。
  3. 对于复杂多步骤问题,使用GPT-3.5替代传统搜索引擎,生成与查询相关的搜索信息,得到GPT信息。
  4. 将Web信息、GPT信息和原始问题分别输入LLM,生成答案,并通过损失函数计算选择最优答案。

2 改进方法

  1. 检索信息的相关性增强:提出使用GPT-3.5替代传统检索器,利用其庞大的语料库知识生成检索信息,并提出基于网络检索的方法实现细粒度知识检索。
  2. 多源检索方法:为减少GPT检索的幻觉效应和网络检索的噪声,提出结合GPT检索和网络检索的多源检索框架。

3 结语

MSRAG多源检索框架,通过结合GPT-3.5的语料库知识和网络检索的实时信息,显著提升了问答系统的性能,尤其是在处理需要多步推理和细粒度知识检索的复杂问题时。

论文题目:A Multi-Source Retrieval QuestionAnsweringFramework Based on RAG

论文链接:https://arxiv.org/pdf/2405.19207


PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!

基于RAG的多源检索问答框架--MSRAG_细粒度_02

精彩回顾

1. 离散模态信息作为细粒度标记用于多模态知识图谱补全--MyGO

2. GraphRAG的设计模式、挑战和改进思路

3. 基于多模态知识图谱的多模态推理-MR-MKG