大模型RAG技术入门到精通（二）：RAG的工作原理、流程及架构

关注 Android老皮

文章目录

二、RAG的原理、流程及架构
1、RAG工作原理是什么？
2、RAG工作流程是什么？
3、RAG技术架构是什么？

大模型RAG技术入门到精通（二）：RAG的工作原理、流程及架构

原创

Android老皮 2024-10-10 14:37:54 ©著作权

文章标签 架构大模型 LLM AI大模型 ai 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者Android老皮的原创作品，请联系作者获取转载授权，否则将追究法律责任

二、RAG的原理、流程及架构

1、RAG工作原理是什么？

大型语言模型（LLM）面临两个问题，第一个问题是LLM会产生幻觉，第二个是LLM的知识中断。

知识截止：当 LLM 返回的信息与模型的训练数据相比过时时。每个基础模型都有知识截止，这意味着其知识仅限于训练时可用的数据。
幻觉：当模型自信地做出错误反应时，就会发生幻觉。

检索增强生成 (RAG) 摆脱了知识限制，整合了外部数据，从外部知识库中检索相关信息，增强模型的生成能力。

大模型RAG技术入门到精通（二）：RAG的工作原理、流程及架构_大模型

2、RAG工作流程是什么？

通过检索增强技术，将用户查询与索引知识融合，利用大语言模型生成准确回答。

知识准备：收集并转换知识文档为文本数据，进行预处理和索引。
嵌入与索引：使用嵌入模型将文本转换为向量，并存储在向量数据库中。
查询检索：用户查询转换为向量，从数据库中检索相关知识。
提示增强：结合检索结果构建增强提示模版。
生成回答：大语言模型根据增强模版生成准确回答。

大模型RAG技术入门到精通（二）：RAG的工作原理、流程及架构_LLM_02

3、RAG技术架构是什么？

RAG技术架构主要由两个核心模块组成，检索模块（Retriever）和生成模块（Generator）。

1）检索模块（Retriever）：

文本嵌入：使用预训练的文本嵌入模型（如GLM）将查询和文档转换成向量表示，以便在向量空间中进行相似度计算。
向量搜索：利用高效的向量搜索技术（如FAISS、Milvus等向量数据库）在向量空间中检索与查询向量最相似的文档或段落。
双塔模型：检索模块常采用双塔模型（Dual-Encoder）进行高效的向量化检索。双塔模型由两个独立的编码器组成，一个用于编码查询，另一个用于编码文档。这两个编码器将查询和文档映射到相同的向量空间中，以便进行相似度计算。

2）生成模块（Generator）：

强大的生成模型：生成模块通常使用在大规模数据上预训练的生成模型（如GLM），这些模型在生成自然语言文本方面表现出色。
上下文融合：生成模块将检索到的相关文档与原始查询合并，形成更丰富的上下文信息，作为生成模型的输入。
生成过程：生成模型根据输入的上下文信息，生成连贯、准确且信息丰富的回答或文本。

结合高效的检索模块（Retriever）与强大的生成模型（Generator），实现基于外部知识增强的自然语言生成能力。

大模型RAG技术入门到精通（二）：RAG的工作原理、流程及架构_大模型_03

赞
收藏
评论
分享
举报

上一篇：大模型Agent的全面综述：Agent大脑、Agent感知、Agent行动、Agent应用

下一篇：大模型RAG技术入门到精通（一）：检索增强生成（RAG）什么是RAG？如何使用RAG？

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册