RAG 排坑指南001——文档解析

原创

freeAngus 2024-02-29 11:32:13 ©著作权

文章标签 文档解析 rag PDF解析召回率搜索 文章分类 bard AIGC

©著作权归作者所有：来自51CTO博客作者freeAngus的原创作品，请联系作者获取转载授权，否则将追究法律责任

序言

RAG搜索增强是一个极其简单的概念。简而言之就是将搜索召回的内容，送给模型润色，重新生成更好的答案。看似简单，实际做起来，就极其的复杂。想要做个演示demo也很简单，复杂的是如何把回答正确率提升到90以上。

RAG中的问题非常之多。并且问题环环相扣。例如，如果文档解析做不到，就不可能在召回的阶段将内容准确的召回（也就是召回率低）虽然可以通过扩大topK来尽可能的提升召回率，但是假如在解析的过程中数据丢失了。是无论如何都找回不到的。如果无法召回，正确的答案就无法送给模型，自认而然就无法回答正确。在我们的生产实践中，遇到将近40%的问题，都是文档解析导致的。

RAG中的第一个问题——文档解析

最初，我们以为，文档解析，不就是把文档中的问题提取到吗。python就有很多PDF文档解析工具。实际上文档解析也是一个非常复杂的问题，例如不同格式的文件，可能不限于PDF。即使是PDF文件，存在有的文档是扫描件。文档中的表格解析有可能会丢失数据。开源的PDF解析工具有很多，也各有优缺点。这里可以看这篇文章：大模型RAG问答下的实用开源文档解析工具总结及技术思考：从文档版本分析到单双栏处理

RAG 排坑指南001——文档解析_rag