PDFTriage: Question Answering over Long, Structured Documents

相关链接:arxiv 关键字:Large Language Models (LLMs)Document Question Answering (QA)Structured DocumentsPDFTriageBenchmark Dataset

摘要

大型语言模型(LLMs)在处理无法适应其小上下文长度的文档时存在问题。为了克服这一问题,大多数现有工作集中在从文档中检索相关上下文,并将它们表示为纯文本。然而,如PDF、网页和演示文稿等文档自然具有不同的页面、表格、章节等结构。将这些结构化文档表示为纯文本与用户对这些具有丰富结构的文档的心理模型不符。当系统需要查询文档以获取上下文时,这种不协调性就显现出来,看似简单的问题可能会难倒QA系统。为了弥补处理结构化文档时的基本差距,我们提出了一种称为PDFTriage的方法,使模型能够基于结构或内容检索上下文。我们的实验表明,PDFTriage增强的模型在多个类别的问题上的有效性,这些问题在现有的检索增强LLMs中会失败。为了促进对这一基本问题的进一步研究,我们发布了包含900多个人工生成的问题的基准数据集,这些问题涵盖了10种不同类型的文档QA问题类别。我们的代码和数据集将很快在Github上发布。

核心方法

  1. 生成文档元数据:提取文档的结构元素,并将它们转换为可读的元数据。
  2. 基于LLM的分类:查询LLM以选择文档中的精确内容(页面、章节、检索到的内容)。
  3. 使用检索到的内容回答问题:基于问题和检索到的内容生成答案。

实验说明

实验结果数据使用以下Markdown表格展示:

文档数量 问题数量 简单问题 中等难度问题 困难问题 “不确定”问题
82 908 393 144 266 105

数据要求:实验使用了多种专业领域的结构化文档,包括PDF、网页和演示文稿等。

数据来源:数据集通过Mechanical Turk收集,文档样本从公共爬取中获取。

结论

本文提出了PDFTriage,一种专门为文档导向任务设计的新问答技术。我们的方法允许模型基于结构或内容检索上下文,从而在多个类别的问题上提供比现有方法更好的性能。PDFTriage在不同长度的文档和检索上下文中都表现出色。我们正在考虑未来的工作方向,包括开发结合表格和图形信息到GPT-4问答中的多模态方法,以及将问题类型纳入PDFTriage方法中,以提高方法的效率和效果。