四、图引导的检索(Graph-Guided Retrieval)

介绍了检索过程中的关键技术,包括检索器的选择、检索范式、检索粒度和有效的增强技术。

大模型 | GraphRAG技术最新全面综述(二)图引导的检索、图增强的生成、GraphRAG应用和评估_大模型

1. 检索器(Retriever)的分类:根据底层模型,检索器被分为三类:

  • 非参数检索器(Non-parametric Retriever):基于启发式规则或传统图搜索算法,不依赖深度学习模型,具有高检索效率。
  • 基于语言模型的检索器(LM-based Retriever):利用语言模型的自然语言理解能力,处理和解释多样化的自然语言查询。
  • 基于图神经网络的检索器(GNN-based Retriever):利用图神经网络理解复杂图结构的能力,编码图数据并根据与查询的相似性进行评分。

2. 检索范式:讨论了不同的检索范式,包括一次性检索(Once Retrieval)、迭代检索(Iterative Retrieval)和多阶段检索(Multi-Stage Retrieval),它们在提高检索信息的相关性和深度方面起着重要作用。

3. 检索粒度:根据任务场景和索引类型,设计了不同的检索粒度,包括节点(Nodes)、三元组(Triplets)、路径(Paths)和子图(Subgraphs)。每种粒度都有其优势,适用于不同的实际场景。

4. 检索增强技术:为了确保检索质量,提出了增强用户查询和检索到的知识的技术,包括查询扩展和查询分解,以及知识合并和知识剪枝。

五、图增强的生成(Graph-Enhanced Generation)

讨论了生成阶段的不同技术,包括生成器的选择、图格式的转换以及生成增强技术。

大模型 | GraphRAG技术最新全面综述(二)图引导的检索、图增强的生成、GraphRAG应用和评估_AI大模型_02

1. 生成器(Generators)的选择:根据下游任务的类型,选择合适的生成器。对于判别性任务或可以表述为判别性任务的生成性任务,可以使用图神经网络(GNNs)或判别性语言模型来学习数据的表示。对于生成性任务,则需要使用解码器。

2. 图神经网络(GNNs):GNNs因其强大的图数据表示能力而适用于判别性任务。它们可以直接编码图数据,捕捉图结构中固有的复杂关系和节点特征。

3. 语言模型(LMs):LMs在文本理解方面表现出色,可以作为生成器使用。在将LMs与图数据结合时,需要先将检索到的图数据转换为LMs能够理解的特定图格式。

4. 混合模型(Hybrid Models):许多研究探索了将GNNs和LMs整合以生成一致响应的方法。这些方法分为两种范式:级联范式和并行范式。级联范式中,GNNs首先处理图数据,然后将转换后的数据输入LMs以生成最终文本响应。并行范式则同时使用GNN和LM的能力,将它们的输出合并以产生统一的响应。

5. 图格式(Graph Formats):当使用LMs作为生成器时,需要将图数据转换为与LMs兼容的格式。这包括图语言和图嵌入两种格式,它们帮助LMs有效地处理和利用结构化图信息。

6. 图语言(Graph Languages):图语言是一套形式化的符号系统,用于描述和表示图数据。包括邻接/边表、自然语言、代码形式、语法树和节点序列等类型。

7. 图嵌入(Graph Embeddings):使用GNN将图数据表示为嵌入,提供了一种避免处理长文本输入的替代方法。然而,将图嵌入与文本表示整合到统一的语义空间中是一个核心挑战。

8. 生成增强(Generation Enhancement):在生成阶段,除了将检索到的图数据转换为生成器可接受的格式外,研究人员还探索了各种生成增强技术来提高输出响应的质量。这些方法可以根据应用阶段分为预生成增强、中生成增强和后生成增强。

9. 训练策略:总结了检索器和生成器的独立训练方法,以及它们的联合训练策略,这些方法旨在通过特定的优化来提高下游任务的性能。

图语言的说明。给定左侧部分检索到的子图,展示了如何将其转换为邻接表/边表、自然语言、节点序列、类似代码的形式和语法树,以适应不同生成器的输入形式要求。

大模型 | GraphRAG技术最新全面综述(二)图引导的检索、图增强的生成、GraphRAG应用和评估_ai_03

六、GraphRAG应用和评估

GraphRAG技术在不同领域的应用情况、基准测试、评估指标以及在工业界的应用。

1. 下游任务(Downstream Tasks):

  • GraphRAG被应用于多种自然语言处理任务,主要包括知识库问答(KBQA)和常识问答(CSQA)。
  • KBQA依赖于特定知识图谱,答案通常涉及知识图中的实体、关系或实体集合之间的操作。
  • CSQA通常以多项选择题的形式出现,需要机器利用外部常识知识图谱进行推理和得出正确答案。
  • 信息检索(Information Retrieval):
    包括实体链接(EL)和关系提取(RE)两个子任务。
    实体链接涉及识别文本中的实体并将其链接到知识图中的对应实体。
    关系提取旨在识别和分类文本中实体间的语义关系。

2. 评估指标(Metrics):

  • 评估指标主要分为两大类:下游任务评估(生成质量)和检索质量评估。
  • 例如,在KBQA中,Exact Match (EM) 和 F1 分数常用于衡量实体回答的准确性。

3. 工业应用(GraphRAG in Industry):

  • 几种工业界的GraphRAG系统,包括微软的GraphRAG、NebulaGraph的GraphRAG、蚂蚁集团的GraphRAG、Neo4j的NaLLM框架以及Neo4j的LLM Graph Builder项目。

GraphRAG的任务、基准测试、方法和评估指标

大模型 | GraphRAG技术最新全面综述(二)图引导的检索、图增强的生成、GraphRAG应用和评估_AI_04

https://arxiv.org/pdf/2408.08921
Graph Retrieval-Augmented Generation: A Survey

最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。


1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

大模型 | GraphRAG技术最新全面综述(二)图引导的检索、图增强的生成、GraphRAG应用和评估_ai_05

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

大模型 | GraphRAG技术最新全面综述(二)图引导的检索、图增强的生成、GraphRAG应用和评估_ai_06

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

大模型 | GraphRAG技术最新全面综述(二)图引导的检索、图增强的生成、GraphRAG应用和评估_AI大模型_07

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

大模型 | GraphRAG技术最新全面综述(二)图引导的检索、图增强的生成、GraphRAG应用和评估_ai_08

5. 大模型面试题

面试,不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

大模型 | GraphRAG技术最新全面综述(二)图引导的检索、图增强的生成、GraphRAG应用和评估_AI大模型_09