大型语言模型(如GPT-4、Qwen2和LLaMA)在自然语言处理领域取得了革命性的进展,但它们可能面临领域特定知识的缺乏、信息更新不及时等问题。

GraphRAG通过利用图结构信息,提供了一种解决方案,以更精确和全面的方式检索信息,生成更准确、上下文相关的回答。

直接语言模型(Direct LLM)、检索增强型语言模型(RAG)和图检索增强型语言模型(GraphRAG)之间的比较。在给定用户查询的情况下,直接语言模型(LLMs)可能因为回答浅显或缺乏具体性而受到影响。检索增强型语言模型(RAG)通过检索相关文本信息来解决这个问题,一定程度上缓解了这个问题。然而,由于文本的长度和实体关系的自然语言表达的灵活性,RAG在强调问题核心的“影响”关系方面存在困难。而图检索增强型语言模型(GraphRAG)方法利用图数据中明确的实体和关系表示,通过检索相关的结构化信息,能够提供精确的答案。

大模型 | GraphRAG技术最新全面综述(一)GraphRAG概述、基于图的索引(Graph-Based Indexing)_大模型

一、GraphRAG与相关技术

与RAG(Retrieval-Augmented Generation)相比,GraphRAG特别关注从图数据库中检索相关的关系知识,而不仅仅是文本。

与基于图的大型语言模型(LLMs on Graphs)和知识库问答(KBQA)技术相比,GraphRAG专注于检索外部图结构数据库中的相关图元素。

二、GraphRAG概述

GraphRAG框架利用外部结构化知识图谱来提高语言模型的上下文理解能力,并生成更有信息量的回答。

问题回答任务的GraphRAG框架概述。将GraphRAG分为三个阶段:G-索引(G-Indexing)、G-检索(G-Retrieval)和G-生成(G-Generation)。将检索来源归类为开源知识图谱和自构建的图数据。为了提高结果的相关性,可能采用各种增强技术,如查询增强和知识增强。与直接使用检索到的文本进行生成的RAG不同,GraphRAG需要将检索到的图信息转换成生成器可接受的模式,以提高任务性能。

大模型 | GraphRAG技术最新全面综述(一)GraphRAG概述、基于图的索引(Graph-Based Indexing)_ai_02

三、基于图的索引(Graph-Based Indexing)

讨论了构建和索引图数据库的方法,包括公开知识图谱和自构建图数据。

1. 图数据库的构建和索引:图数据库的质量和结构直接影响GraphRAG的性能。图数据库可以来源于公开的知识图谱、图数据,或者基于专有数据源(如文本或其他形式的数据)构建。

2. 图数据的分类:作者将图数据分为两类:

  • 开放知识图谱:指从公开可获取的存储库或数据库中获取的图数据,可以进一步分为通用知识图谱和领域知识图谱。
  • 自构建图数据:允许研究者根据特定任务的需求定制和整合专有或领域特定的知识。

4. 通用知识图谱:存储一般性、结构化的知识,通常依赖于全球社区的集体输入和更新,以确保信息的全面性和持续更新。例如,Wikidata、Freebase、DBpedia和YAGO等。

5. 领域知识图谱:针对特定领域构建的知识图谱,它们提供了特定领域的专业知识,帮助模型更深入地了解复杂专业关系。

6. 自构建图数据:研究者常常从多个来源(如文档、表格和其他数据库)构建图,并利用GraphRAG来提升任务性能。这些自构建的图与特定方法的设计紧密相关。

7. 索引方法:为了提高查询操作的效率和速度,图数据库采用了多种索引方法,包括图索引、文本索引和向量索引:

  • 图索引:保持图的完整结构,便于访问任何给定节点的所有边和邻接节点。
  • 文本索引:将图数据转换为文本描述,以优化检索过程。
  • 向量索引:将图数据转换为向量表示,以提高检索效率。

9. 索引的重要性:索引不仅影响检索方法和粒度,还直接影响到检索阶段的效率。