在人工智能领域,大语言模型(LLMs)的推理能力一直是研究的热点。这些模型在各种推理任务上展现出了类似人类的卓越表现,但它们在理解推理规则方面仍然不如人类。为了深入探究这一现象,研究者提出了一种逻辑支架推理规则生成框架,旨在构建一个包含原始和复合推理规则的规则库。通过对GPT系列模型的分析,研究者发现,与人类相比,LLMs在理解逻辑规则方面存在显著差距,尤其是在处理复合和结构复杂的规则时。此外,研究者还将这些规则提炼成一个小规模的推理引擎,用于灵活生成规则并增强下游推理任务。通过多重评估,这个推理引擎在生成准确、复杂和抽象的结论和前提方面表现出色,并在各种常识推理任务中取得了改进。总体而言,这项工作揭示了LLMs在掌握推理规则方面的局限性,并提出了增强它们逻辑推理能力的方法。

论文标题:Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs

公众号「夕小瑶科技说」后台回复“Logic”获取论文PDF!

LOIRE框架介绍

1. LOIRE框架的定义和重要性

LOIRE框架是指在推理任务中,通过抽象出底层逻辑(例如推理规则)来支持推理过程的结构。这种结构对于处理多样化的推理情境非常有益。推理规则通常定义为一组事实(前提)导致一个结论的逻辑结构。例如,如果一个人在某个物品发明之后去世,那么这个人就无法使用这个物品。这种规则的掌握使得我们能够推断出人与物品之间的可访问性。它能够揭示大型语言模型(LLMs)在理解推理规则方面的差距,尤其是在处理复杂前提的规则时。

2. LOIRE框架的两阶段操作:原始规则生成和规则组合

LOIRE(Logic scaffOlding Inferential Rule gEneration)框架通过两个阶段生成不同复杂度的推理规则:原始规则生成和规则组合。在第一阶段,定义“原始规则”来描述如“人”和“食物”这样的抽象对象,并确保它们不能被分解为更简单的规则,以便于广泛泛化和容易生成。接着,结合GPT-4的生成能力和人类专家的知识来生成高可信度的原始规则。这一过程始终受到符号逻辑的指导,涉及GPT-4起草潜在结论,并形成一个或多个事实的前提。通过模型自我批评和人工手动验证来确保规则的逻辑合理性。在第二阶段,应用逆向链接(backward chaining)到这些原始逻辑规则上,自动构建不同长度和结构的组合规则。

复旦发布!通过集成小推理引擎,赋能大模型逻辑推理能力_人工智能

构建ULogic规则库

1. ULogic规则库的构建过程

ULogic规则库的构建过程包括原始规则的生成和规则的组合。在原始规则生成阶段,通过随机选择两个抽象对象并生成潜在的谓词来形成结论,然后提示GPT-4生成相应的可行前提,从而构建候选原始规则。接下来,使用启发式方法过滤无效和非原始规则,并利用GPT-4选择逻辑上正确的规则。为了增加规则表达的多样性,研究者通过前向和后向链接算法来多样化谓词,同时保持逻辑准确性。最后,通过人工验证来确保最终高可信度的原始规则集。

2. ULogic涵盖的五个关键领域

ULogic规则库涵盖了五个关键领域:物体的可用性(affordance)、可访问性(accessibility)、交互(interaction)、位置(location)和个人的需求(person’s need)。这些领域覆盖了从物体的属性和需求(如高度、年龄、价格)到物体的物理条件、空间和时间限制,以及物体的物理、空间或时间属性(如速度、硬度、密度、高度、时间段)等不同情境。

3. ULogic规则库的统计数据

使用LOIRE框架,研究者构建了一个包含约8,000个原始规则和超过6,000个组合规则的推理规则库ULogic。这些规则跨越了五个关键领域,并且在组合深度上从0到3不等,规则长度从1到6不等。通过ULogic,希望为评估LLMs在底层逻辑方面的熟练程度提供有价值的资源,并增强灵活的规则生成和下游推理能力。

复旦发布!通过集成小推理引擎,赋能大模型逻辑推理能力_人工智能_02

复旦发布!通过集成小推理引擎,赋能大模型逻辑推理能力_人工智能_03

模型与人类的逻辑理解能力对比

1. GPT系列模型与人类在逻辑理解上的差距

在逻辑理解能力上,GPT系列模型与人类相比仍存在显著差距。尽管GPT模型在回答一些基本的逻辑问题时表现出色,例如判断达芬奇是否曾使用笔记本电脑绘画,但在面对更复杂的逻辑推理任务时,模型的表现则不尽人意。例如,当问题涉及到多个前提和结构复杂性时,GPT模型的表现就会下降。这一点在人类的逻辑理解中并不常见,因为人类能够自然地从现实世界的观察中抽象出逻辑规则,并应用于多样化的推理场景。

2. 模型在不同复杂性规则上的表现

GPT系列模型在处理不同复杂性的规则时表现不一。随着规则的组合复杂性增加,所有模型的表现均有所下降,尤其是在涉及多步推理和高阶关系理解的复杂规则上。这种表现下降可能是由于多步推理导致的错误累积,以及模型在理解自然语言中的逻辑结构方面的不足。

3. 模型在符号化和口语化规则上的表现

GPT-4在处理符号化和口语化规则上表现一致,而GPT-3.5系列模型在符号化规则上的表现则显著下降。这表明GPT-3.5系列模型可能在跨越自然语言之外的多种语言结构类型上存在局限性,而GPT-4可能经过了特定的优化,以更好地理解符号化表达。

模型偏差与局限性分析

1. 模型在不同规则结构上的表现差异

在不同规则结构上,GPT系列模型的表现存在差异。特别是在处理Disjunctive-Transitive(析取-传递)规则时,模型面临更大的挑战。这可能是由于这类规则的组合复杂性更高,以及模型在学习自然语言中的逻辑结构方面的不足。

2. 模型在推理规则的极性偏差

GPT-4和GPT-3.5-Instruct在处理推理规则时表现出明显的正向偏差,即在正向结论的规则上表现更好。这种偏差可能源于模型训练数据的不平衡分布,其中正面陈述的比例较高。

复旦发布!通过集成小推理引擎,赋能大模型逻辑推理能力_规则库_04

3. GPT-4在传递规则上的表现及其原因

在传递规则上,GPT-4的表现不如GPT-3.5-Turbo。GPT-4倾向于考虑所有必要条件以得出结论,从而避免做出明确的判断。这种保守的响应在传递规则中更为明显,GPT-4在解释中更频繁地使用“这并不一定意味着”等犹豫语气。这种保守的风格可能源自在强化学习过程中对模型偏好的调整。

规则蒸馏与推理引擎

1. 将ULogic规则蒸馏为推理引擎

为了提高大语言模型(LLMs)在逻辑推理任务中的性能,研究者提出了一种逻辑支架推理规则生成框架(LOIRE),用以构建一个包含原始和复合规则的推理规则库ULogic。这些规则覆盖了五个关键领域:对象的可用性、可访问性、交互性、位置和个人需求。通过这个框架,研究者们生成了约8,000条原始规则和超过6,000条复合规则。

研究者进一步将这些精心制作的推理规则蒸馏成一个小型的推理引擎,用于灵活的规则生成和增强下游推理任务。为此,他们设计了三个任务:结论生成、前提补全和前提生成,以构建指令调整数据集进行推理规则的蒸馏。通过多评判者评估机制,包括自动度量、LLM评估者和人类偏好,实验结果表明推理引擎在生成准确、复杂和抽象的结论和前提方面表现出色,并在各种常识推理任务中取得了改进。

2. 推理引擎在规则生成任务中的表现

推理引擎在规则生成任务中的表现经过了与GPT-4和GPT-3.5-Turbo的比较评估。在结论生成、前提补全和前提生成三个任务中,推理引擎均优于GPT-3.5-Turbo,并且在生成更复杂和抽象规则方面甚至超过了GPT-4。此外,推理引擎能够生成逻辑规则,增强下游常识推理任务的性能。

推理引擎在下游推理任务中的应用

1. 推理引擎在常识推理数据集上的表现

研究者进一步分析了推理引擎在生成逻辑规则或解释以增强下游推理任务中的有效性。他们在多个常识推理数据集上进行了评估,包括StrategyQA、SOCIAL IQA、LINK、PIQA和CSQA2.0。使用零样本链式推理(CoT)策略提示两个基线模型,Mistral-7B-Instruct-v0.1和Llama-2-7b-chat,回答问题并提供解释。然后,他们使用推理引擎生成与回答问题相关的逻辑规则或解释,并将这些生成的理由补充到基线模型的输入中,以提高其性能。比较结果表明,推理引擎能够生成有助于多个下游常识推理任务的逻辑规则或解释。

2. 推理引擎增强模型性能的案例分析

在对PIQA和CSQA2.0的评估中,推理引擎并没有表现出明显的优势,这可能是因为PIQA在Mistral的训练过程中受到了污染,而CSQA2.0主要关注的是长尾常识知识,而不是需要逻辑规则推理的问题。尽管如此,推理引擎在其他数据集上的表现证明了其在增强模型性能方面的潜力。

复旦发布!通过集成小推理引擎,赋能大模型逻辑推理能力_推理规则_05

逻辑推理与规则生成的研究进展

在逻辑推理与规则生成的领域,近年来的研究取得了显著进展。特别是,大语言模型(LLMs)在各种推理任务中展现出了类似人类的卓越表现。然而,它们在掌握推理规则方面仍然不如人类。为了探索这一问题,研究者提出了一种逻辑支架推理规则生成框架(LOIRE),旨在构建一个包含原始和复合规则的推理规则库ULogic,涵盖五个领域。通过对GPT系列模型的分析,发现它们在逻辑理解方面与人类表现存在显著差距,尤其是在复合和结构复杂的规则上。

1. 原始规则生成

研究者首先定义了“原始规则”,这些规则描述了如“人”和“食物”这样的抽象对象,并确保它们不能被分解为更简单的规则。这种方法有助于广泛的泛化和容易的生成。接着,结合GPT-4的生成能力和人类专家的知识,生成了高置信度的原始规则。这个过程始终受到符号逻辑的指导,涉及GPT-4起草潜在的结论,并形成具有一个或多个事实的前提。通过模型的自我批评和人工手动验证来确保规则的逻辑合理性。

2. 规则组合

在原始逻辑规则的基础上,研究者应用了向后链接算法,自动构建了不同长度和结构的复合规则。这些规则覆盖了对象可用性、可访问性、交互、位置和个人需求等五个关键领域

3. 规则库ULogic

使用LOIRE框架,研究者构建了一个包含约8000个原始规则和超过6000个复合规则的推理规则库ULogic。这些规则涵盖了五个关键领域,并希望ULogic能够作为一个宝贵的资源,有助于评估LLMs在逻辑推理方面的熟练程度,并增强灵活的规则生成和下游推理。

总结与展望

1. LLMs在逻辑推理上的挑战

尽管LLMs在逻辑推理方面取得了一定的进步,但与人类的表现相比,它们在理解推理规则方面仍有很大的提升空间。特别是在处理复合和结构复杂的规则时,LLMs表现出明显的不足。此外,研究还发现LLMs在某些偏见模式下存在显著差异,例如GPT-4表现出必要性偏见,这突显了需要改进的领域。

2. 未来研究方向

未来的研究方向可能包括进一步提炼和优化推理规则,以便在更小规模的推理引擎中灵活生成规则,并增强下游推理任务。通过多评判者评估,这种推理引擎在生成准确、复杂和抽象的结论和前提方面被证明是有效的,并且在各种常识推理任务中表现出色。此外,研究者还可以探索如何利用LLMs的优势来弥补它们在逻辑推理方面的不足,例如通过结合符号逻辑和自然语言处理的混合方法来提高模型的推理能力。

总体而言,当前的工作揭示了LLMs在逻辑推理能力上的局限性,并提出了增强其推理能力的途径。随着技术的不断进步,未来的LLMs有望在逻辑推理方面取得更大的突破,从而更好地模拟人类的推理过程。

公众号「夕小瑶科技说」后台回复“Logic”获取论文PDF!

复旦发布!通过集成小推理引擎,赋能大模型逻辑推理能力_推理规则_06