Advancing LLM Reasoning Generalists with Preference Trees

相关链接:arXiv 关键字:LLMreasoningpreference learningULTRAINTERACT

摘要

我们介绍了Eurus,一系列针对推理任务优化的大型语言模型(LLM)。Eurus模型基于Mistral-7B和CodeLlama-70B进行微调,实现了在多个涵盖数学、代码生成和逻辑推理问题的基准测试中的最先进性能。值得注意的是,Eurus-70B在12个测试覆盖五个任务的全面基准测试中击败了GPT-3.5 Turbo,并在LeetCode和TheoremQA这两个具有挑战性的基准测试中分别达到了33.3%的pass@1准确率和32.6%,显著优于现有的开源模型,性能提升超过13.3%。Eurus的强大性能主要归功于ULTRAINTERACT,这是我们新策划的大规模、高质量的对齐数据集,专门设计用于复杂推理任务。ULTRAINTERACT可以用于监督式微调和偏好学习。对于每个指令,它包括一个偏好树,包含(1)多样化的推理链,以统一的格式展示不同的规划策略,(2)与环境和批评的多轮交互轨迹,以及(3)成对的数据以促进偏好学习。ULTRAINTERACT使我们能够深入探索推理任务的偏好学习。我们的调查揭示了一些在一般对话中效果显著的偏好学习算法在推理任务中可能不太适用。受此启发,我们推导出了一个新的奖励建模目标,结合ULTRAINTERACT,形成了一个强大的奖励模型。

核心方法

image.png

  1. ULTRAINTERACT数据集:一个专门为复杂推理任务设计的大规模、高质量的对齐数据集,包含数学、编码和逻辑推理问题。
  2. 偏好树:对于每个指令,收集一个包含多样化推理链、多轮交互轨迹和成对正确与错误行动的偏好树。
  3. 奖励建模:基于ULTRAINTERACT数据集,开发了一种新的奖励建模目标,以提高选择数据的奖励值并降低拒绝数据的奖励值。

实验说明

Eurus模型在多个复杂推理基准测试上进行了评估,包括LeetCode和TheoremQA等具有挑战性的基准测试。实验结果表明,Eurus模型在这些任务上取得了显著的性能提升。

结论

我们的工作推动了开源推理通用模型的界限,通过(1)发布高质量的多轮推理数据集ULTRAINTERACT,(2)引入在具有挑战性的推理基准测试上取得新SOTA的Eurus系列LLMs,以及(3)通过分析提供对推理偏好学习的见解,导致新的奖励建模目标和强大的推理奖励模型。