Advancing LLM Reasoning Generalists with Preference Trees

原创

liferecords 2024-04-03 11:51:36 博主文章分类：LLM ©著作权

文章标签 基准测试数据集建模 文章分类 计算机视觉人工智能 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者liferecords的原创作品，请联系作者获取转载授权，否则将追究法律责任

Advancing LLM Reasoning Generalists with Preference Trees

相关链接：arXiv 关键字：LLM、reasoning、preference learning、ULTRAINTERACT

摘要

我们介绍了Eurus，一系列针对推理任务优化的大型语言模型（LLM）。Eurus模型基于Mistral-7B和CodeLlama-70B进行微调，实现了在多个涵盖数学、代码生成和逻辑推理问题的基准测试中的最先进性能。值得注意的是，Eurus-70B在12个测试覆盖五个任务的全面基准测试中击败了GPT-3.5 Turbo，并在LeetCode和TheoremQA这两个具有挑战性的基准测试中分别达到了33.3%的pass@1准确率和32.6%，显著优于现有的开源模型，性能提升超过13.3%。Eurus的强大性能主要归功于ULTRAINTERACT，这是我们新策划的大规模、高质量的对齐数据集，专门设计用于复杂推理任务。ULTRAINTERACT可以用于监督式微调和偏好学习。对于每个指令，它包括一个偏好树，包含（1）多样化的推理链，以统一的格式展示不同的规划策略，（2）与环境和批评的多轮交互轨迹，以及（3）成对的数据以促进偏好学习。ULTRAINTERACT使我们能够深入探索推理任务的偏好学习。我们的调查揭示了一些在一般对话中效果显著的偏好学习算法在推理任务中可能不太适用。受此启发，我们推导出了一个新的奖励建模目标，结合ULTRAINTERACT，形成了一个强大的奖励模型。