Large language models(LLMs)在自然语言处理领域取得了显著进展,但它们仍然会产生错误。自我纠错(self - correction)是一种提高 LLMs 响应质量的方法,通过在推理过程中使用 LLMs 来改进响应。然而,关于 LLMs 何时能够成功自我纠错,目前尚无定论。本文对相关研究进行了批判性调研,探讨了成功自我纠错所需的条件。

一、研究背景

自我纠错是通过在推理过程中使用 LLMs 来改进响应的一种方法,已有许多研究在不同任务中对其进行了探讨。但近期研究也报告了一些负面结果,表明 LLMs 在某些情况下无法自我纠错或自我检测错误,这表明需要对自我纠错进行进一步分析。

二、自我纠错的定义与分类

  1. 定义:在推理过程中使用 LLMs 来改进响应,可能会使用外部工具或知识。
  • 框架分类:按反馈生成方式可分为显式反馈和直接细化;按纠错时机分为事后纠正和生成时纠正;按使用模型分为同模型和跨模型。
  • 按初始响应质量分为现实的(包括公平的和不公平的)和不现实的。

3. 反馈来源:包括内在的、外部信息和微调。

4. 任务类型:包括推理、知识、上下文生成、开放式生成等。

三、研究问题

目前存在三个研究问题。其一,RQ1:大语言模型(LLMs)能否仅基于自身固有能力自我纠正最佳初始响应呢?在一般任务中,目前尚无主要工作表明通过提示大语言模型生成的反馈能成功实现自我纠错,但在响应可分解或可验证的任务中,自我纠错是有效的。其二,RQ2:大语言模型能否借助外部反馈自我纠正最佳初始响应呢?在有可靠外部反馈的任务中,自我纠错是有效的。并且微调在有大量训练数据时有效,只是小训练数据的情况未得到充分探索。其三,RQ3:自我纠错的最终输出是否优于其他方法呢?由于自我纠错通常未与足够强大的基线进行比较,所以目前尚不清楚它是否优于其他方法。

四、先前工作的分析

  1. 使用提示的自我纠错:一些研究提出内在自我纠错方法,但近期研究表明在很多任务中效果不佳。原因可能是反馈生成存在瓶颈,且先前研究多使用不公平设置,过度评估了自我纠错。但在某些任务中,如响应可分解或可验证的任务,自我纠错效果较好。
  2. 使用外部工具或知识的自我纠错:使用外部工具或知识改进反馈有前途,但需注意使用方式,避免不公平评估。
  3. 使用微调的自我纠错:微调 LLMs 可提高自我纠错能力,但很多方法依赖大量训练数据,未来需探索不需要大规模人类标注的方法,且一些研究对自我纠错模型的微调强于初始响应生成模型,无法评估从最佳初始响应中的改进。

五、总结与未来方向

1、瓶颈在于反馈生成:当前,大语言模型(LLMs)面临的一个重要问题是难以生成可靠反馈,因此在未来需要对生成反馈的质量进行分析。

2、适合自我纠错的任务特性主要有以下几个方面:
首先是内在自我纠错,适用于响应可分解或可验证的任务。
其次是使用外部信息的自我纠错,即对于有可靠外部工具或响应可获取有用信息的任务较为有效。
再者是使用微调的自我纠错,适合有大量训练数据或可使用强化学习等任务。

3、未来方向包括:
其一,改进反馈,可以应用基于大语言模型的评估指标。
其二,探索未开发的任务,因为可能存在内在自我纠错效果良好的未探索任务。
其三,微调与小训练数据,探索小训练数据的自我纠错方法。
其四,预训练以改善自我纠错,即探索预训练策略来提高大语言模型的内在自我纠错能力。

总之,本文对 LLMs 自我纠错进行了全面分析和讨论,指出问题和未来方向,对推动 LLMs 发展具有重要意义。更多内容大家可以来卡奥斯智能交互引擎解锁,探索工业知识,参与讨论。