为什么要模型微调

「微调」 是利用预训练LLM并训练至少一个内部参数(即权重),通常是使用预训练好的通用基础模型(例如GPT-3)转换为特定用例(例如 ChatGPT)的专用模型。

大模型微调(一)为什么要模型微调?_人工智能

与完全依赖 「监督训练」 的模型做提示词工程相比,微调后的模型可以实现更好的性能,同时需要(远)更少的手动标记示例(优点之一)。

虽然在提示工程的帮助下,严格的 「自监督基础模型」 可以在多种任务中表现较好的性能,但这些基础模型仍然是单词预测器,可能生成不完全有用或不准确的结果。由于LLM是有限上下文窗口(context window),所以这些模型在需要大量特定领域知识的任务上性能有限。微调模型可以通过在微调过程中“学习”这些特定领域信息来避免此问题。这也避免使用额外的上下文填充提示,从而降低推理成本。

例如,比较 davinci(基于GPT-3模型)和 text-davinci-003(微调模型)如下。

大模型微调(一)为什么要模型微调?_ai_02

text-davinci-003 是对齐微调(alignment tuning[1]),旨在使 LLM 的响应更有帮助、更诚实、更无害。

微调不仅可以提高基础模型的性能,而且针对较小的预训练模型进行特定任务集的微调通常可以胜过较大的模型。OpenAI 用他们的第一代“InstructGPT[2]”模型已证明,1.3B参数 InstructGPT 模型的完成率优于175B参数 GPT-3 基本模型。