Reward Model 是用 Policy Model 的预测结果 再人工标注 得到的训练数据 训练的,这个训练 Reward Model 数据也可以是text-generation格式的。

替代方案1

Policy Model 的预测结果 再人工标注 得到的(本来给Reward Model的)训练数据 直接用来训练 Policy Model,
把这部分数据 汇入 Policy Model 的训练数据,就能取消 Reward Model 模块了。

替代方案2

Policy Model 的预测结果 再人工标注 得到的(本来给Reward Model的)训练数据 直接用来训练 Policy Model,
把这部分数据 取代 Policy Model 的训练数据,就能取消 Reward Model 模块了。

总结

因为本质我们需要的是优质的text-generation格式的数据而已。