ChatGPT的Reward模块的可能替代方案

原创

TechOnly 2023-04-08 09:18:12 博主文章分类：深度学习 ©著作权

©著作权归作者所有：来自51CTO博客作者TechOnly的原创作品，请联系作者获取转载授权，否则将追究法律责任

Reward Model 是用 Policy Model 的预测结果再人工标注得到的训练数据训练的，这个训练 Reward Model 数据也可以是text-generation格式的。

Policy Model 的预测结果再人工标注得到的（本来给Reward Model的）训练数据直接用来训练 Policy Model，
把这部分数据汇入 Policy Model 的训练数据，就能取消 Reward Model 模块了。

Policy Model 的预测结果再人工标注得到的（本来给Reward Model的）训练数据直接用来训练 Policy Model，
把这部分数据取代 Policy Model 的训练数据，就能取消 Reward Model 模块了。

因为本质我们需要的是优质的text-generation格式的数据而已。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯