Tech Vivak - 搜索 News

2 天

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

在这篇论文中，他们证明：无论奖励模型有多准确，如果它会导致奖励方差较低，那么 RLHF 目标优化起来就会比较缓慢。即使是完全准确的奖励模型也会导致优化速度极其缓慢，性能表现赶不上会导致奖励方差较高但准确度较低的模型。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果