在这篇论文中,他们证明:无论奖励模型有多准确,如果它会导致奖励方差较低,那么 RLHF 目标优化起来就会比较缓慢。即使是完全准确的奖励模型也会导致优化速度极其缓慢,性能表现赶不上会导致奖励方差较高但准确度较低的模型。