DeepSeek-R1 质疑了这样一种假设,即通过对正确或错误行为的标记示例进行训练,或者从隐藏模式中提取信息,模型的推理能力就会得到提高。 密歇根州立大学博士生张逸骅 撰写了数十篇机器学习方面的论文,他说:"它的核心假设很简约,却不那么简单: 我们能否只通过奖励信号来教会模型正确回答,从而让它自己摸索出最优的思考方式? " ...