yuan - 搜索 News

知乎 on MSN54 分钟

4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

编辑：编辑部【新智元导读】只用4500美元成本，就能成功复现DeepSeek？就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。强化学习迎来重大突破！

一些您可能无法访问的结果已被隐去。

显示无法访问的结果