就在刚刚,来自斯坦福、UC 伯克利、华盛顿大学等机构联手发布了一款 SOTA 级推理模型 —— OpenThinker-32B ,并同时开源了高达 114k 的训练数据。 由此得到的 OpenThinker-32B,在数学、代码和科学等多个基准测试中 ...
OpenThinker-32B采用大规模数据验证和模型规模扩展,仅用少量数据便达到SOTA级别,为AI社区提供宝贵资源和启示。其开源行为引发社区关注和讨论,为强化学习研究提供新思路。在性能评估中表现出色,有望推动深度学习新篇章。
【导读】 近日,斯坦福、UC伯克利等多机构联手发布了开源推理新SOTA——OpenThinker-32B,性能直逼DeepSeek-R1-32B。其成功秘诀在于数据规模化、严格验证和模型扩展。
编辑:编辑部 【新智元导读】只用4500美元成本,就能成功复现DeepSeek?就在刚刚,UC伯克利团队只用简单的RL微调,就训出了DeepScaleR-1.5B-Preview,15亿参数模型直接吊打o1-preview,震撼业内。 强化学习迎来重大突破!
GameArena团队打造的Roblox新游《AI空间逃脱》,让你在紧张刺激的密室逃脱中,顺便就把AI模型的推理能力给评估了。这不仅比传统测试方法更有趣,还能生成宝贵的游戏数据,帮助开发者更全面地了解AI的强项与短板。
根据 Deepseek 公布的信息,许多人认为,只有训练更大规模的模型,才能真正发挥强化学习(RL)的威力。然而,训练大模型需要庞大的计算资源,让开源社区望而却步。目前的工作(如 TinyZero)仅在简单任务上复现了所谓的 “Aha moment” ...
阿里估值重构的核心,在于其AI技术首次在全球顶级科技巨头的合作中站上“甲方”席位。苹果放弃百度、DeepSeek等备选,选择阿里的通义千问Qwen系列模型,本质是对阿里技术实力的硬核认证。
Alluxio 公司创始人、董事长兼首席执行官,北京大学兼职教授李浩源日前撰文指出:随着 DeepSeek AI 的出现,生成式人工智能的传统方法正在经历一场变革。此前,该行业的运作前提是,在硬件、资金和人力方面进行大量的初始投资是必不可少的,遵循的是 “赢家通吃” 模式。DeepSeek 的出现标志着一个重大转变,这不仅是一项技术进步,也是对人工智能领域竞争动态的重新构想。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果