Technical Report - 搜索 News

春节期间最火爆的事件，就是DeepSeek掀起的AI滔天巨浪。DeepSeek的开源AI大模型DeepSeek ...

为了在负载均衡和模型性能之间取得更好的平衡，DeepSeek开创了一种无辅助损失的负载均衡策略：为每个专家引入一个偏差项，并将其添加到相应的亲和力分数中以确定top-K路由，具体来说：如果其对应的专家过载，我们将偏差项减少γ；如果其对应的专家负载不足 ...

11 小时

我们应如何看待DeepSeek的557.6万美元训练成本？

简单来说，DeepSeek-V3仅使用了2048块英伟达H800 GPU，耗费了557.6万美元就完成了训练，相比同等规模的模型（如GPT-4、GPT-4o、Llama 3.1），训练成本大幅降低。

6 天

成就DeepSeek奇迹的芯片，敲响英伟达警钟

据市场分析公司Appfigures的权威数据，DeepSeek的应用程序于1月26日首次登顶苹果App Store，并自此持续保持其全球*的霸主地位。数据统计显示，自今年初发布以来，迅速攀升至140个国家的苹果App ...

1 天

我们应如何看待DeepSeek的557.6万美元训练成本？｜甲子光年

腾讯网4 天

吴恩达｜DeepSeek 启示

受美国 AI 芯片禁令影响，DeepSeek 团队不得不在性能较低的 H800 GPU（而非 H100）上进行多项优化创新，最终以低于 600 万美元的计算成本完成了模型训练（研发成本不计）。

3 天

吴恩达：DeepSeek 启示

大约一周前，DeepSeek 发布了 DeepSeek-R1，这是一款性能对标 OpenAI o1 的杰出模型，且以 MIT 许可协议开放权重。通过 Qwen（我的团队已使用数月）、Kimi、InternVL 和 DeepSeek ...

See Hua Daily News3 天

林德宜：美国能阻挡中国AI新星DeepSeek吗？

2025年1月20日，当西方科技巨头齐聚特朗普的总统就职典礼时，一家名不见经传的中国人工智慧（AI）公司——DeepSeek（深度求索)，悄然发布了其R1模型的人工智能开源版本，并附上技术报告及不受限制的商业使用许可证。这不仅仅是普通的AI应用程式。其在多项核心指标上可以OpenAI的Cha ...

2 天

DeepSeek为何老少皆宜：只因有三宝

如何跟不了解科技行业的亲朋好友简单易懂地讲清楚 DeepSeek，颇花费了我一番脑汁，但效果还不错，比如我妈听完后一拍大腿表示：八成懂了！（咳咳，有一说一，回答这个问题还是比“为什么不结婚/生小孩”，简单多了……ㄟ (▔,▔)ㄏ ...

SHINE2 天

Ski mountaineering to make debut at Asian Winter Games

Ski mountaineering, a blend of alpine skiing and mountain climbing, is set to make its official debut at the 9th Asian Winter ...

证券之星5 天

Solid results despite supply chain constraints; expect for another strong year in 2025

Solid results despite supply chain constraints; expect for another strong year in 2025 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果