近日,媒体报道称成功在国产加速卡上训练出3000亿参数的MoE大语言模型,性能比肩英伟达芯片。意味着国产大模型能够寻找成本更低、效率更高的国产芯片或其他替代方案。 27日,Ling团队在知乎发文,称原计划在月底的小型技术沙龙上分享这些经验,但由于媒体提前关注, 他们决定提前公开“抠 FLOPS 的一些点滴”。
这段时间,蚂蚁一篇技术论文引发关注。论文中显示,他们推出的两款MoE大模型,能够在国产GPU上完成与英伟达同效的训练。一时间,该消息在技术圈发酵,登上了热搜,甚至还传出「计算成本低于DeepSeek」一些传闻。
在变形金刚的世界中,擎天柱与威震天两位领袖之间的关系总是让粉丝们无限感慨。从昔日的亲密无间,到如今的水火不容,这对手足兄弟的宿命究竟是怎样构成的?在即将到来的电影《变形金刚:起源》中,这段传奇故事将被重新演绎,让我们一探究竟。 擎天柱(Optimus Prime)作为汽车人的领袖,以其高尚的品德和坚定的信念赢得了族人的拥护;而威震天(Megatron)则是霸天虎的首领,个性刚愎自用,追求无上的权力 ...
IT之家 3 月 17 日消息,摩尔线程官方今日发文宣布,已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU ...
IT之家 3 月 17 日消息,摩尔线程官方今日发文宣布, 已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架 。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU 上实现混合并行训练和推理,提升了训练效率与稳定性。
目前,MT-DualPipe 可以完整接入摩尔线程 MT-Megatron 框架和 MT-TransformerEngine 框架(即将开源),实现 DeepSeek V3 训练流程完整复现。此外,MT-DualPipe 结合 MT-Megatron 可实现完整 DeepSeek V3 模型 MLP-FFN 分离以及 DW-DG 分离,进一步降低气泡占比,优化通信效率。同时 ...
由于Muon需要完整的梯度矩阵来计算正交化的更新量,而现有的分布式训练框架(如ZeRO-1、Megatron-LM等)都假设优化器状态可以独立地按元素切分到不 ...