7 小时
知乎专栏 on MSN基于 1F1B 的 MoE A2A 通信计算 Overlap背景 在 MoE 模型的训练过程中,EP rank 之间的 A2A 通信在端到端时间中占据了相当大比重,对训练效率影响很大,特别是对于 Fine-grained MoE model,EP size 会比较大,跨机通信基本无法避免。那么要如何减少 EP ...
本文作者:张雅琦来源:硬AI近日,媒体报道称蚂蚁集团Ling团队成功在国产加速卡上训练出3000亿参数的MoE大语言模型,性能比肩英伟达芯片。意味着国产大模型能够寻找成本更低、效率更高的国产芯片或其他替代方案。27日,Ling团队在知乎发文,称原计划 ...
这段时间,蚂蚁一篇技术论文引发关注。论文中显示,他们推出的两款MoE大模型,能够在国产GPU上完成与英伟达同效的训练。一时间,该消息在技术圈发酵,登上了热搜,甚至还传出「计算成本低于DeepSeek」一些传闻。
IT之家 3 月 17 日消息,摩尔线程官方今日发文宣布, 已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架 。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU 上实现混合并行训练和推理,提升了训练效率与稳定性。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果