megatron - 搜索 News

1 天

近日，媒体报道称成功在国产加速卡上训练出3000亿参数的MoE大语言模型，性能比肩英伟达芯片。意味着国产大模型能够寻找成本更低、效率更高的国产芯片或其他替代方案。 27日，Ling团队在知乎发文，称原计划在月底的小型技术沙龙上分享这些经验，但由于媒体提前关注，他们决定提前公开“抠 FLOPS 的一些点滴”。

1 天

蚂蚁国产GPU训练大模型细节曝光！Ling模型研发负责人回应：关于我们 ...

这段时间，蚂蚁一篇技术论文引发关注。论文中显示，他们推出的两款MoE大模型，能够在国产GPU上完成与英伟达同效的训练。一时间，该消息在技术圈发酵，登上了热搜，甚至还传出「计算成本低于DeepSeek」一些传闻。

8 天

从手足到宿敌：擎天柱与威震天的变形人生揭秘

在变形金刚的世界中，擎天柱与威震天两位领袖之间的关系总是让粉丝们无限感慨。从昔日的亲密无间，到如今的水火不容，这对手足兄弟的宿命究竟是怎样构成的？在即将到来的电影《变形金刚：起源》中，这段传奇故事将被重新演绎，让我们一探究竟。擎天柱（Optimus Prime）作为汽车人的领袖，以其高尚的品德和坚定的信念赢得了族人的拥护；而威震天（Megatron）则是霸天虎的首领，个性刚愎自用，追求无上的权力 ...

腾讯网10 天

摩尔线程开源 MT-MegatronLM、MT-TransformerEngine AI 框架

IT之家 3 月 17 日消息，摩尔线程官方今日发文宣布，已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库，在国产全功能 GPU ...

10 天

摩尔线程开源 MT-MegatronLM 和 MT-TransformerEngine 两大 AI 框架

IT之家 3 月 17 日消息，摩尔线程官方今日发文宣布，已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库，在国产全功能 GPU 上实现混合并行训练和推理，提升了训练效率与稳定性。

IT之家28 天

摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe

目前，MT-DualPipe 可以完整接入摩尔线程 MT-Megatron 框架和 MT-TransformerEngine 框架（即将开源），实现 DeepSeek V3 训练流程完整复现。此外，MT-DualPipe 结合 MT-Megatron 可实现完整 DeepSeek V3 模型 MLP-FFN 分离以及 DW-DG 分离，进一步降低气泡占比，优化通信效率。同时 ...

新浪网1 个月

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

由于Muon需要完整的梯度矩阵来计算正交化的更新量，而现有的分布式训练框架（如ZeRO-1、Megatron-LM等）都假设优化器状态可以独立地按元素切分到不 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果