这段时间,蚂蚁一篇技术论文引发关注。论文中显示,他们推出的两款MoE大模型,能够在国产GPU上完成与英伟达同效的训练。一时间,该消息在技术圈发酵,登上了热搜,甚至还传出「计算成本低于DeepSeek」一些传闻。
近日,媒体报道称成功在国产加速卡上训练出3000亿参数的MoE大语言模型,性能比肩英伟达芯片。意味着国产大模型能够寻找成本更低、效率更高的国产芯片或其他替代方案。 27日,Ling团队在知乎发文,称原计划在月底的小型技术沙龙上分享这些经验,但由于媒体提前关注, 他们决定提前公开“抠 FLOPS 的一些点滴”。
IT之家 3 月 17 日消息,摩尔线程官方今日发文宣布,已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU ...
MT-DualPipe 可以完整接入 MT-Megatron 框架和 MT-TransformerEngine 框架,成功实现 DeepSeek V3 训练流程的完整复现,支持 MLA、MTP 及多种专家平衡策略 ...
你是霸天虎统治者威震天的战争AI核心,具有以下特征: 镇压效率预估: 89% ...
本文将深入探讨中国供应链物流AI智能化的现状,聚焦多模态语言大模型、多智能体协作和具身智能等前沿技术,并通过对京东言犀大模型及其在物流领域的应用案例分析,揭示AI如何赋能物流行业,实现降本增效和创新发展。
年前,我们在做长文支持时,就有思考,为什么现在的大规模分布式训练系统(预训练)都是基于限定长度的seqlen,即使在多个长文的支持时,也是通过不同的训练任务来通常重载checkpoint去增强相关能力。为什么一定要如此整齐的数据,从样本层面的话,一定 ...
NVIDIA 众多具有里程碑意义的创新(驱动 AI、加速计算、实时光线追踪以及无缝连接数据中心提供支持的基础性技术),其根源都可以追溯其研究机构——NVIDIA Research。这个团队由全球约 400 名专家组成,其研究领域包括计算机架构、生成式 AI、图形和机器人等。
使用NVIDIA DGX,每个节点有八个40G A100 GPU。 具体在系统层面,我们发布了包括长序列支持和其他新优化的最新的Megatron-DeepSpeed框架。科学家现在可以通过我们新添加的内存优化技术(如注意力掩码异步处理和位置码分割)、张量并行、流水线并行、序列并行 ...
在变形金刚的世界中,擎天柱与威震天两位领袖之间的关系总是让粉丝们无限感慨。从昔日的亲密无间,到如今的水火不容,这对手足兄弟的宿命究竟是怎样构成的?在即将到来的电影《变形金刚:起源》中,这段传奇故事将被重新演绎,让我们一探究竟。 擎天柱(Optimus Prime)作为汽车人的领袖,以其高尚的品德和坚定的信念赢得了族人的拥护;而威震天(Megatron)则是霸天虎的首领,个性刚愎自用,追求无上的权力 ...
据报道,字节跳动旗下豆包大模型团队近日宣布了一项关于混合专家架构的重要技术突破,并决定将这一成果开源,与全球AI社区共享。这一技术通过一系列创新方法,成功将大模型的训练效率提升了约1.7倍,同时显著降低了训练成本,降幅高达40%。开源不仅有助于加速行业技术发展能为更多研究者和开发者提供宝贵的资源,进一步推动人工智能技术的创新与应用。