这段时间,蚂蚁一篇技术论文引发关注。论文中显示,他们推出的两款MoE大模型,能够在国产GPU上完成与英伟达同效的训练。一时间,该消息在技术圈发酵,登上了热搜,甚至还传出「计算成本低于DeepSeek」一些传闻。
近日,媒体报道称成功在国产加速卡上训练出3000亿参数的MoE大语言模型,性能比肩英伟达芯片。意味着国产大模型能够寻找成本更低、效率更高的国产芯片或其他替代方案。 27日,Ling团队在知乎发文,称原计划在月底的小型技术沙龙上分享这些经验,但由于媒体提前关注, 他们决定提前公开“抠 FLOPS 的一些点滴”。
年前,我们在做长文支持时,就有思考,为什么现在的大规模分布式训练系统(预训练)都是基于限定长度的seqlen,即使在多个长文的支持时,也是通过不同的训练任务来通常重载checkpoint去增强相关能力。为什么一定要如此整齐的数据,从样本层面的话,一定 ...
NVIDIA 众多具有里程碑意义的创新(驱动 AI、加速计算、实时光线追踪以及无缝连接数据中心提供支持的基础性技术),其根源都可以追溯其研究机构——NVIDIA Research。这个团队由全球约 400 名专家组成,其研究领域包括计算机架构、生成式 AI、图形和机器人等。
使用NVIDIA DGX,每个节点有八个40G A100 GPU。 具体在系统层面,我们发布了包括长序列支持和其他新优化的最新的Megatron-DeepSpeed框架。科学家现在可以通过我们新添加的内存优化技术(如注意力掩码异步处理和位置码分割)、张量并行、流水线并行、序列并行 ...