蚂蚁集团最新AI论文：不用高端GPU，也能训练先进MoE大模型

发布日期：2025-04-15 01:35 点击次数：61

3月24日，在日前公开的一篇论文中，蚂蚁集团公开了在资源受限环境下高效训练MoE大模型的创新方法。借助该方法，蚂蚁集团百灵团队成功在非高端GPU资源下训练出性能表现不错的大语言模型，并实现训练成本降低约20%。

随着AI大模型技术发展，凭借平衡大模型训推成本和计算效率等优势，MoE大模型架构逐渐成为厂商们争相加码的技术方向。

MoE模型性能表现出色，但其训练通常依赖昂贵的高性能计算资源，比如H100和H800。能否在资源受限环境下高效训练MoE模型？

蚂蚁集团AI团队通过训练开源MoE模型Ling-Lite和 Ling-Plus的训练实践，证明了这一点。

在论文中，蚂蚁集团AI团队表示，通过团队测试，在低端算力上训练而来的Ling-Lite 和 Ling-Plus性能表现分别与同等参数规模的阿里通义Qwen2.5-7B-Instruct 模型和 DeepSeek-V2.5-1210-Chat模型相当。

论文没有披露训练Ling-Lite 和 Ling-Plus模型所采用的5类算力的具体来源，但是从披露信息来看，这些算力的成本和性能表现差异化也很大。

不过通过一系列创新方法，比如针对模型架构和训练过程的优化，细化训练异常处理能力，以及提升模型评估效率等，蚂蚁集团AI团队降低了大规模MoE模型的训练成本。

论文披露， Ling-Plus模型的预训练跨越了五种不同的硬件配置，总共处理了9万亿个token。使用高性能硬件配置（设备D）训练1万亿个token预计成本约为635万人民币。相比之下，使用低规格硬件系统可将成本降低至约508万人民币，节省近20%的成本。

蚂蚁集团AI团队的研究工作表明，即使是资源有限的机构和团队，也有机会训练规模较大的模型。

但值得指出的是，论文并没有披露Ling-Lite 和 Ling-Plus模型在低端算力上的训练时长。虽然基于低端算力，通过采用一系列技术创新，最终能够训练出性能不错的大模型，并且实现训练成本显著下降，但如果训练时长上没有优势，可能也无法跟上AI大模型创新的节奏。

论文地址：https://arxiv.org/pdf/2503.05139