3月24日,在日前公开的一篇论文中,蚂蚁集团公开了在资源受限环境下高效训练MoE大模型的创新方法。借助该方法,蚂蚁集团百灵团队成功在非高端GPU资源下训练出性能表现不错的大语言模型,并实现训练成本降低约20%。
随着AI大模型技术发展,凭借平衡大模型训推成本和计算效率等优势,MoE大模型架构逐渐成为厂商们争相加码的技术方向。
MoE模型性能表现出色,但其训练通常依赖昂贵的高性能计算资源,比如H100和H800。能否在资源受限环境下高效训练MoE模型?
蚂蚁集团AI团队通过训练开源MoE模型Ling-Lite和 Ling-Plus的训练实践,证明了这一点。
在论文中,蚂蚁集团AI团队表示,通过团队测试,在低端算力上训练而来的Ling-Lite 和 Ling-Plus性能表现分别与同等参数规模的阿里通义Qwen2.5-7B-Instruct 模型和 DeepSeek-V2.5-1210-Chat模型相当。
论文没有披露训练Ling-Lite 和 Ling-Plus模型所采用的5类算力的具体来源,但是从披露信息来看,这些算力的成本和性能表现差异化也很大。
不过通过一系列创新方法,比如针对模型架构和训练过程的优化,细化训练异常处理能力,以及提升模型评估效率等,蚂蚁集团AI团队降低了大规模MoE模型的训练成本。
论文披露, Ling-Plus模型的预训练跨越了五种不同的硬件配置,总共处理了9万亿个token。使用高性能硬件配置(设备D)训练1万亿个token预计成本约为635万人民币。相比之下,使用低规格硬件系统可将成本降低至约508万人民币,节省近20%的成本。
蚂蚁集团AI团队的研究工作表明,即使是资源有限的机构和团队,也有机会训练规模较大的模型。
但值得指出的是,论文并没有披露Ling-Lite 和 Ling-Plus模型在低端算力上的训练时长。虽然基于低端算力,通过采用一系列技术创新,最终能够训练出性能不错的大模型,并且实现训练成本显著下降,但如果训练时长上没有优势,可能也无法跟上AI大模型创新的节奏。
论文地址:https://arxiv.org/pdf/2503.05139
