Llama 3 邂逅 MoE:开创低成本高性能 AI
Transformer 对自然语言处理 (NLP) 和计算机视觉 (CV) 的变革性影响是不可否认的。它们的扩展性和有效性推动了这些领域的进步,但这些模型日益增长的复杂性导致计算成本飙升。解决这一挑战已成为当务之急,促使人们探索混合专家 (MoE) 架构等替代方法,这些方法旨在提高模型容量,而不会成比例地增加计算量。然而,从零开始训练 MoE 模型充满了困难,包括过度拟合和路由机制的不稳定性。为了解决这些问题,德克萨斯大学奥斯汀分校和 NVIDIA 的研究人员在他们的论文《Llama 3 Meets MoE: Efficient Upcycling》中提出了一种突破性的方法。该团队创新的训练方法能够使用 Llama 3-8B 开发一个 8-Expert Top-2 MoE 模型,其计算量不到通常预训练所需计算量的 1%。研究人员重点介绍了以下主要成就:高效的 MoE 训练框架:他们提出了一种基于 Llama 3-8B 架构使用混合学术数据集训练 8-Expert Top-2 (E8T2) MoE 模型的框架。他们的方法所需的计算量不到标准预训练计算量的 1%。增强的下游任务性能:该模型在常识推理和知识基准测试(例如 MMLU)上表现出改进的性能。全面的消融研究:他们进行了两次消融实验,以验证用于训练的容量因子和路由算法的选择。与 NeMo 集成:在线升级在 NeMo 中实现,允许预训练模型权重有效地初始化和训练 MoE 模型。该方法从预训练语言模型的密集检查点开始。密集模型中的一部分前馈层被转换为 MoE 层。具体来说,每个前馈层被复制“N”次以初始化专家,而