随着大语言模型(LLM)时代的到来,传统优化方法正面临硬件与系统层面的多重瓶颈,主要表现为反向传播引起的内存限制(内存墙)、分布式网络中的通信开销(通信墙)以及处理敏感数据时的隐私保护问题(隐私墙) … 来自浙江大学 APRIL Lab、复旦大学、上海交大及新加坡国立大学的联合团队发布了最新长文综述,不仅系统回顾了深度学习优化算法的演进轨迹,还针对多种模型架构和训练场景对主流优化器进行了全面的实证评估,为下一代高效、鲁棒、可信的优化方法设计提供了极具价值的实践指南 … 在深入探讨优化器的演进历史之前,研究团队首先介绍了深度学习复杂的优化环境。

