用户发布的文档
加载速度比较慢比较慢,请稍等,手机环境下,有可能无法显示!
" width="100%" height="800">
计算出的梯度更新越完整,模型训练效果越好。Adam、RMSProp等自适应优化器之所以成为LLM训练的标配,正是因为它们能利用完整的梯度信息进行精细的参数调整。
但这篇来自Google和西北大学的论文提出了一个反直觉的发现:
💡 随机丢弃50%的参数更新,不仅不会损害训练,反而能显著提升模型性能!
图1:尽管丢弃了一半更新,SkipUpdate在所有模型规模上都显著优于密集优化器
从60M到1B参数的Llama模型,这种名为SkipUpdate的简单策略 consistently 击败了包括Muon在内的SOTA优化器。这不禁让人思考:我们是否真的需要每一次梯度更新?
SkipUpdate:最简单的有效策略
核心算法
SkipUpdate的算法极其简单(Algorithm 1):
关键设计:
- 随机掩码:每个参数块以50%概率被跳过
- 动量保持:即使参数不更新,动量估计仍密集更新
- 无偏校正:缩放因子 s_t = 1/p = 2 保证更新无偏
为什么这能work?理论揭秘
论文提出了一个关键理论发现(Proposition 1):
随机掩码引入曲率相关的几何正则化
核心洞察:随机掩码在期望损失中引入了一个曲率惩罚项:
这个几何正则化项会:
- 惩罚高曲率方向的更新→ 避开"陡峭"的局部最优
- 平滑优化轨迹→ 偏向损失景观的平坦区域
- 隐式实现Sharpness-Aware效果→ 无需SAM的额外计算
Transformer的Hessian天然具有块对角结构,这使得块级掩码恰好对准了主要的曲率交互方向。
Magma:从随机掩码到智能掩码
SkipUpdate对所有参数块"一视同仁"地掩码,但Transformer的参数具有显著的异质性——不同层的Hessian谱和梯度方差差异巨大。
核心创新:动量-梯度对齐
Magma (Momentum-aligned gradient masking) 的核心思想:
梯度与动量方向一致的更新更可能是信号,方向冲突的更新更可能是噪声
图2:在Nano MoE上,Magma显著提升了Adam和Muon的性能
对齐分数计算
- 高对齐度→ 接近1的缩放因子 → 保留更新
- 低对齐度→ 接近0的缩放因子 → 抑制更新
- 温度参数τ=2 控制敏感度
关键优势:
- ✅零额外开销:仅乘以现有对齐分数,无新增内存/计算
- ✅即插即用:包装任意自适应优化器
- ✅理论保证:保持几何正则化,同时增强稳定性
实验结果:全面碾压SOTA
Llama 2预训练(C4数据集)
表1:不同模型规模下的验证困惑度(↓越低越好)
震撼结果:
🔥 1B模型上,Magma相比Adam降低困惑度19%,相比Muon降低9%!
MoE架构:复杂优化的试金石
图2:Nano MoE预训练的优化轨迹
MoE(混合专家模型)因动态路由、负载均衡等机制,优化景观极其复杂。Magma在此场景下:
- 与Muon+Magma组合达到最佳性能
- 显著优于Cautious Optimizer(同样利用动量-梯度对齐,但缺乏随机掩码的几何正则化)
重尾噪声环境:Magma的鲁棒性
图3:在重尾噪声分布下,Magma显著优于Adam
LLM训练中的梯度噪声具有重尾特性。在受控实验中:
- 轻尾噪声:Adam和Magma表现相当
- 重尾噪声:Magma大幅领先,且保持更小的条件数(图3 bottom)
这说明Magma的曲率感知正则化能有效抑制极端梯度波动的影响。
异构二次函数:验证理论假设
图4:在异构Hessian结构上,Magma显著优于AdamW
关键发现:
- 同构结构:两者性能接近
- 异构结构(模拟Transformer特性):Magma收敛更快、最终损失更低
- CNN场景(ResNet-50):Magma无优势,验证了其专属于Transformer-like几何
理论分析:为什么Magma有效?
收敛性保证(Theorem 6)
论文给出了非凸优化下的收敛率:
关键洞察:
- 对齐分数同时影响下降效率和噪声水平
- 对高曲率/高方差块的选择性抑制,扩大了稳定学习率范围
- 这解释了为什么Magma对学习率更鲁棒(见附录Figure A3)
与现有工作的区别
方法 | 机制 | 几何正则化 | 额外开销 |
Cautious Optimizer | 确定性掩码(符号冲突时) | ❌ 无 | 无 |
SAM | 对抗扰动 | ✅ 有 | 2x梯度计算 |
GaLore | 子空间投影 | ❌ 无 | 内存节省 |
Magma | 随机掩码+对齐调制 | ✅ 有 | 无 |
消融实验发现
表A1:不同掩码组件的效果
- 仅Attention:22.64 → 21.92 ✅
- Attention + MLP:21.65 ✅✅(最佳)
- 全部层:21.94(略差)
粒度选择(Table A2):
- Element/Row/Column/Block级别效果接近
- 推荐Block级:内存效率最优
学习率鲁棒性
图A3:Magma对学习率变化极其鲁棒
- Adam/C-Adam:在0.001-0.003窗口外性能崩溃
- Magma:在0.0001-0.05范围内保持稳定
这意味着更少的超参数调优需求!
Share Http URL: http://www.wittx.cn/get_news_message.do?new_id=1543