登录    注册      
    

News Message

Google Magma Optimizer Algorithm



Google Magma Optimizer Algorithm

用户发布的文档

加载速度比较慢比较慢,请稍等,手机环境下,有可能无法显示!


计算出的梯度更新越完整,模型训练效果越好。Adam、RMSProp等自适应优化器之所以成为LLM训练的标配,正是因为它们能利用完整的梯度信息进行精细的参数调整。


但这篇来自Google和西北大学的论文提出了一个反直觉的发现

💡 随机丢弃50%的参数更新,不仅不会损害训练,反而能显著提升模型性能!


图1:尽管丢弃了一半更新,SkipUpdate在所有模型规模上都显著优于密集优化器

从60M到1B参数的Llama模型,这种名为SkipUpdate的简单策略 consistently 击败了包括Muon在内的SOTA优化器。这不禁让人思考:我们是否真的需要每一次梯度更新?

SkipUpdate:最简单的有效策略

核心算法

SkipUpdate的算法极其简单(Algorithm 1):

对每个参数块 b:
    m_t^(b) ~ Bernoulli(0.5)  # 50%概率掩码
    θ_{t+1}^(b) = θ_t^(b) - s_t^(b) * m_t^(b) * Δ_t^(b)
  • 1.
  • 2.
  • 3.


关键设计

  • 随机掩码:每个参数块以50%概率被跳过
  • 动量保持:即使参数不更新,动量估计仍密集更新
  • 无偏校正:缩放因子 s_t = 1/p = 2 保证更新无偏

为什么这能work?理论揭秘

论文提出了一个关键理论发现(Proposition 1):


随机掩码引入曲率相关的几何正则化

核心洞察:随机掩码在期望损失中引入了一个曲率惩罚项


这个几何正则化项会:

  1. 惩罚高曲率方向的更新→ 避开"陡峭"的局部最优
  2. 平滑优化轨迹→ 偏向损失景观的平坦区域
  3. 隐式实现Sharpness-Aware效果→ 无需SAM的额外计算

Transformer的Hessian天然具有块对角结构,这使得块级掩码恰好对准了主要的曲率交互方向。

Magma:从随机掩码到智能掩码

SkipUpdate对所有参数块"一视同仁"地掩码,但Transformer的参数具有显著的异质性——不同层的Hessian谱和梯度方差差异巨大。

核心创新:动量-梯度对齐

Magma (Momentum-aligned gradient masking) 的核心思想:

梯度与动量方向一致的更新更可能是信号,方向冲突的更新更可能是噪声


图2:在Nano MoE上,Magma显著提升了Adam和Muon的性能

对齐分数计算


  • 高对齐度→ 接近1的缩放因子 → 保留更新
  • 低对齐度→ 接近0的缩放因子 → 抑制更新
  • 温度参数τ=2 控制敏感度

关键优势

  • 零额外开销:仅乘以现有对齐分数,无新增内存/计算
  • 即插即用:包装任意自适应优化器
  • 理论保证:保持几何正则化,同时增强稳定性

实验结果:全面碾压SOTA

Llama 2预训练(C4数据集)


表1:不同模型规模下的验证困惑度(↓越低越好)

震撼结果

🔥 1B模型上,Magma相比Adam降低困惑度19%,相比Muon降低9%!

MoE架构:复杂优化的试金石


图2:Nano MoE预训练的优化轨迹

MoE(混合专家模型)因动态路由、负载均衡等机制,优化景观极其复杂。Magma在此场景下:

  • Muon+Magma组合达到最佳性能
  • 显著优于Cautious Optimizer(同样利用动量-梯度对齐,但缺乏随机掩码的几何正则化)

重尾噪声环境:Magma的鲁棒性


图3:在重尾噪声分布下,Magma显著优于Adam

LLM训练中的梯度噪声具有重尾特性。在受控实验中:

  • 轻尾噪声:Adam和Magma表现相当
  • 重尾噪声:Magma大幅领先,且保持更小的条件数(图3 bottom)

这说明Magma的曲率感知正则化能有效抑制极端梯度波动的影响。

异构二次函数:验证理论假设


图4:在异构Hessian结构上,Magma显著优于AdamW

关键发现:

  • 同构结构:两者性能接近
  • 异构结构(模拟Transformer特性):Magma收敛更快、最终损失更低
  • CNN场景(ResNet-50):Magma无优势,验证了其专属于Transformer-like几何

理论分析:为什么Magma有效?

收敛性保证(Theorem 6)

论文给出了非凸优化下的收敛率:


关键洞察

  • 对齐分数同时影响下降效率噪声水平
  • 对高曲率/高方差块的选择性抑制,扩大了稳定学习率范围
  • 这解释了为什么Magma对学习率更鲁棒(见附录Figure A3)

与现有工作的区别

方法

机制

几何正则化

额外开销

Cautious Optimizer

确定性掩码(符号冲突时)

❌ 无

SAM

对抗扰动

✅ 有

2x梯度计算

GaLore

子空间投影

❌ 无

内存节省

Magma

随机掩码+对齐调制

✅ 

消融实验发现


表A1:不同掩码组件的效果

  • 仅Attention:22.64 → 21.92 ✅
  • Attention + MLP:21.65 ✅✅(最佳)
  • 全部层:21.94(略差)

粒度选择(Table A2):

  • Element/Row/Column/Block级别效果接近
  • 推荐Block级:内存效率最优

学习率鲁棒性


图A3:Magma对学习率变化极其鲁棒

  • Adam/C-Adam:在0.001-0.003窗口外性能崩溃
  • Magma:在0.0001-0.05范围内保持稳定

这意味着更少的超参数调优需求

https://arxiv.org/pdf/2602.13517
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers


Share Http URL:  http://www.wittx.cn/get_news_message.do?new_id=1543



请输入评论