Google Magma Optimizer Algorithm

News Message

Google Magma Optimizer Algorithm

by wittx 2026-03-11

用户发布的文档

加载速度比较慢比较慢，请稍等，手机环境下，有可能无法显示！

计算出的梯度更新越完整，模型训练效果越好。Adam、RMSProp等自适应优化器之所以成为LLM训练的标配，正是因为它们能利用完整的梯度信息进行精细的参数调整。

但这篇来自Google和西北大学的论文提出了一个反直觉的发现：
💡 随机丢弃50%的参数更新，不仅不会损害训练，反而能显著提升模型性能！

图1：尽管丢弃了一半更新，SkipUpdate在所有模型规模上都显著优于密集优化器
从60M到1B参数的Llama模型，这种名为SkipUpdate的简单策略 consistently 击败了包括Muon在内的SOTA优化器。这不禁让人思考：我们是否真的需要每一次梯度更新？

SkipUpdate：最简单的有效策略

核心算法

SkipUpdate的算法极其简单（Algorithm 1）：

对每个参数块 b:
    m_t^(b) ~ Bernoulli(0.5)  # 50%概率掩码
    θ_{t+1}^(b) = θ_t^(b) - s_t^(b) * m_t^(b) * Δ_t^(b)1.
2.
3.

关键设计：

随机掩码：每个参数块以50%概率被跳过
动量保持：即使参数不更新，动量估计仍密集更新
无偏校正：缩放因子 s_t = 1/p = 2 保证更新无偏

为什么这能work？理论揭秘

论文提出了一个关键理论发现（Proposition 1）：

随机掩码引入曲率相关的几何正则化

核心洞察：随机掩码在期望损失中引入了一个曲率惩罚项：

这个几何正则化项会：

惩罚高曲率方向的更新→ 避开"陡峭"的局部最优
平滑优化轨迹→ 偏向损失景观的平坦区域
隐式实现Sharpness-Aware效果→ 无需SAM的额外计算

Transformer的Hessian天然具有块对角结构，这使得块级掩码恰好对准了主要的曲率交互方向。

Magma：从随机掩码到智能掩码

SkipUpdate对所有参数块"一视同仁"地掩码，但Transformer的参数具有显著的异质性——不同层的Hessian谱和梯度方差差异巨大。

核心创新：动量-梯度对齐

Magma (Momentum-aligned gradient masking) 的核心思想：

梯度与动量方向一致的更新更可能是信号，方向冲突的更新更可能是噪声

图2：在Nano MoE上，Magma显著提升了Adam和Muon的性能

对齐分数计算

高对齐度→ 接近1的缩放因子 → 保留更新
低对齐度→ 接近0的缩放因子 → 抑制更新
温度参数τ=2 控制敏感度

关键优势：

✅零额外开销：仅乘以现有对齐分数，无新增内存/计算
✅即插即用：包装任意自适应优化器
✅理论保证：保持几何正则化，同时增强稳定性

实验结果：全面碾压SOTA

Llama 2预训练（C4数据集）

表1：不同模型规模下的验证困惑度（↓越低越好）

震撼结果：

🔥 1B模型上，Magma相比Adam降低困惑度19%，相比Muon降低9%！

MoE架构：复杂优化的试金石

图2：Nano MoE预训练的优化轨迹

MoE（混合专家模型）因动态路由、负载均衡等机制，优化景观极其复杂。Magma在此场景下：

与Muon+Magma组合达到最佳性能
显著优于Cautious Optimizer（同样利用动量-梯度对齐，但缺乏随机掩码的几何正则化）

重尾噪声环境：Magma的鲁棒性

图3：在重尾噪声分布下，Magma显著优于Adam

LLM训练中的梯度噪声具有重尾特性。在受控实验中：

轻尾噪声：Adam和Magma表现相当
重尾噪声：Magma大幅领先，且保持更小的条件数（图3 bottom）

这说明Magma的曲率感知正则化能有效抑制极端梯度波动的影响。

异构二次函数：验证理论假设

图4：在异构Hessian结构上，Magma显著优于AdamW

关键发现：

同构结构：两者性能接近
异构结构（模拟Transformer特性）：Magma收敛更快、最终损失更低
CNN场景（ResNet-50）：Magma无优势，验证了其专属于Transformer-like几何

理论分析：为什么Magma有效？

收敛性保证（Theorem 6）

论文给出了非凸优化下的收敛率：

关键洞察：

对齐分数同时影响下降效率和噪声水平
对高曲率/高方差块的选择性抑制，扩大了稳定学习率范围
这解释了为什么Magma对学习率更鲁棒（见附录Figure A3）

与现有工作的区别

方法	机制	几何正则化	额外开销
Cautious Optimizer	确定性掩码（符号冲突时）	❌ 无	无
SAM	对抗扰动	✅ 有	2x梯度计算
GaLore	子空间投影	❌ 无	内存节省
Magma	随机掩码+对齐调制	✅ 有	无

消融实验发现

表A1：不同掩码组件的效果

仅Attention：22.64 → 21.92 ✅
Attention + MLP：21.65 ✅✅（最佳）
全部层：21.94（略差）

粒度选择（Table A2）：

Element/Row/Column/Block级别效果接近
推荐Block级：内存效率最优

学习率鲁棒性

图A3：Magma对学习率变化极其鲁棒

Adam/C-Adam：在0.001-0.003窗口外性能崩溃
Magma：在0.0001-0.05范围内保持稳定

这意味着更少的超参数调优需求！

https://arxiv.org/pdf/2602.13517
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Share Http URL: http://www.wittx.cn/get_news_message.do?new_id=1543

Best Last Month

摩根大通下调2021年一季度美国GDP增长预期至负值区间
Information industry

by wittx

忆阻器原理与发展现状
Electronic electrician

by wittx

All Attention出击UNet让ResNet50+UNet提升31.8%
Information industry

by wittx

2020/12/11 金融行情
Information industry

by wittx

Self-Alignment with Instruction Backtranslation
Information industry

by wittx

2020/12/26 金融行情
Information industry

by wittx

英国政府预购 6000 万剂新冠疫苗
Information industry

by wittx

网络规模更小、速度更快，MorphNet
Information industry

by wittx

全球百亿亿级计算机性能增7倍，能效提升3倍
Information industry

by wittx

DeFT: Decoding with Flash Tree-Attention for Efficient Tree-structured LLM Inference
Information industry

by wittx

News Message