Google近期发了2篇论文分别从机制设计和自动化发现两个角度,推动了多智能体强化学习(MARL)领域的发展。
| Multi-agent cooperation through in-context co-player inference | ||
| Discovering Multiagent Learning Algorithms with Large Language Models |
在多智能体强化学习中,实现自利益智能体之间的稳健协作是一个根本性挑战。传统方法面临两大难题:
现有的"共玩家学习感知"(co-player learning awareness)方法通常依赖硬编码的假设或严格区分"朴素学习者"与"元学习者"的时间尺度分离。
本文的核心假设是:训练序列模型智能体对抗多样化的共玩家分布,可以自然诱导出上下文最佳响应策略,无需显式的元梯度或时间尺度分离。
图1:混合训练诱导稳健协作。在混合池(学习智能体+表格型智能体)中训练的RL智能体收敛到合作(实线)。消融实验显示:仅对抗其他学习智能体(虚线)或提供显式共玩家标识(点线)都会导致背叛。
论文通过系统性实验验证了一个从多样性到协作的完整因果链条:
训练智能体仅对抗随机表格型智能体池,发现智能体能够在单局游戏中快速识别对手并收敛到最佳响应。
图2A-B:上下文最佳响应的涌现。PPI智能体(仅对抗表格型对手训练)在评估时针对不同固定策略表现出快速适应能力。
冻结Step 1的智能体作为"固定上下文学习者"(Fixed-ICL),训练新智能体专门剥削它。新智能体学会了通过塑造Fixed-ICL的学习动态来获取更高收益——这就是剥削(extortion)策略。
图2C-D:学习剥削上下文学习者。新训练的RL智能体通过利用Fixed-ICL的适应倾向,迫使其进入不公平的合作。
两个从Step 2初始化的剥削智能体相互对抗时,它们相互塑造对方的上下文学习动态,最终收敛到合作行为。
图2E-F:从相互剥削到协作。两个剥削策略的相互塑造在单局内(F)和跨局训练(E)中都推动了合作行为的学习。
理论贡献:论文提出了Predictive Policy Improvement (PPI)算法,并证明了在完美世界模型假设下,预测均衡对应于主观嵌入均衡(Subjective Embedded Equilibrium)。
多智能体强化学习的算法设计长期依赖人工迭代优化。虽然CFR和PSRO等基础方法有坚实的理论基础,但其最有效的变体往往依赖人类直觉来导航庞大的算法设计空间。
本文提出使用AlphaEvolve——一个由大语言模型驱动的进化编码智能体——来自动发现新的多智能体学习算法。
AlphaEvolve将LLM的代码生成能力与进化算法的严格选择压力相结合:
循环:
1. 基于适应度选择父代算法
2. 使用LLM(Gemini 2.5 Pro)提出语义上有意义的代码修改
3. 在代理游戏上自动评估候选算法
4. 将有效候选加入种群
在CFR领域,AlphaEvolve发现了Volatility-Adaptive Discounted (VAD-)CFR,其包含三个非直观机制:
| 波动率自适应折扣 | ||
| 非对称瞬时增强 | ||
| 硬热启动+遗憾幅度加权 |
图1:CFR变体在训练和测试游戏上的性能。VAD-CFR(紫色线)在大多数游戏中展现出最快的收敛速度和最低的可利用度。
关键代码结构(简化):
class RegretAccumulator:
"""Volatility-Adaptive Discounting & Asymmetric Boosting"""
def update_accumulate_regret(self, info_state_node, iteration_number, cfr_regrets):
# 1. 计算波动率和自适应折扣
inst_mag = max(abs(r) for r in cfr_regrets.values())
self.ewma = 0.1 * inst_mag + 0.9 * self.ewma
volatility = min(1.0, self.ewma / 2.0)
# 2. 非对称增强
r_boosted = r * 1.1if r > 0else r
# 3. 符号相关的历史折扣
discount = disc_pos if prev_R >= 0else disc_neg
在PSRO领域,AlphaEvolve发现了Smoothed Hybrid Optimistic Regret (SHOR-)PSRO,其核心创新是:
混合元求解器架构:
图2:PSRO变体性能对比。SHOR-PSRO(棕色线)在复杂游戏(如6面Liar's Dice)上显著优于静态基线。
训练与评估的非对称设计:
图3:CFR变体在全部11个游戏上的性能。VAD-CFR在10/11个游戏中达到或超越SOTA。
图4:PSRO变体在全部11个游戏上的性能。SHOR-PSRO在8/11个游戏中达到或超越SOTA。
| 核心问题 | ||
| 关键洞察 | ||
| 方法范式 | ||
| 验证环境 | ||
| 实践意义 |
https://arxiv.org/pdf/2602.16928
Discovering Multiagent Learning Algorithms with Large Language Models
https://arxiv.org/pdf/2602.16301
Multi-agent cooperation through in-context co-player inference
推荐阅读
CoCa: Contrastive Captioners are Image-Text Foundation Models