DeepMind再登Nature：AI Agent造出了最强RL算法

人工智能（AI）的主要目标之一，是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体（Agent）。智能体的训练离不开强化学习（RL），相关研究也已经持续了几十年，但让智能体自主开发高效的 RL 算法的目标始终难以实现。

针对这一痛点，Google DeepMind 团队提出了一种通过多代智能体在不同环境中的交互经验来自主发现 RL 规则的方法。

在大型实验中，DiscoRL 不仅在 Atari 基准测试中超越所有现有规则，更在未曾接触过的挑战性基准测试中超越人工设计，击败了多项主流 RL 算法。相关研究论文已发表在权威科学期刊 Nature 上。

论文链接：https://www.nature.com/articles/s41586-025-09761-x

这表明，未来用于构建高级 AI 的 RL 算法，可能不再需要人工设计，而是能够由智能体自身的经验自动发现。

Agent 「凭啥」自主发现 RL 算法？

据论文描述，他们的发现方法涉及两种优化：智能体优化与元优化。

智能体参数通过更新其策略和预测来优化，使其趋向于 RL 规则生成的目标。同时，通过更新 RL 规则的目标来优化其元参数，从而最大化智能体的累积奖励。

图｜智能体自主发现 RL 算法的全过程：(a) 发现过程：多个智能体在不同环境中并行交互与训练，遵循由元网络定义的学习规则；元网络在此过程中不断优化，以提升整体表现；(b) 智能体结构：每个智能体输出策略（π）、观测预测（y）、动作预测（z）、动作价值（q）与辅助策略预测（p），其中 y 与 z 的语义由元网络确定；(c) 元网络结构：元网络接收智能体的输出轨迹及环境奖励与终止信号，生成针对当前与未来时刻的目标预测；智能体据此最小化预测误差进行更新；(d) 元优化过程：通过对智能体更新过程的反向传播计算元梯度，优化元参数，以最大化智能体在环境中的累计回报。

在智能体优化方面，研究团队使用 Kullback–Leibler 散度衡量两者之间的差距，以确保训练过程的稳定性与普适性。智能体会输出策略、观测预测和动作预测三类结果，元网络为其生成相应的学习目标。智能体再根据这些目标更新自身，从而逐步改进策略。同时，模型还引入了一个辅助损失，用于优化预定义的动作价值与策略预测，使学习过程更稳定、更高效。

在元优化方面，研究团队让多个智能体在不同环境中独立学习，元网络则根据它们的整体表现计算元梯度，并调整自身参数。智能体的参数会定期重置，使学习规则能在有限时间内迅速提升表现。元梯度的计算结合了智能体的更新过程与标准强化学习目标的优化，具体由反向传播与优势行动者-评论家（A2C）算法完成，并配合一个专用于元学习阶段的价值函数进行评估。

最强 RL 算法，AI 造

为验证 DiscoRL，团队评估时采用四分位数平均值（IQM）作为综合性能指标，该指标基于多任务基准测试的标准化分数，已被证实具有统计学可靠性。

1.Atari 实验

Atari 基准测试是强化学习领域最具代表性的评估标准之一。为验证算法自动发现的能力，团队基于 57 款 Atari 游戏元训练出 Disco57 规则，并在相同游戏中评估。

评估时使用与 MuZero 相当规模的网络架构，结果显示，Disco57 的 IQM 达到 13.86，在 Atari 基准上超越了包括 MuZero、Dreamer 在内的所有现有强化学习规则，并且在实际运行效率（wall-clock efficiency）上显著优于最先进的 MuZero。

图｜Disco57 在 Atari 实验中的评估结果。横轴表示环境交互步数（以百万为单位），纵轴表示在基准测试中 IQM 得分。

2.泛化能力

研究团队进一步评估了 Disco57 的通用性，在多个它从未见过的独立基准测试上进行测试。在 16 个 ProcGen 二维游戏上，Disco57 超越了包括 MuZero 和 PPO 在内的所有已发表方法；在 Crafter 基准测试中也表现出竞争力；在 NetHack NeurIPS 2021 挑战赛中获得第三名，且未使用任何领域特定知识。对比在相同设置下训练的 IMPALA 智能体，Disco57 明显更高效。此外，它在网络规模、重放比例和超参数调整等多种设置下也表现鲁棒。