华为诺亚的盘古智能体是为了让智能体学习结构化推理

由机器之心报告。

编辑：Zenan， Egg Sauce

有了结构化的推理和先验知识，智能体变得更加多才多艺。

自人工智能诞生以来，开发能够解决和适应复杂任务的多任务代理一直是一个重要目标。

人工智能智能体对许多应用至关重要，研究人员经常使用强化学习方法，通过环境交互来培养智能体的决策技能。基于模型和无模型的深度强化学习方法都取得了众所周知的成就，例如alphazero、改进的排序和乘法算法、无人机竞速以及聚变反应堆中的等离子体控制。这些成功涉及一个标准的强化学习管道，在这个管道中，智能体学习我们所说的外在功能——一种直接与外界互动的策略，即对环境刺激做出反应，以最大限度地提高奖励信号。该函数通常是一个参数化的神经网络，它根据环境观测结果生成动作。

经典的强化学习方法使用单一的映射函数来定义策略，但在复杂环境中往往被证明是不够的，这与通用智能体在多个随机环境中进行交互、适应和学习的目标相矛盾。

强化学习中引入的先验通常是特定于任务的，需要广泛的工程和领域专业知识。对于泛化，最近的研究已转向将大型语言模型（LLM）集成到代理框架中，例如 Autogen、AutoGPT 和 Agentverse 等。

近日，来自华为诺亚方舟实验室、伦敦大学学院（UCL）、牛津大学等机构的研究人员提出了Pangu-agent框架，以解决AI智能体面临的挑战。该研究的作者包括伦敦大学学院计算机科学系教授Jun Wang。

*链接：这项工作在两个关键方面与以前的框架不同：i）将智能体的内部思维过程形式化为一种结构化推理的形式;ii）演示了通过监督学习和强化学习微调智能体的方法。

标准强化学习侧重于从感知中输出动作的直接学习策略。虽然人们习惯于通过深度网络架构对策略进行参数化，但作者认为，在通过底层模型策略跨任务扩展代理时，标准 RL 管道中缺乏内在推理结构可能是一个重大瓶颈，因为梯度不能为所有深度网络提供足够的监督。

Pangea 代理框架展示了结构化推理如何帮助强化学习克服这些挑战，利用大规模基础模型提供先验知识并实现跨广泛领域的泛化。

据介绍，这项工作的主要贡献包括：

论证了结构化推理在智能体框架中的重要性，盘古智能体的通用性足以有效覆盖现有智能体框架的任务范围。作为一个元代理框架，它可以利用内部函数调用的顺序来调整或微调，或将决策委托给底层 LLM。用户还可以轻松扩展代理的功能，并组合或重用许多已实现的方法。

作者评估了七个LLM和六个不同的领域。此评估可用于告知研究人员如何初始化其代理以及如何收集微调步骤的数据。

该研究证明了框架的监督微调（SFT）和强化学习微调（RLFT）的效果。通过结构化推理，该工作成功实现了基于拒绝采样的 SFT 流水线，显著提升了 LLM 在 ALFWORLD 领域的性能，成功率为 27% 至 82%。虽然 SFT 的好处已经稳定下来，但 RL 可以实现进一步的增强，将 BabyAI 任务的成功率提高到 88%，甚至从 28% 提高到 91%。此外，跨域实验表明，通过 RL 管道训练的单个 LLM 在 AlfWorld （82%）和 BabyAI（18 个任务）中平均能够执行 58 个任务。7%）。

这些发现凸显了结构化推理在基于大型模型的智能体训练中的潜力。

表1：盘古智能体与近期一些大型模型智能体的比较。

图 2：三个内在功能的可视化，说明了工作提出的范式在提高模块化和灵活性方面的重要性。用户可以重新定义和重新配置内在函数，例如 [gf]b5[ gf]1 （[gf]30fb[ gf]）以生成以 LLM 作为输入的想法，或 [gf]b5[ gf]2 （[gf]30fb[ gf]）利用工具帮助改进推理。新代理还支持嵌套这些内部函数，以便为复杂且具有挑战性的决策任务构建更通用的模块。

盘古代理

为了引入结构化推理，我们假设一系列内在函数 [gf]b5[ gf]（[gf]30fb[ gf]）作用于智能体的内部存储器并对其进行转换。这些内在函数的引入使得将典型的强化学习目标重新表述为支持多个思维步骤的目标成为可能。因此，一个典型的RL目标旨在找到一个以观察O的历史为条件的策略，以最大化回报R，即Max （[Gf]30FB[ GF]） r （ GF]30fb[ GF]|o ））可以使用嵌套集覆盖它（见图2）内部函数 [gf]b5[ gf] gf]30fb[ gf]）为：

作者强调需要将这些函数与外部函数分开定义、学习和使用，以便用户可以重新定义他们认为对他们的任务有帮助的任何任意嵌套。我们可以根据方程重写盘古智能体的优化问题。更详细地说，它将是：

其中 rt 是时间步长 t 的奖励，取决于环境观察 OT 和行动 at。此外，0， 1）是一个折扣系数，用于指定奖励随时间推移的折扣程度。外部函数仍然充当与外部世界交互的执行器，而这些额外的内部函数层旨在封装系统架构师认为有益的任何内部推理过程。

关于盘古智能体的框架结构，内在函数是一系列对**的内存状态进行操作的函数。内在功能对于塑造智能体的内部状态至关重要，并且可以影响其决策过程。通过利用这些功能，智能体可以根据观察历史和先验知识调整他们的记忆状态，使他们能够做出更明智和更适合上下文的决策。

外部函数的目的是从语言模型中引出环境交互。与对代理的内存状态进行操作的内部函数不同，外部函数通过生成要执行的操作直接与环境交互。

盘古代理公式的灵活性意味着可以分层创建许多复合方法。还应该注意的是，Pangea Agent 库中的工作提供的这些复合方法的实现并不总是原始算法的忠实复制，因为它们需要特定的任务细节。

受近年来搜索增强LLM研究的启发，盘古代理框架集成了广度优先、深度优先搜索（BFS DFS）和蒙特卡洛树搜索（MCTS）三种树搜索算法，以提高LLM生成和决策能力的规划能力。具体来说，该框架利用 LLM 作为策略、模型和价值函数。通过与这个基于 LLM 的模拟环境进行交互，我们能够构建一个部署树，该树将使用树搜索算法进一步修剪，以便更好地生成操作。

Pangu Agent 兼容一系列任务，例如 alfworld、gsm8k、hotpotqa、网上商店等。它的交互式界面类似于 OpenAI Gym，是一种开放式设计。

最后，该框架包括一个模板系统，用于生成 LLM 的输入提示，这增强了提示制作的灵活性。

评估

最后，研究人员对盘古代理支持的各种方法进行了广泛的评估。

首先，他们考虑了一阶嵌套和复合方法来评估盘古代理的结构推理能力（图3）。然后，使用监督学习和强化学习在三种不同的环境中评估了Pangu-Agent的微调能力。结果表明，就智能体获得的收益而言，复合方法往往优于一阶嵌套方法。据研究人员称，SFT 和 RLFT 可以使代理专业化，并进一步增加他们在 AlfWorld 和 BabyAI 任务中的好处。在整个评估过程中，研究人员使用了各种 LLM，例如 GPT、LLAMA 2、OpenChat、Vicinna 和 Mistral 进行测试。

结构化推理评估

通过对内部函数的内置支持，可以评估推理结构中不同设计选择对 AI 代理性能的影响。

首先，在表 2 中，研究人员评估了一阶嵌套，即仅通过观察环境并对环境执行操作来修改代理内存的设置。在文献中，这些方法简称为不同的提示方法，例如：少样本提示法（FS）、少样本思维链（FS-COT）、零样本思维链（ZS-cot）。附录 A 中提供了这些方法的详细说明1。

需要注意的是，由于 LLM 文本生成的非确定性，奖励可能会因运行而异。为了解释这些差异，研究人员将任务方法LLM的每种组合运行了三次，并报告了平均标准差。然而，一阶嵌套也有局限性，因为它们可能难以充分利用 LLM 的功能。如前所述，代理需要能够处理语言模型的输出、重新访问其答案、更改其内存，甚至使用工具。这里的复合方法是指在决定最终行动之前可能需要多个思考步骤的方法。

表 3 列出了四种复合方法的结果：具有自一致性的 FS-COT （FS-COTSC）、FS-COT 具有可选的独立思考步骤（例如，React）、具有映射步骤的 FS-COT （例如，66）、Swiftsage 和最小到大多数（另见附录 A）。2）。所有这些方法在每个环境时间步长都使用多个内在函数步长，缩写的简要说明可以在表7中找到。

研究人员观察到，结构相似但提示内容不同的方法给智能体带来了非常不同的好处，这说明了精心设计的提示的重要性。还值得注意的是，不同的方法在某些 LLM 中比其他方法效果更好，例如 OpenChat-3 中的 React2 的平均性能比 fs 差，而 react 和 fs 在 gpt-3 中5 的平均收入表现类似。

值得注意的是，FS 在所有 LLM 中的表现都比 Direct 差得多。这并不奇怪，因为 FS 只提供 LLM 的最终答案。因此，LLM 的目的是回答问题，而无需生成中间步骤。然而，在 Direct 中，即使没有明确要求，LLM 也会生成中间步骤，因为这就是类似的初级问题在互联网上呈现的方式，并且这些问题很可能包含在这些 LLM 的训练集中。将 ZS-COT 与 FS 进行比较时，可以得出类似的结论。

这在较小的LLM中尤为明显，研究人员推测，如果在提示中添加一个思考分步引用，模型更有可能生成一个正确解决手头问题的推理步骤。

在 Humaneval 任务中，研究人员观察到了 GPT-35 与其他模型的盈利能力差异明显大于其他任务。这可能是因为 Humaneval 是一项编码任务，需要 LLM 提供结构良好的响应。但是，较小的开源 LLM 更容易出现这些结构错误，这可能导致任务失败，返回值为 0。

阻碍 LLM 性能的另一个因素是上下文长度有限。在涉及相对较大的观察任务（例如网上商店）中，需要截断提示的长度以保持在允许的上下文长度内。因此，LLM 在此任务中的性能可能会受到很大影响，尤其是在 reflect 等方法中，其中提示还包含其他信息。这也解释了为什么 reflect 方法在 WebShop 中的表现往往不太好。

在某些情况下，FS-COT-SC 可以提高 LLM 的产量，尤其是在 GSM8K 中。但是，这是以多次提示 LLM（在本实验中为 5 次）执行 SC 操作选择的额外代价为代价的。在 Humaneval 等任务中，包含较长的文本答案，可能会有多个答案产生正确的结果，并且研究者发现无法应用 SC。这是因为 LLM 不会生成与以前相同的答案，并且 SC 操作选择器无法选择最常见的答案。

外在功能评估：微调

上述结果表明，虽然LLM在各种任务上都表现出色，但在实现100%的成功率方面仍有很大的改进空间。随后，研究人员研究了SFT和RLFT如何帮助Pangu-Agent提高成功率。

他们提出了两种不同的过程：由多圈跟踪生成和 SFT 组成的 Bootstrap SFT （BSFT），以及由跟踪生成、SFT 和 RLFT 组成的三步过程。在执行 SFT 时，专家轨迹演示始终使用 OpenChat-35 LLM集合，搭载了盘古代理框架的结构化推理能力。调查人员使用 openchat-35 LLM 执行 BSFT，而 SFT-RLFT 管道应用于 LLAMA 2-7B LLM，并考虑两种不同的评估范式：为每个任务微调不同的 LLM，以及在多个任务中微调一个 LLM（例如，多任务微调）。

one model per domain

bsft：第一个实验展示了 pangu-agent 框架提供的内在函数和微调函数的组合。首先从一系列不同的提示方法收集数据，特别是 zs-cot、fs-cot、fs-cot-react 和 fs-cot-reflect。收集数据后，运行拒绝采样步骤，丢弃失败的轨道，仅保留在折扣回报方面表现最佳的轨道。然后，可以在该数据集上执行 SFT 步骤，以进一步提高方法的性能。表 4 中的 1 步 SFT 列列出了使用单个 SFT 步骤训练后的模型结果。

如表4所示，经过一轮拒绝抽样后，在alfworld中可以获得良好的性能，同时保持模型在行动前产生想法的能力。

sft-rlft：尽管如此，微调这些内在函数生成的完整轨迹在计算上是昂贵的，并且可能很快达到收益递减的程度。研究人员建议使用 RL 在各种任务中实现更高的性能。

如表5所示，研究人员首先对SFT进行了微调，以成功演示，然后对RL进行微调，成功率最大化。对于像Alfworld这样的复杂领域，用于轨迹生成的SFT步骤和内在函数（FS-COT）至关重要。这说明了 pangu-agent 框架的重要性，您可以在其中从内部函数和微调中受益。

有关该研究的更多详细信息，请参阅原文**。

华为诺亚的盘古智能体是为了让智能体学习结构化推理

相似文章

华为重磅消息！华为花瓣支付即将到来

“航拍”华为重磅新品来了！

央行批复了，华为花瓣支付来了！

终于来了，华为带来了“里程碑式”的突破，谷歌迎来了又一个挑战

“飞行汽车”来了沃飞长空让低空旅行不再遥远