无需数据集，大型模型可以通过强化学习ICLR2024有效地与物理环境对齐

虽然大型语言模型（LLMS）在自然语言生成和理解等许多任务中取得了显着成就，但在面对看似简单的决策任务时，它们往往表现不佳。造成此问题的主要原因是大型语言模型中嵌入的知识与实际环境之间的不一致。相比之下，强化学习（RL）能够通过试错法从头开始学习策略，确保内部嵌入的知识与上下文保持一致。然而，如何有效地将先验知识融入这样的学习过程是一个重大挑战，为了弥补这一差距，南洋理工大学在ICLR2024年发表的第一篇论文中提出了一个名为Twosome（True Knowledge Comes from Practice）的框架。它利用 RL 将 LLMS 部署为决策**，以实现与特定环境的高效交互和一致性，而无需依赖预先准备好的数据集或环境的先验知识。

两人组的核心思想是使用LLMS形成行为策略的联合概率通过将两种归一化技术与四项提示设计原则相结合，增强策略的稳定性和鲁棒性。此外，研究人员还设计了一种创新的参数高效训练架构，其中演员和评论家这两个角色共享一个冻结的LLM，低秩适配器（LoRa）通过近端策略优化（PPO）进行更新。 *研究人员在经典决策环境、煮过头和模拟家庭环境 VirtualHome 中进行了大量实验，以评估两人组的表现。实验结果表明，Twosome在样品效率和性能方面明显优于传统的RL方法PPO和快速调整方法SayCan。

*题目：真正的知识来自实践：通过强化学习将 LLMS 与具身环境相结合

*链接：声明：本期**口译为非人类撰写，全文由赛博马利安AI**口译专家代理独立完成，经人工审核和插图后发布。

** 习逍遥科技表示“后台回复”。智能内部测试“获取情报内部测试的邀请链接。

1.大型语言模型在决策任务中的局限性

大型语言模型在执行作为具身人工智能的简单决策任务时，由于知识和环境之间的不匹配而经常失败。例如，在制作番茄生菜沙拉的任务中，模型错误地添加了黄瓜和胡椒粉，即使成分不是必需的。此外，大型语言模型在准确把握环境动态方面存在缺陷，尤其是在面临特定约束时。这种估计误差导致大型语言模式更倾向于选择符合其学习常识的动作，从而无法有效地解决特定领域的任务。

“具身代理”是指将智能算法应用于物理存在的机器人或虚拟角色，使它们能够在物理或虚拟环境中感知、决策和行动。具身智能体不仅能够处理数据和信息，还能够与周围环境进行交互，这通常包括移动、操纵物体、通过感官收集信息等。

2.强化学习的作用和好处与大型语言模型的训练原理不同，强化学习（RL）可以通过在环境中的反复试验从头开始学习策略，从而确保与环境的良好一致性。大多数 RL 方法最初基于随机策略，根据环境反馈进行调整，并且可以通过在策略初始化和训练期间结合先验知识来提高效率。作为大量的语料库训练结果，大型语言模型是RL模型的理想先验知识**。因此，使用RL将大型模型与特定环境对齐，不仅可以解决LLMS的知识错配问题，还可以提高RL的样本效率。

1.制定有效的行为策略

Twosome 不是直接让大型语言模型决定具体动作，而是通过查询大型语言模型提供的所有可能动作的分数来生成行为策略。此过程消除了由无效操作引起的不匹配。此外，还可以利用近端策略优化（PPO）通过环境奖励优化来消除动态转换导致的错配。

2.动作提示归一化技术

研究人员发现，较长的动作线索往往具有较低的结合概率，因为每个标记的概率小于1，即使这些动作在环境中更合理。为了解决这个问题，研究人员提出了两种基于标记和单词数量的标记归一化和词归一化方法来调整动作提示的不平衡。

3.高效的 PPO 微调

研究人员使用高效的训练架构在PPO框架下制定策略。在这种架构中，强化学习中的参与者和批评者共享相同的冻结 LLAMA-7B 模型，并使用高效的参数微调方法（例如低秩适应（LoRa））进行更新。在训练过程中，只有 Critic 的 MLP 和 Actor 的 LoRa 参数会更新，从而使训练过程更加高效。 LLAMA-7B模型也可以用作更新规格参数的参考模型。

该模型只需要在推理阶段使用参与者，摒弃批评者，大型语言模型与特定环境的对齐完全编码在 LoRa 参数中。这种方法使模型的参数比LLMS的原始参数小20倍，可以作为LLMS的即插即用模块，适用于不同环境下的泛化。

1.用 VirtualHome 环境煮过头了

研究人员选择了两种不同的环境来评估两人框架的性能：煮过头（图4a，4b）和virtualhome（图4c，4d）。 Overcooked 是一个经典的强化学习决策环境，放置在 7 7 厨房中，目标是制作和供应番茄沙拉和番茄生菜沙拉等菜肴。 **探索和学习正确的烹饪顺序，使用切碎、切番茄和切板等宏观动作。环境是部分可观察的，只有在以自身为中心的 5-5 区域内才能看到物体。

VirtualHome是一个模拟的家庭环境，比煮过头更复杂，具有更大，更复杂的动作空间。使用宏动作与环境互动，例如走进客厅、打开电视和坐在沙发上。研究人员设计了两项任务：首先，在桌子上找到冷煎饼并用微波炉加热; 二是计划好电视的准备，需要在厨房里拿起薯片和牛奶，拿到客厅，打开电视，坐在沙发上欣赏。这两个任务的奖励设置都很稀疏，只有在任务完成时才会获得 +1 奖励。

2.实验方法比较

研究人员将Twosome与传统的强化学习方法PPO和快速调整方法SayCan进行了比较。在煮过头的环境中，两人一组表现出明显更好的样品效率和性能。在VirtualHome环境中，由于动作空间大，传统的PPO方法无法学习到有效的策略，因此研究人员在PPO中添加了动作掩码。尽管如此，PPO在娱乐任务中还是没有成功。相比之下，Twosome不仅具有出色的采样效率，而且在所有任务中都达到了最佳性能。

1.样品效率和性能的比较

Twosome在样品效率和性能方面超越了传统的PPO方法和提示调谐方法SayCan。在过度煮熟的环境中，TwoSome 只需要 10K 和 80K 样本就可以学习两个任务的最优策略，而 PPO 会陷入次优策略，无法学习最优策略。在虚拟家庭环境中，TwoS可以有效应对大运动空间的挑战，在食物准备任务中学习最优策略。

2.任务泛化能力测试

两人组还在八项新的看不见的任务中展示了显著的泛化能力。由于LLMS的开放词汇功能，Twosome能够将学到的技能转移到不同的任务中，这是传统RL**所不具备的。在与原来训练任务相似的四个任务中，即使是未经微调的二人组也能完成任务，微调的二人组表现出完美的表现。对于更不同的任务，例如洗盘子和洗衣，未经微调的二人组在微调后仍然可以完成任务，尽管成功率有所下降。

1.NLP 基准测试中的性能

Twosome 框架已经证明自己在 NLP 基准测试中保持了其在大型语言模型能力方面的优势。研究人员在VirtualHome环境中的许多常见NLP任务上测试了两人训练的模型，包括常识推理任务和大规模多任务语言理解（MMLU）。测试结果表明，两人组训练模型在这些任务上的性能没有明显下降，在某些任务上甚至有所改善，这证明两人组在与环境交互的同时能够有效保留LLMS原有的语言理解和生成能力。

2.能够在看不见的任务中泛化

两人表现出出色的泛化能力，训练有素的二人组在八项看不见的任务中进行了测试，包括类似于训练任务的食物准备任务（如制作奶酪、汉堡、苹果派和披萨）以及更具挑战性的菜肴和洗衣任务。在所有这些任务中，二人组都成功完成了，尤其是在与训练任务类似的前四个任务中，显示出近乎完美的成功率。这些结果表明，两人组不仅可以在训练环境中学习有效的策略，还可以将学到的技能和知识转移到看不见的任务中。

Twosome通过强化学习将大型语言模型与环境对齐，从而解决决策任务中的挑战。它不仅提高了样本效率，而且保持了大型语言模型的原始能力，并展示了对看不见的任务的泛化能力。这些特性使 Twosome 在解决具身智能体决策问题方面具有显着优势。但是，两人组有一些限制。例如，从头开始训练 PPO** 似乎比微调大型语言模型更快、更具成本效益。此外，在对每个动作进行采样时，twos需要将所有有效动作馈送到大型语言模型中，从而导致更高的计算工作量和更小的批量大小。尽管存在这些局限性，但Twosome的成功是通用自主代理开发的重要一步，这些智能体能够通过与世界的互动来改善自己，并从实践中获得真正的知识。未来的工作可以集中在探索提高两人组计算效率的方法，并将其应用扩展到更广泛的环境和任务。此外，研究人员还可以学习如何提高二人组的泛化能力，以更好地应对更复杂和多样化的任务。随着大型语言模型和强化学习方法的不断发展，Twosome及其未来版本有望在实现更智能、更灵活的具身代理方面发挥关键作用。

声明：本期**口译为非人类撰写，全文由赛博马利安AI**口译专家代理独立完成，经人工审核和插图后发布。

无需数据集，大型模型可以通过强化学习ICLR2024有效地与物理环境对齐

相似文章

观点：大型模型与数据库

大模型时代，“谁拿到数据，谁就赢天下”，但如何定义数据侵权？

小曼CRM与Chanjet T系统数据集成解决方案共享

数据资产、大模型、人工智能 2023中国数字年会干货满满！

在AI模型时代，企业如何构建数据智能基础设施？