无需数据集,大型模型可以通过强化学习ICLR2024有效地与物理环境对齐

小夏 教育 更新 2024-02-09

虽然大型语言模型 (LLMS) 在自然语言生成和理解等许多任务中取得了显着成就,但在面对看似简单的决策任务时,它们往往表现不佳。 造成此问题的主要原因是大型语言模型中嵌入的知识与实际环境之间的不一致。 相比之下,强化学习 (RL) 能够通过试错法从头开始学习策略,确保内部嵌入的知识与上下文保持一致。 然而,如何有效地将先验知识融入这样的学习过程是一个重大挑战,为了弥补这一差距,南洋理工大学在ICLR2024年发表的第一篇论文中提出了一个名为Twosome(True Knowledge Comes from Practice)的框架。 它利用 RL 将 LLMS 部署为决策**,以实现与特定环境的高效交互和一致性,而无需依赖预先准备好的数据集或环境的先验知识。

两人组的核心思想是使用LLMS形成行为策略的联合概率通过将两种归一化技术与四项提示设计原则相结合,增强策略的稳定性和鲁棒性。 此外,研究人员还设计了一种创新的参数高效训练架构,其中演员和评论家这两个角色共享一个冻结的LLM,低秩适配器(LoRa)通过近端策略优化(PPO)进行更新。 *研究人员在经典决策环境、煮过头和模拟家庭环境 VirtualHome 中进行了大量实验,以评估两人组的表现。 实验结果表明,Twosome在样品效率和性能方面明显优于传统的RL方法PPO和快速调整方法SayCan。

*题目:真正的知识来自实践:通过强化学习将 LLMS 与具身环境相结合

*链接:声明:本期**口译为非人类撰写,全文由赛博马利安AI**口译专家代理独立完成,经人工审核和插图后发布。

** 习逍遥科技表示“后台回复”。智能内部测试“获取情报内部测试的邀请链接。

1.大型语言模型在决策任务中的局限性

大型语言模型在执行作为具身人工智能的简单决策任务时,由于知识和环境之间的不匹配而经常失败。 例如,在制作番茄生菜沙拉的任务中,模型错误地添加了黄瓜和胡椒粉,即使成分不是必需的。 此外,大型语言模型在准确把握环境动态方面存在缺陷,尤其是在面临特定约束时。 这种估计误差导致大型语言模式更倾向于选择符合其学习常识的动作,从而无法有效地解决特定领域的任务。

“具身代理”是指将智能算法应用于物理存在的机器人或虚拟角色,使它们能够在物理或虚拟环境中感知、决策和行动。 具身智能体不仅能够处理数据和信息,还能够与周围环境进行交互,这通常包括移动、操纵物体、通过感官收集信息等。

2.强化学习的作用和好处与大型语言模型的训练原理不同,强化学习(RL)可以通过在环境中的反复试验从头开始学习策略,从而确保与环境的良好一致性。 大多数 RL 方法最初基于随机策略,根据环境反馈进行调整,并且可以通过在策略初始化和训练期间结合先验知识来提高效率。 作为大量的语料库训练结果,大型语言模型是RL模型的理想先验知识**。 因此,使用RL将大型模型与特定环境对齐,不仅可以解决LLMS的知识错配问题,还可以提高RL的样本效率。

1.制定有效的行为策略

Twosome 不是直接让大型语言模型决定具体动作,而是通过查询大型语言模型提供的所有可能动作的分数来生成行为策略。 此过程消除了由无效操作引起的不匹配。 此外,还可以利用近端策略优化(PPO)通过环境奖励优化来消除动态转换导致的错配。

2.动作提示归一化技术

研究人员发现,较长的动作线索往往具有较低的结合概率,因为每个标记的概率小于1,即使这些动作在环境中更合理。 为了解决这个问题,研究人员提出了两种基于标记和单词数量的标记归一化和词归一化方法来调整动作提示的不平衡。

3.高效的 PPO 微调

研究人员使用高效的训练架构在PPO框架下制定策略。 在这种架构中,强化学习中的参与者和批评者共享相同的冻结 LLAMA-7B 模型,并使用高效的参数微调方法(例如低秩适应 (LoRa))进行更新。 在训练过程中,只有 Critic 的 MLP 和 Actor 的 LoRa 参数会更新,从而使训练过程更加高效。 LLAMA-7B模型也可以用作更新规格参数的参考模型。

该模型只需要在推理阶段使用参与者,摒弃批评者,大型语言模型与特定环境的对齐完全编码在 LoRa 参数中。 这种方法使模型的参数比LLMS的原始参数小20倍,可以作为LLMS的即插即用模块,适用于不同环境下的泛化。

1.用 VirtualHome 环境煮过头了

研究人员选择了两种不同的环境来评估两人框架的性能:煮过头(图4a,4b)和virtualhome(图4c,4d)。 Overcooked 是一个经典的强化学习决策环境,放置在 7 7 厨房中,目标是制作和供应番茄沙拉和番茄生菜沙拉等菜肴。 **探索和学习正确的烹饪顺序,使用切碎、切番茄和切板等宏观动作。 环境是部分可观察的,只有在以自身为中心的 5-5 区域内才能看到物体。

VirtualHome是一个模拟的家庭环境,比煮过头更复杂,具有更大,更复杂的动作空间。 使用宏动作与环境互动,例如走进客厅、打开电视和坐在沙发上。 研究人员设计了两项任务:首先,在桌子上找到冷煎饼并用微波炉加热; 二是计划好电视的准备,需要在厨房里拿起薯片和牛奶,拿到客厅,打开电视,坐在沙发上欣赏。 这两个任务的奖励设置都很稀疏,只有在任务完成时才会获得 +1 奖励。

2.实验方法比较

研究人员将Twosome与传统的强化学习方法PPO和快速调整方法SayCan进行了比较。 在煮过头的环境中,两人一组表现出明显更好的样品效率和性能。 在VirtualHome环境中,由于动作空间大,传统的PPO方法无法学习到有效的策略,因此研究人员在PPO中添加了动作掩码。 尽管如此,PPO在娱乐任务中还是没有成功。 相比之下,Twosome不仅具有出色的采样效率,而且在所有任务中都达到了最佳性能。

1.样品效率和性能的比较

Twosome在样品效率和性能方面超越了传统的PPO方法和提示调谐方法SayCan。 在过度煮熟的环境中,TwoSome 只需要 10K 和 80K 样本就可以学习两个任务的最优策略,而 PPO 会陷入次优策略,无法学习最优策略。 在虚拟家庭环境中,TwoS可以有效应对大运动空间的挑战,在食物准备任务中学习最优策略。

2.任务泛化能力测试

两人组还在八项新的看不见的任务中展示了显著的泛化能力。 由于LLMS的开放词汇功能,Twosome能够将学到的技能转移到不同的任务中,这是传统RL**所不具备的。 在与原来训练任务相似的四个任务中,即使是未经微调的二人组也能完成任务,微调的二人组表现出完美的表现。 对于更不同的任务,例如洗盘子和洗衣,未经微调的二人组在微调后仍然可以完成任务,尽管成功率有所下降。

1.NLP 基准测试中的性能

Twosome 框架已经证明自己在 NLP 基准测试中保持了其在大型语言模型能力方面的优势。研究人员在VirtualHome环境中的许多常见NLP任务上测试了两人训练的模型,包括常识推理任务和大规模多任务语言理解(MMLU)。 测试结果表明,两人组训练模型在这些任务上的性能没有明显下降,在某些任务上甚至有所改善,这证明两人组在与环境交互的同时能够有效保留LLMS原有的语言理解和生成能力。

2.能够在看不见的任务中泛化

两人表现出出色的泛化能力,训练有素的二人组在八项看不见的任务中进行了测试,包括类似于训练任务的食物准备任务(如制作奶酪、汉堡、苹果派和披萨)以及更具挑战性的菜肴和洗衣任务。 在所有这些任务中,二人组都成功完成了,尤其是在与训练任务类似的前四个任务中,显示出近乎完美的成功率。 这些结果表明,两人组不仅可以在训练环境中学习有效的策略,还可以将学到的技能和知识转移到看不见的任务中。

Twosome通过强化学习将大型语言模型与环境对齐,从而解决决策任务中的挑战。 它不仅提高了样本效率,而且保持了大型语言模型的原始能力,并展示了对看不见的任务的泛化能力。 这些特性使 Twosome 在解决具身智能体决策问题方面具有显着优势。 但是,两人组有一些限制。 例如,从头开始训练 PPO** 似乎比微调大型语言模型更快、更具成本效益。 此外,在对每个动作进行采样时,twos需要将所有有效动作馈送到大型语言模型中,从而导致更高的计算工作量和更小的批量大小。 尽管存在这些局限性,但Twosome的成功是通用自主代理开发的重要一步,这些智能体能够通过与世界的互动来改善自己,并从实践中获得真正的知识。 未来的工作可以集中在探索提高两人组计算效率的方法,并将其应用扩展到更广泛的环境和任务。 此外,研究人员还可以学习如何提高二人组的泛化能力,以更好地应对更复杂和多样化的任务。 随着大型语言模型和强化学习方法的不断发展,Twosome及其未来版本有望在实现更智能、更灵活的具身代理方面发挥关键作用。

声明:本期**口译为非人类撰写,全文由赛博马利安AI**口译专家代理独立完成,经人工审核和插图后发布。

相似文章

    观点:大型模型与数据库

    文字 李国良,清华大学计算机科学系终身教授,清华大学计算机科学系周宣和。在信息时代,数据和人工智能已成为社会变革的核心驱动力。其中,大型语言模型 以下简称大型模型 因其出色的学习和泛化能力,已应用于自然语言理解 文本生成 文本生成等任务中。数据库作为数据存储 管理和分析的基础软件,在大模型的兴起中发...

    大模型时代,“谁拿到数据,谁就赢天下”,但如何定义数据侵权?

    文 陈继申,编辑 吕东 年以来,随着生成式AI的爆发,不仅在一定程度上为用户提供了便利,也不断重塑着互联网行业的竞争格局。本周,纽约时报 起诉OpenAI和微软非法收集新闻进行训练 纽约时报 起诉OpenAI和Microsoft 不劳而获 并要求将其消除 再次揭露了大型模型开发中涉嫌非法收集数据的问...

    小曼CRM与Chanjet T系统数据集成解决方案共享

    在当前数字化浪潮的推动下,越来越多的企业选择使用各种信息系统来提高工作效率和管理水平。其中,小曼CRM和Chanjet T 系统成为企业广泛欢迎的两大主流系统。然而,在使用这两个系统的过程中,企业经常会遇到数据互通和共享的问题。解决方案简介。我们的数据集成解决方案结合了小曼CRM和Chanjet T...

    数据资产、大模型、人工智能 2023中国数字年会干货满满!

    聚焦数据资产 大模型 人工智能等关键词,中国数字年会干货满满!月日 日,中国数字年会在四川成都举行。大会以 数智智 为主题,汇聚了数字领域的顶尖专家和行业领袖。线上举办的两场高峰论坛,干货爆满。大牌们带来了哪些奇妙的创意,本文就和大家一起回顾一下吧!中国数字学术年会 作为中国数字化年会的重要组成部分...

    在AI模型时代,企业如何构建数据智能基础设施?

    介绍随着人工智能和算力的快速发展,数据需要从生产资料转化为生产力,也需要生产工具。大模型的出现,让数据的价值更加敏捷,支撑智能化,极大地释放了生产力。在这种情况下,企业如何构建自己的数据智能基础设施?月日,软硬件国产化升级换代之路 专题会议邀请了天云数据HUBBLE产品负责人乔旺龙 迪普科技Fast...