智能谈判代理评测，在谈判桌上了解人工智能的文章

谈判是大家坐下来谈谈，看看如何达成共识，共同解决问题。它可以是朋友之间的闲聊，也可以是国家之间的外交场合。

但谈判并不简单。人们往往会带着偏见和情绪忽视他人的好建议，导致结果不尽如人意。而且，谈判也是一项技术性的工作，不是每个人都能轻松做到的。

为了促进人类的谈判过程，研究人员提出：智能协商代理，能够协助人类进行多轮互动，甚至直接与人类谈判。典型的谈判对话涉及智能体与人类之间的多轮交互，相互交换交易信息，最终接受或拒绝交易，如下图所示

现在，拥有谈判代表就像聘请私人顾问一样，他可以帮助您处理从杂货店购物到复杂的政治或法律事务的所有事情。

以后吵架就带谈判代理人去，傻子就得救了：“等我的代理人来了，我一句话也不说。 ”

也许有一些朋友，对吧谈判代理我不是很熟悉，如果我想了解更多，今天就给大家带来一篇关于它的文章谈判对话的系统综述，包括数据集、评估指标和建模方法等维度。让我们来看看

标题

let’s negotiate! a survey of negotiation dialogue systems

声明：本期**口译为非人类撰写，全文由赛博马利安AI**口译专家代理独立完成，经人工审核和插图后发布。

** 习逍遥科技表示“后台回复”。智能内部测试“获取内部 Beta 测试的邀请链接！

谈判者的偏好和策略共同塑造了谈判的潜在结果和互动过程，如下图所示。双方的偏好共同构成可能协议的范围，同时进行谈判策略作为一种以目标为导向的行为，最终决定了谈判者在影响互动的同时可以通过谈判者的偏好实现的潜在结果的数量和质量。

简而言之，偏好设定了可能结果的范围，而该范围内的策略决定了实际结果。

谈判虽然在日常生活中无处不在，比如讨价还价，但仍然是一项具有挑战性的任务。没有专业的训练，很多人往往缺乏达成自己预期目标的谈判技巧，不知道应该用什么策略，如何实施，所以人性化谈判往往有以下几点困难：

在谈判中，准确识别和处理有关其他谈判者的利益和偏好的隐含信息这是一件困难的事情。很多时候，谈判被视为一种竞争形式，这可能导致人们缺乏寻求或表达这些信息的动力。 人类的认知启发式、偏见和情绪它也可能成为谈判中的障碍。例如，人们往往对自己、世界和未来过于乐观，这可能导致谈判中的高估和过度乐观。谈判还可能导致：参与者情绪激动，从而使理性处理信息变得更加困难。因此，开发一个有效的谈判代理，以帮助人类更好地理解和控制这些不同的因素，并优化谈判的结果至关重要。

对现有谈判对话体系的研究分为三大部分，如下图所示：

谈判者建模：目的是根据对话的上下文推断有关其他谈判者的明确信息策略建模：学习选择在当前对话上下文中使用的策略。行动学习：将上述谈判信息整合到机器学习框架中，以开发一个对话模型，将策略转化为可观察的行动或响应。

谈判策略建模侧重于谈判过程中使用的各种策略。这些策略可以是综合的，旨在实现参与者之间的共同利益，也可以是分配的，即旨在赢得最大的个人利益。

综合战略（也称为“双赢”战略建模）旨在实现参与者之间的互惠互利。 [1] 该文提出了一种用于对话策略建模的潜在行动强化学习（LARL）框架，但由于缺乏明确的策略标签，只能分析隐性策略。 [2,3] 然后定义了“引发偏好”、“协作”和“同理心”等显式策略，并通过分层神经模型捕获用户偏好。 [4] 提出了一个协作策略集，用于在面试中就工作量和薪水进行谈判，以达成雇主和雇员之间的协议。

分配策略侧重于最大化个人利益，当一个人坚持自己的立场或抵制交易对手的交易时，就会采用这种策略。

5] 提出了一套具有 10 种策略的说服方法，以促进他人向慈善机构捐款，其中包括逻辑和情感吸引力等。[6,7] 进一步探索结构（例如，面对行为、情绪）。同时，研究了4种对抗性攻击策略，包括竞争、授权、偏向处理和回避，每种策略都包含特定的策略行为，如攻击***或强化个人偏好以否定观点。

在多方环境中，战略建模需要考虑个体参与者、整个群体和子群体之间的不同态度和复杂关系。 [9] 尝试使用多智能体强化学习框架对多方协商进行建模。 [10] 然后使用话语依赖树**多方关系依赖。 [11] 图神经网络揭示了多方之间的关系。然而，由于缺乏相关数据集和基准，多方战略研究受到限制。

谈判者建模旨在从对话的上下文中推断出有关其他谈判者的明确信息。这包括对谈判者的偏好、情绪和对手的行为进行建模。

偏好估计有助于智能体推断对手的意图，并猜测他们自己的话语将如何影响对手的偏好。 [12] 提出了一种基于频率的启发式方法来估计谈判者的偏好，但偏好建模的挑战在于它需要完整的对话。 [13] 采用基于规则的系统，通过分析某些对话中的语言特征来识别用户偏好。 [3] 将偏好估计视为一项排名任务，提出了一种基于Transformer的模型，该模型可以直接在部分对话中训练，并提出了增强现实应用中的偏好建模。

情绪建模是指识别谈判者的情绪或情绪变化。 [14] 研究了谈判对话中的情感感受和表达，并研究了对结果的满意度和合作伙伴的看法。 [15] 对情绪转换进行了显式建模，并对患者进行了预训练的语言模型的支持。 [7]在有说服力的讨论中提出了一种对话行为建模方法。 [16] 利用强化学习框架在有说服力的信息中引发情绪。

对手行为建模是指在谈判过程中对对手行为的检测和评估。例如，Craigslist 数据集中提供了细粒度的对话行为标签，用于跟踪买家和卖家行为。 [17] 提出了一种基于DQN的对手行为建模框架来估计对手的反作用。 [18] 将对手行为的建模与话语生成分开，以提高谈判系统的准确性。 [19]在心智理论的基础上，对协商系统进行了改进，提出了一种一阶模型来计算心智的期望值，并给出了显性和内隐的对话代理变体。

行动学习使谈判对话系统能够合理地将先前的策略和其他谈判信息结合起来，以产生高质量的反应。研究人员使用了多种策略性学习方法，包括强化学习、监督学习和情境学习。

[20]开创了强化学习技术在谈判对话系统中的应用。[21] 拟议的 OPPA 使用系统行动来针对座席行为，奖励基于对话估计的结构化输出。 [22] 采用模块化框架与语言模型相结合来生成响应，并通过响应检测器和RL奖励函数对策略进行评估，但策略学习与响应生成是分开的。 [23] 提出了一个综合框架，该框架整合了深入的Q-learning和多渠道谈判技巧，使智能体能够使用参数化DQN来学习综合谈判策略，并整合语言沟通技巧和竞价策略。

[24] 使用 Seq2Seq 模型最大限度地提高训练数据学习动作的可能性。[18]提出了一种应用监督模型来优化特定对话的奖励函数，包括**效用、代理效用差异和话语数量。 [25] 首先训练协商策略，然后生成依赖于策略、用户话语和对话上下文的响应。 [26] 将策略图网络与 Seq2Seq 模型相结合，创建可解释的政策学习范式。此外，[27]使用预先训练的BERT模型来识别说服性谈判中的阻力策略。同时，[28]提出了一个端到端的框架，用于整合意图和语义槽分类、响应生成和过滤任务。

使用 GPT-3随着 5 和 GPT-4 等大型语言模型（LLM）的出现，零样本和少样本上下文学习技术得到了应用，它们也被应用于谈判对话任务中。 [29] LLM用于谈判场景，而[30]用于“狼人”游戏。 [31] 提出了一个评估LLM代理战略规划和执行能力的框架。在这些应用程序中，LLM 充当代理，在特定上下文中与其他 LLM 进行谈判以实现预定目标。

谈判数据集是研究谈判对话系统的基础，可以根据谈判类型、场景和数据规模进行分类。如下表所示，按发布时间排序，包括协商类型、上下文、对话次数和相应的平均回合数以及参与者属性。本文主要介绍综合协商数据和分配协商数据。

综合谈判数据集涉及多个议题的谈判，为了达到最佳的议题目标，相关参与者应权衡多个议题。

策略视频游戏让玩家相互口头交流以达成交易以实现任务和目标。例如，STAC数据集基于卡坦岛游戏，玩家需要交换资源来完成任务，包括木材、小麦、羊等，才能购买定居点、道路和城市。由于每个玩家只能访问自己的资源，因此他们必须相互互动。

物品分配场景涉及一组固定的物品以及对话中每个玩家的预定义优先级。由于玩家只能访问自己的优先级，因此他们需要相互协商以交换他们喜欢的物品。

InitiativeTalking：在两家餐厅的老板之间使用。他们讨论如何分配水果（即苹果、香蕉和草莓）并试图达成协议; dealornodeal：两个参与者只能看到自己的项目集合，并为每个项目分配一个值，要求他们在协商后最大化他们的总分。赌场：涉及露营邻居就额外的食物、水和柴火包进行谈判，每一方对不同的物品有不同的优先级。 JobInterview 数据集包括招聘人员和候选人之间关于薪水、休假、职位和地点的互动。参与者将被告知彼此的偏好和问题。在谈判过程中，与另一方的反馈将传达给参与者。

分配谈判是围绕固定价值（即蛋糕如何分配）展开的讨论。在这种类型的谈判中，参与者通常只讨论一个问题（例如项目**），因此在这种类型的谈判中，多个问题之间几乎没有权衡。

persuasionforgood数据集侧重于慈善捐赠的说服谈判，谈判者需要说服另一方进行捐赠。在数据标注过程中，为劝说者提供了一些劝说技巧和例句，而被劝说者只告诉他们谈话是关于慈善的。注释者应在对话中完成至少十个话语，并鼓励他们在对话结束时达成一致。

CraigslistBargain 数据集基于现实生活中的商品谈判场景，买家和卖家需要就给定商品进行谈判。 NegoCoach 是一个类似的基准，但增加了一个谈判教练，可以监控两个标签商之间的信息，并实时向卖家推荐策略以获得更好的交易。谈判参与者的隐私变得越来越重要。攻击者和防御者等行为者的目标也会适得其反。

Anti-Scam 是一个专注于客户服务的基准。用户通过识别对手是否试图窃取敏感的个人信息来保护自己。在这种情况下，反骗局为研究人类诱惑策略提供了机会。

通过对谈判对话系统的各方**和数据集的深入分析，可以更好地了解谈判过程中的策略选择、谈判者行为的动态，以及如何将这些信息转化为有效的对话行为。这些研究为开发智能智能体提供了理论基础和实践指导，这些智能体可以帮助人类在各种现实场景中进行谈判。

下表说明了现有协商对话基准中使用的各种指标：

1.以目标为导向的评估指标

目标导向评价指标主要侧重于评估谈判者实现谈判目标的能力。这些指标通常是可量化的：

成功率（SR）：用于评估座席在其目标范围内完成任务的频率的最常见指标。预测准确性（PA）和宏观平均 F1 分数：评估代理策略的准确性。项目反应理论（IRT）：分析影响受众的有效性。此外，还为语言实现了一些指标，例如自然性、混淆（PPL）、BLEU-2、rouge-L 和词嵌入极端匹配分数。

2.基于游戏的评估指标

与面向目标的指标不同，基于游戏的指标提供了以用户为中心的视角来评估系统。

例如，在游戏《卡坦岛》中，研究人员提出了胜率和平均胜率（**ps）来分别评估人类和智能体的成功。

在产品协商任务中，使用特定的任务分数来测试座席的表现，包括效用、公平性和对话长度。此外，还有任务完成率和平均销售额与列表比率等指标。

3.人工评估

人工评价被用作智能体绩效的主观评价方法，以评估用户对对话系统的满意度。例如，使用用户模拟器作为销售人员与真实客户讨价还价，并让用户在对话中注释客户满意度、购买决策和正确的响应率。此外，还有一致性率、帕累托最优率和人类相似性（使用李克特量表手动评分智能体是否可以像人类一样行事）。）

1.多式联运谈判对话

现有的谈判对话研究很少考虑多模态信息，但人类在谈判中经常使用包括文本、音频和视觉信息在内的多种模式。例如，参与者的面部表情和情绪可能是做出谈判决定的重要线索。未来的研究可以考虑将这些非文本信息纳入谈判对话中。

2.多方谈判对话

现有的谈判对话基准和方法主要集中在双方的谈判上，导致对多方谈判对话缺乏深入研究。未来，需要重点收集多方协商场景中的对话数据，包括一般的多方协商和团队协商。团队谈判特别特殊，涉及具有不同关系和角色的人，在大型商业交易中很常见，凸显了多方关系的至关重要性。

3.跨文化和多语种谈判对话

目前，谈判对话的基准主要集中在英语上，对其他语言和文化的探索不足。在全球化的背景下，涉及不同文化背景的对话正变得越来越重要。因此，亟需建立多文化、多语种的谈判对话体系。今后的工作应将多语种话语和国家社会规范纳入谈判对话的基准。

4.真实场景中的协商对话

以往的工作已经提出了多种谈判对话的基准，但大多数都是基于人类众包的，参与者扮演着特定的角色，可能无法准确反映现实世界的谈判，比如政治和商业场景。因此，收集真实世界的谈判对话，如商务会议录音或电话，可能成为一个值得探索的研究方向。

本文系统回顾了谈判对话系统的研究进展，总结了谈判对话系统的研究进展，对数据集、评价方法和建模方法进行了分类和总结。希望这次审查将刺激和促进谈判对话系统领域的研究。

声明：本期**口译为非人类撰写，全文由赛博马利安AI**口译专家代理独立完成，经人工审核和插图后发布。

智能谈判代理评测，在谈判桌上了解人工智能的文章

相似文章

在一篇文章中阅读考古学

一文了解智能装备与系统考研方向

在一篇文章中阅读突厥历史

阅读有关能源审计的文章！

了解Allins首个基于AMM的多链铭文资产交易协议