今日arXiv最热门的NLP大模型论文基于语言模型仿真的经济研究

在经济决策领域，传统方法往往受到难以获得人类选择数据的限制。许多实验经济学研究都集中在简单的选择设置上，而这些选择设置往往无法捕捉到复杂的人类行为。近年来，人工智能社区在两个方面为这一领域做出了贡献：第一，大型语言模型（LLMS）能否在简单的选择中取代人类; 第二是通过机器学习（ML）的视角研究更复杂的实验经济环境，涉及不完整信息、重复游戏和自然语言交流，尤其是基于语言的说服游戏。这就引出了一个重要的启示：LLMS能否完全模拟经济环境，并为有效的人类选择生成数据，从而取代复杂的经济实验室研究？

本文是对这一主题的开创性研究，并证明了其可行性。本文展示了仅基于LLM生成数据的模型如何有效地**基于语言的说服游戏中的人类行为，甚至优于基于实际人类数据训练的模型。

标题

can large language models replace economic choice prediction labs?

声明：本期**口译为非人类撰写，全文由赛博马利安AI**口译专家代理独立完成，经人工审核和插图后发布。

** 习逍遥科技表示“后台回复”。智能内部测试“获取情报内部测试的邀请链接。

1.经济选择的重要性和挑战**

经济选择是理解和理解人类决策行为的关键任务，尤其是在经济学和市场营销领域。然而，这项任务面临着相当大的挑战。首先，该模型的成功依赖于大量高质量的数据，但在实践中，获得人类选择的数据往往很困难。这些困难包括开发专门的工具和环境（例如用户友好的移动或 Web 应用程序），处理隐私和法律问题以允许收集、存储和使用数据。这些挑战导致了一个极其低效、昂贵、复杂和耗时的过程。

2.数据采集困难

获得人类选择数据的困难不仅仅是技术上的。从道德和法律的角度来看，个人数据的收集和使用需要解决隐私保护问题。此外，实验经济学研究往往侧重于简单的选择设置，这限制了对复杂经济环境的理解。因此，研究人员需要找到获取数据的替代方法，以便更有效地**人类的经济选择行为。

1.大型语言模型（LLM）的进步。

近年来，大型语言模型（LLM）在各种应用领域取得了重大进展，包括文本摘要、机器翻译、情感分析等。这些模型展示了处理自然语言交流的能力，特别是在涉及不完整信息、重复游戏和自然语言交流的复杂经济环境中。最近的研究表明，基于LLM的方法可以在经济和战略环境中作为决策者取得成功，其目的是从可能的多重互动中最大化其利益。

2.法学硕士与经济环境模拟

LLM的潜力不仅在于模仿人类行为，还在于它们能够生成合成但逼真的数据。如果 LLM 能够在经济环境中有效地模仿人类行为，它们可以为传统的人类选择模型训练方法提供一种具有成本效益、高效且可扩展的替代方案。在本文中，我们证明了这种方法的有效性，特别是在研究基于语言的说服游戏的背景下。在这个游戏中，发送者通过有选择地呈现信息来影响接收者的决策过程。我们的实验表明，仅使用LLM生成的数据训练的模型可以准确地选择人类行为，当样本量足够大时，甚至优于使用实际人类数据训练的模型。

通过这些研究，我们可以看到LLMs在模拟经济环境和生成数据以进行有效选择方面的巨大潜力。这为未来使用LLMs全面模拟经济环境提供了灵感和可能性，而无需复杂的经济实验室研究。

1.实验设计：使用LLM生成用于人类决策的数据

在这项研究中，我们证明了在基本经济环境中（即在说服博弈的背景下）使用LLM生成人类行为数据的有效性。说服博弈的核心概念涉及发送者，其目标是通过有选择地呈现信息来影响接收者的决定。通常，发送者对世界的实际状态有保密知识，而接收者却不知道。基于这些私人信息，发送者战略性地传达消息以影响接收者的决策过程。虽然说服博弈的各种经济方面已经得到了很好的研究（例如，最佳发送者信息揭示策略的特征），但我们的研究重点不同：我们的目标是解决在重复交互中将发送者与人类决策者固定的任务，而无需在训练集中包括人类选择数据。

该研究采用了 APEL 等人（2022 年）引入的游戏。在这个游戏中，旅行者**（专家）试图通过向决策者（DM）提供有关酒店的文本信息来说服决策者接受他们的酒店。酒店的真正质量是专家的私人信息，只有当酒店质量高时，决策者才能从接受交易中受益。随着博弈经过几轮的进行，专家和决策者之间的互动不断加深，从而产生复杂的战略行为，包括学习过程、合作努力和惩罚策略。重要的是，在基于语言的游戏中，理论模型中程式化的抽象信息空间被真实的文本数据所取代。

该研究采用了 Shapila 等人（2023 年）收集的人类行为数据，并用它来定义我们的人类选择任务。与 Shapira 等人（2023 年）研究的非策略评估不同，我们的目标是在不包含任何人类生成数据且完全依赖于 LLM 生成数据的训练集中进行准确的人类选择。

实验表明，在LLM玩家生成的数据集上训练的模型可以准确地选择人类行为。事实上，只要样本量足够大，它甚至可以胜过在实际人类选择数据上训练的模型。在许多现实生活中，生成大量 LLM 基础样本比获得一小部分人类选择数据集要容易得多。在专家总是天真地发送最佳评论而不考虑酒店的真实质量的情况下，这种准确性的提高可以在任何样本量下观察到，而不仅仅是在足够大的样本量下。这种专家策略特别重要，因为 Raifer 等人（2022 年）在与人类决策者的类似说服设置中证明了经验效应。

此外，该研究还表明，在生成此数据集时，可以通过为不同的玩家类型创建角色变体来减少达到一定准确性所需的样本量。然后，分析了每种角色类型对数据集整体质量的平均边际贡献。

1.** 用于 SendBest 策略

在 SendBest 策略下，无论酒店的真实质量如何，专家总是发送得分最高的评论。我们的实验结果表明，当专家采用这种策略时，使用LLM生成的数据训练的模型能够准确并优于使用真实人类数据训练的模型，即使在任何样本量下也是如此。这种策略在现实生活中应用非常广泛，因为它代表了一种非常常见和典型的行为，专家试图贪婪地说服不精明的用户接受报价。

2.** 违反 Sendbestormean 政策

sendbestormean 策略是指酒店***专家是否总是发送最佳评论; 如果酒店质量较差，专家会发送最接近酒店平均分的评论。此策略非常接近标准产品采用设置中发件人的首选策略。然而，我们的研究发现，在sendbestormean策略下，使用LLM生成的数据训练的模型在人类决策中不如人类决策准确，即使在非常大的数据集上也是如此。

从这些实验结果中可以看出，LLMs生成的数据在特定策略下，特别是在Sendbest策略下，在人类行为方面具有巨大的潜力。同时，这些发现也揭示了在Sendbestormean策略下使用LLM生成的数据的局限性。未来的研究可以进一步探索如何在这些策略下提高准确性，以及如何更好地利用LLM生成的数据来改善各种经济环境中的人类行为。

在经济选择**领域，人格多样性是一个值得关注的因素。最近的研究表明，通过引入不同的角色类型来生成大型语言模型（LLM）数据集，可以有效地减少实现特定准确性所需的样本量。这一发现对提高训练过程的效率具有重要意义。

1.样本量减少

实验结果表明，在由具有多种性格类型的玩家生成的数据集中，达到特定准确性水平所需的玩家数量很少。这表明使用多种人格类型可以提高训练过程的效率。例如，当数据集仅包含具有默认性格类型的球员时，需要更大的样本量才能达到与包含来自所有可能性格类型的球员组合的数据集相同的准确性水平。

2.人格类型的边际贡献

进一步分析表明，不同人格类型对整体**质量的平均边际贡献大致相同。这意味着每种性格类型在提高数据集的价值方面都发挥着同样重要的作用。为了量化这一贡献，研究人员采用了众所周知的Shapley值概念，这是一种在机器学习的解释性中广泛使用的方法。通过这种方法，研究人员能够评估每种性格类型生成的数据集对初始数据集质量的平均增量贡献**。

本研究的主要目标是展示如何使用 LLM 生成的数据来训练人类选择模型。通过在基于语言的说服游戏中的应用，我们展示了一个训练模型，该模型仅使用LLM生成的数据，即使有足够的数据点，也可以超过使用实际人类生成数据训练的模型的结果。这一发现对于理解合成数据在经济环境中增强人类选择的潜力具有重要意义**。

1.LLM生成数据的能力

我们的分析表明，尽管LLM生成的数据在某些特定的专家策略下表现不如基于实际人类数据的训练模型，但在大多数情况下，LLM方法优于使用人类数据的标准方法。特别是，LLM方法在人类对Sendbest专家策略的反应方面表现出色，该策略在实践中已被证明对人类决策者具有很强的说服力。

2.未来的研究方向

尽管本文的发现是初步的，并且特定于我们的实验背景，但它们为研究和发展人类行为提供了一种新的方法。未来的研究可以集中在探索LLM生成的数据超越说服游戏的能力，以及引入一种混合方法，将人类和合成数据结合起来，以更准确地做出战略性的人类决策。另一个研究方向是更仔细地研究（和解释）LLM方法在特定专家策略下的表现，以划定这种方法的边界和局限性。这些研究方向都旨在增强我们对具有存在激励和人类行为的机器学习应用中LLM的理解。

声明：本期**口译为非人类撰写，全文由赛博马利安AI**口译专家代理独立完成，经人工审核和插图后发布。

今日arXiv最热门的NLP大模型论文基于语言模型仿真的经济研究

相似文章

今日arXiv最热门的NLP大模型论文引入噪声，可提升RAG检索效果30以上

arXiv开始提供HTML格式的论文，以方便视障人士使用

字母哥郝切32 12 6错过了今天的最好成绩，对不起，就因为遇到了狂暴的伦纳德！

东契奇39 12 10仍然错过了当天最好的表现！非詹姆斯创造奇迹

冠军郎邦30 6 6 7仍然错过了今天的最好成绩！对不起，你遇到了狂暴的约基奇

今日arXiv最热门的NLP大模型论文 基于语言模型仿真的经济研究

相似文章

今日arXiv最热门的NLP大模型论文引入噪声，可提升RAG检索效果30以上

arXiv开始提供HTML格式的论文，以方便视障人士使用

字母哥郝切32 12 6错过了今天的最好成绩，对不起，就因为遇到了狂暴的伦纳德！

东契奇39 12 10仍然错过了当天最好的表现！非詹姆斯创造奇迹

冠军郎邦30 6 6 7仍然错过了今天的最好成绩！对不起，你遇到了狂暴的约基奇

今日arXiv最热门的NLP大模型论文基于语言模型仿真的经济研究