财联社12月19日电(牛占林主编)。如果说AI模型有最强大的功能之一,那一定是最基本的文本处理功能,但一家名为Patronus AI的初创公司的研究人员发现,即使是最强大的大模型,目前也无法准确分析美国证券交易委员会(SEC)的财报文件。
OpenAI 的 GPT-4-Turbo 可以说是目前市场上性能最好的 AI 模型,在 Patronus AI 的最新测试中,只有 79% 的 SEC 文件问题答案是正确的。
如果你让普通的人工智能工具来回答这类问题,它们要么无法回答,要么会出现“幻觉”,也就是说,它们会编造出SEC文件中没有的数字和事实。
Patronus AI的联合创始人Anand Kannappan表示:“这样的性能是绝对不可接受的,它必须更加准确,才能真正开始以自动化和生产就绪的方式工作。 ”
这些发现凸显了人工智能模型面临的一些挑战,因为大公司,尤其是金融等受监管行业的大公司,正在寻求将尖端技术整合到他们的业务中,无论是客户服务还是数据研究。
自去年年底 ChatGPT 推出以来,快速提取重要数字和文本以及分析财务报表的能力一直被视为聊天机器人最有前途的应用之一。 美国证券交易委员会的文件充满了重要数据,如果人工智能能够准确地总结这些数据或快速回答有关其中内容的问题,它可能会让用户在竞争激烈的金融行业中占据优势。
因此,各大投行和金融公司正在为此做出安排。 全球最大的金融信息公司彭博GPT发布了专门为金融领域打造的大型模型,商学院教授研究了ChatGPT是否可以分析金融头条新闻,摩根大通正在开发一种人工智能驱动的自动投资工具。 根据麦肯锡最近的一份报告,生成式人工智能每年可以为银行业创造数万亿美元的收入。
在金融领域的应用
但AI进入金融行业并非一帆风顺。 当 Microsoft 首次使用 OpenAI 的大型模型推出 Bing 聊天机器人时,其主要示例之一是结果新闻稿的快速摘要。 观察家们很快意识到,Microsoft公布的数字是错误的,其中一些甚至完全是捏造的。
根据 Patronus AI 的联合创始人的说法,将大型模型整合到实际产品中的部分挑战在于它们是不确定的——它们不能保证每次都以相同的输入获得相同的输出。 这意味着公司需要进行更严格的测试,以确保它们正常运行,不偏离主题,并提供可靠的结果。
Patronus AI 测试了四个大型模型:OpenAI 的 GPT-4 和 GPT-4-Turbo、Anthropic 的 Claude2 和 Meta 的 LLAMA 2。 在进行了相关测试后,Patronus AI的两位联合创始人对大模型的糟糕性能感到惊讶。
Patronus AI 的 Rebecca Qian 指出,“令人惊讶的是,大型模型经常拒绝回答问题,而且拒绝率非常高,即使答案在上下文中,即使答案在上下文中,即使是普通人可以回答的问题。 ”
然而,该公司也认为,如果人工智能继续进步,像GPT这样的大型模型将有很大的潜力帮助金融业的人们——无论是分析师还是投资者。
OpenAI 的一位代表指出,该公司的使用指南禁止在没有合格人员审查信息的情况下使用 OpenAI 模型提供量身定制的财务建议,并要求任何在金融行业使用 OpenAI 模型的人免责声明。 OpenAI 的使用政策还指出,OpenAI 的模型尚未经过微调以提供财务建议。