追踪生成式 AI 非结构化数据的缺失来源

小夏 科技 更新 2024-01-30

近年来,非结构化数据(包括文本、图形、文档和物联网流数据)因其巨大且未开发的价值而受到关注。 数据库行业也经历了大规模的转型,以更好地容纳并希望挖掘这些资产,然而,由于缺乏对真正隐藏的非结构化数据源或资产的认识,一些努力被“浪费”了。 根据 IDC 的数据,虽然企业中大约 90% 的信息是非结构化的,但只有 46% 的组织致力于挖掘其价值。

如今,科技和商业领袖追求和挖掘非结构化数据还有另一个原因:生成式人工智能的兴起。 近年来在非结构化数据领域取得进展的公司和 IT 专业人员可能会发现,他们更有可能利用生成式 AI 来更深入地挖掘数据存储。

美国普华永道(PWC)数据、分析和人工智能主管Matt Lavovich表示:“现在是公司加强对非结构化数据(如物联网)以及知识文档(如PowerPoint、文本、Excel**)的管理的时候了。 它们都包含有关业务运营的宝贵机构知识以及可以使用生成式 AI 获得的见解。 ”

虽然结构化数据策略传统上受到大部分关注,但Lavovich敦促将注意力转向“非结构化数据在推动生成式人工智能方面的重要作用”。

根据麻省理工学院技术评论洞察(MIT Technology Review Insights)最近发布的一项由Databricks赞助的全球调查,虽然以前的人工智能项目必须专注于结构化数据,“现在有了现成的和丰富的用例”,但“收集、注释和合成异构数据集的复杂性使更广泛的人工智能项目变得不那么可行。

报告作者亚当·格林(Adam Green)写道:“相比之下,生成式人工智能的新功能,即挖掘和利用曾经隐藏的数据的能力,将推动整个组织取得非凡的新进步。 ”

近70%的受访技术高管认为,损害其AI和机器习目标的最大因素可能是数据。 “基于文本的人工智能系统,如流行的ChatGPT,是建立在大型语言模型之上的,”格林说。 LLM 模型在大量数据语料库上进行训练,以根据统计概率回答问题或执行任务。 ”

格林补充说,人工智能应用程序“依赖于坚实的数据基础设施,使其能够收集、存储和分析其庞大的数据世界。 他指出:“甚至在2024年底生成式人工智能的商业应用变得明显之前,近70%的受访者认为使用数据平台进行分析和人工智能至关重要。 ”

超过三分之二的受访者认为,统一分析和 AI 数据平台对其企业数据战略至关重要。 生成式 AI 时代需要灵活、可扩展且高效的数据基础设施。 关键是“使数据和分析资源民主化,将低成本存储与高性能查询相结合,同时提高安全性”。 ”

集成当今 AI 所需的非结构化数据并非一蹴而就。在给麻省理工学院的报告中,格林指出,“并购导致了IT结构的碎片化。 从研发情报到工厂设计说明等重要文档都从视线中消失,并被锁定在离线专有文件类型中。 ”

我们可以使用 LLM 来询问这些文件吗?我们能否训练一个模型,为我们提供在这个广阔的文档世界中看不到的见解?”

Inset 副总裁兼首席信息官、杜邦公司前水资源与保护副总裁 Andrew Brighton 表示:“我们认为这是一个明显的用例,语言模型有望使这些非结构化数据更有价值。 ”

让来自业务各个方面的数据所有者、分析师和用户参与生成式 AI 也是数据成功的关键。 “这不仅仅是首席信息官的责任,”拉博维奇说。 企业领导者必须负起责任,而首席信息官则负责支持这一过程。 运营准备和变更管理是关键,这涉及来自所有业务领域的高管积极参与关键数据的识别,将其嵌入到工作流程中,并承担变革倡导者的角色以推动广泛采用。 ”

如今,公司需要加强对物联网 (IoT) 等非结构化数据源以及知识文件(如 Powerpoint、文本、Excel 电子产品)的管理,正如普华永道数据、分析和人工智能主管 Mart LaBovich 所解释的那样:“它们都包含有关业务运营的宝贵机构知识以及可以使用生成式 AI 获得的见解。 ”

虽然结构化数据策略传统上一直是人们关注的焦点,但现在是时候关注“非结构化数据在生成式人工智能的发展中发挥的重要作用”了。

总体而言,非结构化数据的挖掘和生成式人工智能的使用将深刻改变企业的数据格局。 未来,更多的企业期待抓住这一机遇,通过对非结构化数据的精准管理和生成式AI的智能应用,在竞争激烈的市场中获得更大的优势。

相似文章

    AIGC 特别报告:人人享有生成式 AI 的新时代

    今天分享AIGC系列深度研究报告 AIGC 特别报告 人人享有生成式 AI 的新时代 埃森哲 Accenture 出品的报告 报告共页。ChatGPT 正在唤醒全球对人工智能 AI 变革潜力的认识,引发了前所未有的关注和创造力浪潮。该技术可以模仿人类的对话和决策能力,使我们处于公众采用人工智能的第一...

    利用生成式 AI 驾驭不断变化的客户关系

    一个人不能两次踏入同一条河流。多年前,希腊哲学家赫拉克利特说过这句话,他认为变化是唯一不变的东西。今天,随着生成式人工智能的出现,这比以往任何时候都更加真实。生成式人工智能正在对当今的企业产生深远的影响,企业领导者面临着快速变化的技术,他们需要掌握这些技术来满足不断变化的消费者期望。在所有行业中,客...

    生成式AI在美军应用趋势分析

    简介 大型语言模型在海量数据上进行训练,帮助人工智能用户提示并生成类似人类的响应。它们为 OpenAI 的 ChatGPT 和谷歌的 Bard 等生成式 AI 工具提供支持。在几个典型的大型语言模型中,有五个项目正在测试,这是美国国防部更广泛的一系列实验的一部分,旨在开发供美国军队使用的数据集成和数...

    构建生成式 AI 需要的不仅仅是大型模型

    生成式人工智能 genai 的迅速兴起使企业争先恐后地寻找新的创新方法,在商业应用中利用这项技术的力量。许多企业认为,大型语言模型 LLM 重塑了 AI 驱动的业务应用程序的构建方式,所需要的只是将数据输入大型企业的 LLM 模型,它就可以完成工作。然而,事情并没有那么容易。研究和咨询公司 Forr...

    生成式 AI 在创建准确可靠的模型中的作用

    资料来源 智能蓝军 人工智能技术与咨询 发布。模型是物理对象 系统或过程的虚拟表示,可以在不同场景中表现和执行。如今,模型被广泛用于各行各业,以优化流程 为决策提供信息并创建数字孪生。几十年来,模型一直被用于对复杂的系统和过程进行建模。计算能力的进步以及收集和分析大型数据集的能力推动了这些模型的发展...