近年来,非结构化数据(包括文本、图形、文档和物联网流数据)因其巨大且未开发的价值而受到关注。 数据库行业也经历了大规模的转型,以更好地容纳并希望挖掘这些资产,然而,由于缺乏对真正隐藏的非结构化数据源或资产的认识,一些努力被“浪费”了。 根据 IDC 的数据,虽然企业中大约 90% 的信息是非结构化的,但只有 46% 的组织致力于挖掘其价值。
如今,科技和商业领袖追求和挖掘非结构化数据还有另一个原因:生成式人工智能的兴起。 近年来在非结构化数据领域取得进展的公司和 IT 专业人员可能会发现,他们更有可能利用生成式 AI 来更深入地挖掘数据存储。
美国普华永道(PWC)数据、分析和人工智能主管Matt Lavovich表示:“现在是公司加强对非结构化数据(如物联网)以及知识文档(如PowerPoint、文本、Excel**)的管理的时候了。 它们都包含有关业务运营的宝贵机构知识以及可以使用生成式 AI 获得的见解。 ”
虽然结构化数据策略传统上受到大部分关注,但Lavovich敦促将注意力转向“非结构化数据在推动生成式人工智能方面的重要作用”。
根据麻省理工学院技术评论洞察(MIT Technology Review Insights)最近发布的一项由Databricks赞助的全球调查,虽然以前的人工智能项目必须专注于结构化数据,“现在有了现成的和丰富的用例”,但“收集、注释和合成异构数据集的复杂性使更广泛的人工智能项目变得不那么可行。
报告作者亚当·格林(Adam Green)写道:“相比之下,生成式人工智能的新功能,即挖掘和利用曾经隐藏的数据的能力,将推动整个组织取得非凡的新进步。 ”
近70%的受访技术高管认为,损害其AI和机器习目标的最大因素可能是数据。 “基于文本的人工智能系统,如流行的ChatGPT,是建立在大型语言模型之上的,”格林说。 LLM 模型在大量数据语料库上进行训练,以根据统计概率回答问题或执行任务。 ”
格林补充说,人工智能应用程序“依赖于坚实的数据基础设施,使其能够收集、存储和分析其庞大的数据世界。 他指出:“甚至在2024年底生成式人工智能的商业应用变得明显之前,近70%的受访者认为使用数据平台进行分析和人工智能至关重要。 ”
超过三分之二的受访者认为,统一分析和 AI 数据平台对其企业数据战略至关重要。 生成式 AI 时代需要灵活、可扩展且高效的数据基础设施。 关键是“使数据和分析资源民主化,将低成本存储与高性能查询相结合,同时提高安全性”。 ”
集成当今 AI 所需的非结构化数据并非一蹴而就。在给麻省理工学院的报告中,格林指出,“并购导致了IT结构的碎片化。 从研发情报到工厂设计说明等重要文档都从视线中消失,并被锁定在离线专有文件类型中。 ”
我们可以使用 LLM 来询问这些文件吗?我们能否训练一个模型,为我们提供在这个广阔的文档世界中看不到的见解?”
Inset 副总裁兼首席信息官、杜邦公司前水资源与保护副总裁 Andrew Brighton 表示:“我们认为这是一个明显的用例,语言模型有望使这些非结构化数据更有价值。 ”
让来自业务各个方面的数据所有者、分析师和用户参与生成式 AI 也是数据成功的关键。 “这不仅仅是首席信息官的责任,”拉博维奇说。 企业领导者必须负起责任,而首席信息官则负责支持这一过程。 运营准备和变更管理是关键,这涉及来自所有业务领域的高管积极参与关键数据的识别,将其嵌入到工作流程中,并承担变革倡导者的角色以推动广泛采用。 ”
如今,公司需要加强对物联网 (IoT) 等非结构化数据源以及知识文件(如 Powerpoint、文本、Excel 电子产品)的管理,正如普华永道数据、分析和人工智能主管 Mart LaBovich 所解释的那样:“它们都包含有关业务运营的宝贵机构知识以及可以使用生成式 AI 获得的见解。 ”
虽然结构化数据策略传统上一直是人们关注的焦点,但现在是时候关注“非结构化数据在生成式人工智能的发展中发挥的重要作用”了。
总体而言,非结构化数据的挖掘和生成式人工智能的使用将深刻改变企业的数据格局。 未来,更多的企业期待抓住这一机遇,通过对非结构化数据的精准管理和生成式AI的智能应用,在竞争激烈的市场中获得更大的优势。