当前,大模型的发展正处于充满无限可能的大变革前夕,大数据作为核心元素也被赋予了新的内涵。 大模型技术的出现对大数据意味着什么,大数据将如何影响大模型的发展,两者如何更好地双向奔赴,带来新的质量生产力,2024年将出现哪些技术引爆点和杀手锏?
在大模型与大数据之间徘徊不去的各种问题,在“第六届金猿季暨魔方论坛-大数据产业发展论坛”上,数据猿资深首席撰稿人欧晓刚作为圆桌论坛主持人,香港科技园公司董事太平绅士, 香港特别行政区**数字经济发展委员会委员车品觉,石狮科技副总经理兼CIO侯建业,经纬创缘创始人兼CEO王龙,弘毅联合创始人兼CTO罗永秀,伟银中国副总裁熊伟进行了深入探讨,并就大模型与大数据的融合发展提出了建议。
虽然大模型的性能足以让人大吃一惊,但不得不承认,即使它像ChatGPT一样强大,也经常存在严重的废话。 大模型的智慧与愚昧深受大数据语料库的影响,所以我们不禁要问,大数据如何影响大模型的发挥?
五位小组成员一致认为,数据的质量决定了大型模型的质量。 车品觉认为,对于大模型来说,大数据的“大”并不是万能的。 碎片化的数据不如真实的逻辑数据有价值。 而且,在临界点上,无论喂食多少零散的语料,都不会对大模型的推理效果产生更大的影响,高质量的数据可以起到“一字胜千言”的作用。
香港科技园公司董事,太平绅士,香港特别行政区**数码经济发展委员会委员 查品角。
王龙生动地指出,大模型的工作机制就像把一个高清**压缩成一个32kb的缩略图,找到数据排列的规律,然后依法生成一个新的高清图像。 在构建大模型的过程中,大数据集的质量直接决定了模型的性能和准确性。 构建实时精准的闭环环路,实现数据采集、处理、训练的无缝衔接,是推动大模型发展的关键环节。
如果只是在“实验室”中,数据的质量可能只会影响模型的性能,无非是80或60分之间的差异。 但是,在商业应用中,只有两个选项,可用和不可用。
罗永秀表示:“大模型在推动文档智能化管理方面的作用不言而喻,这是不言而喻的。 大模型一出来,弘毅就尝试将其应用到我们的ECM智能内容管理产品中,但很难形成一个系统,因为它是一个持续、动态的优化过程,用于文档数据的采集、整理、分析和应用。
一、标准品。 在知识管理领域,大模型如鱼得水,正在快速发展。 这是因为知识管理包含着最严谨、最合乎逻辑的知识,如产品操作手册、工艺生产标准等,直接决定了企业经营生产的内容,对准确性和一定的组织规范提出了极高的要求。 基于行业知识库构建的数据集,无论是矢量化处理还是高精度微调,一旦企业接入大模型,肯定会给生产效率带来显著提升。 ”
罗永秀,弘毅联合创始人兼首席技术官。
结合实际应用,熊伟认为:“大模型是一种语言模型,而人类语言系统相对完整和系统,可以为大模型提供足够的语料库,因此大模型在理解和生成**语言方面具有天然的优势。 我们从事的客户服务是一站式的、跨区域的、多语言的,大模型可以帮助我们无障碍地与全球许多国家沟通,并充当智能助手。 ”
当然,我们也必须明确指出,强调大数据“质量”的重要性并不是否定“数量”的作用,大数据的质量和数量不是对立的,两者相辅相成,数据量大、数据质量越高,共同决定模型的质量和性能。
近十年来,互联网的快速发展为大模型的兴起奠定了数据基础,沉淀了一批极其宝贵的数据资产。 过去,为了进行有效的数据挖掘,不仅要付出巨大的专家成本,还需要经过数据采集、大数据预处理、数据标注等一系列繁琐的程序,导致大量数据无法发挥其价值,成为“沉睡的金矿”。 大模型的出现给大数据带来了新的氛围,同时也对数据库、数据平台等数据基础设施提出了新的要求和考验。
侯建业指出,“在大模型诞生之前,需要处理100TB或PB数据的场景应用很少,只有类似气象、生物医学的科研项目才需要如此庞大的数据。 大模型让海量数据的分析应用飞入老百姓家中,几乎可以应用于所有行业。 很多从事大型模型研发的公司,往往有数千亿个参数。 在信息化发展的最后阶段,业界经常谈论带宽、接入、存储等词,但在新的发展阶段,模型、算力、显卡成为热门话题,这是新时代的韵律。 ”
侯建业,石材科技副总经理兼首席信息官。
大型模型就像一个通过新工艺改进的钻机,能够探测埋在地下深处的深层石油。 大数据作为数字时代的生产要素,与封建时代和工业时代的生产要素有着不同的特征,大数据可以无限地重复使用和再生。 大模型技术的广泛应用将产生海量的新数据。
如今,很多短**、文本都是由大型模型生成的。 大模型的广泛应用带来了企业数据量的巨大增长,可以说大模型是大数据的大脑。 由于大模型的出现,以前分散在企业不同部门之间的文档和各种数据资产将被重新发现,其价值将被再现。 罗永秀说。
大模型不仅可以分析大数据,还可以生成大数据,这些生成的大数据在前一秒世界上是没有的,我们如何看待这些大模型创造的“史无前例”的数据?
王龙认为,大模型是一个概率系统,勉强能写新闻稿,但要写一个公司的财务报告,大模型可能有一万条内容是对的,只有一条是错的,坏的是用户不知道哪一条是错的, 当它出错时,在这种情况下,公司不敢把这一切事情都交给大模型。保证大模型输出的信息真实准确是目前一个非常重要的问题。 随着大型模型在各个领域的广泛应用,信息输出直接关系到决策的准确性和社会的稳定运行。
王龙,Matrix Origins创始人兼CEO。
熊伟指出,训练大模型意味着投入海量数据,如何在保障隐私的基础上释放数据的价值,将是各行各业企业面临的重要挑战。 随着AIGC的应用越来越广泛和深入,通过模型训练优化、安全加密技术升级、合规监管体系的逐步完善,数据的安全性和隐私性将得到极大的提升。
熊伟,威银中国区副总裁。
有分析人士指出,每一次科技革命都会经历两个时期:前二三十年是引进期,在此期间,大量的基础设施和重点产业逐步形成、逐步完善,同时又在遇到旧范式的阻力的同时,被新范式冲刷和颠覆; 接下来的二三十年是扩张期。 前期积累的结构性矛盾在制度框架的调整下得到缓解,科技革命带来的变革力量逐步扩散到整个经济社会,经济增长重新进入可持续增长模式。
带着人们对大模型的无限期待进入2024年,嘉宾们对新一年大模型的发展表达了积极的态度。 罗永秀认为,在经济发展放缓的背景下,企业会更加注重降本增效,企业可能会裁员以减少各项支出,但对数据资产管理和知识管理的投入会增加。 王龙则比较乐观,他认为:“大模型上下游有很多机会,上游机会来自大模型训练、推理等基础设施环节; 下游机会来自应用层,例如多模态内容生成。 相信未来20年,Microsoft和今日头条可能在24年后诞生。 ”
AI Copilot、AI Agent、AI PC等大型模型技术分支都在各自的方向上苦苦挣扎,临界点和杀手级应用可能会在一夜之间以意想不到的方式给世界带来惊喜。 大模型和大数据就像量子纠缠,加速产业融合,推动数据科学进入新时代。 这种融合为更深入的见解和智能决策打开了大门,开创了数据科学的新时代。