介绍随着人工智能和算力的快速发展,数据需要从生产资料转化为生产力,也需要生产工具。 大模型的出现,让数据的价值更加敏捷,支撑智能化,极大地释放了生产力。 在这种情况下,企业如何构建自己的数据智能基础设施?
1月4日,“软硬件国产化升级换代之路”专题会议邀请了天云数据HUBBLE产品负责人乔旺龙、迪普科技Fastdata产品线总裁冯森、人民大学金仓技术服务中心高级解决方案工程师李世辉、法巴达高级技术专家谭宇, 从不同角度解读“数据+智能”这一话题。
本期ITPUB举办了以“软硬件国产化升级换代之路”为主题的第九场线上沙龙,由ITPUB主编陶然主持,分为专家分享、圆桌讨论两部分。
乔旺龙,天云数据哈勃产品负责人
天云数据哈勃产品负责人乔旺龙分享了四个方面:私域数据盘点、私域数据、数据产品定义、智能应用支持等四个方面。 他表示,传统的关系数据库是私有领域数据的重要存储。
数据驱动型业务分为四个阶段:BI(发生了什么? )、dw(为什么会这样? )、ml(会发生什么? )、AI(最好的事情是什么? )。
那么,如何获取私域数据呢? 一种方法是完整移动数据。 全量数据同步需要大量的数据和耗时长的过程,而ETL处理需要大量的中间处理过程和中间表的派生,导致数据混乱,增加了数据管理的复杂性。
另一种方法是按需连接数据。 省去数据移动过程,支持多源异构数据,构建联合计算应用服务,通过语义编织为业务主题提供快速服务应用,支持并发事务服务应用,简单易用。
但是,存在许多与按需数据连接相关的挑战。 例如,如何确保数据是最新的? 如何分析从传统关系数据库读取数据的性能,而从整个数据库读取速度较慢? 如何通过对业务数据库进行分布式直呼来缓解业务数据库的压力? 如何更好地管理元数据? 数据变更是常态,正常情况下如何应对变化?
通常的做法是将所有压力都放在分布式计算层的外部源上的读取数据上。 优化后的方法是在分布式计算层中增加一个虚拟缓存层,缓存层中的数据可以在不影响业务数据访问方式的情况下进行更改,从而减轻业务数据库的压力。
乔旺龙给出了数据产品的定义,数据产品是一组业务表达式数据集,具有用户自定义、基于缓存的实现、固定表、视图、物化视图、动态刷新、基于模型的自动标签等特点。
尽管大型模型以端到端、基于文本的输入输出格式呈现其结果,但模型与之交互并从中学习的实际数据本身并不是原始文本,而是文本的向量表示。
通过将模型与向量数据库相结合,模型可以具有记忆、记忆和查看用户的对话历史、个人偏好等的能力,并且模型可以使用这些额外的向量数据在回答时做出更准确的判断和答案。
数据服务与业务相关,基于专家经验或机器模型学习形成的规则,结合元数据,如元数据推荐、流程推荐、资产推荐、推荐推荐、执行计划推荐等,用于数据质量监控和数据准备流程(如集成流程或引擎优化)的优化改进, 和计算引擎推荐。
最后,乔旺龙介绍了天云数据哈勃数据库,该数据库通过逻辑规划,通过SQL、Graph、ML等的集成,实现AI原生数据库,重新定义数据基础设施,集成向量化服务功能,支持大模型的私域应用。
法巴塔高级技术专家 谭宇
从云到数字化再到人工智能,基础设施正面临着新的需求和挑战。 基于此,Fabarta在AI时代的基础设施解决方案是Arcneural。 会上,法巴塔高级技术专家谭宇讲解了多模态智能引擎弧神经的架构和实现,以及其实际应用。
在不到20年的时间里,出现了三次重大的技术浪潮。 在这个过程中,发生了许多加速和改变人们认知的事故,比如疫情加速了数字化,ChatGPT让大家看到了智能化的希望。
我们很少看到三波共舞的现象,一个企业可能同时在云、业务数字化、智能化,而在建设基础设施时,我们必须考虑这些现状,比如企业数据是否足以支撑智能?
考虑到企业基础设施仍在不断发展,Fabarta 推出了“一个身体,两个翅膀”产品矩阵,在引擎级别完全支持各种基础设施类型。 左侧是 ArcFabric 多模态数据结构平台,该平台负责组织和管理企业数据,以及提取企业数据关系和元数据。
ArcFabric 集成和处理企业的私有数据,并将其传递到 ArcNeural 多模态智能引擎进行数据管理。 右侧是Arcpilot企业智能分析平台,用于展示业务属性,并基于此构建企业智能应用。
底层是 ArcNeural 多模态智能引擎。 打破传统数据库计算和存储的精髓,引入内存加逻辑系统。 其中,内存部分是多模态智能引擎,支持图模型和向量引擎,分别负责显式和隐式关系管理。 逻辑部分利用图算法或 LLM 资源进行逻辑推理。
为什么要构建基于图形的多模态智能引擎? 谭宇表示,“从大数据到智能,对数据的关注发生了本质上的变化,更加注重对所有数据的理解。 存储和计算将朝着内存和推理的方向发展,并且将发生范式转变。 作为一种符号系统,图形是对基于概率的机器学习的补充,是可解释智能的必要条件之一。 ”
同时,图与关系数据库的不同之处在于,它们不仅不强调数据的局部性和局部性,而且加强了关系和变化。 现实世界的数据丰富多样,要充分利用这些数据,就必须具备这些特征。 实时更新的不仅仅是数据,还有数据之间的关系,这些关系也必须实时处理。
多模态智能引擎arcneural 通过内存引擎实现高性能,本地存储配合 raft 协议处理核心日志数据,远程存储形式与产品核心解耦,实现按需交付。 在存储层之上,Arcneural 集成了强大的 HTAP 算力,专为低延迟、高并发和复杂的实时计算而设计。 对于更复杂的离线 T+1 需求,Arcneural 提供全面的支持。
经过一段时间的积累,Fabarta 于 2023 年正式发布了 Arcneural 2版本 1。 此版本包括以下功能: ArcNeural 21、支持多种数据格式,包括图数据、向量数据、JSON和传统表数据结构; ArcNeural 提供完整且严格的数据 ACID 处理能力,包括内存引擎技术和多跳并行化。
除了支持云原生弹性部署外,Arcneural 21、也适用于分布式系统、多地多中心银行等高级需求,支持模块化部署,可根据需要单独部署; arcneural 完全满足中国的生产需求,支持合作企业和合作伙伴开源。
李世辉,中国人民大学金仓技术服务中心高级解决方案工程师
关于系统迁移的要求,全国人大金仓技术服务中心高级解决方案工程师李世辉将其归纳为“低难度、低成本、低风险、平滑迁移”四个部分。 一般来说,为了减轻客户的压力,我们可以从容地实现国内替代。
系统迁移的整个过程包括三个阶段:系统适配、测试验证、切换和上线。 系统适应阶段的最终目标是不改变; 测试和验证阶段的最终目标是完整和快速; 转换和启动阶段的最终目标是不间断的。
在系统适配方面,李世辉表示,“我们采用可插拔架构,通过不同的解析模块支持不同语法的兼容性,可以快速兼容开发,降低数据库迁移难度。 在数据库的全生命周期中,我们提供丰富的开发接口和自动化工具,实现全流程覆盖。 ”
在测试验证方面,针对数据库、操作系统升级等场景,在数据库系统变更后进行真实、完整的负载回归测试和验证,节省案例构建和测试结果验证的工作量,降低系统变更风险。
借助 Kreplay 解决方案,除了捕获数据库执行的 SQL 和 PLSQL** 外,还可以捕获其他负载特征,包括所有会话上执行的所有事务、事务的并发执行序列、语句的执行结果以及捕获周期内系统的各种性能指标。
面对操作系统提供的诊断能力有限,性能测度单元不同,数据库内容不完整,无法准确诊断定位问题,全国人大金仓建立了基于数据库时间的决策树分析模型,根据定量指标进行分析,定位问题根源。
针对高并发下获取活跃事务列表的开销比例高的问题,该方案增加了全局提交序列来判断快照对事务的可见性,避免了获取高并发下获取活跃事务的开销,将 BenchmarkSQL 的吞吐量提升了 50%。
在割接和上线方面,人民金仓的灵活迁移方案可以提供准高质量、低入侵、全数据的功能,缩短系统割接时间。 双轨并行方案提供实时、异构的环境支持和事务保障,降低系统迁移风险。
人民金仓企业级应用适配开发支持解决方案包括:LAC站点基于按需自助授权服务,负责会场授权的发放和统计,以及全功能、全算力、限时授权的发放,无需在开发现场单独申请授权,降低开发过程的协同成本。
KOPS云化集中运维管控平台,提供从安装部署到运维的全生命周期管理能力,将数据库管控门槛从专家级降低到新手级。 KRDS云数据库生命周期管控平台建立在多云环境之上,兼顾非云管理,提供数据库全生命周期的统一管理。
Feng Sen,迪普科技Fastdata产品线总裁
狄浦科技FastData产品线总裁冯森围绕FastData实时智能湖仓一体平台的技术架构和核心优势,Deepexi企业大模型的优化与实践,以及Fast5000E大模型训练推送一体机的建设,分享了自己的观点。
FastData基于Data Fabric架构的实时湖仓一体平台是数据基础设施平台中日益成熟的目标架构,为所有数据工作者提供低成本、高性能、易用的云原生数据平台,主要分为工作空间、引擎、湖仓一体三层。
同时,fastdata是基于现代数据堆栈的全流程架构设计的。 这种设计的优点是可以是一站式平台,数据集成、数据存储(湖仓一体)、数据开发管理、数据分析应用可以独立拆分。
FastData的实时智能湖仓一体平台打破了数据孤岛,提高了性能,并节省了搬迁成本。 大数据平台支撑本地化向湖仓一体的持续演进; 多模态数据统一存储,结合AI工具进行统一分析; 数据元素治理和资产化,释放数据价值。
随着某石油勘探机构对数据的深入应用,对数据团队所提供数据的可靠性和及时性的要求也越来越高。 石油勘探院数据团队通过FastData对原有Hadoop平台进行升级,构建了可靠稳定的数据采集能力、全链路实时数据处理能力、高效稳定的数据服务能力。
deepexi企业级大模型整体架构分为Deinsight模型应用、Fastagi代理平台、Fast5000E大模型训练推送一体机三个方面。
DOC-agent是一种结合了检索增强生成(RAG)技术来支持各种文档数据管理的工具,旨在通过向量检索技术和大型语言模型(LLM)提高内容生成的能力和准确性,使用户能够有效地构建、维护和查询自己的知识库。
Fast5000E是一款基于国产芯片的AI服务器,为大型模型提供高性能的训练和实时推理能力。 搭建迪普科技自主研发的集群管理服务平台fastfabric基础软件,可共同构建千卡级、可诊断、断点可再生、可扩展的多级高可靠训练集群,支持企业构建集训练与推理于一体的大模型计算平台基础设施。 此外,还配备了迪普科技的deepexi企业大模型平台,可为企业实现敏捷的大模型行业落地。
冯森指出,“领域模型的全链路闭环多模态社区,迪普科技的deepnova技术社区支持模型训练数据集,领域场景微调模型,推理加速和小型化,使各种基础通用大模型在企业服务行业拥有完整的工具链体系,同时,企业应用推理端的吞吐性能提升10倍+, 大大降低了企业应用大模型的成本。 ”
截至目前,deepexi企业模式已落地多家企业,如百丽时尚、长安深蓝汽车等。 deepexi企业模型大大减少了贝儿设计师选择、绘制、渲染、调整和优化的时间; 将数以万计的历史鞋类样本数据沉淀到基础模型中,创建更了解贝儿的模型; 场景不断拓展,与上下游业务融合。
问:您如何看待“换代”和“升级”? 如何确保平稳、稳定、安全的升级换代? 还请简要分析一下开发、运维、硬件、运营复杂度、人力等综合成本。
乔旺龙:因为总公司的技术实力,需要更贴合业务,围绕数据库进行升级。 分公司的技术能力有所欠缺,更注重获得整体解决方案,打包后即可直接更换。 “换代”和“升级”不是概念上的差异,而是取决于客户的实际需求。 这是一个无法剥离的共生问题。
谭宇:第一点是看业务,是“换人”还是“升级”,主要要看业务是如何定义的。 第二点是看基础设施,基础设施层面没有严格的替代,一定是升级。 第三点是看应用,主要配合数据库进行升级。 通常,这实际上是一个升级过程。
李世辉:假设数据库产品具有较高的兼容性和性能来支持业务。 那么,从实际的角度来看,“替代”绝对是成本最低的转型解决方案。 如果采用“升级”的方式,可以更好地发挥国内平台的优势。 目前的情况是,大多数系统都想采用“换代”方式,很多核心系统或重要系统都采用“升级”方式。
冯森“替换”的数据迁移和成本相对较低。 “升级”涉及数据格式和任务的转换,原有平台和新平台会运行一段时间,会带来一些成本,从长远来看,升级可以支撑业务的未来发展。