研究范围
在一流、地方信息化创新政策的推动下,我国部分信息化创新领域正在从“试点验证”阶段迈向“规模化推广”阶段。 随着信息化、创新化换代的深入,iAnalytics观察到,在需求端,企业对信息化和创新产品的需求正在逐步融合更丰富的业务需求和未来数智化规划,正在从“类似替代”向“迭代升级”转变; 在供应端,新创产品已经跨越了“好用”和“能用”,正在进入实力竞争的“好用”阶段。 企业对信息化、创新产品迭代升级的具体需求如下:
1. 软件基础设施
数据库是基础软件更新换代的重点,企业对数据库的更新换代需求是专门针对IOE数据库在功能和性能上替代IOE数据库,同时也是为了满足企业如上云迁移、资源弹性伸缩、混合事务分析、多模型数据管理和查询等需求,因此企业开始考虑云原生, 存储和计算分离,HTAP,超融合等功能特性用于数据库替换。
同时,在数据架构方面,企业需要解决异构数据源架构下数据开发和运维的难点,湖仓一体架构正在成为替代大数据平台架构的新方向。
2. 申请
OA是企业的核心办公软件,在综合替代软件中也排名第一。 以OA系统的文档管理为例,企业在替代国产产品时,增加了知识体系建设、员工办公效率提升、办公流程自动化等业务场景。
在客户信息管理方面,企业传统的客户信息管理主要通过Oracle、SAP等系统进行管理,但在此次本土化替代中,企业在实现客户信息管理功能的基础上,会考虑业务的增长和未来对业务系统互联互通的数字智能需求, 因此,具有平台特色的CDP引起了人们的关注。
在这份报告中,根据IT架构,iAnalytics将信息创新市场从下到上分为五个层次:基础硬件、基础软件、技术支持层、数据层和上层应用软件。 基础硬件包括芯片、服务器、PC、打印机、存储等; 基础软件包括操作系统、数据库和中间件。 技术支撑层包括底层平台、数据科学和机器学习平台、隐私保护计算、信息创新云、云原生、安全等; 数据层包括数据中台、大数据平台、数据仓库、湖仓一体等; 上层应用分为通用应用软件和工业软件,涉及办公、管理应用、研发设计、制造等多个细分场景。
本报告针对公司决策层、数字化部门负责人、信息技术部门负责人、业务负责人,通过对各特定市场需求的界定,对代表性厂商能力的解读,为公司本土化适配规划和选型提供参考。
本次评估报告聚焦湖仓一体市场数据层,iAnalytics重点关注湖仓一体厂商科捷科技的能力评估。
市场定义:
基于湖仓一体架构,对多模型异构数据进行统一存储、管理和计算,支持BI、数据科学、AI ML、实时分析等数据应用场景,实现数据的自由流动和共享,降低数据开发和运维的复杂度。
甲方最终用户:
企业数据部、IT部。
甲方核心要求:
云计算、大数据、物联网等技术的发展,带动了企业数据量的爆发式增长,数据类型也极为丰富。 企业对半结构化和非结构化数据的存储、处理、应用提出了新的要求,数据仓库或数据湖难以满足企业的需求。 在此背景下,湖仓一体数据架构可以整合数据仓库和数据湖的优势,成为企业数据架构演进的新方向。 企业对湖仓一体解决方案的需求如下:
实现海量异构数据统一存储、批量流式处理的开发范式,降低数据存储、计算、运维成本。 在以往构建数据平台的过程中,企业往往形成了数据仓库与数据湖并存的数据架构,以及“离线计算”和“实时计算”的双链路共存。 数据的存储冗余是通过数据仓库和数据湖之间的数据存储和调用来创建的; 同时,离线链路和实时链路中数据的存储、清洗和转换将同时带来存储和计算冗余。 双链路和数据湖也使企业的数据架构变得极其复杂,系统监控、性能优化、故障排除等运维工作量呈指数级增长。 此外,传统的数据仓库和大数据平台架构与存储和计算资源相结合,在面对大数据集时容易出现存储资源冗余和计算资源不足,企业需要花费数小时或更长的时间来查询数据,限制了大数据分析的性能。
实现多模异构数据的统一管理,提高数据质量。 一方面,数据湖本身容易因缺乏数据质量和数据治理而形成数据沼泽,从而降低数据可用性。 另一方面,在数据仓库和数据湖构建的通用数据架构中,数据仓库和数据湖之间的数据流转和调用需要多个引擎实现,操作复杂,难以保证可靠性,容易造成数据一致性问题。
可同时支持数据分析、数据挖掘、机器学习、RPA等工作负载,适配全球数据融合分析场景。 对于全球数据的联合分析,以电商平台为例,电商平台需要对**、评论、**等非结构化数据以及产品销售、用户行为等结构化数据进行联合分析。 例如,数据仓库使用SQL处理结构化数据,适用于BI分析场景,数据湖使用非SQL处理非结构化数据,适用于机器学习、知识图谱等场景。
满足**单位、国有企业及金融等领域的本土化要求。 湖仓一体架构应接入服务器、芯片、操作系统、数据库、中间件等各种基础设施,支持本地化适配,满足企业自主可控的需求。
供应商能力要求:
它能够以统一的方式存储和管理多种类型的异构数据。 数据湖仓一体化数据架构底层支持结构、时序、文档、图像等多模数据的冷热自动分层存储,支持在存储层的基础上,将多模型数据作为Apache Hudi、Delta Lake、Apache Iceberg三种数据湖类型中的一种或多种进行存储, 从而实现统一的元数据管理,支持ACID事务处理、版本控制等数据管理功能,使多个计算引擎可以共享统一的数据存储。
它具有批量流的集成技术。 厂商应支持一套开发范式,实现大数据的流式计算和批量计算,降低数据开发和运维难度。 对于数据采集,厂商应降低批量流采集任务配置的复杂度,一次配置后,程序即可自动采集批次和流数据。 对于数据分析,供应商的湖仓一体解决方案应提供流式分析功能,以支持实时业务决策。
支持存储和计算分离架构,实现海量数据的低成本存储。 支持存储和计算分离,可根据需要弹性扩展计算资源和存储资源。 其中,资源调度系统应集成机器学习算法,根据任务优先级、资源需求、系统健康等因素对资源分配做出智能决策,通过灵活的任务调度提高资源利用率。
支持各种工作负载。 数据湖仓一体数据架构应支持批处理引擎、流处理引擎、交互式查询引擎、交互式分析引擎、机器学习引擎等通用数据处理引擎的集成,或者以统一引擎支持多个工作负载,以适应数据分析师可以用一种语言对多模型异构数据进行融合分析的场景。
制造商应具有适应国内信息和创新的能力。 符合信息化和创新标准,实现国产化替代。 厂商需要兼容国内主流软硬件,包括但不限于国产化芯片、服务器、操作系统、中间件等,满足企业国产化需求。
纳入标准说明:
1.满足数据中平台所有厂商的能力需求;
2.从2023Q1到2023Q4,该市场的付费客户数量为5个;
3.从2023Q1到2023Q4,该市场的合同收入为1000万元。
厂家介绍:
科捷科技成立于2019年,是国内领先的大数据基础软件提供商,致力于自主可控的大数据基础产品的研发和应用,推动企业全面实现数据驱动型组织的转型升级。 科恩数据湖仓一体自主研发的湖仓一体数据智能平台,具有云原生、批量流式、性能低的特点,可为组织提供集数据管理、开发挖掘、运维于一体的一站式全流程数据能力建设解决方案。
产品服务介绍:
科捷科技核心产品科达湖仓一体是基于云原生技术自主研发的数据库产品,提供端到端的一站式大数据基础软件解决方案。 上层产品集成了Data Fabric、主动元数据管理、数据网格等技术,提供覆盖数据全生命周期的一系列产品和功能,包括但不限于数据开发与管理、数据同步、实时计算、数据标准、数据质量、数据资产、数据服务等。
图:科界科技旗下湖仓一体化数据智能平台KeenData湖仓一体示意图。
供应商评估:
此外,科杰科技在查询性能、易用性、存储和计算分离等方面具有明显优势,此外,科捷科技的信息创新生态系统完善,可充分适配国产软硬件产品,在央企、能源、工业等行业积累了丰富的案例经验。
KeenData LakeHouse 提供增强的湖仓一体引擎,具有高效的查询性能。 科恩数据湖仓一体提供批量流集成能力,灵活支持批处理、实时计算、实时数据流批处理分析、批量流联动转换等场景。 除了灵活性之外,KeenData Lakehouse 还优化了 Lakehouse 查询的性能。 例如,对于实时链路中小文件过多导致的查询性能问题,科恩数据湖仓一体可以根据预定的策略自动触发小文件的异步压缩、合并和清洗。 对于离线查询,KeenData Lakehouse提供自动建档服务,对经常查询的数据列进行优先索引,提升查询性能。 在多维聚合分析中,Kojie通过预计算对文件进行重新分配,以加速多维查询性能。
基于统一元数据服务,提供统一的SQL查询引擎,简单易用,降低了开发者的门槛。 科捷科技基于ACID特性,保证元数据一致性,提供统一元数据服务,其中元数据引擎可以连接Oracle、MySQL、SqlServer、Elasticsearch、NoSQL等异构数据源,兼容Spark、Presto、Flink等多种数据处理引擎。 元数据联合视图支持对数据生态系统(如数据湖、数据仓库和外部数据源)进行统一管理。 在统一元数据的基础上,KeenData Lakehouse通过统一的SQL查询引擎支持跨源联合查询,降低了使用门槛,帮助用户实现全局数据的全局分析。
KeenData Lakehouse支持存算分离架构,为客户实现低成本、简单的存储。 在科恩数据湖仓一体中,数据可以存储在HDFS、S3和OSS中,科捷科技提供统一的资源标识符,使数据存储格式对用户完全透明,用户可以直观地使用数据资源。 针对储算分离架构的性能,科捷通过元数据缓存解决元数据重命名等性能问题,通过数据缓存提升底层数据的调用性能。 此外,存储计算分离架构支持计算资源弹性伸缩和冷热分层数据存储,降低数据存储成本。
行业经验丰富,得到业界广泛认可。 科捷科技在存储计算分离、湖仓一体化等领先技术架构的基础上,融合DataOps和数据编织的理念,提出一套企业立体数据能力建设,包括多架构融合的湖仓一体化引擎、数据工程建设、数据自治、集中管控、去中心化赋能服务体系、 以及数据驱动型组织等,帮助企业实现组织驱动型组织转型升级。目前,科捷科技在中国联通、中石化、中国一汽、国家电网、中国人寿、中国航天等央企、**能源、工业、金融、零售等行业积累了一批丰富的案例。 同时,科捷科技成为首批通过信息通信研究院云原生湖仓一体融合能力专项评估的厂商。
信息创新生态完善,完全适配国产化软硬件产品。 科捷科技坚持自主研发,围绕科恩数据湖仓一体一体化数据智能平台,在相关大数据相关领域申请了150余项软件作品和专利。 同时,科捷也在不断完善信息创新生态圈,完成了与麒麟软件、飞腾、人民金仓等企业的技术兼容认证,并通过了鲲鹏芯片、鲲鹏云、鲲鹏科技全栈信息创新标准认证,特别值得一提的是,科达湖仓一体产品通过了5款软件产品的“可信卓越”权威认证。工业和信息化部,重点介绍了科捷科技在大数据技术研发和产品安全可靠性方面的突出成果。积极推动信息创新产业链协调发展的决心和实力。
典型客户:
中金公司、中国第一汽车、中国石化勘探院.