导读本文将分享数信网络在金融信息创新领域湖仓一体综合数据平台架构中的实践经验。
本次分享主要分为以下五个部分:1.数据平台架构的演变。
2.金融信息创新对数据平台的挑战。
3.DataCyber,云数据智能平台
4.金融信息创新数据平台的落地路径。
5.金融信息创新数据平台实战案例
分享嘉宾:袁攀峰,浙江数码新网***CTO
马新红编辑。
内容校对:李耀。
由社区 datafun 制作
数据平台架构的演变。
大数据基础设施的发展经历了四个主要阶段,每个阶段都有里程碑式的技术进步,以满足新的应用需求。
第 1 阶段:数据仓库。 现阶段,数据平台主要用于支持分析处理(OLAP)和商业智能(BI)报表分析。 技术代表包括 Oracle 的共享存储架构和 Teradata 的大规模并行处理架构。
第 2 阶段:数据平台。 随着大数据的兴起,数据平台开始以大规模数据存储和计算为特色,主要服务于流批处理计算场景。 这一阶段的代表技术是Hadoop,它从早期的单一MapReduce计算引擎演变而来,支持多变量计算引擎2阶段 0 能够处理更复杂的数据分析需求。
第三阶段:数据中心。 在技术上,数据中间平台延续了Hadoop等数据平台的相关技术,并集成了数据组织和变更管理,形成了更完整的数据服务能力。
第 4 阶段:云数据平台。 当前的云数据平台基于云原生架构,并提供云数据仓库等创新产品。 代表性产品包括 Snowflake 和 Databricks,它们支持云上多租户资源的自动缩放和按量付费计费。 从技术上讲,现阶段已经出现了流-批集成、湖仓一体、储算分离等高级数据架构。
当前数据平台发展的第一个重要趋势是云原生与大数据的结合。 此次组合形成了一种新型的数据平台架构,利用云原生资源调度和存储统一负载能力,充分发挥云原生在资源利用、弹性调度计算、标准化部署升级等方面的优势。 这种架构不仅提高了数据处理效率,还增强了数据平台的灵活性和可扩展性,为企业提供更高效、更可靠的数据服务。
传统的湖仓一体架构虽然可以处理多种数据类型,但由于数据冗余存储和数据传输依赖于ETL任务,存在数据时效性和一致性差的问题,同时增加了开发和运维的复杂性。
湖仓一体架构通过结合数据湖和数据仓库的优势,打造一个集成、开放的数据处理平台,解决了这些问题。 该架构支持底层数据统一存储和管理,实现湖仓一体间数据的高效调度和管理。 此外,还可以为业务层提供统一的查询分析能力,提高数据的时效性和一致性,降低开发运维成本,为企业数据分析决策提供有力支撑。
第三个重要趋势是存储和计算的分离。 长期以来,Hadoop一直以一体化的存储和计算架构提供大数据能力,但随着内部网络带宽的快速增长、数据规模的扩大以及数据湖技术的发展,大数据基础设施正在向存储和计算分离的架构演进。
储算分离的核心是将Hadoop的资源调度纱线和存储集群的HDFS分离,实现存储和资源管理的解耦。 虽然这种方式增加了运维负担,牺牲了一些本地读取性能,但实践经验表明,这些损失是可控的,特别是对于担心成本和私有化场景的客户而言。
进入云原生时代后,存储和计算分离的架构变得更加多样化。 底层存储可以是 HDFS、S3 对象存储等,而资源调度框架则完全拥抱 Kubernetes 进行资源调度和管理。 这种架构提供了更大的灵活性和可扩展性,有助于优化资源使用并降低成本,同时保持大数据平台的高性能和可靠性。
第四个趋势是混合云和数据云。 随着企业数据中心的日益普及,公共云和私有云的存在变得越来越普遍。 企业需要一个平台来统一管理两种云上的数据中心,并确保数据跨云的安全流动。
为了保证企业内部和企业之间的数据安全流动,需要采用数据沙盒和隐私计算等技术。 这些技术可以帮助解决不同企业之间的数据安全流动问题。 对于数据平台,支持多个租户之间安全数据流的解决方案至关重要。
金融信息创新对数据平台的挑战。 接下来,在第二部分中,我们将重点关注金融信息创新领域,分析数据平台面临的挑战。
“新创”是中国信息技术应用创新的简称,其目标是推动IT产业链核心技术国产化,实现安全、自主、可控。 大数据组件的适配是信息创新战略的重要组成部分。 在金融行业,信息创新的推进和实施正在加速,大数据组件的适配是当前面临的重要挑战。
大数据信息创新的必要性主要体现在两个方面:一是鼎晖等海外大数据平台产品的许可成本高,二是这些产品不能完全支持我国信息化创新环境下的软硬件。 因此,大数据组件的适配成为一项重要任务。
信息创新的适应过程远比简单的开源技术迁移复杂得多。 首先,要逐一适配国产CPU芯片、操作系统、数据库、云平台。 完成此阶段后,您需要解决版本冲突、依赖包冲突以及不同大数据组件之间的组件组合。 这就需要专业的大数据团队,基于开源技术,经过编译、汇编、打包、部署、测试等一系列流程,最终实现可以交付给客户的生产环境的部署。
第二个挑战是大数据组件的稳定性、性能和安全性。 为确保大数据组件在创新环境中的高可用性和稳定性,请执行以下步骤:
完全适配主流大数据计算、存储和分析组件,确保它们在云原生环境中平滑运行。
对适配组件的性能进行优化,解决新创环境与非新创环境的性能差异问题。
优化云原生环境和存储计算分离架构,满足不同业务场景需求。
执行大规模性能测试和优化,以确保组件在实际部署中发挥作用。
同时,大数据平台的安全性也不容忽视。 平台安全需要从用户管理、租户管理、权限管理、审计中心等多个维度进行保障。 这包括使 Kerberos 和 OpenLDAP 等安全组件适应信息创新环境,以及多租户系统、权限系统和审计系统。 通过全面的安全措施,确保大数据平台在信息创新环境中的安全。
第三个挑战是大数据集群的迁移和混合部署。 这个过程是循序渐进的,涉及新旧集群的并行操作和过渡。 因此,有必要开发工具来支持异构环境中的集群数据迁移,并最大限度地利用现有旧集群中的服务器资源。
为了有效复用原有资源,新创大数据平台需要具备多种混合部署能力。 这包括支持不同 CPU 架构、硬件规格和操作系统之间的混合部署。 这些要求对大数据的创新提出了更高的挑战。
DataCyber,云数据智能平台第三部分详细介绍了DataCyber在金融信息创新背景下自主研发的云数据智能平台DataCyber的架构设计和相关实践。
设计目标
在进入 DataCyber 技术架构之前,我们先先明确一下整个系统的设计目标。 该平台的主要设计目标是在国内信息创新环境下打造一个技术自主、可控的大数据平台。 同时,我们不追求从零开始开发大数据引擎,而是希望通过开源社区生态参与到大数据引擎新技术的建设中来,保证平台的开放性和兼容性。
在技术选择上,我们采用云原生湖仓一体化架构。 该架构结合了云原生和湖仓一体的技术优势,实现了下一代云数据智能平台。 我们也希望平台能够实现数据+AI的融合,即数据平台与AI平台的对接,将两个平台共同的技术组件抽象提取出来,打通账户租户系统。
此外,整个平台基于多租户系统进行设计。 需要确保租户内部的隔离性和安全性,并支持租户之间的开放数据共享。 这是数据平台的一项关键能力,尤其是在金融场景中,客户需要通过不同企业实体之间的数据流通来分析和挖掘数据的价值。
建筑设计
上图展示了 DataCyber 的整体架构,DataCyber 是一个开放的云数据智能平台,旨在支持异构硬件环境,包括传统的 x86 服务器以及 ARM 和 MIPS 等新兴 CPU 架构。 平台底层可以适配不同云平台厂商的私有云、混合云等场景。
DataCyber 的产品矩阵从下到上分为几层:
CyberEngine:提供湖仓一体引擎底座和大数据集群管理运维能力,为数据平台和AI平台提供基础支撑。
网络数据:为开发者和用户提供数据平台的一站式产品能力。
CyberAI:为开发者和用户提供AI平台的一站式产品能力。
CyberMarket:负责数据模型和算法应用在租户之间的安全流通,以实现数据价值的最大化。
将详细描述DataCyber每个组件的架构,展示如何利用这些组件实现智能数据处理和分析,以及如何在保证安全的同时促进不同租户之间的数据共享和流通。
(1)cyberengine
首先,我们来介绍一下CyberEngine,这是一个先进的大数据管理平台,旨在支持云原生环境和传统数据架构。 平台自下而上分为资源调度、数据存储、数据引擎、管理平台四个层次。
在资源调度层,cyberEngine提供统一的资源管理,支持云原生K8S调度和传统YARN调度,帮助客户平稳过渡到云原生架构。 数据存储层既支持传统HDFS存储、对象存储,也支持新的数据湖格式,提供元数据服务、数据摄取、数据湖加速、管理等核心业务。 数据引擎层包括流式引擎、批处理引擎和交互式分析引擎,基于开源技术构建,形成高性能、高稳定性的大数据引擎发行版,满足不同场景的需求。 此外,它还包括一个统一数据集成引擎、一个统一任务调度引擎、一个统一元数据服务引擎和一个统一 SQL 引擎,以支持 CyberData 和 CyberAI 平台。 管理平台由EngineManager产品组成,提供一站式大数据集群规划、部署、运维管理,目标是成为智能高效的大数据技术基础设施管理平台,服务于企业内部的大数据管理和运维人员。
CyberEngine的功能包括:完全云原生、多租户和多集群管理,以及全面的发布、配置、管理、运营和审计能力; 支持主流大数据组件版本,包括计算存储组件、数据湖引擎、分析引擎等,在稳定性和性能上均优于开源组件。 支持大规模部署和管理。
(2)cyberdata
Cyberdata是一站式大数据智能研发治理平台,模块化、可插拔,可拆分为不同的子产品,满足不同需求。 这些子产品包括数据建模、数据集成、数据开发和运营、数据资产治理、数据安全、数据服务等。 平台支持多种湖仓架构,包括离线数仓、实时数仓、流批一体化数据仓、湖仓一体化架构,满足内部数仓工程师、数据分析工程师、数据管理人员的需求。
Cyberdata是一种云原生技术架构,可以部署在多云环境中,支持跨多个环境、区域和集群的大规模企业应用。 在信息创新方向上,Cyberdata不仅支持多种信息创新软硬件环境,还可以接入本地化的数据库和数据源,并将业务数据采集到平台进行处理和分析。
CyberData的核心能力包括统一的元数据管理、数据集成能力和数据开发任务的工作流调度,所有这些都由CyberEngine产品的四大核心服务引擎提供支持。
(3)cyberai
CyberAI 是一个一站式机器学习平台,旨在为算法工程师、数据科学家和数据分析师提供服务。 平台首先强调底层基础设施的管理和接入能力,基于CyberEngine提供的统一服务基础引擎的接入能力。 通过这种方式,CyberAI能够有效地管理资源和数据访问。
此外,CyberAI平台与CyberData数据平台无缝协作。 这种集成能力体现在租户账号体系和数据源的访问和管理上,实现了真正的集成能力。
在产品化能力方面,CyberAI平台不仅支持传统的交互和可视化建模能力,还为企业间数据流转场景提供算法沙箱和联邦学习支持,实现跨租户数据流转和算法训练。 此外,该平台还集成了大型模型工具的相关能力,用户可以在该平台上一站式完成大型模型应用的构建过程。
(4)产品输出形式
DataCyber 是一个云数据智能平台,展示了其产品的高度开源开放性。 DataCyber 的三大主要产品,CyberEngine、Cyberdata 和 CyberAI,都可以单独输出,并与其他开源组件和大数据分析数据库保持最大的兼容性。 这些产品支持CDH CDP本地化替代、大数据基础建设、数据开发治理、通过插件和标准化实现机器学习框架集成等多种场景。
网络引擎:作为大数据基地,可以接入主流大数据组件,适合从零开始构建大数据平台,如银行CDH替换。
网络数据:使用标准化插件接入大数据库,快速支持开源、商业、云原生集群的数据开发和治理,适用于构建各种企业级数据平台。
CyberAI:作为一站式机器学习平台,以插件方式集成TensorFlow、PyTorch等框架,适用于私有云企业机器学习平台等场景。
产品之间的组合输出也提供了更多的可能性,例如:
CyberEngine + Cyberdata:构建大数据基础+一站式DataOps平台的组合,如云原生湖仓一体平台。 CyberEngine + CyberAI:构建大数据AI基础+一站式MLOPS平台组合的能力。 Cyberdata + CyberAI:构建一个集成的数字智能平台,该平台可以在产品功能方面与 Databricks 和 Snowflake 进行基准测试。 在云上输出湖仓一体平台,CyberEngine+Cyberdata+CyberAI:提供大数据AI基础、DataOps平台、MLOPS平台一站式组合,输出云原生弹性湖仓一体平台,满足客户多样化的应用场景。
核心技术组件
让我们来看看 DataCyber 的一些核心技术组件。
第一个是Cyberlakehouse,这是一个结合了信息创新环境和云原生技术的湖仓一体。 在信息化和创新环境下进行全栈适配,从基础硬件到操作系统再到产业生态,保障大数据组件的国产化和适配。 在此基础上,实现基于容器化的大数据组件的标准化发布流程和源码适配,支持云原生部署。 再往上是湖仓一体架构,它需要存储-计算分离、开放存储、计算组件的灵活扩展以及统一和标准化的元数据服务。
基于这些需求,Cyberlakehouse 架构分为三层:
存储层:提供统一的存储和HDFS格式支持,以及数据访问层的加速。 接入层加速包括Alluxio等缓存加速和Celeborn等服务,提升了存算分离架构下的访问稳定性和性能。
计算层:基于云原生资源调度(K8S),支持批处理(Hive Spark)、流处理(Flink)、交互分析(Starrocks Presto Impala)引擎。
管理层:提供集群规划、管理、实施、部署、运维监控的一站式运营平台。
这些技术组件共同构成了DataCyber的湖仓一体平台,为大数据运维管理者提供一站式运营平台,支持多种计算组件和存储格式,确保高性能和灵活性。
上图说明了 DataCyber 的 Cyberlakehouse 在研发过程中对开源大数据组件的大量二次开发和适配。 目前已全面适配批处理引擎 Hive 和 Spark、流计算引擎 Flink、交互式分析引擎 Impala 和 Presto。 主要工作成果包括:
Hive:解决了 Hive 对更高版本的 Hadoop、K8S、数据湖组件和数据缓存系统的适配问题。
Spark:适配 Spark 之前版本的 Hadoop3,以及 Spark on Hive 和 Spark on K8S 的部署能力,并支持弹性伸缩。
Flink:支持 Flink 在 K8s 上的弹性部署,对 Flink 的会话集群进行资源弹性管理的二次开发,实现作业的自动扩缩容。
数据湖集成:集成Hudi、派蒙等数据湖引擎。
分析引擎:定制化 Impala 和 Kudu 的二次开发适配,解决 Impala 在云原生环境下的部署问题,支持老 CDH 用户平滑升级。
安全性:解决Kerberos、Ranger和OpenLDAP的集成问题,为金融级客户的安全需求提供解决方案。
由于这些改编和开发工作,最新版本的 CyberEngine 23.0已经拥有超过CDH的组件覆盖率,在组件版本上优于旧版本的CDH,实现了产品化的输出。
Cybermeta是大数据平台的核心技术组件,实现了湖仓一体元数据跨平台的统一管理,主动发现外部数据源的元数据,以及元数据在多个计算引擎之间的互联互通。 此外,它还支持跨多变量计算场景的数据湖统一数据权限管理和自动优化加速。
为了满足多变量异构大数据计算引擎的元数据需求,统一元数据服务引擎支持两种模式:
与 Hive 元存储集成:通过 Hive 的标准化元数据能力,为不同的分析计算引擎提供元数据管理和服务。
基于 Spark 和 Flink 的自定义目录扩缩容机制:扩展支持更广泛的数据源元数据管理能力,使 Spark 和 Flink 引擎能够访问关系型数据库,实现湖仓一体数据源的跨源数据访问。
Cyberscheduler是大数据平台的另一个核心技术组件,负责数据仓库任务的工作流调度,保证任务的高效执行和数据流的稳定性。 CyberScheduler 的架构分为三层:
Web 服务和调度器 API 层:为用户提供调度任务的接口。
协调器集群:分布式调度系统,负责生成作业实例并根据工作流依赖进行调度,并提供基于API服务的接口。 它强调服务的稳定性、高并发性和低延迟。
工作线程集群:执行不同类型的作业,包括本地执行并远程提交到 Hadoop 和 K8S 等平台的任务。 它侧重于任务可伸缩性和资源隔离。
CyberScheduler 支持多种作业类型,支持定期调度、灵活依赖、数据回填、断点重启等功能。 可适配不同任务规模的湖仓一体场景,支持从10万到1000万以上的任务调度,通过统一的架构和不同的部署模式适应不同的客户需求,实现稳定的调度和运维。
此外,CyberScheduler支持智能调度监控,根据历史数据优化任务调度资源,提供任务输出时间和告警的智能提示,从而提高调度效率和任务成功率。
CyberIntegration是统一的数据集成引擎,是一个多合一的数据同步平台。 平台支持DataX、Spark、Flink三种主要数据同步引擎。 这些引擎可以处理多种数据同步需求,包括批量同步、流式同步、全量同步、增量同步和全量数据库同步。
Cyberintegration的系统架构允许它根据数据源的规模动态确定所需的资源和同步能力,并支持水平扩展。 此外,考虑到平台需要支持公有云、私有云和混合云架构,还需要解决数据集成过程中跨网段数据传输的技术挑战。 这种灵活性和强大的数据处理能力使 CyberIntegration 成为满足各种数据集成需求的有效解决方案。
CyberMarket 是数据分发中心,专注于解决跨租户数据流通问题。 CyberMarket支持多种开放数据共享方式,包括数据API、数据应用、数据沙箱和算法沙箱等,后者允许数据在不同租户之间可用和不可见,特别适合金融等行业场景。
数据沙盒通过物理隔离的存储和多租户之间的隔离来确保数据安全。 在计算层面,SQL沙箱和算法沙箱提供了安全的数据分析和挖掘环境。 数据进入计算沙箱后,只能在沙箱内安全使用,计算结果需经数据所有者批准后方可导出。 沙箱使用后,会有相关的**和安全机制。
CyberData和CyberAI之间的协作也是关键,例如,在CyberAI平台中训练的模型被发布到CyberData平台,用于工作流编排和调度数据开发和模型训练任务。 该能力使整个平台能够在数据流场景中提供全面的支持。
金融信息创新数据平台的落地路径。
第四部分将金融信息创新数据平台的典型落地路径分为六个阶段:
构建统一管理平台:首先,构建统一的管理平台,统一用户体验,保证信息化和创新切换过程中的顺利管理和迁移。
业务场景选择与试点规划:根据客户实际情况,选择合适的业务场景进行系统化试点,规划信息创新集群。
湖仓一体资源规划:设计和规划湖仓一体集群,包括计算、存储、网络等资源,以满足业务需求。
数据迁移与校验:新新创集群部署完成后,对新旧集群数据进行迁移,对数据进行比对校验。
压力测试与优化:根据数据量和业务需求,对信息创新集群进行压力测试和优化。
分步切换和验证:在确保新集群满足性能和稳定性要求后,新旧集群并行运行,完成集群切换。
这条路径保证了金融信息创新数据平台的高效实施和平稳过渡,满足客户的业务需求。
在金融信息创新数据平台的实施中,上图中大数据集群统一管理平台的功能技术架构是关键。 其中,大数据集群统一管理平台包括新旧两大集群,在资源调度和组件使用方面存在差异。 中间层负责数据迁移,统一管理层通过不同的驱动包实现驱动对接和管理不同类型的底层大数据集群。 顶层是应用层,本文将不再详细讨论。 这种架构可以保证金融信息创新数据平台的高效推广,在不影响客户业务稳定性的情况下,实现金融信息创新数据平台的稳定替代。
金融信息创新数据平台实战案例 在金融信息化创新领域,新网在云数据智能平台落地方面取得了显著成效。 本文的第五部分将通过两个案例研究来展示新网络的实际成果。
第一个案例涉及一家股份制银行,该银行正在使用Cloudera的CDH产品,并面临高昂的订阅成本和不遵守信息创新要求的问题。 数信网络提供的云原生大数据管理平台CyberEngine,已成功帮助银行将多个数据集群升级为信息创新的湖仓一体架构。 这不仅提高了平台的自主性和可控性,还优化了组件版本升级和计算资源效率,为客户带来了全面的平台提升和价值提升。
二是省级金融综合服务平台建设运营。 树信网络云数据智能平台利用大数据和云计算技术,实现多个龙头部门和银行数据的统一融合分析,解决金融领域数据使用问题。 新网络提供数据平台cyberdata和智能平台cyberAI,助力构建金融主题库和金融数据仓库,覆盖从数据开发、治理到AI任务开发的全流程。 此外,为保证数据的合法合规共享,树信网络还提供数据沙箱和算法沙箱能力。 最后,在业务层面,新网络输出适合金融领域的数据应用,为金融综合服务平台提供全面的数据智能解决方案。
以上就是这次分享的全部内容,谢谢。
分享客人
前山顶
浙江数字新网***
cto
北京航空航天大学计算机科学硕士,10年以上大数据及隐私计算行业研发经验,国内外发明专利15项。
曾任阿里巴巴集团大数据平台高级技术专家,阿里巴巴皇家餐厅、阿里云数字Plus、DataWorks创始团队核心负责人,0-1完成了阿里云隐私保护计算平台Data-Trust产品的开发和商业化。