12月20日至21日,由中国信息通信研究院、中国通信标准化协会主办,中国通信标准化协会大数据技术标准促进委员会承办的“2023数据资产管理大会”在北京召开。 会上,第七届大数据“银河”案例评选结果正式揭晓。 由中国移动与酷数据联合申报的“基于云原生化的云原生数据仓库平台,实现数据算力交付效率的全面提升”项目,以全栈自治可控、敏捷高效、安全稳定等先进特性,成为业界首个以容器化部署的大规模云原生数据仓库,荣获2023大数据“银河”数据库优秀案例奖。
大数据“银河”案例征集活动主要针对甲方落地单位,旨在通过现场生产案例和场景,总结推广真实可用大数据实践和经验,在国内大数据行业具有公认的行业标杆和高度认可度。
第七届大数据“银河”案例集包括数据库等五大数据应用方向,涵盖电信、金融、政务、能源、制造等行业。 案例集自9月上线以来,受到行业龙头甲方单位和厂家的广泛关注。 经过正式评审和专家评审,共评选出数据库中的优秀案例26个。
项目背景。 在数据处理平台建设初期,采用当时业界广泛使用的“Hadoop+MPP数据库”混合架构作为数据仓库。 随着数据量的不断增长,平台扩容和运维冗长繁琐,无法满足高时效、高重要性应用的开发需求。
围绕集团公司给出的“全网集中服务提供者、渠道运营集中支撑者、业务集中后端处理者”的定位,中国移动积极布局云原生技术。 经过广泛的市场调研和产品对比,以库科数据存储计算分离、弹性并行处理(EPP)为核心的数据库产品Hashdata云数据仓库被Vertica全面替代,构建了统一、高效、敏捷、智能的湖仓一体数据系统,提供统一。
1、多元化、应用化、主题化的数据服务能力,为中国移动数字化转型提供强大的数据能力基础。
首先,在本项目中,中国移动采用哈希数据EPP数据仓库,与原有的基础云平台和对象存储集成,通过容器化部署建立云原生数据仓库。
由于数据量大,网络和I/O吞吐量高,传统MPP架构的数据仓库无法部署在容器中,难以实现资源利用效率的最大化。 中国移动**和酷科数据的技术团队克服了组网、存储、调度、管理等方面的诸多技术挑战,突破了过去容器化只用于无状态应用场景或开发测试环境的局限性,采用K8S+hashdata的技术路线,在国内率先构建了容器化生产环境中的大规模云原生数据仓库。
图 1:基于容器化部署的云原生数据仓库解决方案。
基于存储、计算、元数据分离的Hashdata架构,借助更轻量级的容器虚拟化技术,进一步拓展云原生数据仓库平台的弹性伸缩优势,以及高可用、自动化运维能力、敏捷资源交付能力,大幅提升项目交付速度, 降低数据迁移扩容难度,实现计算资源和交付效率的整体提升。
与原有的数据处理平台相比,基于容器化部署的算力数据仓库具有高可用、高并发能力,计算资源可水平无限扩展,支持秒级扩容等能力,且在扩缩期间不影响业务连续性,满足不同场景下业务数据计算和查询需求, 实现计算资源快速部署、高效交付的建设目标。
同时,在项目实施过程中,中国移动在哈希数据云原生数据仓库平台的计算引擎层构建了多种异构数据技术组件的生态兼容能力,并采用融合分析技术,支撑核心仓库区域数据与大数据区域数据的关联融合分析。 从而减少数据搬迁,提高处理效率和数据资源利用率,满足公司业务部门日益复杂的分析场景需求。最后,通过云原生数据仓库与流处理系统、批处理系统、数据湖、对象存储的集成,实现数据高效聚合、数据低成本流转、不同存储系统间透明接入,助力数据高效集成,赋能生产运营。
此外,本项目充分发挥哈希数据丰富的接口能力以及各种开发语言与上下游生态软件的强兼容性,成功实现了云原生数据仓库与现有报表索引工具、智能统计工具、数据洞察工具、自助分析工具、研发云平台等系统的兼容适配, 为用户提供高效的数据检索和分析能力,提高用户数据使用的效率和体验,提高用户数据使用率。
在现有数据的应用迁移方面,借助hashdata云原生数据仓库引擎的用户自定义函数和用户自定义数据类型,保持数据库引擎之间的兼容性此外,通过哈希数据完整的迁移工具功能,优化迁移方案,最大程度实现现有数据应用的“一键式”自动迁移和验证操作,大大降低了迁移人力投入和整体项目周期,快速释放新平台的商业价值。
图 2:Vertica Inventory Utility 工具迁移解决方案。
项目特色: 在这个项目中,中国移动以哈希数据为核心引擎,构建了云原生数据仓库平台。 新平台依托哈希数据强大的数据查询分析能力和云计算弹性伸缩能力,在技术架构、资源交付、业务赋能等方面实现了全方位提升
数据仓库系统架构创新。
算力数据云数据仓库解决了传统数据仓库在存算耦合、弹性伸缩、元数据管理等方面的弊端,各模块之间完全解耦,采用分布式部署,摆脱了传统MPP数据库的各种架构限制和约束,为客户提供成熟稳定的海量数据管理平台,实现数据价值最大化。
数据仓库容器化部署的创新。
中国移动**是国内首家在实际生产环境中实现云数据仓库容器化规模化部署和应用的企业。 新平台采用K8S+HashData技术路线,具备秒级快速扩缩容、读写分离、高可用、自动化运维、资源敏捷交付等能力,可快速满足业务发展需求,进一步提高资源利用率,赋能企业降本增效。
灵活高效的资源隔离能力创新。
项目基于存储和计算分离的架构,实现基础设施资源与应用的解耦,可根据计算集群的工作负载变化,灵活动态地分配计算集群资源。 计算集群性能相互隔离,资源和操作完全独立,不会出现CPU、内存、IO的竞争,轻松应对复杂的数据应用场景。
自动缓存功能方面的应用驱动创新。
HashData缓存采用LRU算法,实现按需、自动缓存管理,提高热数据访问效率,使底层存储更高效,满足上层应用需求。
智能自愈能力创新。
HashData提供管理组件,实时监控整个集群的运行状态,当感知到节点故障时,会自动执行不同策略下的恢复操作,实现故障自愈,保证整个数仓服务的高可用,有效适应数据仓库平台从决策管理辅助系统向业务运营关键支撑平台的转变, 并满足用户对平台全天候可用性的期望。
项目的价值。 基于容器化部署的云原生数据仓库的建成,有效支撑了中国移动构建开放数据生态,推动数据转化为资产、服务业务,以数据驱动业务增长,实现数据可视、可可用、可运营,驱动业务创新和数据管理,提速增效
深化云原生技术应用,实现数据基础设施平台架构云化升级。
云数据仓库平台的建设是中国移动整个数据基础设施平台架构云化升级的重要组成部分。 利用算力数据云架构可自由扩展、灵活部署的优势,大幅提升计算资源的快速部署和高效交付,支撑架构创新、数据生态、相互融合的特色数据体系,赋能公司未来业务高质量发展。
构建OneData数据平台,实现真正的企业级统一数据视图。
在云数据仓库平台的建设中,将过去分散在四个独立的垂直集群中的数据统一迁移到全辖域共享的对象存储中,以更低的成本、更高的可扩展性和可靠性,实现所有数据资产的统一数据平台管理,建立真正的企业级统一数据视图, 消除数据孤岛,避免数据模糊对业务分析的影响,大幅降低数据使用和维护成本。
数据应用与数据库集群资源解耦,实现资源管理和运维管理新范式。
基于哈希数据的松耦合架构,创新性地实现了数据应用与数据库集群资源的解耦,建立统一的数据分析计算资源池,实现资源的细粒度管理和调度,支持离线计算和高质量计算任务混合,达到峰谷互补的效果,大大提高服务器资源的利用率。
建立一体化数据湖仓一体数据系统,实现不同组件之间的高效数据集成、共享和协作。
本项目建立了以HashData云数据仓库为核心的一体化数据湖仓一体数据体系。 通过外部表和连接器两类组件,实现针对异构计算工作负载的统一多维查询分析服务架构,支持多个计算引擎之间共享计算和存储资源,避免了大量数据的搬迁,有效降低了整体数据链路的成本、成本和复杂度, 提高处理效率和数据资源利用率,满足公司业务部门日益复杂的分析场景需求。
图3:中国移动云原生数据仓库平台集成系统集成解决方案示意图**。
完善迁移工具功能,实现现有应用“一键式”快速、高效、平滑迁移。
在现有数据应用迁移方面,哈希数据完整的迁移工具,最大程度实现了现有数据应用的“一键式”自动迁移和验证操作,在短时间内完成了约600吨股票数据、10万张表、2000多个ETL脚本的迁移和转换,节省了大量人力成本。
同时,在经济效益方面,使用哈希数据云数据仓库,相比在原Vertica平台基础上进行扩容升级,节省了1000多万元采用存算分离架构和容器化部署技术方案,硬件资源节省达到30%。
在这个项目中,中国移动不仅完成了对传统技术栈的替换,更重要的是在数据仓库平台架构上实现了技术创新。 基于容器化的云原生数据仓库平台,采用全栈式信息创新架构技术栈,支持一云多核(x86 c86 arm)和一库两栈(通用信息创新),既实现了公司数字资产管理和运营的全栈自主可控,又实现了数据线的全面技术升级。
云原生数据仓库平台从硬件、操作系统、数据库三个维度构建基于信息创新链的技术架构,具有高可用、易扩展等特点,结合容器化技术,构建可统一管理、动态部署、敏捷交付的大数据服务体系,不存在外部服务故障的“断点”。
全栈自主可控项目兼顾安全性、稳定性、敏捷性和效率,实现了数据算力交付效率的整体提升,为中国移动全面提升业务处理数智化水平奠定了坚实基础,为业务效率和技术融合创新提供了有力支撑。
未来,中国移动**和库科数据将积极响应国家和行业的号召,围绕“数字经济、信息化创新工程化、创新驱动”的发展战略,积极推进技术架构转型升级,赋能高效数据集成,为提升线上业务服务能力和营销转化能力筑牢强大的数据集成计算基础。
关于Cool Data。
酷客数据是国内领先的具有自主可控研发能力的数据仓库软件供应商,核心团队主要由Pivotal、Teradata、IBM、Yahoo!、甲骨文、华为等公司由云计算、分布式数据库、大数据等领域的资深专家组成。 凭借深厚的技术积累和前瞻性的产品理念,算力数据仓库已广泛应用于金融、电信运营商、能源、交通物流、互联网等众多行业领先客户。
关于CMo**。
中国移动服务是中国移动在数字时代的全资专业子公司,致力于成为服务效率更高、服务质量更优的数字服务的提供者和创新者,成为客户满意、社会信赖的卓越服务品质的创造者。