在数字化时代,数据是企业的重要资产,其管理和利用效率对企业的生存和发展有着重大影响。 根据《数据库发展研究报告(2023)》,2024年全球数据库市场规模为833亿美元,中国数据库市场规模为597亿美元(约4.03亿美元)6亿元),占72%。预计到2024年,中国数据库市场总规模将达到1286家8亿元,复合年增长率(CAGR)为261%。
近日,51CTO举办了两场技术直播活动,聚焦数据库前沿趋势和实际应用,分别以“分布式数据库应用与挑战”和“湖仓一体技术实践”为主题,邀请51CTO学院金牌讲师和数据库方向的企业技术专家进行分享,帮助用户更好地了解和掌握数据库领域的前沿技术趋势和应用方法。
分布式数据库系统是一种高效、可扩展、可靠的数据库系统,适用于处理大规模数据和复杂的业务需求。 随着云计算和大数据技术的不断发展,分布式数据库系统将得到更广泛的应用和发展。
51CTO学院认证讲师Togo和星环数据库高级架构师陈乾龙分别以“揭开分布式数据库的奥秘”和“星环科技的分布式分析数据库实践”为主题,分享了他们的技能。
首先,多哥分享了大数据时代数据的特点、新时代的业务需求以及使用分布式数据库的原因,并谈到了大数据时代企业面临的数据治理问题以及解决这些问题的一般解决方案。
多哥提到,在大数据时代,很多老问题变成了新的或大的问题。 这些挑战包括计算能力挑战和互联网应用特性的变化。 一方面,数据量的激增导致存储和计算成本不断增加,同时管理者需要关注数据量给整体计算带来的任何方向性变化,以及数据管理迭代升级带来的底层架构挑战。 另一方面,互联网应用的特征正在逐渐向物联网转移,例如,商业模式正在从事务性业务(OLTP)转向分析业务(OLAP),数据变得越来越异构。
Togo认为,面对这些挑战,数据管理者可以尝试将分布式编程的思想融入其中,从独立编程思维模式到集群编程思维模式,从扩展思维模式到横向扩展思维模式,并实现全新的系统堆栈。 因此,多哥总结了解决该问题的三个方向,即:分布式数据库的选择和引入、灵活便捷的资源调度、比移动数据更经济的移动计算方法。
陈乾龙在致辞中引用了信息通信研究院未来数据库技术发展的九个方向和四个目标,并提出融合,即架构集成,用统一架构取代混合架构和平台集成,统一数据湖、数据仓库、数据集市是数据平台架构的发展趋势。 陈乾龙表示,分布式分析数据库可以取代Hadoop+MPP的混合架构。 支持标准SQL语法,提供多模型分析、实时数据处理、存算解耦、混合工作负载、数据联邦、异构服务器混合部署等高级技术能力。
在谈到分布式分析数据库的关键技术时,陈乾龙重点介绍了以下几点:
首先,统一SQL表项,通过均衡负载来提高业务并发性。 同时,根据特定的规则,将查询、批处理等不同业务分布到不同的计算资源,从而实现业务的分流,减少业务之间的相互影响。
二是统一SQL编译引擎,简化SQL开发适配,降低开发门槛,提高迁移效率。
第三,统一SQL计算引擎,通过向量化计算引擎提升性能。
四是统一存储管理,支持多模态数据,高效整合多源数据,促进多模型能力进一步增强。
第五,混合负载均衡管理将作业和资源池关联起来,控制并实现资源的合理利用,从而实现系统资源利用效益的最大化。
第六,集群扩容不知跑业务,扩容后业绩呈现线性提升。
七是块级容灾突破地域限制,构建数据安全保障。
八、智能运维,集成集群管理、SQL开发、SQL监控等能力,实现一站式数据库运维能力。
陈乾龙表示,企业在数据库的选择、应用和优化上要因地制宜,从具体需求出发。 同时,面对技术发展多变、应用特点多变、外部需求迫切的现状,他建议数据库运维人员应不断学习、广泛学习,时刻关注分布式数据库的发展,保持足够的技术敏感度,紧跟技术发展趋势。
湖仓一体是一种创新的数据存储和处理架构,具有强大的数据处理和分析能力,同时保证了数据的安全性和质量,逐渐成为企业主流的数据存储方式。 湖仓一体解决方案具有低运维、低成本、多业态、多功能、高价值、高敏捷、安全、灵活等特点,在金融、互联网等行业已大规模应用。 51CTO学院金牌认证讲师赵玉强、北京科捷科技CTO高景军分别以“湖仓一体技术实践”和“湖仓一体,打造数据智能新基石”为主题,带来技术分享。
首先,赵玉强从数据仓库和大数据技术出发,介绍了基于大数据技术的数据仓库架构:lambda架构和kappa架构,以及大数据计算引擎:flink和spark,进一步引出了数据湖技术和基于数据湖的数据仓库实现的话题。
赵玉强认为,数据仓库本质上是一个数据库,传统的关系型数据库,如Oracle、MySQL等,也可以采用大数据生态体系来实现。 基于大数据技术的数据仓库架构主要有两种类型:lambda 和 kappa。 其中,lambda架构是用于构建数据仓库的主要架构,分为离线数据仓库和实时数据仓库两部分,使用HDFS或HBase存储离线数据,使用消息系统Kafka存储实时数据。 对文件数据进行封装后,对提取的数据进行抽象,易于与数据湖集成,实现离线数据或实时数据的读取功能。 与lambda架构相比,kappa架构只能读取实时数据,虽然可以作为实时数据的特例读取离线数据,但性能较差。
在介绍了大数据计算引擎Flink和Spark之后,赵玉强介绍了数据湖的概念和常用的技术框架。 简而言之,数据湖存储结构化和非结构化数据,是大规模、多任务和高度多样化数据的组织方法。 但是,数据湖不提供数据存储能力,常见的数据湖技术框架包括 Hudi、Iceberg 和 Delta Lake。 在分享的最后,赵玉强还提供了一个基于数据湖的数据仓库、流批一体化架构,供大家参考。
随后,北京科捷科技CTO高景军先生带来了以“湖仓一体,筑立数据智能新基石”为主题的技术分享。 高敬军从湖仓一体式建筑的探索与建设、湖仓一体的技术实践以及湖仓一体平台未来发展趋势三个方面进行了分享。
高敬军表示,LakeHouse是一种全新的开放式架构,它充分结合了数据湖和数据仓库的优势,建立在数据湖的低成本数据存储架构之上,继承了数据仓库的数据处理和管理功能,完全可以满足BI、DI和AI应用的需求。
至于建造湖畔别墅的核心要素,高敬军认为有以下三点:
首先,可靠的湖上数据管理:一种用于组织数据的开放、高性能格式。
其次,支持机器学习和数据科学:一组开放、标准的 API。
第三,高级SQL性能:极其优化的执行引擎。
但随着湖仓一体实践的逐步深入,尤其是当单个链路的数据量达到分钟级,日数据达到万亿级时,企业需要特别关注湖仓一体的性能。 例如:如何平衡流式处理和批量访问?它不仅可以实现高性能和高效率,还可以实现低成本如果我在几分钟内接近极限时继续加速,我该如何优化?高敬军认为,要解决这些问题,就需要不断优化技术架构,提升数据湖计算引擎的能力,通过存储和计算分离、元数据服务和查询引擎的统一,不断优化数据湖的性能。
高敬军表示,企业数据架构呈现出从单一架构向多架构融合、数据资产从物理统一到逻辑统一的发展趋势。 构建湖仓一体基础数据库,保障企业多架构融合平台基础,助力企业构建智能数据新基石。
随着信息技术的不断进步,数据库技术已成为企业智能化建设的核心,它不仅存储了企业的核心数据,还支持企业的业务运营和决策分析。
未来数据库技术的发展将更加注重数据处理的效率和安全性。 一方面,随着大数据时代的到来,企业需要处理的数据越来越多,数据库技术需要不断提高数据处理效率,以满足企业的需求。 另一方面,随着网络安全问题的日益严重,数据库技术的安全性也越来越重要。 未来,数据库技术将更加注重数据安全和隐私保护,采用更先进的数据加密和访问控制技术,确保数据的安全性和完整性。
关于直播的更多细节,可以点击【数据库直播区】、*直播回放、**嘉宾PPT。