如何为 Volcano Engine ByteHouse 分析数据库设计列式存储

小夏 科技 更新 2024-02-27

列式存储通过支持列式存储数据,提供高性能的数据分析和查询。 作为云原生数据仓库,ByteHouse还采用列式存储设计,保证读写性能,支持交易一致性,并应用于大规模数据计算,为用户提供极快的分析体验和海量数据处理能力,提升企业数字化转型能力。

列式存储简介

分析数据库中的列式存储是数据库的物理存储结构,它基于列而不是行来存储数据。 列式存储的主要优点是它能够提高数据分析和查询的性能,尤其是在处理大型数据集时。

以下是列式存储的一些主要功能:

数据压缩:由于同一列中的数据往往具有相似或相同的数据模式(例如,日期、时间、地址等),因此列式存储可以更有效地进行数据压缩,从而节省存储空间。

数据过滤性能:列式存储使仅读取查询所需的列非常高效。 在执行大量涉及多列的复杂查询时,可以显著减少磁盘IO操作,从而提高查询性能。

计算位置:由于数据以列形式存储,因此在执行某些计算(如数学算术或统计函数)时,数据可以直接在内存中本地操作,而无需频繁访问磁盘,从而提高了计算效率。

数据独立性:列式存储允许独立更新表中的列,这使得增量更新和数据维护更加简单和高效。

数据分片和分布式处理:由于列式存储的性质,它非常适合分布式计算环境。 数据可以按列分片,并分发到不同的计算节点进行并行处理,从而实现对大规模数据的分布式处理和分析。

灵活的数据模型:列式存储通常支持多种数据模型,如行、列、键值存储等,可以适应不同的数据处理需求。

Bytehouse 的柱式存储设计

ByteHouse是云原生数据仓库,为用户提供超快的分析体验,支持海量数据的实时数据分析和离线分析,便捷的弹性伸缩能力,极致的分析性能,丰富的企业级功能,帮助客户实现数字化转型。

通常,事务数据库使用行存储来支持事务和高并发读写,而分析数据库使用列存储来减少 IO 并促进压缩。 Bytehouse 使用列存储来保证读写性能,支持事务一致性,适用于大规模数据计算。

data layout

表数据根据分区键在物理上分为多个部分,并存储在统一云存储的逻辑存储路径中,每个部分的大小受数据量和行数的限制。

part delta

部分数据初始构建后,是以行列混合形式存储的部件数据文件,并且部分中有增量数据,构造了DML数据字典、位图索引等,这部分数据可以通过以下两种方式存储:

1.每个构建都会重写零件数据。

2.生成增量数据,并将背景异步合并到一个大型部分文件中。

方案 1 可能会影响整个群集的可用性

1.每次构建 DML 数据字典时,都可能涉及对整个表部件的完整 I/O 操作,这成本很高。

2.构建 DML 等操作需要很长时间才能完成,对用户不友好,所以我们使用解决方案 2。

零件文件内容

partdata 分为两部分:

首先,整个部分包含元信息,例如数据文件中行模式列数据的偏移量,由计算节点持久存储和缓存。

二是实际数据信息,包括实际的列箱数据、列mrk数据、地图键箱地图键索引数据、字典数据、位图索引数据等,数据根据元信息中的偏移信息存储在零件的数据文件中。

compaction

Bytehouse 支持将一个零件文件拆分为多个小文件,通过配置零件的最大尺寸和行数,需要满足该零件的最大尺寸和最大行数。

bytehouse 中的压缩是全局完成的,这与之前引发的全局块 ID 一致。

除了列式存储能力外,Bytehouse还优化了元数据管理、自研表引擎等技术,为用户提供更极致的分析体验。

相似文章

    如何升级字节之家ClickHouse网关的性能?

    随着数字化转型的加速,企业面临着收集 处理和分析海量数据的挑战。ClickHouse因其分析速度快 性能高而被开发者广泛使用。作为客户端和数据库之间的桥梁,网关在性能层面也起着关键作用。一个好的网关不仅可以提高性能和可用性,还可以为系统提供安全性和可管理性。虽然主流的ClickHouse网关chpr...

    如何实现DataLeap数据测试平台?

    随着短期生态的扩展和业务的发展,数据在业务中承担的决策场景越来越多样化,一些数据已经应用于资产损失 客户投诉高等高风险场景,因此对数据质量的要求,尤其是高风险场景,要求非常高。许多 QA 数据 BP 团队在保障过程中面临以下痛点 .没有标准化流程,管控能力薄弱 研发QA人力比例高达 ,因此QA采用分...

    性能持续突破! 火山引擎ByteHouse推出矢量检索能力

    随着LLM技术的使用和实施,数据库在向量分析和AI支持方面需要先进,向量数据库和向量检索可以 涌现 迎来行业持续被关爱。简而言之,向量检索技术和向量数据库可以为 LLM 提供外部图像单元,并且该过程提供与问题和历史答案一致的内容,帮助 LLM 返回更准确的答案。不仅是LLM,向量检索早已与OLAP引...

    美的建筑科技携手火山引擎,探索智慧园区新生态

    近日,美的建筑科技与火山引擎发布了美的iBuilding Volcano Engine联合打造的智慧园区解决方案,将美的建筑科技软硬件一体化服务与火山引擎云技术底座深度融合,对上海抖音集团江湾城新办公园区进行智能化改造,打造绿色低碳园区新地标。共创解决方案,云 边 端 能力相辅相成。智能建筑中产品体...

    美的建筑科技携手火山引擎,探索智慧园区新生态

    在 双碳 目标的背景下,当前城市建筑高效 低碳 智能化发展已成为大势所趋。然而,智慧建筑的真正落地仍面临诸多困难,如产业链长 参与方多,各环节相互隔离,缺乏协调。月日,继上海抖音集团江湾城办公新园智能化改造后,美的建筑科技与火山引擎沉淀经验 深化合作,联合举办一流发布会发布美的iBuilding V...