数据的分布式存储
列和行是混合的
NTU 的通用 gbase 8a 管理的数据被组织起来,并以物理方式存储在磁盘上的列中。 面对海量数据分析,分析数据库将表数据存储在列中,列存储架构在查询、统计、分析操作方面具有天然优势。
其优点体现在以下几个方面:
更低的 IO
只有访问查询中涉及的列才会产生磁盘 io,查询中不涉及的列不需要访问,也不会产生磁盘 io。
高压缩比 压缩比可达2-20倍。
支持混合行和列
NTU 通用 GBASE 8A MPP 群集支持混合行和列。 对于列存储的集群架构,当操作涉及大量列且访问的数据记录非常离散时,会出现大量离散的 io。 行列混合功能通过存储冗余行的信息来提高磁盘 IO 性能。
分布式存储
GBASE 8A MPP集群可以处理PB级以上的结构化数据,可以对大表数据采用随机数据存储分发策略模式或哈希数据存储分发策略模式。 用户可以根据业务场景的需要选择合适的数据存储分发策略,从而在性能、可靠性、灵活性之间取得最佳平衡。
随机数据存储分布策略模式
随机数据存储分布策略模式是指数据库创建一个随机分布的分布表,在存储数据时,数据将随机均匀地分布到每个数据节点。
哈希数据存储分发策略模式
哈希数据存储分布策略模式是指当数据存储在数据库中时,按照指定的哈希分布列对原始数据中的每条数据进行处理,根据哈希值将处理后的数据加载到特定的哈希桶中,每个哈希桶对应一个集群数据节点。 这样,每个节点得到的数据都有一些共同的特征(指定的列都具有相同的哈希值),优化引擎可以在查询时根据这些共同特征优化查询计划,从而达到缩短查询时间的目的。