列存和行列混存

南大通用GBase 8a数据库管理的数据在磁盘中按照列的方式进行组织和物理存储。面对海量数据分析的磁盘 I/O 瓶 颈,分析型数据库把表数据按列的方式存储,列存储架构对查询、统计和分析类操 作具备天然的优势。

其优势体现在以下几个方面:

  • 降低 I/O

只有访问查询所涉及的列才会产生磁盘 I/O,查询中没有涉及的列不需要访问也不产生磁盘 I/O。

  • 高压缩比

压缩比可以达到 2 ~ 20 倍。

  • 支持行列混存

南大通用GBase 8a MPP Cluster 支持行列混存。对于列存储的集群架构,当操作涉及的列数 较多,访问的数据记录非常离散时,会造成大量的离散 I/O。行列混存功能通过存储冗余行的信息,提高磁盘 I/O 性能。

分布式存储

GBase 8a MPP Cluster 可处理 PB 级以上的结构化数据,对于大表数据可采用随机数据存储分布策略模式或哈希数据存储分布策略模式。用户可以按照业务场景的需求,选择合适的数据存储分布策略,从而在性能、可靠性和灵活性间获得最佳平衡 方案。

  • 随机数据存储分布策略模式

随机数据存储分布策略模式是指数据库创建随机分布的分布表,在进行数据入库时 数据将随机均等的分布到各个数据节点上。

  • 哈希数据存储分布策略模式

哈希数据存储分布策略模式是指在数据入库时对原始数据中的每条数据按指定的 哈希分布列进行处理,处理后的数据按照哈希值装入特定的哈希桶中,每个哈希桶 对应一个集群数据节点。这样每个节点所得到的数据就都具有了某种共同特征(指 定列都具有相同的哈希值),在查询时优化引擎可以根据这些共同特征对查询计划 进行优化,以达到缩短查询时间的目的。