数据加载集群加载具备如下特性和优点:

 与GBASE南大通用集群高度集成,无需额外部署;

 GBASE南大通用支持 SQL 及外部工具的加载方式,面向用户的 SQL 接口方式使集群加载与 D ML 等数据操作方式统一;

 GBASE南大通用支持单表多数据源并行加载,支持多加载机对单表的并行加载,最大程度优化 加载性能;

 GBASE南大通用支持从通用数据服务器远程读取数据,支持FTP/SFTP/HTTP/HTTPS/HDFS/Ka fka等多种文件传输协议;

 支持普通文本、gzip 压缩、snappy 压缩和 lzo 压缩等多种格式数据文件加载;

 支持普通文本模式、定长文本模式和宽松模式加载;

 支持错误数据溯源功能,可以准确定位错误数据在源数据文件中的位置;

 支持实时查询加载进度和状态;

 加载性能可以随着集群规模的扩展而持续提升。

Kafka 数据同步 

数据同步系统通过 Oracle Goldengate、GBase RTSync 等工具复制 Oracle、GBase 8s 等数据库的业务数据到 GBase 8a MPP Cluster,为了应对业务系统可能的峰值,在 系统中加入 Kafka 消息队列作为缓冲区。以 Oracle 同步实时数据到 GBase 8a 集群 为例,总体流程如下:

GBASE南大通用技术分享:GBase 8a数据库数据加载及集成_数据库

GBASE南大通用技术分享:GBase 8a数据库数据加载及集成_数据库_02编辑

OGG 发送端(GoldenGate Extract)从 Oracle 的在线日志和归档日志中抽取事务信 息,生成 Trail 文件。OGG 接收端(GoldenGate Replicat)收到 Trail 文件,抽取事 务信息转换为目标格式,并生产事务消息到 Kafka。集群的 Consumer 模块从 Kafka 中消费事务消息,将数据更新到 GBase 8a MPP Cluster 中。

Kafka consumer 的主要功能就是同步 Kafka 数据到 GBase 8a MPP Cluster:

 根据配置,可以指定需要同步的业务;

 在同步过程中,提供同步状态查询功能;

 实现数据同步的高可用性和事务数据一致性。