今天给大家介绍下高级功能特性,如需查阅前文,请参考如下链接:

GBase 8a MPP Cluster产品基本介绍:https://www.gbase.cn/community/post/4209

单节点列存储数据库技术: https://www.gbase.cn/community/post/4218

MPP大规模并行计算技术: https://www.gbase.cn/community/post/4221

GBase 8a MPP Cluster高级特性

1.1 数据加载及集成

1.1.1数据加载

GBase 8a MPP Cluster中,集群加载功能直接集成在GBase 8a MPP Cluster内部,不需要额外部署外部加载工具。
数据加载具备如下一些特性和优点:
1)与集群高度集成;
2)面向用户的SQL接口方式更符合用户的使用习惯;
3)支持单表多数据源并行加载,支持多加载机对单表的并行加载,最大化提升加载性能;
4)支持从通用数据服务器拉取数据,支持ftp/sftp/hdfs/Kafka/http/https等多种文件传输协议; 
5)支持普通文本、gzip压缩、snappy压缩、lzo压缩等多种格式数据文件;
6)支持普通文本、定长文本、宽松模式的加载;
7)支持用户自定义列分割符、行分隔符和日期时间格式;
8)支持错误数据溯源功能,可以准确定位错误数据在源文件中的位置;
9)加载性能可以随着集群规模的扩展而持续提升。

1.1.2kafka数据集成

数据同步系统通过Oracle Golden Gate(OGG)、GBase RTSync等工具复制Oracle、GBase 8s等数据库的业务数据,通过kafka同步到GBase 8a MPP Cluster,为了应对业务系统可能的峰值,在系统中加入Kafka消息队列作为缓冲区。总体流程如下:

南大通用GBase 8a MPP Cluster 产品技术简介(四)_全文索引

OGG发送端(GoldenGate Extract)从Oracle的在线日志和归档日志中抽取事务信息,生成Trail文件。OGG接收端(GoldenGate Replicat)收到Trail文件抽取事务信息转换为目标格式,并生产事务消息到Kafka。Consumer从Kafka中消费事务消息,将数据更新到8a MPP Cluster中。
Kafka consumer的主要功能就是同步Kafka数据到8a MPP Cluster:
1)根据配置,可以指定需要同步的业务;
2)在同步过程中,提供同步状态查询功能;
3)实现数据同步的高可用性和事务数据一致性。

1.2 虚拟集群及镜像集群

1.2.1虚拟集群

虚拟集群以大规模集群为基础开发,一个集群中包含多个虚拟子集群(VC)。各VC在整个集群范围内独立运行,共享统一的入口。权限许可的情况下,各虚拟集群间可以相互访问。
支持Coordinator node(包含Gcluster node和Gcware node)和VC的data node在同一个物理节点上。

统一管理
在集群内部进行虚拟集群划分,在增强集群的扩展能力同时,提供统一的管理视图,集群可以达到千节点规模。
集群统一访问入口

南大通用GBase 8a MPP Cluster 产品技术简介(四)_8a_02

用户选择Coordinator cluster(包含Gcluster调度集群和Gcware管理集群,通常将这两个集群部署在一起统称为Coordinator cluster)中的任意一个Coordinator node作为集群入口。Coordinator node根据用户确定默认VC。
注:coordinator节点存储了所有VC的database和表的元数据。

业务隔离

虚拟集群对集群进行垂直资源隔离,在实际的业务场景中,可以实现不同业务的资源物理隔离。

透明访问

虚拟集群提供统一的访问入口,应用对多个物理集群的访问对应用是透明的,对应用来说就是一个统一的集群。

1.2.2镜像集群

虚拟集群的镜像功能有以下特点: 

  • 灵活的镜像配置:支持库级、表级镜像设置; 
  • 数据实时同步:对具备镜像关系的库、表进行数据变更时两边实时同步。互为镜像的库下所有表都将自动创建镜像。库下所有函数、存储过程和视图都会同步在目标库下创建;
  • 高可用:镜像关系为数据提供更多的冗余分片,具备更高的可用性;灾备:支持同城异地部署集群。

1.3数据安全

1.3.1数据加密

GBase 8a MPP Cluster数据加密是提供对数据库落地数据的加密功能,用来满足用户的安全需求,提高系统的安全性。数据加密按照数据文件中的DC数据块为最小单位进行,可以实现表级或者列级不同粒度的加密要求。

南大通用GBase 8a MPP Cluster 产品技术简介(四)_8a_03

数据加密支持如下特性:

  • 支持加密关键字encrypt建表
  • 支持表级或者列级不同粒度的加密要求
  • 支持表加密属性的查询
  • 支持密钥证书管理
        包括密钥证书的创建、打开、关闭、口令修改、密钥转换操作
  • 支持密钥类型转换,即从明文密钥转换到密文密钥,或从密文密钥转换到明文密钥
        明文密钥:无须用户口令,可随机生成也可手动输入
        密文密钥:需用户输入口令,根据口令对随机生成的密钥加密存储
  • 支持查询当前密钥证书状态
  • 支持行存列加密

1.3.2数据脱敏

GBase 8a MPP Cluster提供动态数据脱敏的新特性,使得开发人员或者数据库管理员能够控制敏感数据的暴露程度,并且在数据库层面生成数据,大大简化了数据库应用层的安全设计和编码。

  • 按权限及字段属性
    用户可以通过sql语法的形式,给需要进行数据脱敏的字段添加脱敏属性,通过用户权限控制,决定是否对有查询要求的用户暴露原始数据。
  • 内置规则
    动态数据脱敏并不会真正改动表中存储的实际数据,只是在查询的时候应用该特性控制查询返回的数据,动态数据脱敏支持四种数据脱敏函数,包括默认脱敏default、随机脱敏random、自定义脱敏partial、哈希脱敏SHA和指定符号为起始位置脱敏keymask。动态数据脱敏是否启用受当前用户权限影响,拥有unmask权限的用户不受脱敏规则影响可以访问实际数据,没有unmask权限的用户受脱敏规则影响只能访问到脱敏后的数据。脱敏只对投影列有效。

1.4全文检索

GBase 8a MPP Cluster数据库支持全文检索,由于默认采用全单字索引方式,支持几乎所有的语种,并且可以保证100%的查询召回率。结合GBase 8a MPP Cluster独特的列存储,压缩和智能索引技术,适合面向海量数据的检索查询应用。
支持对外部存储文档建立全文索引并提供检索,支持的文档格式如txt、doc、XML、HTML、PDF、xls等。
主要功能包括:

1.建立索引与搜索

  • 在GBase 8a MPP Cluster中内嵌全文检索引擎,支持表中所有文本类型字段的索引与查询。
  • 支持参数化管理,索引建立、分词、索引维护、搜索等过程均可以通过GBase 8a MPP Cluster的标准配置文件进行方便的配置。
  • 在GBase 8a MPP Cluster中内嵌文本分词器功能,以实现对文本列、搜索串的单字切分,并能保证两者的切分规则、切分结果的一致性,防止由上下文语境导致的切分不一致。
  • 支持全文索引同步查询,在创建索引过程中可实现查询功能。新追加数据可分批创建索引,当索引数据缓冲区中数据处理完成到索引文件后,用户可立即搜索到这些已创建索引的新内容,而不是等所有新数据都建好索引之后才能查询。
  • 支持数据库表中已建立全文索引列的词句逻辑表达式查询(AND、OR、NOT)、NEAR查询,并支持与非全文索引字段之间的逻辑组合查询。

2.支持DML

  • 支持数据库表中字符数据类型列已建立全文索引的在线删除。
  • 支持列数据Update后全文索引的同步更新。

3.支持DDL

  • 支持数据库表在建立全文索引列被删除后,索引的自动失效。
  • 支持数据库表重新命名后,索引不失效。

1.5库内挖掘

GBMLLib是GBase 8a MPP Cluster的数据挖掘和机器学习扩展库,以插件的形式添加到GBase 8a MPP Cluster中。通过其提供的机器学习算法,GBase 8a MPP Cluster可以对用户数据进行深层次的分析和挖掘,将用户数据转化为用户价值。

GBMLLib提供了基于SQL的机器学习算法,目前包括的算法有:回归算法(线性回归)、分类算法(Logistic回归、支持向量机)和聚类算法(K-Means)。同时也提供了一些数组操作和线性代数计算的基本函数。

GBMLLib具备以下技术特征:

  • SQL接口:GBMLLib提供了SQL方式的数据挖掘算法,模型的训练、评估和预测都通过SQL语句来执行,使得数据分析师非常容易掌握,并与其现有技能结合,充分发挥其创造力、提高工作效率;
  • In-database分析:不同于其他分析工具需要通过api或odbc把数据从数据库搬移到分析节点进行处理的方式,GBMLLib的分析算法以数据库udf/udaf的形式运行在GBase 8a MPP Cluster的线程内部,通过GBase 8a MPP Cluster的执行计划进行调度,最大程度的减少数据的搬移、提升运行速度;
  • 方便扩展:GBMLLib以插件的形式添加到GBase 8a MPP Cluster中,并采用弹性灵活的软件架构,方便后续添加新的数据挖掘和机器学习算法。
    GBase 8a MPP Cluster 产品的高级特性就先介绍这些,希望对大家有所帮助~