由北京灵蜂纵横软件有限公司研发的数据集成软件BeeDI, 集数据抽取、清洗、转换及装载于一体,通过标准化企业各个业务系统产生的数据,向数据仓库或Hadoop分析平台提供高质量的数据,从而为企业高层基于数据仓库的正确决策分析提供了有力的保证。软件提供跨库数据联邦 、基于数据库日志的数据同步等功能,支持同一数据流向多个接口的分发,同时也支持多个数据流的合并,是一款完全面向数据仓库或Hadoop分析平台的数据集成产品。

  BeeDI包含2个发行版本,分别为BeeDI SE V7.0BeeDI EE V7.0
  BeeDI SEBeeDI标准版,单机程序架构,任务的设计、运行及监控集成在一个模块内部。
  BeeDI EEBeeDI企业版,基于C/S架构,客户端软件(BeeDI EE Client)负责任务配置及远程监控,服务器软件包含BeeDI EE RJSBeeDI EE Monitor(仅Windows平台),分别负责任务运行和及本地监控,用户可以通过Client远程登录到RJS进行任务的发布,删除、调度或终止。

若依集成数据分析 数据集成软件_数据库

  BeeDI主要功能如下:

  数据转换(数据集成) 
  1.支持数据接口如下表:

Oracle 8i / 9i / 10g / 11g

DB2 8.1/9.5

Sybase ASE 12.5 / 15.7

SqlServer 2000/2005/2008/2012

Mysql 4.0 / 5.0

Access 97 / 2000 / 2003 / 2007

Teradata 14.10

Hadoop 2.6.0(Hive1.1/HBase1.0)

PostgreSQL 8.0

Excel 97 / 2000 / 2003

Dbase 3 / 4 / 5 Foxbase2.1

Foxpro 6.0

Informix IDS 10.0

InterBase 7.1/Ingres 9.3

Lotus Notes 7

DM 6.0

KingbaseES 7.1

Lucene 5.2

文本文件/XML

Web Service

  2.支持ETL元数据管理功能,采用图形操作界面辅助用户完成数据抽取、转换、装载等规则的设计。
  3.提供异步ETL过程处理模式,数据抽取、转换及装载过程并行执行,实现数据的高速处理,满足G、T级的数据转换。
  4.支持各种字段级的映射转换,如类型转换、字段运算、参照转换、字符串处理、字符集转换、空值处理、日期转换、聚集运算、既定取值、字段切分、字段合并等。
  5.支持自定义SQL的数据抽取。
  6.支持MD5、SHA消息摘要计算。
  7.支持DES、AES、RSA数据加密解密。
  8.支持各类数据库大对象(LOB)的读写。
  9.支持多字段的混合运算。
  10.支持记录间的合并及计算。
  11.支持抽取数据的分流、过滤。
  12.支持横表、纵表转换。
  13.支持映射自动匹配,可自动完成异构数据库间数据类型的映射。
  14.支持批量表的迁移映射,迁移信息包括表名、字段属性、主键属性、索引属性等。
  15.支持表的动态创建,支持表名的动态生成。
  16.支持根据主外键的目标表装载顺序自动调整。
  17.支持缓慢渐变维的更新,支持代理键的生成、慢速变化维度三种更新类型的设置等。
  18.支持抽取表及装载表的重定向。
  19.支持数据接口的重定向,ETL作业从设计环境到运行环境的无缝移植。
  20.支持数据库存储过程及函数的调用。
  21.支持源表和目标表的差异比较及回补。
  22.支持ETL任务各个环节的数据预览。 

  数据联邦
  数据联邦支持对两路以上数据流(异构数据库或文件)进行关系运算产生一路输出流,包括:
  对多路数据流横向连接产生一路扁平输出流,连接方式支持内连接、左外连接、右外连接及全外连接,可以对输出流进行过滤、分组、排序和去重操作。
  对多路数据流纵向合并产生一路输出流,支持数据去重操作。

  数据同步
  数据同步实现源系统的数据变化(增、删、改)实时映射到目标库中,BeeDI提供以下数据同步处理机制:
  时间戳
  要求源表中存在一个或多个字段(时间戳),其值随着新记录的增加而不断增加,执行数据抽取时,程序通过时间戳对数据进行过滤,抽取结束后,程序记录时间戳信息。
  触发器
  要求用户在源数据库中有创建触发器和临时表的权限,触发器捕获新增的数据到临时表中,执行抽取时,程序自动从临时表读取数据。
  日志解析
  要求源数据库为Oracle(8i、9i、10g、11g)、SQL Server(2005、2008、2012)。
  对于Oracle需要开启日志归档功能,抽取输出列中存在逻辑主键(逻辑主键为在源表和目标表中可以唯一标识一条记录的一列或多列)。
  对于SQL Server需要数据库开启完全事务日志。
  全表比对
  通过逻辑主键逐行比较输入流和目标表记录,输入记录在目标表不存在则插入,记录存在但部分信息不同则更新目标数据,如果目标记录在输入流中不存在则删除目标数据。

  大数据集成
  大数据集成既支持任意关系数据库或文本文件数据到Hadoop系统的传输,也支持将Hadoop文本文件及HBase的数据传输到任意关系数据库或文本文件。软件通过Hive接口将数据存为HDFS文本文件,或从HDFS文件中读取数据。
  Hive
  BeeDI通过Hive接口批量写入数据到HDFS,并将存入的数据文件映射为数据表。
读取数据时,BeeDI支持对HDFS文件数据进行选择、过滤、分组等操作。
  HBase
  BeeDI提供SQL抽象接口访问HBase,支持将任意关系数据库的数据实时同步写入HBase数据库,支持对HBase的增、删、改操作。读取数据时,BeeDI支持对HBase数据进行选择过滤。

   工作流调度 
  软件内置工作流建模工具和调度引擎,用户可自由定义任务的触发条件及执行路径,控制多任务的协同运行 
  1.支持多任务的并发运行,支持并发任务的同步完成; 
  2.支持成功、失败、条件等三种路径,支持基于全局变量的条件路径转移; 
  3.支持任务的定时(可基于日、周、月、工作日、时、分、秒等)触发; 
  4.支持系统命令、外部程序调用; 
  5.提供HTTP、FTP等文件传输功能;
  6.提供邮件通知功能; 
  7.流程运行时的动态轨迹指示,向用户反馈子任务的执行状况;

  WebService 
  BeeDI可作为数据源向外发布数据,通过与Apache HTTP Server的结合,Beeload可作为WebService供用户调用,交互的数据采用SOAP封装,用户在IE中可直接访问软件发布的数据,用户也可以按照标准的WebService接口创建自己的客户端程序 获取数据。
  用户可通过HTTP协议远程控制BeeDI中的任何作业,如远程启动或停止作业,远程查询作业状态。

  脚本调试 
  在BeeDI中,支持创建三类任务:ETL、工作流及Bee脚本,用户可以对每种任务进行调试。 
  1.支持ETL、工作流模板视图到脚本视图的快速切换,用户可直接了解任务执行细节; 
  2.在脚本视图中支持任务的断点运行,任务执行到断点所在脚本时暂停; 
  3.在脚本视图中支持逐行单步调试任务,任务每当执行完一行脚本后即进入暂停状态; 
  4.在任务处于断点暂停或结束状态时,可以对脚本中变量值的进行查看;

  作业监控 
  BeeDI采用作业调度策略控制任务的运行: 
  1.支持多个作业的并发运行,可以限制最大运行作业数; 
  2.支持作业排队机制,当已运行作业达到最大数时,后续启动作业进入排对等待状态; 
  3.支持作业的优先级设置,多个作业处于排队状态时,优先级高的作业首先进入运行状态; 
  4.支持作业的启动、暂停、恢复运行和停止等控制; 
  5.作业支持定时启动,提供多种定时策略,包括日、周、月、工作日、时、分、秒等,通过对作业定时启动可实现作业的循环自动运行; 
  6.直观的作业执行进度及状态显示;

  BeeDI完全采用数据流的思想定义ETL转换规则,数据转换不再局限于一对一的接口方式,而是支持多对多的数据接口方式,界面设计更加直观流畅、ETL规则定义更具扩展性。

 

 

2015.10.28 9:40 willem 数据库同步资料摘抄

不积跬步,无以至千里;不积小流,无以成江海.