bi数据集成架构数据集成框架

关注网络安全守护神

bi数据集成架构数据集成框架

转载

网络安全守护神 2023-07-18 17:30:30

文章标签 bi数据集成架构数据数据集成数据库 文章分类 架构后端开发

数据集成就是将多个数据源合并存放在一个数据存储中（如数据仓库），从而方便后续的数据挖掘工作

大数据项目中 80% 的工作都和数据集成有关，这里的数据集成有更广泛的意义，包括了数据清洗、数据抽取、数据集成和数据变换等操作
这是因为数据挖掘前，我们需要的数据往往分布在不同的数据源中，需要考虑字段表达是否一样，以及属性是否冗余

数据集成的两种架构：ELT 和 ETL

数据工程师的工作包括了数据的 ETL 和数据挖掘算法的实现
根据转换发生的顺序和位置，数据集成可以分为 ETL 和 ELT 两种架构

ETL 的过程为提取 (Extract)——转换 (Transform)——加载 (Load)，在数据源抽取后首先进行转换，然后将转换的结果写入目的地。
ELT 的过程则是提取 (Extract)——加载 (Load)——变换 (Transform)，在抽取后将结果先写入目的地，然后利用数据库的聚合分析能力或者外部计算框架，如 Spark 来完成转换的步骤。

bi数据集成架构数据集成框架_数据库

目前数据集成的主流架构是 ETL，但未来使用 ELT 作为数据集成架构的将越来越多

ELT 和 ETL 相比，最大的区别是“重抽取和加载，轻转换”，从而可以用更轻量的方案搭建起一个数据集成平台；节省时间
在 ELT 架构中，数据变换这个过程根据后续使用的情况，需要在 SQL 中进行，而不是在加载阶段进行

ETL 工具有哪些？

Kettle与Sqoop的比较

kettle是传统ETL工具，Sqoop是针对大数据仓库的ETL工具
Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。
Sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递
kettle有图形化的操作界面，只需要描述你想做什么，而不是你想怎么做。
sqoop没有图形化界面，具体的数据流向需要手工配置。
kettle底层使用多线程以提高效率
Sqoop专为大数据批量传输设计，能够分割数据集并创建Hadoop任务来处理每个区块。
kettle可以利用transformation在数据传输过程中对数据的一些转换处理
Sqoop只是一个用来将Hadoop和关系型数据库中的数据相互转移的工具
kettle数据的具体流向可以指定，可以是各种数据的存储工具
sqoop只是完成hdfs到关系型数据库或者关系型数据库到hdfs的数据传输，在传输的过程中保证传输数据的类型

Kettle 工具的使用

该项目的目标是将各种数据放到一个壶里，然后以一种指定的格式流出
Kettle 采用可视化的方式进行操作，来对数据库间的数据进行迁移。它包括了两种脚本：Transformation 转换和 Job 作业

Transformation（转换）：相当于一个容器，对数据操作进行了定义。你可以把转换理解成为是比作业粒度更小的容器。在通常的工作中，我们会把任务分解成为不同的作业，然后再把作业分解成多个转换。
Job（作业）：相比于转换是个更大的容器，它负责将转换组织起来完成某项作业。

如何创建 Transformation（转换）

Transformation 可以分成三个步骤，它包括了输入、中间转换以及输出。

bi数据集成架构数据集成框架_数据集成_02

在 Transformation 中包括两个主要概念：Step 和 Hop。Step 的意思就是步骤，Hop 就是跳跃线的意思。

Step（步骤）：Step 是转换的最小单元，每一个 Step 完成一个特定的功能。在上面这个转换中，就包括了表输入、值映射、去除重复记录、表输出这 4 个步骤；
Hop（跳跃线）：用来在转换中连接 Step。它代表了数据的流向。

bi数据集成架构数据集成框架_bi数据集成架构_03

如何创建 Job（作业）

完整的任务，实际上是将创建好的转换和作业串联起来。在这里 Job 包括两个概念：Job Entry、Hop。

Job Entry（工作实体）：Job Entry 是 Job 内部的执行单元，每一个 Job Entry 都是用来执行具体的任务，比如调用转换，发送邮件等。
Hop：指连接 Job Entry 的线。并且它可以指定是否有条件地执行。

在 Kettle 中，你可以使用 Spoon，它是一种一种图形化的方式，来让你设计 Job 和 Transformation，并且可以保存为文件或者保存在数据库中

案例 1：如何将文本文件的内容转化到 MySQL 数据库中

阿里开源软件：DataX

在以往的数据库中，数据库都是两两之间进行的转换，没有统一的标准，转换形式是这样的：

bi数据集成架构数据集成框架_数据集成_04

但 DataX 可以实现跨平台、跨数据库、不同系统之间的数据同步及交互，它将自己作为标准，连接了不同的数据源，以完成它们之间的转换。

bi数据集成架构数据集成框架_数据_05

Apache 开源软件:Sqoop

用来在 Hadoop 和关系型数据库中传递数据。通过 Sqoop，我们可以方便地将数据从关系型数据库导入到 HDFS 中，或者将数据从 HDFS 导出到关系型数据库中。
Hadoop 实现了一个分布式文件系统，即 HDFS。Hadoop 的框架最核心的设计就是 HDFS 和 MapReduce。HDFS 为海量的数据提供了存储，而 MapReduce 则为海量的数据提供了计算。

总结

bi数据集成架构数据集成框架_bi数据集成架构_06

行者无疆，始于足下行走，思考，在路上

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：java 功能怎么查询类如何查看java中的类

下一篇：java 多态实现细节 java如何实现多态

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册