离线分析系统架构包括离线分析手段

转载

definitely 2023-08-08 00:42:11

文章标签 离线分析系统架构包括大数据 hadoop 分布式数据 文章分类 架构后端开发

1.大数据离线分析的完整流程通常

1.数据采集：从不同来源收集数据。可以使用的组件包括：
Flume：用于高效地收集、聚合和移动大量数据。
Kafka：用于收集、存储和传输流式数据。
Sqoop：用于将关系型数据库中的数据导入到Hadoop中。

2.数据预处理：对收集到的数据进行清洗、去重、过滤等处理。可以使用的组件包括：
Hadoop MapReduce：用于分布式处理和转换数据。
Pig：用于大规模数据的数据分析和转换。
Hive：用于数据仓库和数据分析，可以将SQL语句转换成MapReduce任务。

3.数据存储：将预处理后的数据存储到HDFS或其他分布式存储系统中。可以使用的组件包括：
HDFS：Hadoop分布式文件系统。
HBase：分布式列存储数据库，用于实时读写大型数据集。
Cassandra：分布式NoSQL数据库，用于高可用、高性能的大数据存储。

4.数据分析：对存储在HDFS中的大数据集进行分析。可以使用的组件包括：
Spark：用于大规模数据处理和分析，支持多种数据源和数据格式。
Mahout：用于构建和部署机器学习模型。
Flink：用于流式和批处理数据处理和分析。

5.数据可视化：将分析结果可视化展示。可以使用的组件包括：
Tableau：用于数据可视化和交互式分析。
Power BI：用于数据可视化和报表制作。
D3.js：用于基于Web的数据可视化。

2. 题外话：数据仓库

数据仓库只是逻辑上的分层，并不是物理上的分层，可通过库表名称去区分。
DW 需要面向主题、数据集成、相对稳定、且需要能反应历史变化。对于数仓数据质量等其他问题以后再讲，现在先讲讲一些简单的概念。
数据仓库通常5层：ODS、DWD、DWM、DIM、DWS、DM(ADS)层

大数据组件 Hive 可以作为数据仓库ODS、DWD、DWM、DIM、DWS层
DM(ADS)层：通常由MySQL、Clickhouse、Doris等 OLAP分析域的组件扮演 DM层。
ODS、DWD：3NF建模。
DIM：例如时间维度、区域维度、质量维度，类似于各种字典表。
DWM、DWS、DM: 维度建模。
数据分析模型：星型模型(常用模型)、雪花模型、星座模型

离线分析系统架构包括离线分析手段_离线分析系统架构包括