声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章               2. 由于是个人总结, 所以用最精简的话语来写文章  &nbs
转载 2023-12-28 22:11:31
95阅读
一、引言Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统
转载 2024-09-23 17:22:10
31阅读
一、分层误区层内部的划分不是为了分层而分层,分层是为了解决 ETL 任务及工作流的组织、数据的流向、读写权限的控制、不同需求的满足等各类问题。业界较为通行的做法将整个数层又划分成了 DWD、DWT、DWS、DIM、DM等很多层。然而我们却始终说不清楚这几层之间清晰的界限是什么,或者说我们能说清楚它们之间的界限,复杂的业务场景却令我们无法真正落地执行。所以数据分层这块一般来说三层是最基础的
之前我们用一个java类连接MySQL数据库实现了数据库的增删改查操作---------MySQL篇;但是数据库种类之多,除了MySQL,还有Access、Oracle、DB2等等,而且每种数据库语言都不尽相同;这时,我们就需要一个框架来实现对主流数据库操作的兼容,并且简化操作流程,Hibernate就是其中一款主流框架。这里我们用Myeclipse作为开发软件来示例。1.建立数据库连接开启MyS
第二章 分层与规范定义 文章目录第二章 分层与规范定义分层与规范定义一、分层二、设计规范1 公共规范1.1 数据划分及命名空间约定1.2 公共字段定义规范2 设计规范ods层dim层dwd层dws层 分层与规范定义一、分层现在数技术选型主要有两种: 一种是自建的CDH集群,基于hive来搭建离线,基于flink的搭建实时部分。 一种是基于阿里云的dataworks这
转载 2024-06-04 08:29:36
112阅读
# 技术架构 ## 引言 在大数据时代,数据处理和分析的需求越来越迫切。为了满足这些需求,技术架构应运而生,成为了数据处理和分析的基石。本文将介绍技术架构的基本概念和重要组件,并通过代码示例来说明其使用方法。 ## 什么是技术架构 技术架构(Data Warehouse Architecture)是一种将数据从各个来源整合到一个中心化的存储库中,并通过ETL(Extract
原创 2024-01-01 07:42:56
59阅读
# 技术架构 ## 引言 随着互联网的快速发展和大数据时代的到来,数据的规模和复杂性呈现爆炸式增长。为了更好地管理和利用这些数据,数据仓库(Data Warehouse)应运而生。数据仓库是一个用于存储、管理和分析企业中各种数据的集中化系统,它采用了特定的技术架构来支持数据的提取、转换和加载(ETL),以及数据的查询和分析。 本文将介绍技术架构,并提供一些代码示例来说明这些概念。
原创 2023-11-20 08:28:32
61阅读
小节一:介绍小节二:离线应用应用架构本小结介绍下离线的一个应用架构一个简单的离线架构图如下这里粗粒度的划分了异构数据源、数据传输、数据仓库、应用分析、及整体管理几层。其中源数据主要指的的数据来源,有数据库数据、文件类型数据、还有接口等http传输的数据。数据库数据大多都是业务的数据,例如mysql、oracle等;文件类型大多是日志数据、离线csv等格式化数据;http传输主要
转载 2023-08-08 11:12:56
291阅读
数据仓库概念的提出都要追溯到上世纪了,我们认为在大数据元年之前的可以称为传统,而后随着海量数据不断增长,以及Hadoop生态不断发展,主要基于Hive/HDFS的离线架构可以兴起并延续至今,近几年随着Storm/Spark(Streaming)/Flink等实时处理框架的更新迭代乃至相互取代,各厂都在着力构建自己的实时数,特别是近两年,随着Flink声名鹊起,实时数更是名声在外并且
转载 2024-06-10 10:19:25
212阅读
数据仓库的概念,最早是在1991年被提出,而直到最近几年的大数据趋势下,实时数据处理快速发展,使得数据仓库技术架构不断向前,出现了实时数,而实时数又分为批数据+流数据、批流一体两种架构。1、离线 离线,其实简单点来说,就是原来的传统,数据以T+1的形式计算好放在那里,给前台的各种分析应用提供算好的数据。到了大数据时代,这种模式被称为“大数据的批处理”。   只不过原本的单
转载 2023-10-12 08:39:51
151阅读
目的:帮助快速查找数据,减少I/O吞吐:减少数据冗余,实现计算结果复用:提高数据使用效率:改善数据统计口径的不一致性,减少数据计算错误的可能性 范式建模范式: i.原子性。每个属性必须唯一,不具有多义性(不能拆分成其他几列) ii.必须存在主键。每个非主属性必须完全依赖于主键,而非主键的一部分。 iii.消除传递依赖。另外非主键列必须直接依赖于主键,不能存在传递依赖模型基本组成::相同特
转载 2023-11-28 20:42:22
98阅读
大数据仓库理论(一)概念+架构+建模一、关于的一些概念1、定义Bill Inmon -- 数据仓库之父,数据仓库概念的创始人。数据仓库是一个支持管理决策的数据集合,是面向主题的、集成的、稳定的、反应历史变化的。其中,主题是一个抽象的概念,每一个主题对应一个宏观的分析领域。数据仓库是所有操作环境和外部数据源的快照集合。零、数据加载层:ETL(Extract-Transform-Load)数据
转载 2023-07-10 22:39:01
1605阅读
数据仓库,是数据工程师的无形产品,不同于可视化、交互型产品的评价体系,数据仓库的评价自有它的独特性。本次邀请了有多年数据领域工作经验,专注数据架构、模型设计和规范执行落地的专家,从概念-平台-规范的链路来介绍:借助网易帆旗下的全链路数据生产力平台——网易易,严选是如何建立数据仓库和评价体系的。作者 | 乙峰,严选交易域负责人数据为王的时代,数据量从最初的几十G,慢慢沉淀到几十T,
重点在于建模,也就是理清思路,知道要怎么做,还要很具体的知道每个表用来干什么,每个表需要哪些字段。分层 可以使用不同的库来区分。多个数据层用多个数据库来存放不同层的数据。即席查询 使用不同的表名区分主题。统一放在ads层就可以。然后将每个部门需要的数据,推送到相应部门自己的数据库中,数据量不大就推全量,数据量大就推增量。 假设财务部门的即席查询,那就建立一个财务的库,专门用来接收财务的相
目录Hive的介绍Hive的产生背景Hive概述Hive架构Hive的体系架构Hive的部署架构Hive与RDBMS数据库的区别Hive的部署搭建(阿里云)最终的hive-site配置Hive DDLHive DML Hive的介绍Hive的产生背景根据博主前面对于MapReduce的讲解,可以回想一下,我们做一个再简单不过的wordcount(我们都可以用java的计算函数几行代码搞定),需要
(一)技术架构选型 在数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的
电商数项目(一)一.数据仓库概念1.业务数据就是各行业在处理事务过程中产生的数据。2.用户行为数据用户在使用产品过程中,与客户端产品交互过程中产生的数据。3.数据仓库为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程,提高产品质量二.分层1.分层ODS层:原始数据层。存放原始数据,直接加载原始日志、数据、数据保持原貌不做处理。 DWD层:明细数据层。对ODS层数据进行清洗(去除空
    规划是建设的蓝图,涵盖从需求分析开始到最终的评估验收整个环境;规划之所以重要,是因为它是描述了数据流动的概念性框架,为元数据管理奠定了基础,对数据加工过程的理解、建设的交流分享、数据的使用和问题排查、健康度的评估都提供了极大的帮助。  需要强调的是本节是从宏观上描述框架,具体到数据模型的细节对比、存储选型和管理、接入数据源管理等建设的周边在本节不涉及。通过
# 实现 Spark 技术架构的指南 ## 引言 在大数据时代,数据仓库是企业决策的重要支撑。Apache Spark 是一个快速、通用的大数据处理引擎,非常适合用于构建数据仓库。本文将为刚入行的小白介绍如何实现 Spark 技术架构,包括流程步骤、代码示例及详细说明。 ## 流程步骤 首先,让我们明确实现 Spark 的整个流程。以下是关键步骤: | 步骤 | 描述 | |
原创 10月前
172阅读
# 技术架构 PPT 制作指南 在当今数据驱动的时代,数据仓库(技术架构的理解和实施显得尤为重要。本文将指导你如何创建一份清晰的技术架构 PPT。我们将通过一系列步骤,逐步实现这一目标。 ## 整体流程 下面是制作数技术架构 PPT 的整体流程表: | 步骤 | 说明 | |------|------| | 1 | 确定数架构的基本概念和组件 | | 2 |
  • 1
  • 2
  • 3
  • 4
  • 5