what is hive官方文档The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data alre
从0到1搭建,可以概括为6个步骤:业务探查、技术选型、规范制定、主题域划分、分层、模型建设。一、业务探查梳理公司业务系统,业务关心的指标,开发过的需求。一般业务关心的数据集中在两三类数据上二、技术选型根据已有的数据,选择技术平台,及开发语言。Deloitte已经选好用CDH,这步可以不考虑三、规范制定在数建设阶段,我们只需要制定数相关的规范。 如:分层设计规范、表命名规范、字段命名规范
搭建(四) 文章目录搭建(四)一、理论1.1 表的分类1.1.1 实体表1.1.2 维度表1.1.3 事务型事实表1.1.4 周期型事实表1.2 同步策略1.2.1 实体表同步策略1.2.2 维度表同步策略1.2.3 事务型事实表同步策略1.2.4 周期型事实表同步策略1.3 范式理论1.3.1 范式概念1.3.2 函数依赖1.3.3 三范式第一范式:属性不可分割第二范式:不能存在部分
转载 2023-08-10 09:14:39
109阅读
目录1、整体架构2、数据仓库建设过程2.1 业务调研2.2 架构设计2.3 模型设计2.4 模型开发3、未来展望 1、整体架构数据源:数据主要来自Mysql、ES、DDB的业务数据,以及kafka的埋点日志数据;数据处理层:基于有数大数据平台的存储、计算能力之上建设数据仓库;查询层:查询层主要为应用提供即席查询、olap计算和存储能力,根据具体的业务需求选择presto、doris、es;应用服
四:搭建-ODS层首先,先了解一下ODS层的任务即其功能:1)保持数据原貌不做任何修改,起到备份数据的作用。2)数据采用LZO压缩,减少磁盘存储空间。100G数据可以压缩到10G以内。3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。4)创建外部表。在企业开发中,除了自己用的临时表,创建内部表外,绝大多数场景都是创建外部表。4.1 ODS层(用户行为数据)4.1.1&n
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。建设思路数主要是围绕着数据使用方与数据开发方诉求进行建设;因此在开始规划建设时,需要先剖析各方需求、痛点与痒点,然后再在这些诉求设计解决方案与确定建设内容。数据使用方主要诉求是能不能快速找到、找到怎么用、有哪些数据,在使用数据时,主要存在三大类问题:找不到,不知道数据有没有、在哪里。看
作者介绍@阿泱一个热爱数据产品的工具人。“数据人创作者联盟”成员。01引言“数据仓库的搭建帮助笔主保证了上层应用的数据质量,对数据需求可做可不做有了把控,对数据需求的输出速度有了把控。因为接触数据仓库,对指标口径也有保证。很多时候笔主是依照于需求顺藤摸瓜摸出来的体系,不断打磨,不断合并,才产生的结果,可复制的内容可能不是太多,仅供参考。”前一篇笔主分享了自己是通过平台工具+数据仓库搭建的数据产
原创 2022-01-08 22:57:37
2178阅读
项目分层1、为什么要分层?(1)分层存在性:首先需要理解数分层的概念并不是客观存在的,它是多数人的主观的臆断;所谓存在即合理,之所以要怎么分层就是很多人一开始就这么分,然后一致使用下来发现也跟预想的一样。于是,就有了的层次概念。(2)分层的好处:清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解减少重复开发:规范数据分层,开发一些通用的中
在谈之前,先来看下面几个问题:为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理
数据仓库解决了什么业务问题,它和传统数据库的区别是什么?  对数据仓库的基础架构有大致的了解。  使用 Spark 可以构建数据仓库的哪些核心能力?  如何使用 Spark Core/Streaming 扩展数据源?  如何使用 Spark 进行 OLAP?    
转载 2021-06-11 22:38:51
345阅读
@阿泱一个热爱数据产品的工具人。“数据人创作者联盟”成员。接:​​业务建模,平台工具+构建数据产品​​01 引言滴滴橙心优选主要做社区电商,笔主主要负责电商中商城用户行为数据建设。用户行为数据具有巨大的商业潜力,他可以最大程度的还原用户在商城的购物场景,产品可以根据用户行为对产品体验进行优化,运营可以根据用户行为做精细化运营方案。电商环境中用户行为非常多,且分析视角多元,如何在电
原创 精选 2022-01-15 23:49:37
1941阅读
基于 Spark 技术快速构建项目
原创 2022-06-08 16:18:54
166阅读
今天给大家分享下如何使用Spark从无到有搭建一个项目。 数据仓库解决了什么业务问题,它和传统数据库的区别是什么?  对数据仓库的基础架构有大致的了解。  使用 Spark 可以构建数据仓库的哪些核心能力?  如何使用 Spark Core/Streaming 扩展数据源?  如何使用 Spark 进行 OLAP?
转载 2021-06-11 22:18:15
91阅读
一、数据模型数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”。只有数据模型将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。关于的建模有两种基本的模型:1、关系建模(Inmon)关系建模是数据仓库
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注,大数据开发领域最强公众号!大数据真好玩点击右侧关注,大数据真好玩!数据仓库解决了什么业务问题,它和...
转载 2021-06-10 21:02:16
248阅读
大数据真好玩 点击右侧关注,大数据真好玩!   数据仓库解决了什么业务问题,它和传统数据库的区别是什么?  对数据仓库的基础架构有大致的了解。  使用 Spark 可以构建数据仓库的哪些核心能力?  如何使用 Spark Core/Streaming 扩展数据源?  如何使用 Spark 进行 OLAP?
转载 2021-06-11 22:41:29
64阅读
概述分层模型设计ODS层设计DWD层设计DIM层设计DWS层设计ADS层设计 概述    上一篇主要阐述了 OneData 建模体系中的规范定义部分,而本篇主要阐述的是分层模型设计部分。当了解到每一个业务过程与维度的关联,就可以基本明确需要设计事实表与维度表;再通过明确统计指标的深入分析,就可以下沉某些相同计算逻辑。这是的基本架构雏形已明确,而接下来则是设计各个表如何设计。例如:什么样的表放
数据仓库架构分层1. 数据仓库架构数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。1)ODS层:为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加
转载 2024-06-11 01:32:09
90阅读
数据仓库的项目的概况1. 项目适用于哪些行业? 线上的互联网行业,例如淘宝,安居客等等2. 我准备选择一个什么样的业务公司来写这个项目? 我准备选择一个线上的互联网公司根据公司所产生的埋点日志数据和业务数据做项目3. 项目中主要开发哪些模块?分别有什么用途? 数据仓库 用户画像 个性推荐 :数据存储运算, 用户画像:根据埋点数据给用户贴标签 个性推荐:根据用户画像,精准的给用户进行精准投放
转载 2024-01-08 22:29:38
95阅读
文章目录1. 什么是指标体系1.1. 指标体系定义1.2. 指标体系生命周期1.3. 综合使用场景2.为什么搭建指标体系3.何搭建指标体系3.1. 科学方法选指标3.2 用分析模型搭建指标体系3.3 场景化搭建指标体系3.3.1 人的视角3.3.2 货的视角3.3.3 场的视角 指标体系是什么?如何使用OSM模型和AARRR模型搭建指标体系?如何统一流程、规范化、工具化管理指标体系?本文会对建设
  • 1
  • 2
  • 3
  • 4
  • 5