之前一直迷迷糊糊的,明明OrderSend()是开,又叫做发出订单。 那么那里看位数呢? 后来才明白,原来每一个订单都是一个单独的。 换句话说,每发出一个OrderSend()都是开了一个
转载 2017-05-16 12:34:00
32阅读
2评论
数据仓库的架构:星型模型和雪花模型架构星型模型是确定了一个事实表和多个维度表雪花模型是:事实表两边的维度表可以再有子表,主要是表达清洗的维度层次关系(例如地区维度省市,品类维度一级品类二级品类)构建企业级数据仓库的流程:1、确定主题确定数据分析或前端展现的主题2、确定量度技术指标的统计值,例如数据汇总的最大值最小值,年销售额等3、确定粒度量度的聚合程度,一...
原创 2021-08-05 13:55:40
492阅读
一、用户行为数据采集 1.数据仓库概念 日志采集系统:用户搜索等行为等数据,做推荐系统等;存在文件,数据量超大; 业务系统数据库:数据库; 爬虫系统等:爬虫; 2.项目需求集架构设计 项目需求:1.数据采集平台搭建;2.实现用户行为数据的分层搭建;3.实现业务数据仓库的分层搭建;4.针对数据仓库的 ...
转载 2021-09-06 19:29:00
145阅读
2评论
?​ 核心: 是将各类hadoop生态圈的软件的操作界面集成在一个软件中 (大集成者)请问, 大数据的工作流程是否可以使用工作流来解决呢?​ 建模: 如何在hive中构建各个层次的表。
对比方面 离线数 实时数架构选择
原创 7月前
56阅读
分层和数据集市 传统分层有好几个,比如:ODS>DWD>DWS>ADS;这里我举例的为传统五层数 数据仓库分层(传统): ODS(Operation Data Store):原始数据层,备份作用;数据保持不变 DWD(Data Warehouse detail):对ODS的数据进行轻度清洗(去 ...
转载 2021-07-15 15:02:00
941阅读
2评论
本文介绍了Docker私有仓库搭建配置,可以上传本地镜像
原创 3月前
55阅读
备注 Jenkins构建Maven项目需要安装Maven插件,安装后Maven插件默认配置文件路径为:/root/jenkins
原创 2022-01-10 10:40:06
288阅读
作者介绍@车云祥大宇无限  数据产品负责人主要负责全公司底层数据治理,构建统一指标体系;主导 BI 系统、用户画像系统、广告投放平台、广告流量优化等设计工作;推动 Snaptube、LarkPlayer、Zapee 等明星产品与数据紧密结合,实现高效运转;通过对业务需求深度梳理、数据方案高质量设计、数据分析洞察与优化、营销策略闭环输出的不断实践,帮助公司实现数据驱动业务增长;“数据人创作
原创 2022-02-27 22:16:32
10000+阅读
用户行为数据:埋点业务交互数据:业务流程产生的登陆 订单 用户 商品 支付 等有关的数据 通常存储在DB中0.创建gmall数据库1.创建ODS层原始数据层:外部表,ods_start_log时间日志表:ods_event_log创建输入数据是LZO,输出是text,支持json解析的分区表drop table if exists ods_start_log;CREATE EX...
原创 2021-07-09 10:37:16
263阅读
数据抽取 数据处理            1). 数据清洗 单位统一,比如金额单位统一为元 字段类型统一 注释补全 空值用默认值或者中位数填充 时间字段格式统一,如2020-10-16,2020/10/16,20201016统一格式为2020-10-16 过滤没有意义的数据          2). 数据建模-维度建模                包含维度和指标,面向数据分析,最终目的是
原创 2021-07-09 17:00:55
694阅读
简介 大数据下的数据仓库对数据进行了分层管理,分为ODS、DWD,DWS,ADS层,可以把数分层和程序设计中的三层架构进行对比: 相同点: 第N-1层为第N层提供服务,每一层都有单独的职责。 降低复杂度, 减少重复开发,提高复用性 不同点 程序中的分层是为了关注点分离, 而数据的分层更像是一个萃取 ...
转载 2021-05-13 23:42:00
1692阅读
1点赞
2评论
1.表的分类 实体表:记录一个实实在在物体的信息。现实存在的业务对象。维度表:对某些数据的说明,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。事实表:记录某一件实实在在发生的事情。由人的行为触发的。下单事务型事实表,一般指随着业务发生不断产生数据。周期型事实表,一般指随着业务发生不断产生
转载 2017-06-14 15:36:00
110阅读
ods:数据引入层 (原始数据导入,不做修改) dwd:公共汇总粒度事实层(粒度不变,提供数据质量) dws:明细粒度事实层(最细粒度 宽表层) ads:数据应用层(根据指标构建) ...
转载 2021-09-10 10:29:00
156阅读
2评论
1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升
转载 2021-04-11 10:34:00
262阅读
2评论
分层设计 ODS(Operational Data Store):数据运营层 “面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。 一般来讲,为了 ...
转载 2021-10-08 22:56:00
191阅读
2评论
修改两个文件 安装目录: /mnt/home/work/hadoop-3.3.1/bin [root@test11.bj.sm etc]# cd hadoop/ [root@test11.bj.sm hadoop]# ls capacity-scheduler.xml hadoop-metrics2 ...
转载 2021-08-17 21:17:00
119阅读
2评论
用户行为数据:埋点业务交互数据:业务流程产生的登陆 订单 用户 商品 支付 等有关的数据 通常存储在DB中0.创建gmall数据库1.创建ODS层原始数据层:外部表,ods_start_log时间日志表:ods_event_log创建输入数据是LZO,输出是text,支持json解析的分区表drop table if exists ods_start_log;CREATE EX...
原创 11月前
194阅读
1.数构建1). 前期业务调研 需求调研 数据调研 技术选型2). 提炼业务模型,总线矩阵,划分主题域;3). 定制规范 命名规范、开发规范、流程规范
  • 1
  • 2
  • 3
  • 4
  • 5