作者:曹雷01指标体系1. 痛点分析 主要从业务、技术、产品三个视角来看:业务视角业务分析场景指标、维度不明确;频繁的需求变更和反复迭代,数据报表臃肿,数据参差不齐;用户分析具体业务问题找数据、核对确认数据成本较高。技术视角指标定义,指标命名混乱,指标不唯一,指标维护口径不一致;指标生产,重复建设;数据汇算成本较高;指标消费,数据出口不统一,重复输出,输出口径不一致;产品视角缺乏系统产品
一、数据采集项目总结1.数据仓库数据仓库是保存数据,为企业提供数据支持2.数据的分类业务数据: 记录的是订单的信息! 行为数据: 记录的是下单的过程发生的信息!2.1用户业务数据是什么:用户使用平台(电商)时产生的和电商的业务紧密相关(购买,下单,支付,收藏,搜索 )的数据!产生:用户在使用APP时,产生!如何存:关系型数据库为什么:事务是区分场景可以使用RDMS和NoSql的核心要素! RDMS
该笔记为视频教程笔记 课程链接:https://www.bilibili.com/video/BV1qv411y7Wv/?spm_id_from=333.999.0.0&vd_source=4042938bc91623dd366533263863ec491. 课程介绍数据仓库的广泛应用 传统数据仓库数据数据仓库体系化数据仓库理论 什么是数据仓库?它是如何发展而来的?数据仓库的整体架构数据
转载 2023-08-11 14:43:23
67阅读
企业在实施BI、数据仓库和其他与数据相关的项目时或多或少都会遇到困难。我们将这些挑战分为六个类别:①性能;②数据质量;③集成;④数据定义;⑤安全;⑥架构和管理。每一个类别在从单份报表到整个数据仓库的使用案例中的重要程度都有所不同。分类没有绝对的标准,它们多多少少出自我个人经验的判断。因此,每个企业都应该有自己不同的看法。既然如此,是什么定义了这六个类别呢?我们来分析一下:1. 性能在实施
1、数据流向2、应用示例3、何为数仓Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。目前行业比较流
文章目录第7章 数仓开发之ODS层7.1日志表7.2 业务表7.2.1 活动信息表(全量表)7.2.2 活动规则表(全量表)7.2.3 一级品类表(全量表)7.2.4 二级品类表(全量表)7.2.5 三级品类表(全量表)7.2.6 编码字典表(全量表)7.2.7 省份表(全量表)7.2.8 地区表(全量表)7.2.9 品牌表(全量表)7.2.10 购物车表(全量表)7.2.11 优惠券信息表(全
避免数据过长时间的脱机。开启归档之后,可以不停机情况下,通过归档日志做备份,从而避免停机导致的业务不能正常进行。 二、            使用RMANRMAN 集成到备份中和恢复策略中的部分原因是因为它提供了一下功能。1、  广泛的报告
这里我们做了一份关于整个数仓体系的教程,主要内容体系大家可以看目录,欢迎大家关注,一起讨论交流,这份教程的特点有四个1. 知识体系完善,从数仓的概念、建模、数仓工具的使用、数仓的落地实践都有,还会有很多小案例2. 使用的技术都是当前企业最常用的技术,版本也是比较新的,不会导致大家看到一个代码,然后一执行发现语法不支持或者废弃掉了3. 后续的更新也会很及时,不会说更新了一段时间断更了,在更新完大纲之后,我也会不断完善该系列,不断添加新的知识点4. 创作团队都是在企业一线员工,实战多于理论。
原创 2021-10-14 16:47:17
309阅读
1点赞
一、环境准备1.hadoop集群环境2.完整的Hive服务环境(连接了远程元数据库服务)注:hadoop集群或者hive服务没有搭建,请从参考前面的文章 二、实践准备1.启动hadoop集群启动hadoop三台机器,然后在主节点机器上启动hadoop集群:start-all.sh2.启动Hiveserver服务在hive机器上启动hiveserver服务:hive --servic
转载 2023-07-20 20:09:41
212阅读
数据仓库_总结  一,数据类型数据储存库将包括关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。高级数据库系统包括对象-关系数据库和面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。 1.1关系数据库 关系数据库是表的汇集,每个表都赋予唯一的名字。每个表包含一组属性(列或字段),通常存放大量元组(记录或行)。关
文章目录(一)什么是数据仓库(二)数据仓库基础知识(三)数据仓库建模方式(1)星行模型(2)雪花模型(3)星型模型 VS 雪花模型(四)数据仓库分层(1)为什么要分层(2)数据仓库分层设计(3)DWD数据清洗原则(4)数据仓库命名规范(5)典型的数据仓库系统架构(五)项目需求分析 (一)什么是数据仓库我们前面学习过Hive,说Hive其实就是一个数据仓库,可以这样理解,就是把Hive认为是一种技
关于DW/BI的话题 我们收集了海量的数据,但无法对其访问 我们需要以各种方式方便地对数据进行切片机切块 业务人员需要方便地获得数据 将最重要的事情展示给我 会议自始至终争论的是数字的正确性,而不是制定决策 我们希望人们能够使用信息来支持更多的基于事实的决策制定 数据仓库的目标DW/BI系统要能方便地存取信息 DW/BI系统的内容必须是易于理解的。对业务用户来说,数据需要有直观性。
1.背景      归纳整理数据仓库的基础知识,了解数据仓库的全貌和可深入学习的部分,本章节会首先梳理数仓基础知识,末尾链接会梳理离线/实时数仓部分技术能力(持续更新,如果我坚持下去了的话,哈哈哈)。其中部分话术来源于网络,会在统一位置进行标注引用,感谢大家在网络上的分享!2.数据仓库知识整理2.1 文章引用     https://ww
[数据仓库----hive进阶篇二(表的链接,子查询,客户端jdbc和Thrift Client操作,自定义函数)](javascript:void(0))一、数据的导入1、使用Load语句执行数据的导入1.语法:其中(中括号中表示可加指令): LOCAL:表示指定的文件路径是否是本地的,没有则说明是HDFS上的文件路径。 OVERWRITE:表示覆盖表中的已有数据
转载 2023-07-13 00:18:35
169阅读
文章目录Hive数据仓库——Hive SQL练习练习前准备1、启动hive2、在hive中创建test1数据库3、切换test1数据库4、创建students表5、创建score表6、查看表信息练习1、模仿建表语句,创建subject表,并使用hdfs dfs -put 命令加载数据2、查询学生分数(输出:学号,姓名,班级,科目id,科目名称,成绩)3、查询学生总分(输出:学号,姓名,班级,总分
转载 2023-09-02 17:15:14
358阅读
数据仓库建模指南视频教程|数据仓库视频教程网盘地址:https://pan.baidu.com/s/1JD3cjPek4oHCVHPhhVOvXw提取码:qqxy备用地址(腾讯微云):https://share.weiyun.com/5xZjFzb密码:5vbb37课程上学到什么,能给我带来什么?在这里,你可以:1、学习建立高质量的数据库模型和技巧,以及丰富的例子2、学习从企业视角进行数据规划以及
原创 2018-12-04 09:57:45
3984阅读
2点赞
数据仓库建设:数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射业务建模,生成业务模型,主要解决业务层面的分解和程序化。领域建模,生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。逻辑建模,生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。物理建模,生成物理模型,主要解决,逻辑模型针
文章目录前言一、Hadoop部署1.集群的规划2.将软件包导入到虚拟机中3.JDK准备3.1 如果安装了的JDK需先卸载3.2 解压3.3 配置环境变量3.4 测试安装是否成功3.5 分发JDK3.6 分发环境变量3.7 在其他两台机器重新加载环境变量并验证4.Hadoop准备4.1 解压软件包4.2 将hadoop添加到环境变量4.3 分发环境变量文件4.4 使环境变量生效二、配置集群1.核心
转载 2023-09-12 10:43:42
83阅读
数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这  些步骤比较抽象。为了便于落地,我根据自己的经验,总结出上面的七个步骤:梳理业务流程、垂直切分、指标体系梳理、实体关系调研、维度梳理、数仓分层以及物理模型建立。每个步骤不说理论,直接放工具、模板和案例。1找到公司核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。2梳理每个业务节点的客户及关注重点,找到数据在哪
数据仓库参考资料:https://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93 一般缩写成DW,数据仓库是一个面向主题的,集成的,相对稳定的,反应历史变化的数据集合,支持管理决策。数据仓库就是一个存放数据仓库,里面存放了各种各样的数据,而这些数据需要按照一些结构,规则来组织和存放。数据库与数据仓库数据库:平时用到的关系型数据
  • 1
  • 2
  • 3
  • 4
  • 5