目录一、所需工具二、数据源准备三、项目框架搭建3.1新建springboot项目3.1.1进入官网3.1.2创建项目四、后端代码编写4.1根据需求修改pom.xml4.2配置数据源4.3创建目录结构4.4后端编写代码4.4.1entity类4.4.2dao4.4.3service4.4.4controller4.5测试五、前端代码编写5.1准备5.2创建包 5.3代码编写5.3.1配置静
stage-5 mode-1: 电商离线数仓项目实战(上)介绍数仓项目实战的笔记作业题1本次作业要求最近七天连续三天的活跃会员数。我才用的是small_startlog小数据集,一共是三天的log:其中一天的log大概是9k~1w条数据。那么分析得一下步骤:数据采集自定义拦截器, 对数据进行一定的分类并获取时间public Event intercept(Event event) {
转载
2024-01-30 02:48:50
56阅读
数据仓库的项目的概况1. 项目适用于哪些行业? 线上的互联网行业,例如淘宝,安居客等等2. 我准备选择一个什么样的业务公司来写这个项目? 我准备选择一个线上的互联网公司根据公司所产生的埋点日志数据和业务数据做数仓项目3. 项目中主要开发哪些模块?分别有什么用途? 数据仓库 用户画像 个性推荐 数仓:数据存储运算, 用户画像:根据埋点数据给用户贴标签 个性推荐:根据用户画像,精准的给用户进行精准投放
转载
2024-01-08 22:29:38
95阅读
一、项目整体背景1、数据仓库 作为数据的管理和运算中心; 数据存档; 各种统计、运算任务的核心平台;2、用户画像系统 含义:深入分析用户后给用户打上各种规范标签:年龄,性别,地域特征,偏好特征,价值指数,行为习惯,消费习惯… 作用:对用户进行精准营销,用于支撑精细化营运;比如,针对不同的人群发放不同的优惠券; 比如,针对不同的人群定制不同的打折规则; 比如,针对不同的人群推行不同的营销活动; 比如
转载
2023-12-12 12:46:18
105阅读
文章目录一 数据采集模块1 常用脚本文件(1)查看集群所有进程(2)通用脚本2 hadoop安装(1)集群规划(2)安装步骤(3)配置集群(a)core-site.xml(b)hdfs-site.xml(c)yarn-site.xml(d)mapred-site.xml(e)workers(4)启动集群(5)hadoop群起/关脚本3 hadoop项目经验(1)HDFS存储多目录(a)生产环境服
转载
2024-08-12 13:53:17
86阅读
文章目录1、上传表2、使用SparkSQL对问题数据进行探索和处理探索思路:思路1,对空值进行处理:思路2,对重复值进行去重:思路3,行转列:思路4,规范化字段内容2.1、User表2.2、events表2.3、user_friends表2.4、event_attendees2.5、trains表3、kafka多线程并行写进不同分区4、Flume采集数据流向kafka4.2、依次创建kafka中
转载
2024-05-14 22:32:56
77阅读
hive的安装与简单入门1 HIVE简单介绍1.1什么是 Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将HQL 转化成 MapReduce 程序 1.2Hive 架构原理 1.3Hive 在加载数据的过程中不会对数据进行任何处理,甚至不
转载
2024-05-10 12:00:46
44阅读
在线教育(7) 目录在线教育(7)1. Hive函数2. Hive 优化2.1 Hive 基础优化2.1.1 HDFS 副本数2.1.2 yarn的基础配置2.1.3 MapReduce基础配置2.1.4 hive的基础配置2.1.5 hive压缩的配置2.1.6 hive的执行引擎切换2.2 Hive 数据倾斜优化2.2.1 group by 数据倾斜2.2.2 join 数据倾斜2.2.3 如
转载
2023-07-20 20:08:42
171阅读
? 核心: 是将各类hadoop生态圈的软件的操作界面集成在一个软件中 (大集成者)请问, 大数据的工作流程是否可以使用工作流来解决呢? 建模: 如何在hive中构建各个层次的表。
原创
2023-01-12 07:21:37
519阅读
Hive数据库简介: Hive是由Facebook开发的一款数据仓库工具,于2007年发布,并于2008年开源。随着时间的推移,Hive不断发展壮大,其发展史如下:[1][Apache Hive] :2008年10月,Facebook宣布将Hive作为开源项目贡献给Apache软件基金会。[2]:2010
转载
2023-11-22 20:57:06
98阅读
本文围绕离线数仓项目展开,重点阐述了电商业务需求分析、架构与模型设计、数仓系统性能基准以及性能相关指标优化等内容。在电商业务需求分析方面,强调了充分调研的重要性,包括了解组织架构、业务架构、各业务板块主要功能及数据需求等。架构与模型设计部分,详细介绍了技术架构选型、数仓分层设计以及各层的数据模型设计要点。数仓系统性能基准和性能相关指标优化则涉及数据同步时间、存储大小记录以及Hash Clustering等优化技巧,旨在提升数仓性能。
电商数仓项目(一)一.数据仓库概念1.业务数据就是各行业在处理事务过程中产生的数据。2.用户行为数据用户在使用产品过程中,与客户端产品交互过程中产生的数据。3.数据仓库为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程,提高产品质量二.数仓分层1.数仓分层ODS层:原始数据层。存放原始数据,直接加载原始日志、数据、数据保持原貌不做处理。
DWD层:明细数据层。对ODS层数据进行清洗(去除空
转载
2023-12-12 23:04:56
133阅读
数据仓库VS数据库数据仓库的定义:数据仓库是将多个数据源的数据经过ETL(Extract(抽取)、Transform(转换)、Load(加载))理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环境数据仓库VS数据库:数据库是面向事务的设计,数据仓库是面向主题设计的数据库一般存储在线交易数据,数据仓库存储的一般是历史数据数据库设计是避免冗余,采用三范式的规则来设计,数据仓库在设计
最近看了尚硅谷的hive高级课程,学有所获,特此与大家分享hive高级进阶-hive优化+hive执行流程hive执行流程: hql语句 -> cliDriver ->DrivercliDriver: 1.解析客户端-e,-f等参数 2.定义标准输入输出流 3.按照';'划分hql语句Driver: 1.将HQL语句转换为AST 2.将AST转换为OperationTree 3.将Op
转载
2024-02-20 11:50:38
84阅读
中我们主要实践了使用Eclispe开发工具安装hadoop的开发插件,并且使用hadoop插件连接Hadoop远程集群。本文我们要在上文搭建的hadoop开发环境的基础上开发Hadoop的MapReduce项目。
一、环境准备1.hadoop集群2.安装了hadoop插件的Eclipse
二、创建MapReduce项目创建MapReduce项目可以通过eclispe的MapRedu
转载
2024-06-06 11:25:06
49阅读
1 熟悉8张表的业务字段,每张表记住3-5个字段2 数仓理论1)表的分类:实体表、维度表、事务型
原创
2022-11-11 10:14:09
95阅读
在处理“数仓 java”相关问题时,大家可能会碰到各种有趣的挑战。本文将为你梳理出一个清晰的解决过程,包括从环境准备到排错指南的详细步骤。快来看看吧!
### 环境准备
在开始之前,我们需要确保你的开发环境已安装必要的依赖。这里列出了一些前置依赖的安装命令,帮助你快速搭建好环境。
```bash
# 安装 JDK
sudo apt-get install openjdk-11-jdk
#
数据模型规范构建模型的原理:高内聚、低耦合,保证数据一致性,核心模型和扩展模型分离,公共逻辑下沉,数据可回滚,低成本高性能,命名清晰可理解。 高内聚和低耦合,最基本的软件设计方法论,将业务相近或者相关、粒度相同的数据设计成一个逻辑或者物理模型,将高概率同时访问的数据放在一起,将低概率访问的数据分开存储; 保证数据的一致性,数仓输出的指标定义需要统一,防止出现重复开发; 核心模型和扩展模型分离,准许
转载
2023-12-26 09:16:26
69阅读
项目描述以电商数据为基础,详细介绍数据处理流程,结合hive数仓、spark开发采用多种方式实现大数据分析。数据源可通过日志采集、爬虫、数据库中取得,经过数据清洗转换导入数据仓库,通过数仓中数据分析得到数据总结,用于企业决策。本项目基于以下表类进行电商数仓分析,分为orders(用户行为表),trains(订单表),products(商品表),departments(品类表),order_prod
转载
2023-11-03 21:38:57
92阅读
文章目录1、能否简介一下当前这个项目37、你们的原始数据一共有多张数据表?38、业务上用到哪些表?39、一共有多少个分析需求?21、请简述项目中5个看板各自的建模40、列举几个你实现的需求?2、什么是数据仓库呢?3、数据仓库和传统的业务数据库有什么区别?4、OLTP和OLAP分别是什么?有什么区别?5、项目是如何分层的6、数仓一般怎么做分层处理呢?7、数仓分层的作用是什么?8、项目中有做按照主题分析吗?若有,有哪些主题9、数据分析能决定企业未来发展,请辩证这个观点10、什么是事实表,什么是维度表,有什么区别
原创
2021-06-21 10:56:45
852阅读