1、系统版本windows10 mysql 5-7.322、首先,官网下载mysql的压缩包。https://dev.mysql.com/downloads/mysql/  这里下载的是 mysql 5-7.32。下载完成,解压到自己的安装文件夹下。3、在mysql的安装路径下,新建一个my.ini文件。新建完成,填入以下内容,重点关注basedir 和datadir配置项。不
stage-5 mode-1: 电商离线项目实战(上)介绍项目实战的笔记作业题1本次作业要求最近七天连续三天的活跃会员。我才用的是small_startlog小数据集,一共是三天的log:其中一天的log大概是9k~1w条数据。那么分析得一下步骤:数据采集自定义拦截器, 对数据进行一定的分类并获取时间public Event intercept(Event event) {
数据仓库的架构:星型模型和雪花模型架构星型模型是确定了一个事实表和多个维度表雪花模型是:事实表两边的维度表可以再有子表,主要是表达清洗的维度层次关系(例如地区维度省市,品类维度一级品类二级品类)构建企业级数据仓库的流程:1、确定主题确定数据分析或前端展现的主题2、确定量度技术指标的统计值,例如数据汇总的最大值最小值,年销售额等3、确定粒度量度的聚合程度,一...
原创 2021-08-05 13:55:40
735阅读
一、项目整体背景1、数据仓库 作为数据的管理和运算中心; 数据存档; 各种统计、运算任务的核心平台;2、用户画像系统 含义:深入分析用户后给用户打上各种规范标签:年龄,性别,地域特征,偏好特征,价值指数,行为习惯,消费习惯… 作用:对用户进行精准营销,用于支撑精细化营运;比如,针对不同的人群发放不同的优惠券; 比如,针对不同的人群定制不同的打折规则; 比如,针对不同的人群推行不同的营销活动; 比如
数据仓库的项目的概况1. 项目适用于哪些行业? 线上的互联网行业,例如淘宝,安居客等等2. 我准备选择一个什么样的业务公司来写这个项目? 我准备选择一个线上的互联网公司根据公司所产生的埋点日志数据和业务数据做项目3. 项目中主要开发哪些模块?分别有什么用途? 数据仓库 用户画像 个性推荐 :数据存储运算, 用户画像:根据埋点数据给用户贴标签 个性推荐:根据用户画像,精准的给用户进行精准投放
在线教育(7) 目录在线教育(7)1. Hive函数2. Hive 优化2.1 Hive 基础优化2.1.1 HDFS 副本数2.1.2 yarn的基础配置2.1.3 MapReduce基础配置2.1.4 hive的基础配置2.1.5 hive压缩的配置2.1.6 hive的执行引擎切换2.2 Hive 数据倾斜优化2.2.1 group by 数据倾斜2.2.2 join 数据倾斜2.2.3 如
转载 2023-07-20 20:08:42
157阅读
hive的安装与简单入门1 HIVE简单介绍1.1什么是 Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将HQL 转化成 MapReduce 程序 1.2Hive 架构原理 1.3Hive 在加载数据的过程中不会对数据进行任何处理,甚至不
文章目录1、上传表2、使用SparkSQL对问题数据进行探索和处理探索思路:思路1,对空值进行处理:思路2,对重复值进行去重:思路3,行转列:思路4,规范化字段内容2.1、User表2.2、events表2.3、user_friends表2.4、event_attendees2.5、trains表3、kafka多线程并行写进不同分区4、Flume采集数据流向kafka4.2、依次创建kafka中
文章目录一 数据采集模块1 常用脚本文件(1)查看集群所有进程(2)通用脚本2 hadoop安装(1)集群规划(2)安装步骤(3)配置集群(a)core-site.xml(b)hdfs-site.xml(c)yarn-site.xml(d)mapred-site.xml(e)workers(4)启动集群(5)hadoop群起/关脚本3 hadoop项目经验(1)HDFS存储多目录(a)生产环境服
概述分层模型设计ODS层设计DWD层设计DIM层设计DWS层设计ADS层设计 概述    上一篇主要阐述了 OneData 建模体系中的规范定义部分,而本篇主要阐述的是分层模型设计部分。当了解到每一个业务过程与维度的关联,就可以基本明确需要设计事实表与维度表;再通过明确统计指标的深入分析,就可以下沉某些相同计算逻辑。这是的基本架构雏形已明确,而接下来则是设计各个表如何设计。例如:什么样的表放
最近我们公司在建立,想要建立一套以Greenplum为核心的混合架构数据仓库。在这里,只想谈谈我对数据仓库的一些看法。什么是数据仓库面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。  为什么需要首先,我们公司是做高校大数据的。高校的数据源形式多样,oracle、sqlserver、mysql,excel、dbf等等,异构性强。以前我们的做法是将
?​ 核心: 是将各类hadoop生态圈的软件的操作界面集成在一个软件中 (大集成者)请问, 大数据的工作流程是否可以使用工作流来解决呢?​ 建模: 如何在hive中构建各个层次的表。
原创 2023-01-12 07:21:37
386阅读
Hive数据库简介:        Hive是由Facebook开发的一款数据仓库工具,于2007年发布,并于2008年开源。随着时间的推移,Hive不断发展壮大,其发展史如下:[1][Apache Hive] :2008年10月,Facebook宣布将Hive作为开源项目贡献给Apache软件基金会。[2]:2010
# 如何实现 MySQL:新手入门指南 在现代数据分析与处理中,数据仓库(Data Warehouse)是一个至关重要的组成部分。通过为大规模数据分析提供灵活和高效的存储解决方案,数据仓库可以帮助企业从众多数据中提取出有价值的信息。本文将指导你如何使用 MySQL 实现一个基本的数据仓库。 ## 整体流程图 首先,让我们看一下实现数据仓库的整体流程。 ```mermaid flowch
最近看了尚硅谷的hive高级课程,学有所获,特此与大家分享hive高级进阶-hive优化+hive执行流程hive执行流程: hql语句 -> cliDriver ->DrivercliDriver: 1.解析客户端-e,-f等参数 2.定义标准输入输出流 3.按照';'划分hql语句Driver: 1.将HQL语句转换为AST 2.将AST转换为OperationTree 3.将Op
电商数项目(一)一.数据仓库概念1.业务数据就是各行业在处理事务过程中产生的数据。2.用户行为数据用户在使用产品过程中,与客户端产品交互过程中产生的数据。3.数据仓库为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程,提高产品质量二.分层1.分层ODS层:原始数据层。存放原始数据,直接加载原始日志、数据、数据保持原貌不做处理。 DWD层:明细数据层。对ODS层数据进行清洗(去除空
中我们主要实践了使用Eclispe开发工具安装hadoop的开发插件,并且使用hadoop插件连接Hadoop远程集群。本文我们要在上文搭建的hadoop开发环境的基础上开发Hadoop的MapReduce项目。 一、环境准备1.hadoop集群2.安装了hadoop插件的Eclipse 二、创建MapReduce项目创建MapReduce项目可以通过eclispe的MapRedu
1 熟悉8张表的业务字段,每张表记住3-5个字段2 理论1)表的分类:实体表、维度表、事务型
原创 2022-11-11 10:14:09
86阅读
# MySQL 数据仓库 ## 什么是数据仓库? 数据仓库是一个用于集中存储和管理企业数据的系统。它是一个专门设计的数据库,用于支持企业的决策制定过程。数据仓库通常用于存储大量历史数据,并结合数据分析工具,帮助企业从数据中提取有价值的信息,以支持决策制定。 数据仓库的设计和建设需要考虑到数据的存储、处理和查询等各方面,以保证数据的准确性、完整性和时效性。 ## MySQL 数据库 MyS
原创 4月前
43阅读
文章目录1、能否简介一下当前这个项目37、你们的原始数据一共有多张数据表?38、业务上用到哪些表?39、一共有多少个分析需求?21、请简述项目中5个看板各自的建模40、列举几个你实现的需求?2、什么是数据仓库呢?3、数据仓库和传统的业务数据库有什么区别?4、OLTP和OLAP分别是什么?有什么区别?5、项目是如何分层的6、一般怎么做分层处理呢?7、分层的作用是什么?8、项目中有做按照主题分析吗?若有,有哪些主题9、数据分析能决定企业未来发展,请辩证这个观点10、什么是事实表,什么是维度表,有什么区别
原创 2021-06-21 10:56:45
800阅读
  • 1
  • 2
  • 3
  • 4
  • 5