知行大数据分析平台

需求规格说明书

文件变更记录

版本号

日期

变更人

变更摘要

批准人

V0.6

2019-12-30

XX

制定《需求规格说明书》

V1.0

2019-01-02

XX、XX

整理原始sql

项目背景

尽管学校多年的信息化应用积累了大量的数据,但信息孤岛的壁垒一直没有打破,对这些数据无法进一步的挖掘、分析、加工、整理,不能给学校教育、教学、研发、总务等各方面管理决策提供科学、有效的数据支撑。目前的公司现状:


  1. 数据量大,现有MySQL业务数据库直接读取模式不能满足业务统计性能



  1. 系统多、数据分散,缺少从营销、咨询、报名到教学等等完整业务环节的数据贯通查询与分析



  1. 缺少统一的集团数据、报表运行和系统体系,尤其年底各个部门排队等DBA协助出数据



  1. 缺少元数据、数据集合的规范存储,业务部门有数据分析角度需求时,需要程序员、DBA突击查数据、做报表


迫切需要建设大数据分析平台,来提高学校的用户服务水平和教育质量:


  1. 建立集团数据仓库,统一集团数据中心,把分散的业务数据进行预先处理和存储



  1. 根据业务分析需要,从海量的用户行为数据中进行挖掘分析,定制多维的数据集合,形成数据集市,供各个场景主题使用



  1. 前端业务数据展示选择和控制,选取合适的前端数据统计、分析结果展示工具


非功能性要求

数据量

集团2019年一年内的咨询数据量为6000万,按照每条数据5kb(根据具体数据来定)来计算,共300G。按照冗余度3,实际存储量为600G。

预计明年学生及访问人数增长1倍达到1200G。由此推断出,一个月的数据量大致为1200/12=100G,一天数据量大致为100G/25=4G。

加上历史数据,明年的咨询数据存储量将达到1800G。

其他五个部门的数据量与此类似,相乘即可,存储量预计需要10T(10800G)。

展现响应

对于报表展现的内容刷新,页面数据的请求到展现的过程总体时间不能超过5秒。

服务器配置

一期共需要十台服务器,后期每年随业务量进行扩展。

硬盘:每台1T,共10T硬盘;

内存:每台32G内存,共320G;

CPU:单台16核。

技术要求

知行大数据分析平台需求说明_数据仓库

jdk:Jdk1.8

Scala:2.11.8

CDH6.2.1: zookeeper-3.4.5-cdh6.2.1、hadoop-3.0.0-cdh6.2.1,hive-2.1.1-cdh6.2.1、hue-4.3.0-cdh6.2.1

Sqoop:sqoop-1.4.7-cdh6.2.1

Mysql:5.7

Zeppelin:0.8.0