本文通过深入分析体验大数据生态圈主流技术,调研分析高校常见信息化系统数据特征,以学生相关数据(如图书数据、一卡通数据、就业数据、医院数据、上网数据)为融合分析研究对象,构建了高校大数据治理融合平台。平台从下至上分为三层,即各类异构数据源层、大数据治理融合层和大数据专题分析层。大数据治理融合层是核心研究内容,分为系统管理、数据采集、数据存储、数据处理、数据分析、数据呈现多个功能模块。数据采集模块基于Kettle、Sqoop开源技术实现ETL模型,既提高了数据融合的效率又保证数据融合的质量。数据呈现模块研究了FineBI可视化工具,该工具支持多种数据源的可拖拽式零编程数据可视化分析,即可对接高校大数据治理融合平台,亦能对接第三方数据分析平台。

本人参与了开源大数据调研选型、大数据治理融合平台总体架构设计、学生相关数据融合需求分析及实现。由于个人精力及设备资源问题,高校大数据治理平台目前处于研发试验阶段,围绕学生相关数据融合分析研究,初步完成验证了高校大数据治理融合平台理论可行性,初步掌握了高校学生相关数据的特征及业务逻辑;随着对高校大数据的理解和设备资源的投入,将融合更多的高校应用场景,进一步提高高校大数据治理融合平台的性能和应用领域。

关键词:高校大数据 治理融合 开源 信息化 FineBI

ANALYSIS AND DESIGN OF Big Data Governance in Colleges and Universities

ABSTRACT

The development of information technology has also had a revolutionary impact on the development of education. The national government has attached great importance to it. National colleges and universities have vigorously developed information technology and developed and introduced information systems that cover all aspects of the education field. However, traditional information technology college management concepts and management methods are unable to meet the ever-increasing demand for data processing, resulting in unbalanced development problems and monotonous ways. Puzzles, information stealth problems, rough decision-making problems, school choice perceptual problems, employment blindness problems and other issues; how to effectively manage campus data and achieve data sharing, integration governance, is the campus today Facing the urgent need to solve the problem.

This article through the in-depth analysis of the experience of big data ecosystem mainstream technology, research and analysis of university information systems data characteristics, build a university big data governance integration platform. The platform is divided into three layers from bottom to top, that is, various heterogeneous data sources, big data governance convergence layer and big data thematic analysis layer. The big data governance fusion layer is the core research content and is divided into system management, metadata management, data collection, data storage, data processing, data analysis, data presentation, and API/SDK eight function modules. Based on the Kettle, Sqoop and Flume open source technologies, the data acquisition module creatively proposed a "three-stage ETL model" that not only improves the efficiency of data fusion but also ensures the quality of data fusion. The data rendering module natively developed a draggable zero-programming data analysis visualization system supporting multiple data sources based on Java, SpringMVC, React, Echarts, D3.js, and microservices. The system uses REST/JDBC protocol and big data. Basic platform communication, with good scalability, can connect to university big data governance integration platform, but also to third-party data analysis platform.

I participated in the selection of open source big data research, the overall architecture design of the big data governance integration platform, the analysis of common application scenarios in colleges and universities, and the related application scenarios and use case realization of the university governance integration platform. Due to the personal energy and equipment resources, the college big data management platform is currently in the experimental stage of R&D. It has initially verified the theoretical feasibility of the university's big data governance integration platform, and has initially grasped the data characteristics and business logic of common university application scenarios; The understanding of college big data and the investment of equipment resources will integrate more application scenarios of colleges and universities to further improve the performance and application fields of the integration platform of big data governance in colleges and universities.

Keywords: college big data governance integration open source informationization

目录

第一章 绪论

1.1 研究的背景

1.2 高线大数据治理现状

1.3 主要研究内容及论文结构

1.3.1 研究内容

1.3.4 章节安排

1.4 本章小结

第二章 高校大数据治理融合相关方法与技术

2.1 Hadoop技术生态圈

2.2高校大数据技术

2.3 数据采集与建模技术

2.4 数据存储

2.4.1 分布式文件存储

2.4.2 NoSQL数据库

2.5 数据计算与挖掘

2.6 可视化技术

2.7大数据管理系统

2.8 本章小结

第三章 高校大数据治理融合总体架构与场景分析

3.1 高校大数据治理融合平台总体架构

3.2 高校大数据应用场景分析

2.2.1 舆情分析

2.2.2 综合预警

2.2.2.1 学生失联预警

2.2.2.2 贫困生预警

2.2.2.3上网预警

2.2.2.4 一卡通消费预警

2.2.2.5 学生沉迷预警

2.2.2.6 图书借阅预警

2.2.3 就业招生分析

2.2.4 科研分析

2.2.5 教务分析

2.2.6 资产管理

2.2.7 教学管理

2.2.8 战略决策

2.2.9 教学管理

2.2.10 学生画像

2.2.11 财务分析

2.2.12 助学分析

2.2.13 人事分析

2.1.14 学工分析

2.1.15 校园综合分析

2.1.16 学校信息化管理分析

3.3 本章小结

第四章 高校大数据治理融合平台设计与实现

4.1 高校大数据治理融合基础平台

4.1.1 平台物理架构

4.1.1.1 物理组网

4.1.1.2 主机配置列表

4.1.1.3 Host主机名配置

4.1.1.4 大数据服务配置

4.1.2 平台管理系统

4.1.3 平台功能架构

4.2 平台数据建模

4.2.1 数据建模工具与流程

4.2.1.1 Flume拦截器morphline

4.2.1.2 Sqoop数据清洗(SQL/Kite)

4.2.1.3 Kettle数据采集与ETL

4.2.1.4 高校数据采集

4.2.1.5 数据入库

4.2.2 数据标准规范

4.2.3 数据清洗示例

4.2.4 数据建模

4.3 平台数据处理

4.3.1 数据存储

4.3.1.1 设计思路

4.3.1.2 分布式文件系统

4.3.1.3 关系型数据库

4.3.1.4 非关系型数据库(NoSQL)

4.3.1.5 数据存储格式

4.3.1.6 高校大数据治理融合平台存储方案

4.3.2 数据处理

4.3.2.1 实时数据计算

4.3.2.2 离线批量处理

4.3.2.3 即席查询

4.4 可视化系统

4.4.1 可视化系统架构

4.4.2 数据源管理

4.4.3 权限管理

4.4.3.1机构管理

4.4.3.2用户管理

4.4.3.3角色管理

4.4.4 业务前端展示图表

4.4.5 可视化系统数据库设计

4.4.5.1 数据源表结构

4.4.5.2 应用表结构

4.4.5.3 元数据存储表

4.4.5.4 仪表盘表结构

4.4.5.5 图表表结构

4.6 本章小结

第五章 总结与展望

5.1 论文工作与总结

5.2 进一步研究工作

参考文献

致谢