今日指数项目之项目介绍和数据采集【四】

原创

Maynor学长 2022-04-11 16:39:21 ©著作权

文章标签 hive java big data 数据仓库 hadoop 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者Maynor学长的原创作品，请联系作者获取转载授权，否则将追究法律责任

项目介绍和数据采集

1.了解行业背景知识

今日指数项目之项目介绍和数据采集【四】_java

个股、指数、板块，涨跌幅、振幅，换手率，成交占比

成交时间：9:30-11:30 13:00-15:00

2.介绍今日证券项目

1.项目介绍

基于flink实时流计算的，金融证券项目，实时大屏展示，预警模块和离线模块的处理。

2. UI产品原型

首页

今日指数项目之项目介绍和数据采集【四】_big data_02

涨跌幅：

今日指数项目之项目介绍和数据采集【四】_big data_03

个股：

今日指数项目之项目介绍和数据采集【四】_数据仓库_04

K线

今日指数项目之项目介绍和数据采集【四】_hadoop_05

3.业务功能

3.1业务模块

1、数据采集

2、离线数据处理

3、实时数据处理

4、实时预警监控

5、离线预警

6、应用大屏展示

3.2业务文档

Web项目：《大数据平台需求规格说明书-今日指数（前端应用）.docx》

流处理项目：《今日指数数据模型.xlsx》

数据采集：《数据源接口规格说明书.docx》

3.3性能指标

l 批处理部分指标：

Ø 支持批处理集群批量总写入速度2GB/秒，批量读取速度300MB/秒；

Ø 平台支持并发执行300个查询和200个加载任务；

Ø 应用查询时间对于数据库的简单数据读取将不超过1~2秒，三个月统计计算查询时间将不超过15秒，复杂查询时间将不超过1分钟；

Ø 复杂批处理任务，ETL的处理时间将不超过2个小时；

l 实时流处理指标：

Ø 平台支持接收峰值为每秒100万条+的流数据；

Ø 平台能够在峰值条件下，完成2秒内的实时预警，2秒内完成针对当日数据的查询;

Ø 平台每日实时处理模块能够累积处理144亿笔（按4小时交易日保持峰值流速计）订单流数据；

Ø 平台支持至少50个并发访问/查询当日数据。

l 应用响应指标：

Ø 数仓应用项目离线报表30秒内完成数据响应查询；

Ø 实时大屏数据展示5秒内完成数据响应查询；

应用平台支持并发执行500个用户查询请求；

类型	业务场景	业务场景特征	并发度	耗时
简单	秒级行情亿级数据查询	功能点查询	500	1s
中等	业务指标数据加工	亿级数据关联查询	50	10s
预警规则关联查询
复杂	大表关联大表	复杂历史数据查询	20	30s
实时报表	实时大屏报表生成	当日实时报表	50	2s
历史报表	历史报表生成	跨年历史报表生成	20	30s
实时行情	指标数据实时展示	页面实时查询	50	1s