流计算浅谈

         流计算是什么?这个概念是和普通的计算区分的。

普通的计算是通过 ETL 程序清洗上报的数据,然后把数据存入 HDFS,通过 MapReduce 的批处理 Job /Task对数据进行分区、分类、排序、计算等操作。,然后再通过quartz 定时调度任务,将Hbase数据做统计聚合至 前台页面,然后为业务人员提供数据查询、钻取和分析的功能。

但是 MapReduce批处理 job 的执行时间往往需要几十分钟到几个小时(不同的数据量),所以一般数据的处理是按照时间区间处理的,比如在每天凌晨启动定时任务处理前一天的数据,等所有的 Job 执行完成,有效数据被聚合后,管理人员就可以在前台页面查看昨天及以前的所有数据了。

很多时候,即使是海量数据,我们也希望即时去查看一些数据指标。比如警察在某一区域发现一辆违法车辆,然后在电脑上区域选择卡口对其进行监控,违法车辆没经过一个卡口就进行告警,然后调度台就可以从容的布置警力对其进行拦截。在这样的应用场景中,流计算应运而生。

hadoop不擅长流式计算 流计算与hadoop_流计算

普通数据计算

hadoop不擅长流式计算 流计算与hadoop_hadoop不擅长流式计算_02

流计算

hadoop不擅长流式计算 流计算与hadoop_hadoop不擅长流式计算_03

流计算有两个特点,一个是实时,随时可以看最新的数据,比如统计在线情况;另一个是流,流水不腐,户枢不蠹,绵延不绝,断无可断,随时接入新的数据。

hadoop不擅长流式计算 流计算与hadoop_数据_04

数据流的价值随时间流逝而降低,流数据具有数据实时持续不断到达、到达次序独立、数据来源众多格式复杂、数据规模大且不十分关注存储、注重数据的整体价值而不关注个别数据等特点。

流式计算的常见应用场景

Ø  智能交通 .通过传感器实时感知车辆、道路的状态,并分析和预测一定范围、一段时间内的道路流量情况,以便有效地进行分流、调度和指挥;

Ø   环境监控.通过传感器和移动终端,对一个地区的环境综合指标进行实时监控、远程查看、智能联动、远程控制,系统地解决综合环境问题.

Ø   风险管理.包括信用卡诈骗、保险诈骗、证券交易诈骗、程序交易等,需要实时跟踪发现;

Ø   营销管理.如,根据客户信用卡消费记录,掌握客户的消费习惯和偏好,预测客户未来的消费需求,并为其推荐个性化的产品和服务;

Ø  商业智能.如,掌握系统内部各系统的实时数据,实现对全局状态的监控和优化,并提供决策支持

随着社会的进步,人们产生的数据越来越多,对数据的实时性要求越来越高,流计算的应用场景将会越来越广,预祝我们的产品“飞流计算”越来越好,成为大叔据时代的弄潮者。