摘要:
随着数据体积的越来越大,
实时处理成为了许多机构需要面对的首要挑战。
Shruthi KumarSiddharth PatankarDr.Dobb’s上结合了汽车超速监视,
为我们演示了使用Storm进行实时大数据分析。

简单和明了,Storm让大数据分析变得轻松加愉快。

当今世界,
公司的日常运营经常会生成TB级别的数据。
数据来源囊括了互联网装置可以捕获的任何类型数据,
网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。
考虑到数据的生成量,
实时处理成为了许多机构需要面对的首要挑战。
我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,
通常被比作“实时的Hadoop”
然而Storm远比Hadoop来的简单,
因为用它处理大数据不会带来新老技术的交替。

Shruthi KumarSiddharth Patankar共同效力于Infosys
分别从事技术分析和研发工作。
本文详述了Storm的使用方法,
例子中的项目名称为“超速报警系统(Speeding Alert System)”
我们想实现的功能是:
实时分析过往车辆的数据,
一旦车辆数据超过预设的临界值 ——
便触发一个trigger并把相关的数据存入数据库。

Storm

对比Hadoop的批处理,Storm是个实时的、分布式以及具备高容错的计算系统。
Hadoop一样,Storm也可以处理大批量的数据,
然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时;
也就是说,所有的信息都会被处理。
Storm同样还具备容错分布计算这些特性,
这就让Storm可以扩展到不同的机器上进行大批量的数据处理。
他同样还有以下的这些特性:
1. 易于扩展。对于扩展,
你只需要添加机器和改变对应的topology(拓扑)设置
Storm使用Hadoop Zookeeper进行集群协调,
这样可以充分的保证大型集群的良好运行。
每条信息的处理都可以得到保证。
2. Storm集群管理简易。
Storm的容错机能:一旦topology递交,
Storm会一直运行它直到topology被废除或者被关闭。
而在执行中出现错误时,也会由Storm重新分配任务。
尽管通常使用JavaStorm中的topology可以用任何语言设计。

当然为了更好的理解文章,
你首先需要安装和设置Storm
需要通过以下几个简单的步骤:

第一步: 从Storm官方下载Storm安装文件
第二步: 将bin/directory解压到你的PATH上,
并保证bin/storm脚本是可执行的。