storm快速入门 storm sth

转载

mob64ca14040d22 2023-11-09 10:48:24

文章标签 storm快速入门数据 Hadoop 实时处理 文章分类 Storm 大数据

摘要：
随着数据体积的越来越大，
实时处理成为了许多机构需要面对的首要挑战。
Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视，
为我们演示了使用Storm进行实时大数据分析。

简单和明了，Storm让大数据分析变得轻松加愉快。

当今世界，
公司的日常运营经常会生成TB级别的数据。
数据来源囊括了互联网装置可以捕获的任何类型数据，
网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。
考虑到数据的生成量，
实时处理成为了许多机构需要面对的首要挑战。
我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发，
通常被比作“实时的Hadoop”。
然而Storm远比Hadoop来的简单，
因为用它处理大数据不会带来新老技术的交替。

Shruthi Kumar、Siddharth Patankar共同效力于Infosys，
分别从事技术分析和研发工作。
本文详述了Storm的使用方法，
例子中的项目名称为“超速报警系统（Speeding Alert System）”。
我们想实现的功能是：
实时分析过往车辆的数据，
一旦车辆数据超过预设的临界值 ——
便触发一个trigger并把相关的数据存入数据库。

Storm

对比Hadoop的批处理，Storm是个实时的、分布式以及具备高容错的计算系统。
同Hadoop一样，Storm也可以处理大批量的数据，
然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时；
也就是说，所有的信息都会被处理。
Storm同样还具备容错和分布计算这些特性，
这就让Storm可以扩展到不同的机器上进行大批量的数据处理。
他同样还有以下的这些特性：
1. 易于扩展。对于扩展，
你只需要添加机器和改变对应的topology（拓扑）设置。
Storm使用Hadoop Zookeeper进行集群协调，
这样可以充分的保证大型集群的良好运行。
每条信息的处理都可以得到保证。
2. Storm集群管理简易。
Storm的容错机能：一旦topology递交，
Storm会一直运行它直到topology被废除或者被关闭。
而在执行中出现错误时，也会由Storm重新分配任务。
尽管通常使用Java，Storm中的topology可以用任何语言设计。