序列化 这篇文章是关于序列化方法在storm 0.6.0版及之前版本中是如何工作的。0.6.0版之前,storm使用一种不同的序列化方法,参见 Serialization (prior to 0.6.0)。 元组可由任何一种类型的对象组成。由于storm是一个分布式系统,当对象在任务之间传递时,它需要知道如何序列化和反序列化这些对象。 Storm使用Kryo进行序列化。Kryo是一
在生产集群运行拓扑 在生产集群运行拓扑和在本地模式运行拓扑是相似的,下面是步骤: 1) 定义拓扑(如果使用java语言定义,则使用TopologyBuilder类)。 2) 使用StormSubmitter提交拓扑到集群。StormSubmitter需要以下输入参数:拓扑名称、拓扑配置、拓扑自身。例如: Config conf = new&
Maven 要开发拓扑,你需要在classpath环境变量设置storm的相关jar文件路径。你也应把未打包的jar文件放到你项目的classpath,或使用maven来管理storm相关的开发依赖包。Storm托管在Clojars(一个maven仓库)。为了在项目中包含storm相关的开发依赖包,在pom.xml文件中添加如下代码: <repository>  
分布式RPC 分布式RPC(DRPC)的真正目的是使用storm实时并行计算极端功能。Storm拓扑需要一个输入流作为函数参数,以一个输出流的形式发射每个函数调用的结果。 DRPC没有多少storm特性,因为它是从storm的原始流,spouts,bolts,拓扑来表达一个模式。DRPC没有单独打包,但它如此有用,以至于和storm捆绑在一起。 概述 分布式
可靠消息处理 Storm保证从spout发射出来的每个消息都被完全处理。该文章描述storm如何实现消息可靠处理,从storm的可靠性特性获得好处,用户需要做哪些工作。 消息被完全处理是什么意思? 从spout发射出来的元组能触发创建数千基于它的新元组。考虑一下,例如,单词统计拓扑: TopologyBuilder builder = new Top
概念 这个页面列出了storm的主要概念和查找更多信息的链接。讨论的概述有: 1. 拓扑(Topologies) 2. 流(Streams) 3. 喷嘴(Spouts) 4. 螺栓(Bolts) 5. 流分组(Stream groupings) 6. 可靠性(Reliability) 7. 任务(Tasks)
本地模式 本地模式用进程模拟一个storm集群,对于开发和测试拓扑比较有用。本地模式运行拓扑和在集群运行拓扑大致相同。 简单地使用LocalCluster类,就能创建一个进程内(in-process)集群。例如: import backtype.storm.LocalCluster; LocalCluster cluster 
安装Storm集群 这页概述Storm集群安装和运行的步骤。如果你在AWS,你应该检出storm-deploy项目。storm-deploy完全自动化准备,配置,和在EC2上安装Storm集群 。它还为您安装Ganglia,这样就可以监视CPU,磁盘和网络使用情况。 安装Storm集群的步骤概要: 1. 安装Zookeeper集群。 2. 安装Nimbu
新建Storm项目 这页概述如何设置Storm项目用于开发。步骤如下: 1. 添加Storm的jar包到classpath。 2. 如果使用多语言,添加多语言目录到classpath。 紧跟着来看看 在Eclipse中如何设置storm-starter项目。 添加Storm的jar包到classpath 开发Storm拓扑需
设置开发环境 1.下载Storm release,解压,把解压后的/bin路径添加到PATH环境变量。 2. 为了能启动和停止远程集群上的topologies,需要在~/.storm/storm.yaml设置集群信息。 下面是这些步骤的更多细节。 什么是开发环境? Storm有两种运行模式:本地模式和远程模式。 在本地模式下,你可以在本地机器上完成topologies的开发和
Rationale 在过去的十年里,数据处理发生了革命性的变化。MapReduce,Hadoop,以及相关的技术使我们可以存储和处理以前不可想象规模的数据。很遗憾,这些数据处理系统都不是实时系统,命中注定也不是它们。根本没办法把Hadoop变成一个实时系统;实时数据处理和批处理的许多要求在根本上有很大不同。 然而,企业对大规模实时数据处理要求越来越多。缺乏“实时Ha
定时清除Zookeeper日志 命令格式: java -cp zookeeper.jar:log4j.jar:conf org.apache.zookeeper.server.PurgeTxnLog <dataDir> <snapDir> -n <count> 举例: ja
初试Storm之常见问题 错误1:发布topologies到远程集群时,出现Nimbus host is not set异常。异常内容如下所示: [root@xop-dev-a bin]# ./storm jar /home/clx/storm-starter.jar storm.starter.WordCountTopology wordcount Ru
Storm命令简介 提交Topologies 命令格式:storm jar 【jar路径】 【拓扑包名.拓扑类名】 【拓扑名称】 样例:storm jar /storm-starter.jar storm.starter.WordCountTopology wordcountTop #提交storm-starter.jar到远程集群,并启动wordcou
入门指南 通过这个入门指南,你将学会如何创建storm拓扑(topology)和部署拓扑到storm集群。主要使用Java语言,少许例子使用Python说明Storm的多语言特性。 准备工作 入门指南使用了storm-start项目中的例子。建议您克隆此项目并跟随这些例子。阅读安装开发环境和创建新Storm项目,在你的机器上安装好开发环境和项目。 Storm集群组件 Storm集群表面类
常见模式 这篇文章列出了storm拓扑中各种各样的常见模式。 1. 流连接(Stream join) 2. 批处理(Batching) 3. BasicBolt 4. In-memory缓存 + 字段分组(Fields grouping)组合 5. 流动的Top N 6. 通过TimeCacheMap高效缓存最近更新的对象
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号