流式计算架构发展趋势流式计算引擎

转载

mob64ca140651e5 2024-05-20 10:27:56

最近花了点时间研究了下分布式计算这一块的内容。领导给的第一个任务，就是学习下S4和GridGain。花了几天的时间把s4的源码看了下，把自己的理解和学习的内容做一个记录。下一篇会是GridGain的分享

学习

s4是什么？

1. s4的全称： Simple Scalable Streaming System (简单的描述：分布式流计算系统)

2. 特点：

3. 产生的原因：

Yahoo发起，主要用于解决"cost-per-click“广告，通过实时计算预测用户对广告的可能的点击行为。
不用hadoop的原因： hadoop主要解决batch处理，基于mapReduce对可控的数据的进行处理。而流计算是针对不可控的点击事件，对实时性有严格要求。

4. 适用的场景：

S4的设计：

PE : Processing Elements (处理节点)
* emit one or more events which may be consumed by other PEs,
* publish results, possibly to an external data store or consumer.
Events : message (消息)
* arbitrary Java Objects
* passed between PEs. (send and receive)
PEC : processing element container (处理节点容器)
* invokes the appropriate PEs in the appropriate order
node : a Processing Endpoint (机器节点)
* a jvm instance
* contains a PEC
cluster: a group nodes (节点集群)

说明：

总体结构图：

1. PE Container/PE
2. EventListenter 
3. Dispatcher, EventEmitter
4. Communcation

PE内部概念：(4个部分组成)

PE类关系图：

说明：

Persister　：　每个PE对应一个Persister，s4中每个PE对应于一个key的value结果。每个value结构都将作为PE的一个instance
FrequenceType : 每个PE会定期进行flush output输出，可选择的策略(定时，数量阀值)
Clock ：每个PE的时间控制单元，有几种时间。(WallClock:基于系统时间处理 , EventClock：基于event事件时间控制)

重点理解一下: Keyless PE概念和PE Prototype

PE在底层实现了会以多实例存在。存储的key即为其keyed对应的value值，内部有个lookupTable概念。
针对Keyless PE，其对应的存储key即为"*"，所以每次通过lookupTable.get(value)返回的即为同一个节点，单例化
针对prototype，其对应的存储就为其value，所以每次会根据当前keyed attribute确定返回的PE节点，基于这点可以实现PE节点数据的Join处理

EventListener/EventEmitter：

说明：　

Dispatcher类关系图：

说明：　

Partitioner，　每个dispatcher针对发送的目标cluster，会根据对应的key进行分区处理，路由到其中的node节点。(node节点的信息可以通过zookeeper进行动态管理)

考虑集群node节点的管理(node的新增 or 修改)

说明：

S4产品还是一个半成品，整体代码结构组织和风格上还是比较乱的，选择使用时需谨慎。存在的一些问题：

failover (运行node节点出现crash，当前node上的PE数据将无法实施failover)
persist (目前支持方式过于简单，需要考虑网络持久化，类似于nfs，分布式文件系统等，配合failover机制)
communication (只支持udp协议，数据传输可靠性上)
load balancer (根据系统负载进行智能LB，目前暂时未看到相关实现。系统运行分为两种模式static or dymaic模式, static不存在智能调节LB处理)
deploy (手工方式介入deploy，无法支持apps的zero deploy模式。系统分为cluster/node两概念，node对应于一计算节点实例,cluster为一组处理相同业务的计算节点)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。