在分布式环境下,一切都变得不一样了起来

事情的经过是这样的,工作中需要开发一个远程调试工具。这个调试工具的功能只有一个消息转发。参与交互的角色有用户代理Agent,websocket服务Server,远程调试器Monitor。Agent和Monitor分别和Server使用wensocket连接。当连接有消息来时,转发给对方。

这样一个简单的功能,在开发和测试过程中一切正常,上线之后。现象变得诡异了起来。当Agent加入和退出时,Server会有对当前Agent个数的统计竟然是错的。Agent加入,Server没监听到的情况频频发生。服务容器页偶尔发生崩溃。

本着先解决最明显的错误原则,对执行过程中代码报错的地方进行分析

socket集群方案 nginx_分布式


在join过程中的一个函数中发现通过会话id并未找到对应连接。执行报错。

问题原因已经很明朗了。没有搜索到应有的id。

不完全的解决

由于register接口主要将Agent的相关信息发送给服务端,供Monitor管理相关信息。在/agent/join ws接口内被使用。便考虑将这个状态存储在客户端。客户请求时带着即可。使用jwt来讲数据生成token,然后存储在cookie中。同域下的Http请求会自动将Cookie带到服务端

Cookie & Session的理解

cookie存储在客户端,session存储在服务端。两者独立存在,并不是同一数据的两种存储位置。设置的session不会被同步到cookie中。
若需要使用cookie,需要服务端主动设置cookie。cookie httpOnly只允许服务端更改。不允许浏览器写cookie

更大范围的问题

当Agent连接在PodA上,Monitor连接到PodB上。它们分别对应的是两个Server实例。这种情况下,PodA的Server无法将数据转发给PodB的Monitor链接上。PodB也是如此。

这种网络隔离造成的问题,在分布式情况下应该是常态。解决思路是将网络数据转换为状态服务,将消息发送到消息队列中,从全局中,由所有Pod对消息根据连接信息进行生产和消费。 消息队列则是公用的状态服务