bulkrequest 内存溢出 lua内存溢出

转载

mob64ca1416f1ef 2024-05-06 23:02:25

文章标签 bulkrequest 内存溢出 lua Lua 内存泄露 文章分类 架构后端开发

Lua会造成内存泄露的表征分析:

# 因素一:(实例型)实体资源的创建持有者和调用者，相互之间如果太过信任,那么对调用者就会形成过高的要求,创建者可以让任意的调用者进行任意的 create,调用者消费后以为创建者会管理(销毁),但其实并非如此,比如有这样一个实体管理器xxxManager,它有接口 createXXX/removeXXX, 那么，创建和销毁的权利都丢给了调用者,如果调用者光create而不remove,那么,xxxManager就会产生越来越多的xxx(xxx可真多丫)，从而产生了内存泄露

#因素二:逻辑层的角色数据如果没有跟随角色，将会导致前者和后者在生命周期上非不严格对应, 或者说角色对自己的数据的持有太松散,这样，如果角色在玩家下线后，即使被roleManager销毁了，但它所对应的数据，并没有得到销毁, 这样，也产生了泄露

# 因素三:singleton单实例对象,本身是在内存中持久存在的, 这样，从内存泄露的角度上看，它们对数据的持有的风险是很高的, 如果它们中的任意一个，有这样的一个接口addPlayer(player), 而在player下线时也没有进行即时的清除, 那么，泄露又产生了

#因素四:如果框架层接口太过于开放的话，也会给脚本层lua带来泄露的风险, 最典型的比如计时器，lua的某个方法启动了一个计时器而又忘了关掉它, 这就麻烦了.

因此, 虽然lua有gc，但是脚本中的游戏逻辑层，也会产生内存泄露，并且，泄露还很容易，泄露的地方还很多！

根源是什么?

这究竟是怎么回事呢? 由于以上的泄露，其实都是逻辑泄露(跟c/c++的泄露本质不同),那么我们可以从设计上，来探根源:

# 每个层自身职责的定义如果不够严谨，它们之间存在一些不必要的耦合的话,这里表现为(框架)层与(脚本)层,(实体)层与(逻辑)层,(全局资源层)与 (逻辑)层,以上的泄露就很容易产生, 举个简单例子：实体由实体层管理持有, 而逻辑层(在任何一个接口)却能直接的去创建,或者销毁一个资源实体，实体的生命横跨实体层和逻辑层, 生命周期发生了外泄, on the other hand,从设计的角度书，就是实体让两个层产生了耦合!

#实体资源本应该有的强依赖关系没有建立起来, 在游戏中最重要的就是角色和角色数据(比如任务),material,task,等，本身并不能独立存在,它们的生命周期完全依赖于角色的生命周期(原型数据除外),所以，必须理清所有的实体的生命周期，已经它们之间的联系，该强耦合的强耦合.

#对逻辑层singleton的全局性对象持有实体资源的风险意识不够,根据上面一条，逻辑层全局子系统不能够直接持有任何一个实体(即使是原型).

设计上怎么做?

也就是说，我们在搭建脚本层的游戏框架上的时候，就首先对内存泄露有足够和清醒的认识, 在设计上, 做出更好的规划，让脚本层更健壮, 针对以上的原因，我们很容易的，有这样的做法:

#实体管理器如果是本身持有了实体，那么，就不应该开发create/remove接口，而是选择直接

#所有实体资源,主要是目前的玩家逻辑数据, 必须直接帮在role上，确保role的销毁比如会引发它们的销毁

#全局资源性的数据，可以考虑放在weak table中

监测机制的产生?

监测，就是必须存在这样一个机制:我们能够利用某些接口/命令,清晰全面的得知脚本层在是否存在，在哪里存在内存泄漏.毕竟,逻辑型泄漏的代码，很容易就可以写出来并且不能100%的杜绝,建立起这样一个机制，在分析游戏服务器端的健壮性，稳定性上，都是很有帮助的.

#计数法. 在垃圾收集中,计数法是比较原始的算法, 效率低，不能解决循环引用. 不过,如果我们把它用在实体管理器与实体，主实体与非主实体上，有可能可行，因为，这些对象间，并没有产生循环引用,另外,我们也通过在不同类型的类上采用不同的时间间距，来达到比较好的性能. 也就是说，引入计数法,即可监测，其实还可以做垃圾收集

#对全局资源, 可以考虑引入mark-sweep算法/复制算法来管理,

如何让垃圾收集更加的高效?

lua gc 采用mark-sweep算法, 效率不高,并且好像没有看到有自己回收的地方, 如果在游戏应用层调用collectgarbage("collect"),不可避免会影响服务器的性能,所以, 我们可以对lua中的模块进行(javaGC类似的)分代, 不同代的数据使用不同的保存,封装和清除策略,保证在最大效率的情况下准确的完成垃圾收集!

BTW,这里有另一篇对Lua的内存泄露文章,供大家开阔视野:

Lua内存泄露与查找

本文主要介绍某项目脚本(lua)部分内存泄漏的查证与处理过程，希望对大家有点帮助。需要说明的是，lua本身并不存在真正的内存泄漏，只是因为使用上面的原因导致无法gc，从而导致逻辑上的泄漏:)。参考GCObject的声明可以发现，lua中的复杂数据类型变量的传递都是基于引用的。当lua从根开始gc扫描的时候，只要还有一个地方有对此变量的引用，那么这个变量就不会被collect。这种情况造成的危害取决于多大程度上依赖于引用，如果有适当的间接层/弱引用来隔离这个问题，可能问题会有所缓解。以下是一些常见的错误引用情景: 1. 本应该local 的变量进入global空间或者module空间了(忘记写local)，如果这是一个table/function/udata等类型的变量的话，非常不幸的，这个变量将不会被正确gc了 ----除非你再显式的释放。这是非常容易犯的错误，一直在想为什么 lua变量不是默认local呢？当然这个话题会引发另外一场争论。 local function test_user(id) userobj = get_user_by_id(id) --这里总是会有一个玩家对象泄漏 print("only test", userobj:get_name()) end 2. c/c++部分调用的lua_ref是否有正常lua_unref释放？通过 debug.getregistry()可以查到这些ref. 3. 其他各种各样的实际bug造成的泄漏。当怀疑系统有泄漏以后，我们可以怎么查到这些泄漏呢？我强烈建议大家建立一个weak table, 把你所有创建过的能够称之为资源的，包含但不限于“战斗对象，玩家，npc，物品，场景，邮件”等等对象全部扔到这个table里面。当你知道玩家已经下线、战斗已经销毁了，但通过连续的强制full gc以后weak table里面还有这个变量，这就证明了这个变量的引用没有被完全释放，于是问题就被发现了，我们又有事情干了@_@。知道有泄漏是比较容易的，能够完全揪出来就不是很容易了。是的，它究竟在哪儿呢? 一开始在此项目里面也是先发现比如某npc泄漏了，然后就去查代码，看看究竟哪个地方写得不对。这种方式效率极低，基本上查不到什么问题。在迟一点的时候才使用现在的方案：从_G深度遍历所有的table、metatable、funciton's upvalue、function's env、registentry(lua_ref)。目前所知的所有引用必定存在于这几个空间，遍历完成以后一定可以找到那个“迷失了的引用”。这种方式在脚本层就可以完成所有事情，甚至你可以在运营环境中在线查证，其遍历的速度是非常快的，但内存开销非常大(:，可以考虑一边遍历一边gc，当然还要记得避免重复搜索。在应用此方案以后，此项目解决了脚本中所有的泄漏问题。一点总结：1.如果系统性能还能够承受的话，建议不要直接引用对象，可以多做一层间接层。2.lua里面的弱引用是非常有用的。3.比较大的物理内存是必要的，这可以为大家查证问题争取足够多的时间:) 4.可以把查找泄漏的部分写入到关机逻辑里面，每次关机的时候自动查找泄漏，然后出具报告。Lua的内存监测和回收

Lua 内存是自动收集的, 这点跟Java类似, 不被任何对象或全局变量引用的数据，将被首先标记为回收,不需要开发者做任何事情.但是，正如Java也会有内存泄露一样, Lua也会有, 只不过,跟C++的不同，它是由于代码执行所装载的资源，并没有被彻底销毁而导致,其中，最臭名昭著的就是不小心把局部变量声明成了全局变量(忘了加 local修饰符)。类似这样造成的内存泄露, 跟任何其他语言的内存泄露一样，容易产生，却难以察觉, 给开发的应用带来潜在的很大隐患.

那么, 有没有一些有效的解决办法, 来解决这个这个隐患呢, 答案就是collectgarbage. collectgarbage就是开放给Lua开发人员, 用于监听Lua的内存使用情况(collectgarbage("count")), 同时,它还提供了collectgarbage("collect"),允许在适当的时候进行显式的回收.

现在，通过测试代码来看看，如何玩转collectgarbage.

首先,为了有明显的对比, 先来看没有产生泄露的情况, 运行以下的test1(代码如下):

运行结果如下:

这里看到, 被local 声明的colen加了5000数组, test1调用后, 内存增加了大概300K(25906K-25620K).现在，我们来做内存回收(调用mem函数, 代码如下):

运行结果:

( 为了保证内存的稳定,以上注意mem被调用了多次, 再第2次, 可以看到内存开始下降, 最后,大概在25618K稳定下来)好了, 从最初的25620K, 到回收后的25618K, 两者并没有发生变化(还少了2K，嘿嘿, 这应该是误差了), 也就是说,函数test1的执行，并没有产生无法回收的内存，没有泄露出现.

好了，现在运行有泄露的test2(代码如下), test2跟test1相比,只有一处不同:就是colen被误声明为全局:

结果:

也就是说,内存也在25906K,跟test1几乎是相等, 好了，现在再调用回收(mem)函数,产生结果如下

为了保证函数回收被执行，这次，总共调用了7次mem函数(看以上打印行数), 那么，从上面的结果我们看, 很不幸, 从第1次，到最后第7次, 内存都还是稳定在25905K左右, 也就是说, 跟调用test2前相比，即使Lua进行了内存回收, 内存却不会将下来看来, 这300K(25906K-25620K)内存, 由于已放到了全局函数中，是永远没有机会被回收到了!

总结一: 如何监测Lua的编程产生内存泄露:

1. 针对会产生泄露的函数,先调用collectgarbage("count"),取得最初的内存使用

2. 函数调用后, collectgarbage("collect")进行收集, 并使用collectgarbage("count")再取得当前内存, 最后记录两次的使用差

3. 从test1的收集可看到, collectgarbage("collect")被调用，并不保证一次成功, 所以, 大可以调用多次

总结二: 如何避免Lua应用中出现的内存使用过大行为:

1. 当然是代码实现不出现泄露, (废话*&%$()

2. 在测试中，其实还发现, Lua中被分配的内存，其实并不会自动回收(个人估计要么就是Lua虚拟机没有做这个事情，要么就是回收的时机是在C层), 所以, 为了避免内存过大, 应用的运行时，可能需要定期的（调用collectgarbage("collect")，又或者collectgarbage("step")）进行显式回收。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。