总结几个在 Redis 上踩过的坑

原创

mob604756f19185 2021-04-22 13:12:46 ©著作权

文章标签 java 文章分类 Redis 数据库

©著作权归作者所有：来自51CTO博客作者mob604756f19185的原创作品，请联系作者获取转载授权，否则将追究法律责任

1、主从问题

核心系统：公司之前开发自己部署的redis3主3从3哨兵，程序端分片，而且把哨兵部署到了主上。

刚好主挂了一台，导致整个系统可用。

优化部署：加一台虚拟机作为哨兵专用机，共计9哨兵（3主3从9哨兵），经测试，可以正常切换。

2、带上业务切换问题

前几天刚好一台物理机挂了，哨兵正常切换，但是程序端报错，发现连接redis池报错，重启web应用程序后恢复。

优化程序：自动重连

网上找的，隔天让开发的同学试试

http://www.mamicode.com/info-detail-1896700.html

3、维修物理机

因为主都切换到别的机器上了，这台物理机上的虚拟机全是备，感觉没什么问题，结果所有系统报卡，看看web服务器log，发现一直在找这挂掉的备机，也影响业务，看来我还是太单纯了。还是应该在非业务时间去做停机维护，无论是主还是备。

[ERROR] 2017-11-28 21:36:30.119 [Thread-8] [error_logger] - Lost connection to Sentinel at 192.168.2.99:36381. Sleeping 5000ms and retrying.

[ERROR] 2017-11-28 21:36:30.134 [Thread-5] [error_logger] - Lost connection to Sentinel at 192.168.2.98:36380. Sleeping 5000ms and retrying.

[ERROR] 2017-11-28 21:36:30.241 [Thread-2] [error_logger] - Lost connection to Sentinel at 192.168.2.97:36379. Sleeping 5000ms and retrying.

4、因双11活动，接着11月份做了很多活动，redis里缓存的数据为过期，内存不够用报警。

但是发现系统始终还有2g内存。

两个解决方法(overcommit_memory)

1. echo "vm.overcommit_memory=1" > /etc/sysctl.conf 或 vi /etcsysctl.conf , 然后reboot重启机器

2. echo 1 > /proc/sys/vm/overcommit_memory 不需要启机器就生效

overcommit_memory参数说明：

设置内存分配策略（可选，根据服务器的实际情况进行设置）

/proc/sys/vm/overcommit_memory

可选值：0、1、2。

0，表示内核将检查是否有足够的可用内存供应用进程使用；如果有足够的可用内存，内存申请允许；否则，内存申请失败，并把错误返回给应用进程。

1，表示内核允许分配所有的物理内存，而不管当前的内存状态如何。

2，表示内核允许分配超过所有物理内存和交换空间总和的内存

注意：redis在dump数据的时候，会fork出一个子进程，理论上child进程所占用的内存和parent是一样的，比如parent占用的内存为8G，这个时候也要同样分配8G的内存给child,如果内存无法负担，往往会造成redis服务器的down机或者IO负载过高，效率下降。所以这里比较优化的内存分配策略应该设置为 1（表示内核允许分配所有的物理内存，而不管当前的内存状态如何）。

这里又涉及到Overcommit和OOM。

什么是Overcommit和OOM

在Unix中，当一个用户进程使用malloc()函数申请内存时，假如返回值是NULL，则这个进程知道当前没有可用内存空间，就会做相应的处理工作。许多进程会打印错误信息并退出。

Linux使用另外一种处理方式，它对大部分申请内存的请求都回复"yes"，以便能跑更多更大的程序。因为申请内存后，并不会马上使用内存。这种技术叫Overcommit。

当内存不足时，会发生OOM killer(OOM=out-of-memory)。它会选择杀死一些进程(用户态进程，不是内核线程)，以便释放内存。

Overcommit的策略

Linux下overcommit有三种策略(Documentation/vm/overcommit-accounting)：

0. 启发式策略。合理的overcommit会被接受，不合理的overcommit会被拒绝。

1. 任何overcommit都会被接受。

2. 当系统分配的内存超过swap+N%*物理RAM(N%由vm.overcommit_ratio决定)时，会拒绝commit。

overcommit的策略通过vm.overcommit_memory设置。

overcommit的百分比由vm.overcommit_ratio设置。