问题抛出

近来 beego 收到用户反馈,有时候 MySQL 数据库会出现:

Error 1461: Can't create more than max_prepared_stmt_count statements (current value: 16382)

而且这个只会出现在 1.12.x 的版本,早期的 1.11.x 版本并不会出现。

这个错误是因为 MySQL 缓存的 ​​Prepare Statement​​​ 超出了上限,无法再创建新的 ​​Prepare Statement​​ 了。

而 beego 内部的所有的SQL查询,基本上都是通过 ​​Prepare Statement​​​ 来执行的,这主要是因为 ​​Prepare Statement​​ 可以性能和安全方面的优势:

  • 性能优势:​​Prepare Statement​​ 会被预编译,执行计划也会被缓存;
  • 安全:因为​​Prepare Statement​​ 在执行的时候是绑定参数的,也就是它不会把参数视为指令的一部分。这可以防范大多数的 SQL 注入攻击。

beego 所有的 SQL 执行都是通过 ​​Prepare Statement​​ 来实现的。

但是问题来了,为什么会创建这么多的 ​​Prepare Statement​​ 呢?


问题分析

按照我们的分析,如果使用 beego 的 ​​orm​​​ 的话,是不会生成太多的 ​​Prepare Statement​​​ 的。我们假设说一个模型增删改查加起来有十个 ​​Prepare Statement​​ 语句,那么 100 个模型也才 1000 个。

所以我们的分析比较可能的原因是:

  1. beego 内部每次查询都创建了​​Prepare Statement​​ ,没有复用,也没有关闭;
  2. 用户绕开了标准`orm`,使用了我们提供的执行原始 SQL 的功能;
  3. 用户部署了非常多的实例 beego 实例;

第三条是比较难处理的,只能是每次创建 ​​Prepare Statement​​ 之后都关闭,不考虑复用任何的`Prepare Statement`。而按照我们的计算,这也得有几十个实例共享一个 MySQL 实例才有可能导致 MySQL 出现这种问题。

通过跟用户的交流,确定了用户的确使用到了我们执行原始 SQL 的功能。而且他们犯了一个很严重的错误:即直接拼接 SQL 参数,而不是通过绑定参数来执行。

我举个例子。比如说我们想要查询一个用户,一般的 SQL 都是:


select * from User where id = ?


而后通过参数绑定,将用户的 id 绑定。而这个用户则是直接使用字符串拼接,将 SQL 拼接成了:


select * from User where id = 1


这很显然,每次来一个用户,在 beego 都会创建一个 ​​Prepare Statement​​ 并且缓存起来。当然用户的真实例子要复杂多了,但是原理是一致的。

这里提到,我们 beego 是会缓存创建出来的 ​​Prepare Statement​​ 。虽然用户用法不太对,但是我们未能考虑周详也是事实。毕竟作为基础框架,你不兜底谁来兜底?

我们根据提交记录,很快定位到了那一段代码:


//git hash:cc0eacbe023b95f74c240b35419c14722df45041
//orm/db_alias.go
type DB struct {
*sync.RWMutex
DB *sql.DB
//此处没有对 stmts 的 size进行限制
stmts map[string]*sql.Stmt
}

func (d *DB) getStmt(query string) (*sql.Stmt, error) {
d.RLock()
if stmt, ok := d.stmts[query]; ok {
d.RUnlock()
return stmt, nil
}

stmt, err := d.Prepare(query)
if err != nil {
return nil, err
}
d.Lock()
d.stmts[query] = stmt
d.Unlock()
return stmt, nil
}


问题就出在这 ​​getStmt​​ 方法之内。

乍一看,这代码看起来毫无破绽。但是实际上,它有两个问题:

  1. ​stmts​​​ 变量是简单的​​map​​ 结构,并不存在数量限制;
  2. 在 17-23 行之间有并发问题。

一般人可能会觉得,怎么会有并发问题呢?往 ​​map​​​ 里面塞进去东西的确没有并发问题。问题出在 ​​d.Prepare(query)​​ 这一句。

当多个 ​​goroutine​​​ 发现 ​​stmts​​​ 里面并没有缓存当前 ​​query​​​ 的时候,就会同时创建出来新的`stmt`,但是最终都会试图放进去 ​​map​​ 里面,加锁只会让他们排好队一个个放,但是后面的会覆盖前面的。而被覆盖的,却没有被关闭掉。

解决方案

从前面分析,我们实际上要解决两个问题:

  1. 设置缓存的`Prepare Statement`的数量的上限;
  2. 在缓存不命中的时候,有且只有一个​​Prepare Statement​​ 被创建出来;

设置上限

第一个问题,要解决很简单,比如说我们维护一个缓存上限的值,而后再往 ​​map​​ 里面塞值之前先判断一下有没有超出上限。

这种方案的缺点就是谁先被缓存了,就永远占了位置,后面的 SQL 将无法享受到缓存`Prepare Statement`的优势。

那么很显然,我们可以考虑是用 LRU 来解决上限的问题。很显然,根据程序运行的特征,LRU 缓存局部热点更加契合局部性原理。我们只需要在 LRU 淘汰一个 ​​Prepare Statement​​ 的时候,关闭它就可以。

但是难点在于,这个被淘汰的 ​​Prepare Statement​​ 可能还在被使用中。毕竟 golang 并没有类似于 Java 软引用之类的东西。

所以我们只能考虑说维持一个计数,如果有人使用,就 +1,使用完了就 -1。

因此我们使用了 ​​Decorator​​​ 设计模式,封装了一下 ​​Stmt​​ :


type stmtDecorator struct {
//借助 waitGroup 进行引用计数
wg sync.WaitGroup
lastUse int64
stmt *sql.Stmt
}

func (s *stmtDecorator) acquire() {
//返回描述符前,执行引用计数 +1
s.wg.Add(1)
s.lastUse = time.Now().Unix()
}

func (s *stmtDecorator) release() {
//调用者完成操作后,释放引用计数
s.wg.Done()
}


当我们在 LRU 淘汰的时候,利用 ​​WaitGroup​​​ 的特性来等待所有的使用者释放 ​​stmt​​ :


func newStmtDecoratorLruWithEvict() *lru.Cache {
cache, _ := lru.NewWithEvict(1000, func(key interface{}, value interface{}) {
value.(*stmtDecorator).destroy()
})
return cache
}

func (s *stmtDecorator) destroy() {
go func() {
//等待所有资源释放,进行stmt关闭
s.wg.Wait()
_ = s.stmt.Close()
}()
}


double-check

之前提到的并发问题,其实根源在于没有正确使用 ​​double-check​​​ 。当我们加了写锁以后,需要进一步判断,有没有因为并发,而其它的 ​​goroutine​​​ 刚才先获得了写锁,创建出来了 ​​Prepare Statement​​ 。

最终经过修改的 ​​getStmt​​ 如下:


type DB struct {
*sync.RWMutex
DB *sql.DB
stmtDecorators *lru.Cache
}
func (d *DB) getStmtDecorator(query string) (*stmtDecorator, error) {
d.RLock()
c, ok := d.stmtDecorators.Get(query)
if ok {
// 计数 + 1.
// 这一步必须在这个方法内完成。
// 否则可能在LRU淘汰之后,执行Close之前,用户误+1,而stmt又被随后Close了
c.(*stmtDecorator).acquire()
d.RUnlock()
return c.(*stmtDecorator), nil
}
d.RUnlock()

d.Lock()
//double check
// 再一次检测,看有没有别的goroutine刚才先拿到了写锁,并且创建成功了
c, ok = d.stmtDecorators.Get(query)
if ok {
c.(*stmtDecorator).acquire()
d.Unlock()
return c.(*stmtDecorator), nil
}

stmt, err := d.Prepare(query)
if err != nil {
d.Unlock()
return nil, err
}
sd := newStmtDecorator(stmt)
sd.acquire()
d.stmtDecorators.Add(query, sd)
d.Unlock()

return sd, nil
}


总结

经过我们前面的分析,可以看到,这个问题的根源在于我们设计这个`Prepare Statement`的时候,并没有做好兜底的准备,从而导致了用户 MySQL的崩溃。

另外一方面,我们也发现,在 golang 里面,类似于这种资源的关闭都不是很好处理,至少代码不会简洁。当某一个资源被暴露出去之后,在我们框架层面上要释放资源的时候,最重要的问题就是,这个东西到底还有没有人用。

所以我们只能依赖于通过使用一种计数的形式,来迫使使用者加减计数来暴露使用情况。它带来的问题就是,用户可能会遗忘,无论是遗忘增加计数,还是遗忘减少计数,最终都会出问题。这种用法体验并不太好,不知道有没有人有更好的方案。


原作者:简公介@beego-dev


MySQL又双叒崩了——记beego的stmt优化_spring