问题

SQLSession 是一个非常大的内存结构,一个分布式执行的 Query 中,SQLSession 要被复制/序列化多次,复制开销非常大。如果有机会再来一遍,如何设计 SQLSession 才能避免这种开销呢?

思路

下面提出一种思路:

  1. 对于不变、可共享的数据,设计成只读结构,无需拷贝/序列化,支持多线程并发读。
  2. 对于可变内容,必须拷贝,又分成两部分,一部分是基线内容,一部分是可更新内容。
  • 基线内容支持 memcpy 直接拷贝来做序列化
  • 为了支持 memcpy 直接拷贝,要求基线部分数据结构都是 plain old data(POD
  • 可更新内容参与标准 deep_copy 过程
  • 可更新内容不参与序列化

设计

按照上面的思想设计,SQLSession 是一个容器:

class SQLSession {
public:
	SQLSessionSharable *shared_;
	SQLSessionMemCopiableVariants mem_copiable_variants_; // 如 char[1024]
	SQLSessionDeepCopiableVariants deep_copiable_variants_; // 如 vector
public:
	DEF_SERIALIZE(); // 跨机复制,序列化所有数据
	DEF_SHARE_CLONE(SQLSession); // 本机复制, 共享不变数据, 复制可变数据
private:
	Allocator allocator_;
};