简单说明一下,假设原始表结构:
ID | username | passwd | ... | |
10000001 | 小强 | aa@qq.com | xxxxxxxxxxxx | ... |
10000002 | 张三 | bb@gmail.com | xxxxxxxxxxxx | ... |
... | ... | ... | ... | ... |
以用户名做hash把所有用户打散到不同的表,如取md5('小强')的首英文字母(hash方法很多,这边简单以md5示例)进行横向分表后假设创建如下表名:
users_a、users_b、users_c、users_d、.....、users_other
users_a 设置主健基数 10000000
users_b 设置主健基数 20000000
users_c 设置主健基数 30000000
....
这样以后,若我们查询 username='小张',则hash后得到小张所在的表名为 users_a,构建sql语句:
select * from users_a where username='小张';
若我们查询用户 ID=21001234,则可间接得到ID21001234所在的表名为 users_b,构建sql语句:
select * from users_b where ID=21001234;
以上这些办法都能在分表后大幅提升数据库查询性能。
但是,虽然解决了使用ID和username查找的问题,如果我想查找 email='xxxx@xxx.com' 怎么办?
首先建立该字段与主键ID的映射关系表结构如下:
ID | |
aa@qq.com | 10000001 |
bb@gmail.com | 10000002 |
... | ... |
其次,针对email的值进行散列/分表,拆分为 email_a、email_b、email_c.....
简单地理解就是:
email_a存放的是以邮件a开头的所有email地址及其对应的用户ID;
email_b存放的是以邮件b开头的所有email地址及其对应的用户ID.....
这样以后,若我们查询 email='aa@qq.com',则可得到该email所在的表名为 email_a,构建sql语句:
select ID from email_a where email='aa@qq.com';
得到用户ID,并根据ID查找到用户数据,实则也是一种自创索引。
总知在大数据量、大并发应用中分表是很必要且很繁琐的工作,而且很多时候衍生出分库乃至分服务器等,在此也仅仅浅显地表达一些思路,希望以此抛砖引玉,理解得不好的地方还请海涵。