【IT168 专稿】由于 GROUP BY 实际上也同样会进行排序操作,而且与 ORDER BY 相比,GROUP BY 主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数,那么还需要一些聚合函数的计算。所以,在GROUP BY 的实现过程中,与 ORDER BY 一样也可以利用到索引。

在 MySQL 中,GROUP BY 的实现同样有多种(三种)方式,其中有两种方式会利用现有的索引信息来完成 GROUP BY,另外一种为完全无法使用索引的场景下使用。下面我们分别针对这三种实现方式做一个分析。

1.使用松散(Loose)索引扫描实现 GROUP BY

何谓松散索引扫描实现 GROUP BY 呢?实际上就是当 MySQL 完全利用索引扫描来实现 GROUP BY 的时候,并不需要扫描所有满足条件的索引键即可完成操作得出结果。

下面我们通过一个示例来描述松散索引扫描实现 GROUP BY,在示例之前我们需要首先调整一下 group_message 表的索引,将 gmt_create 字段添加到 group_id 和 user_id 字段的索引中:

1 sky@localhost: example08:49:45>createindexidx_gid_uid_gc2 3 ->ongroup_message(group_id,user_id,gmt_create);4 5 Query OK, rows affected (0.03sec)6 7 Records:96Duplicates:0Warnings:08 9 sky@localhost: example09:07:30>dropindexidx_group_message_gid_uid10 11 ->ongroup_message;12 13 Query OK,96rows affected (0.02sec)14 15 Records:96Duplicates:0Warnings:0

然后再看如下 Query 的执行计划:

1 sky@localhost: example09:26:15>EXPLAIN2 3 ->SELECTuser_id,max(gmt_create)4 5 ->FROMgroup_message6 7 ->WHEREgroup_id<108 9 ->GROUPBYgroup_id,user_id\G10 11 ***************************1. row***************************12 13 id:114 15 select_type: SIMPLE16 17 table: group_message18 19 type: range20 21 possible_keys: idx_gid_uid_gc22 23 key: idx_gid_uid_gc24 25 key_len:826 27 ref:NULL28 29 rows:430 31 Extra: Usingwhere; Usingindexforgroup-by32 33 1rowinset(0.00sec)

我们看到在执行计划的 Extra 信息中有信息显示“Using index for group-by”,实际上这就是告诉我们,MySQL Query Optimizer 通过使用松散索引扫描来实现了我们所需要的 GROUP BY 操作。

下面这张图片描绘了扫描过程的大概实现:


要利用到松散索引扫描实现 GROUP BY,需要至少满足以下几个条件:

◆GROUP BY 条件字段必须在同一个索引中最前面的连续位置;

◆在使用GROUP BY 的同时,只能使用 MAX 和 MIN 这两个聚合函数;

◆如果引用到了该索引中 GROUP BY 条件之外的字段条件的时候,必须以常量形式存在;

为什么松散索引扫描的效率会很高?

因为在没有WHERE子句,也就是必须经过全索引扫描的时候, 松散索引扫描需要读取的键值数量与分组的组数量一样多,也就是说比实际存在的键值数目要少很多。而在WHERE子句包含范围判断式或者等值表达式的时候, 松散索引扫描查找满足范围条件的每个组的第1个关键字,并且再次读取尽可能最少数量的关键字。