聚簇索引并不是一种单独的索引类型,而是一种数据存储方式。InnoDB的聚簇索引实际上是在同一个结构中保存了B-Tree索引和数据行。一个表只能有一个聚簇索引。

InnoDB中,叶子页包含了行的全部数据,但是节点页只包含了索引列。InnoDB通过主键聚集数据。

优点:

1. 可以把相关数据保存在一起。例如实现电子邮箱时,可以根据用户的id,来聚集数据,这样只要从磁盘读取少数的数据页就能获取某个用户的全部邮件。如果没有使用聚簇索引,则每封邮件都可能导致一次磁盘IO。

2. 数据访问更快。将索引和数据保存在同一个B-Tree中。

3. 使用覆盖索引扫描的查询可以直接使用页节点的主键值。

缺点:

1. 聚簇索引最大限度的提高了IO密集型应用的性能,但是如果数据都在内存中,就没什么优势了。

2. 插入的速度严重依赖于插入顺序。按照主键插入是数据加载到InnoDB表中最快的。(但是高并发时,主键的上界会成为‘热点’,同时并发插入时,间隙锁竞争比较严重)

3. 更新聚簇索引列的代价很高,会强制InnoDB将每个更新的行数据移动到新的位置。

4.  插入的时候可能会导致“也分裂”的问题。如果插入到某个已满的页中,存储引擎会讲该页分裂成两个页面来容纳改行,会导致表占用更多的磁盘空间。

5. 聚簇索引可能导致全表扫描变慢,尤其是航比较稀疏,页分裂导致数据存储不连续。

6. 二级索引可能比想象的要大,因为在二级索引中叶子节点包含了引用行的主键列。

7. 二级索引访问需要两次索引查找,而不是一次。二级索引需要先找到叶子节点获得对应的主键值,然后根据这个值去聚簇索引中查找对应的行。InnoDB的自适应哈希索引能够减少这样的重复工作。

InnoDB的二级索引,存储不是“行指针”,而是主键值,并以此作为指向行的“指针”。这样会使二级索引占用更多的空间,换来的好处是,InnoDB在移动行时无需更新二级索引中的这个“指针”。