聚簇因子是 Oracle 统计信息中在CBO优化器模式下用于计算cost的参数之一,决定了当前的SQL语句是否走索引,还是全表扫描以及是否作为嵌套连接外部表等。如此这般,那到底什么是聚簇因子,那些情况下会影响到聚簇因子,以及如何提高聚簇因子?本文将对此展开描述。

Oracle 聚簇因子(Clustering factor)_cuug官网

1、堆表的存储方式


Oralce 数据库系统中最普通,最为常用的即为堆表。


堆表的数据存储方式为无序存储,也就是任意的DML操作都可能使得当前数据块存在可用的空闲空间。


处于节省空间的考虑,块上的可用空闲空间会被新插入的行填充,而不是按顺序填充到最后被使用的块上。


上述的操作方式导致了数据的无序性的产生。


当创建索引时,会根据指定的列按顺序来填充到索引块,缺省的情况下为升序。


新建或重建索引时,索引列上的顺序是有序的,而表上的顺序是无序的,也就是存在了差异,即表现为聚簇因子。


2、什么是聚簇因子(clustering factor/CF)


聚簇因子是基于表上索引列上的一个值,每一个索引都有一个聚簇因子。


用于描述索引块上与表块上存储数据在顺序上的相似程度,也就说表上的数据行的存储顺序与索引列上顺序是否一致。


在全索引扫描中,CF的值基本上等同于物理I/O或块访问数,如果相同的块被连续读,则Oracle认为只需要1次物理I/O。


好的CF值接近于表上的块数,而差的CF值则接近于表上的行数。


聚簇因子在索引创建时就会通过表上存存在的行以及索引块计算获得。


3、Oracle 如何计算聚簇因子


执行或预估一次全索引扫描。


检查索引块上每一个rowid的值,查看是否前一个rowid的值与后一个指向了相同的数据块,如果指向了不相同的数据块则CF的值增加1。


当索引块上的每一个rowid被检查完毕,即得到最终的CF值。