Oracle 数据块(一)

1、数据块的概念
数据块(Oracle Data Blocks),本文简称为“块”,是Oracle最小的存储单位,Oracle数据存放在“块”中。一个块占用一定的磁盘空间。特别注意的是,这里的“块”是Oracle的“数据块”,不是操作系统的“块”。
Oracle每次请求数据的时候,都是以块为单位。也就是说,Oracle每次请求的数据是块的整数倍。如果Oracle请求的数据量不到一块,Oracle也会读取整个块。所以说,“块”是Oracle读写数据的最小单位或者最基本的单位。
块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块(Standard Block)。块的大小和标准块的大小不同的块叫非标准块(Nonstandard Block)。同一数据库中,Oracle9i及以上版本支持同一数据库中同时使用标准块和非标准块。Oracle允许指定5种非标准块(Nonstandard Block)。
操作系统每次执行I/O的时候,是以操作系统的块为单位;Oracle每次执行I/O的时候,都是以Oracle的块为单位。
Oracle数据块大小一般是操作系统块的整数倍。
 
2、数据块的格式(Data Block Format)
块中存放表的数据和索引的数据,无论存放哪种类型的数据,块的格式都是相同的,块由块头(header/Common and Variable),表目录(Table Directory),行目录(Row Directory),空余空间(Free Space)和行数据(Row Data)五部分组成。

如下图所示。
oracle技术分享之Oracle 数据块 _Oracle 数据块


块头(header/Common and Variable):存放块的基本信息,如:块的物理地址,块所属的段的类型(是数据段还是索引段)。 表目录(Table Directory):存放表的信息,即:如果一些表的数据被存放在这个块中,那么,这些表的相关信息将被存放在“表目录”中。

行目录(Row Directory):如果块中有行数据存在,则,这些行的信息将被记录在行目录中。这些信息包括行的地址等。

行数据(Row Data):是真正存放表数据和索引数据的地方。这部分空间是已被数据行占用的空间。

空余空间(Free Space):空余空间是一个块中未使用的区域,这片区域用于新行的插入和已经存在的行的更新。

头部信息区(Overhead):我们把块头(header/Common and Variable),表目录(Table Directory),行目录(Row Directory)这三部分合称为头部信息区(Overhead)。头部信息区不存放数据,它存放的整个块的信息。头部信息区的大小是可变的。一般来说,头部信息区的大小介于84字节(bytes)到107字节(bytes)之间。
 
3、数据块中自由空间的使用
当往数据库中插入(INSERT)数据的时候,块中的自由空间会减少;当对块中已经存在的行进行修改(UPDATE)的时候(使记录长度增加),块中的自由空间也会减少。

DELETE语句和UPDATE语句会使块中的自由空间增加。当使用DELETE语句删除块中的记录或者使用UPDATE语句把列的值更改成一个更小值的时候,Oracle会释放出一部分自由空间。释放出的自由空间并不一定是连续的。通常情况下,Oracle不会对块中不连续的自由空间进行合并。因为合并数据块中不连续的自由空间会影响数据库的性能。只有当用户进行数据插入(INSERT)或者更新(UPDATE)操作,却找不到连续的自由空间的时候,Oracle才会合并数据块中不连续的自由空间。

对于块中的自由空间,Oracle提供两种管理方式:自动管理,手动管理
 
4、行链接和行迁移(Row Chaining and Migrating)

行链接(Row Chaining):如果我们往数据库中插入(INSERT)一行数据,这行数据很大,以至于一个数据块存不下一整行,Oracle就会把一行数据分作几段存在几个数据块中,这个过程叫行链接(Row Chaining)。如下图所示:

oracle技术分享之Oracle 数据块 _Oracle_02


如果一行数据是普通行,这行数据能够存放在一个数据块中;如果一行数据是链接行,这行数据存放在多个数据块中。

行迁移(Row Migrating):数据块中存在一条记录,用户执行UPDATE更新这条记录,这个UPDATE操作使这条记录变长,这时候,Oracle在这个数据块中进行查找,但是找不到能够容纳下这条记录的空间,无奈之下,Oracle只能把整行数据移到一个新的数据块。原来的数据块中保留一个“指针”,这个“指针”指向新的数据块。被移动的这条记录的ROWID保持不变。行迁移的原理如下图所示:


oracle技术分享之Oracle 数据块 _Oracle_03

无论是行链接还是行迁移,都会影响数据库的性能。Oracle在读取这样的记录的时候,Oracle会扫描多个数据块,执行更多的I/O。

5、块中自由空间的自动管理

Oracle使用位图(bitmap)来管理和跟踪数据块,这种块的空间管理方式叫“自动管理”。自动管理有下面的好处:
◆易于使用
◆更好地利用空间
◆可以对空间进行实时调整

6、块中自由空间的手动管理
用户可以通过PCTFREE, PCTUSED来调整块中空间的使用,这种管理方式叫手动管理。相对于自动管理,手动管理方式比较麻烦,不容易掌握,容易造成块中空间的浪费。

PCTFREE参数用于指定块中必须保留的最小空闲空间百分例。之所以要预留这样的空间,是因为UPDATE时,需要这些空间。如果UPDATE时,没有空余空间,Oracle就会分配一个新的块,这会产生行迁移(Row Migrating)。

PCTUSED也是用于设置一个百分比,当块中已使用的空间的比例小于这个百分比的时候,这个块才被标识为有效状态。只有有效的块才被允许插入数据。


在向大家详细介绍Oracle空闲数据块之前,首先让大家了解下回滚段存储的数据,然后全面介绍Oracle空闲数据块,希望对大家有用。在这里我们要说一下回滚段存储的数据,假如是delete操作,则回滚段将会记录整个行的数据,假如是update,则回滚段只记录行被修改了的字段的变化前的数据(前映像),也就是没有被修改的字段是不会被记录的,假如是insert,则回滚段只记录插入记录的rowid。
 
这样假如事务提交,那回滚段中简单标记该事务已经提交;假如是回退,则如果操作是delete,回退的时候把回滚段中数据重新写回数据块,操作如果是update,则把变化前数据修改回去,操作如果是insert,则根据记录的rowid把该记录删除。注意,检查点除了触发LGWR和DBWN向数据块头部写SCN和COMMIT SCN,检查点还向控制文件和数据文件头部写SCN,而用户的DML和COMMIT仅是向数据块头部写SCN和COMMIT SCN而不更新控制文件和数据文件的SCN,SMON的前滚是以文件头部的SCN为起始点的也就是从前一个检查点开始,SMON的回滚是回滚所有回滚段中未标识为已提交的数据块,用户的回滚是回滚与此事务有关的回滚段中未标识为已提交的数据块。
 
下面我们要讲DBWN如何来写数据文件,在写数据文件前首先要找到可写的Oracle空闲数据块,Oracle空闲数据块可以通过Freelist或BITMAP来维护,它们位于一个段的头部用来标识当前段中哪些数据块可以进行INSERT。在本地管理表空间中Oracle自动管理分配给段的区的大小,只在本地管理的表空间中才能选用段自动管理,采用自动段空间管理的本地管理表空间中的段中的Oracle空闲数据块的信息就存放在段中某些区的头部,使用位图来管理(最普通的情况是一个段的第一个区的第一个块为FIRST LEVEL BITMAP BLOCK,第二个块为SECOND LEVEL BITMAP BLOCK,第三个块为PAGETABLE SEGMENT HEADER,再下面的块为记录数据的数据块,FIRST LEVEL BITMAP BLOCK的父数据块地址指向SECOND LEVEL BITMAP BLOCK,SECOND LEVEL BITMAP BLOCK的父数据块地址指向PAGETABLE SEGMENT HEADER,FIRST LEVEL BITMAP BLOCK记录了它所管理的所有块(包括头部三个块,不仅仅指数据块)的状态,标识的状态有Metadata、75-100% free、50-75% free、25-50% free、0-25% free、full、unformatted,在SECOND LEVEL BITMAP BLOCK中有一个列表,记录了它管理的FIRST LEVEL BITMAP BLOCK,PAGETABLE SEGMENT HEADER中记录的内容比较多,除了记录了它管理的SECOND LEVEL BITMAP BLOCK,还记录了各个区的首块地址以及各个区的DB BLOCK的个数,段的各个区所对应的FIRST LEVEL BITMAP BLOCK的块地址以及区里面记录数据的数据块的起始地址。
 
如果一个区拥有很多块,这时会在一个区里出现两个或多个FIRST LEVEL BITMAP BLOCK,这些FIRST LEVEL BITMAP BLOCK分别管理一个区中的一些块,当区的数据块比较少时,一个区的FIRST LEVEL BITMAP BLOCK可以跨区管理多个区的数据块,BITMAP BOLCK最多为三级)。采用手动管理的本地管理表空间中的段和数据字典管理的表空间中的段中的Oracle空闲数据块的管理都使用位于段头部的空闲列表来管理,例如SYSTEM表空间是本地管理表空间,但是它是采用了手动段空间管理,所以也是用Freelist来管理段中的Oracle空闲数据块的。空闲列表是一个逻辑上的链表,在段的HEADER BLOCK中记录了一个指向第一个空闲块的BLOCK ADDRESS,第一个DB BLOCK中同时也记录了指向下一个空闲块的BLOCK ADDRESS。
 
以此形成一个单向链表。如果段上有两个FREE LIST则会在段头部的HEADER BLOCK存有两个指针分别指向两个空闲块并建立独立的两个单向链表。空闲列表的工作方式:首先当建立一个段时,初始分配的第一个区的第一个块会成为段的头块,初始分配的第一个区的其它块将全部加入空闲列表,再次扩展一个区时,这个区中的块立即全部加入空闲列表,扩展一次加入一次。与位图管理不同的是用空闲列表时区的头部将不记录区里面空闲块的信息。当其中空闲空间小于PCTFREE设置的值之后,这个块从空闲列表删除,即上一个指向它的块中记录的下一个空闲块地址更改为其它空闲块的地址,使得这个块类似于被短路,当这个块中的内容降至PCTUSED设置的值之下后,这个数据块被再次加入空闲列表,而且是加入到空闲列表前端,即头块直接指向它,它再指向原头块指向的空闲块,位于空闲列表中的数据块都是可以向其中INSERT的块,但是INSERT都是从空闲列表指向的第一个块开始插入,当一个块移出了空闲列表,但只要其中还有保留空间就可以进行UPDATE,当对其中一行UPDATE一个大数据时,如果当前块不能完全放下整个行,只会把整个行迁移到一个新的数据块,并在原块位置留下一个指向新块的指针,这叫行迁移。如果一个数据块可以INSERT,当插入一个当前块装不下的行时,这个行会溢出到两个或两个几上的块中,这叫行链接。
 
如果用户的动作是INSERT则服务器进程会先锁定Freelist,然后找到第一个空闲块的地址,再释放Freelist,当多个服务器进程同时想要锁定Freelist时即发生Freelist的争用,也就是说多个进程只在同时INSERT时才会发生Freelist争用,可以在非采用自动段空间管理的表空间中创建表时指定Freelist的个数,默认为1,如果是在采用自动段空间管理的表空间中创建表,即使指定了Freelist也会被忽略,因为此时将使用BITMAP而不是Freelist来管理段中的空闲空间。采用自动段空间管理还会忽略的参数有PCTUSED和Freelist GROUPS。如果用户动作是UPDATE或DELETE等其它操作,服务器进程将不会使用到Freelist和BITMAP,因为不要去寻找一个空闲块,而使用锁的队列。对数据块中数据操作必须使用transaction entries,即事务入口。
 
在建立段时我们可以通过MINTRANS和MAXTRANS参数指定它的最大值和最小值,MAXTRANS规定了在段中每一个块上最大并发事务数量,可以输入1到255之间的值。我们可以把它比喻为是一些长在块头部的事务插座,每个插座后面是一个可以伸缩的操作手,当事务进程插到一个插座上时相当于找到一个可以操作数据块中数据行的操作手,通过这个操作手,事务进程可以对块中数据进行INSERT、UPDATE、DELETE等操作。在没有超过MAXTRANS设定的最大值时,如果transaction entries不够用,则会在块上自动分配一个,但不会影响其它块中的transaction entries数量。只不过INSERT操作必须要先找到空闲块然后才能INSERT。
 
那么DBWN是根据什么顺序来写DB BUFFER中的脏数据的呢?Oracle从8I开始加入新的数据结构--检查点队列(Buffer Checkpoint Queue)。检查点队列是一个链接队列。这个队列的按照Buffer块第一次被修改的顺序排列,分别指向被修改的Buffer块。在DB_Buffer中的数据被第一次被修改时,会记录所生成的REDO LOG条目的位置RBA作为该Buffer的Low RBA,记录在该Buffer的头部(Buffer Header),如果该数据继续被修改,则把该块修改的最新的REDO LOG的RBA作为High RBA记录在该Buffer的头部。如果DB_Buffer中的块没有被修改的数据,则该块的头部不会有Low RBA和High RBA的信息。检查点队列按照被修改块的Low RBA的递增值链接修改块,没有被修改的块因为没有Low RBA,而不会加入到检查点队列中。
在没有检查点发生时DBWR就按照检查点队列的Low RBA的升序,将被修改的块写入到数据文件中。当块被写入到数据文件后,该块会从检查点队列中断开。DBWR继续写下一个块。CKPT进程每三秒记录检查点队列中对应的最小Low RBA到控制文件中,也就是更新控制文件中的CheckPointRBA,当实例崩溃时,恢复将从CheckPointRBA所指向的日志位置开始。这就是"增量检查点"的行为和定义。CKPT进程也会记录检查点位置到数据文件的头部,但是只是日志切换时才写。而不是每三秒。当检查点发生时,DBWN不会一直不停的写DB BUFFER中脏数据,它将写到检查点队列的开始块的Low RBA的值大于该检查点的Checkpoint RBA的值时停止写入,然后完成这次检查点,CKPT进程将记录该检查点的有关信息到控制文件中去。以上介绍Oracle空闲数据块。