pg分区表索引原理分区表和索引的优缺点

转载

mob6454cc72f29c 2024-03-10 19:28:19

文章标签 pg分区表索引原理 Oracle 算法项目管理表分区 文章分类 数据仓库大数据

因项目需要对表进行分区，今天对Oracle的表分区和索引分区学习了一下，总结如下：

[b]一、分区的目的[/b]
为了简化数据库大表的管理，ORACLE8以后推出了分区选项。分区就是将表分离在若于不同的表空间上，用分而治之的方法来支撑无限膨胀的大表，将大表分割成较小的分区可以改善表的维护、备份、恢复、事务及查询性能。
分区的优点：
1、增强可用性：如果表的一个分区由于系统故障而不能使用，表的其余好的分区仍可以使用。
2、减少关闭时间：如果系统故障只影响表的一部份分区，那么只有这部份分区需要修复，矿能比整个大表修复花的时间更少。
3、维护轻松：如果需要得建表，独产管理每个公区比管理单个大表要轻松得多。
4、均衡I/O：可以把表的不同分区分配到不同的磁盘来平衡I/O改善性能。
5、改善性能：对大表的查询、增加、修改等操作可以分解到表的不同分区来并行执行，可使运行速度更快，在数据仓库的TP查询特别有用。
6、分区对用户透明，最终用户感觉不到分区的存在。

[b]二、表分区[/b]
当表中的数据量不断增大，查询数据的速度就会变慢，应用程序的性能就会下降，这时就应该考虑对表进行分区。表进行分区后，逻辑上表仍然是一张完整的表，只是将表中的数据在物理上存放到多个表空间(物理文件上)，这样查询数据时，不至于每次都扫描整张表。

[b]2.1 表分区的几种类型[/b]
[b]2.1.1 RANGE范围分区：[/b]
范围分区将数据基于范围映射到每一个分区，这个范围是你在创建分区时指定的分区键决定的。这种分区方式是最为常用的。

当使用范围分区时，请考虑以下几个规则：
1、每一个分区都必须有一个VALUES LESS THEN子句，它指定了一个不包括在该分区中的上限值。分区键的任何值等于或者大于这个上限值的记录都会被加入到下一个高一些的分区中。
2、所有分区，除了第一个，都会有一个隐式的下限值，这个值就是此分区的前一个分区的上限值。
3、在最高的分区中，MAXVALUE被定义。MAXVALUE代表了一个不确定的值。这个值高于其它分区中的任何分区键的值，也可以理解为高于任何分区中指定的VALUE LESS THEN的值，同时包括空值。
例一：
假设有一个CUSTOMER表，表中有数据200000行，我们将此表通过CUSTOMER_ID进行分区，每个分区存储100000行，我们将每个分区保存到单独的表空间中，这样数据文件就可以跨越多个物理磁盘。下面是创建表和分区的代码，如下：

CREATE TABLE CUSTOMER 

( 

 CUSTOMER_ID NUMBER NOT NULL PRIMARY KEY, 

 FIRST_NAME VARCHAR2(30) NOT NULL, 

 LAST_NAME VARCHAR2(30) NOT NULL, 

 PHONE VARCHAR2(15) NOT NULL, 

 EMAIL VARCHAR2(80), 

 STATUS CHAR(1) 

) 

PARTITION BY RANGE (CUSTOMER_ID) 

( 

 PARTITION CUS_PART1 VALUES LESS THAN (100000) TABLESPACE CUS_TS01, 

 PARTITION CUS_PART2 VALUES LESS THAN (200000) TABLESPACE CUS_TS02 

) 

例二：按时间划分 

CREATE TABLE ORDER_ACTIVITIES 

( 

 ORDER_ID NUMBER(7) NOT NULL, 

 ORDER_DATE DATE, 

 TOTAL_AMOUNT NUMBER, 

 CUSTOTMER_ID NUMBER(7), 

 PAID CHAR(1) 

) 

PARTITION BY RANGE (ORDER_DATE) 

( 

 PARTITION ORD_ACT_PART01 VALUES LESS THAN (TO_DATE('01- MAY -2003','DD-MON-YYYY')) TABLESPACEORD_TS01, 

 PARTITION ORD_ACT_PART02 VALUES LESS THAN (TO_DATE('01-JUN-2003','DD-MON-YYYY')) TABLESPACE ORD_TS02, 

 PARTITION ORD_ACT_PART02 VALUES LESS THAN (TO_DATE('01-JUL-2003','DD-MON-YYYY')) TABLESPACE ORD_TS03 

) 

例三：MAXVALUE 

CREATE TABLE RangeTable 

( 

 idd INT PRIMARY KEY , 

 iNAME VARCHAR(10), 

 grade INT 

) 

PARTITION BY RANGE (grade) 

( 

 PARTITION part1 VALUES LESS THEN (1000) TABLESPACE Part1_tb, 

 PARTITION part2 VALUES LESS THEN (MAXVALUE) TABLESPACE Part2_tb 

); 


[b]2.1.2 LIST列表分区：[/b] 

该分区的特点是某列的值只有几个，基于这样的特点我们可以采用列表分区。 

例一 

CREATE TABLE PROBLEM_TICKETS 

( 

 PROBLEM_ID NUMBER(7) NOT NULL PRIMARY KEY, 

 DESCRIPTION VARCHAR2(2000), 

 CUSTOMER_ID NUMBER(7) NOT NULL, 

 DATE_ENTERED DATE NOT NULL, 

 STATUS VARCHAR2(20) 

) 

PARTITION BY LIST (STATUS) 

( 

 PARTITION PROB_ACTIVE VALUES ('ACTIVE') TABLESPACE PROB_TS01, 

 PARTITION PROB_INACTIVE VALUES ('INACTIVE') TABLESPACE PROB_TS02 

例二 

CREATE TABLE ListTable 

( 

 id INT PRIMARY KEY , 

 name VARCHAR (20), 

 area VARCHAR (10) 

) 

PARTITION BY LIST (area) 

( 

 PARTITION part1 VALUES ('guangdong','beijing') TABLESPACE Part1_tb, 

 PARTITION part2 VALUES ('shanghai','nanjing') TABLESPACE Part2_tb 

); 

) 


[b]2.1.3 HASH散列分区：[/b] 

这类分区是在列值上使用散列算法，以确定将行放入哪个分区中。当列的值没有合适的条件时，建议使用散列分区。 

散列分区为通过指定分区编号来均匀分布数据的一种分区类型，因为通过在I/O设备上进行散列分区，使得这些分区大小一致。 

例一： 

CREATE TABLE HASH_TABLE 

( 

 COL NUMBER(8), 

 INF VARCHAR2(100) 

) 

PARTITION BY HASH (COL) 

( 

 PARTITION PART01 TABLESPACE HASH_TS01, 

 PARTITION PART02 TABLESPACE HASH_TS02, 

 PARTITION PART03 TABLESPACE HASH_TS03 

) 

简写： 

CREATE TABLE emp 

( 

 empno NUMBER (4), 

 ename VARCHAR2 (30), 

 sal NUMBER 

) 

PARTITION BY HASH (empno) PARTITIONS 8 

STORE IN (emp1,emp2,emp3,emp4,emp5,emp6,emp7,emp8); 


hash分区最主要的机制是根据hash算法来计算具体某条纪录应该插入到哪个分区中,hash算法中最重要的是hash函数，Oracle中如果你要使用hash分区，只需指定分区的数量即可。建议分区的数量采用2的n次方，这样可以使得各个分区间数据分布更加均匀。 


[b]2.1.4 组合范围散列分区[/b] 

这种分区是基于范围分区和列表分区，表首先按某列进行范围分区，然后再按某列进行列表分区，分区之中的分区被称为子分区。 

CREATE TABLE SALES 

( 

PRODUCT_ID VARCHAR2(5), 

SALES_DATE DATE, 

SALES_COST NUMBER(10), 

STATUS VARCHAR2(20) 

) 

PARTITION BY RANGE(SALES_DATE) SUBPARTITION BY LIST (STATUS) 

( 

 PARTITION P1 VALUES LESS THAN(TO_DATE('2003-01-01','YYYY-MM-DD'))TABLESPACE rptfact2009 

 ( 

 SUBPARTITION P1SUB1 VALUES ('ACTIVE') TABLESPACE rptfact2009, 

 SUBPARTITION P1SUB2 VALUES ('INACTIVE') TABLESPACE rptfact2009 

 ), 

 PARTITION P2 VALUES LESS THAN (TO_DATE('2003-03-01','YYYY-MM-DD')) TABLESPACE rptfact2009 

 ( 

 SUBPARTITION P2SUB1 VALUES ('ACTIVE') TABLESPACE rptfact2009, 

 SUBPARTITION P2SUB2 VALUES ('INACTIVE') TABLESPACE rptfact2009 

 ) 

) 


[b]2.1.5 复合范围散列分区：[/b] 

这种分区是基于范围分区和散列分区，表首先按某列进行范围分区，然后再按某列进行散列分区。 

create table dinya_test 

 ( 

 transaction_id number primary key, 

 item_id number(8) not null, 

 item_description varchar2(300), 

 transaction_date date 

 ) 

 partition by range(transaction_date) subpartition by hash(transaction_id) subpartitions 3 store in (dinya_space01,dinya_space02,dinya_space03) 

 ( 

 partition part_01 values less than(to_date(‘2006-01-01’,’yyyy-mm-dd’)), 

 partition part_02 values less than(to_date(‘2010-01-01’,’yyyy-mm-dd’)), 

 partition part_03 values less than(maxvalue) 

 ); 


[b]三、索引的分区[/b] 

Oracle数据库中，有两种类型的分区索引：全局索引和本地索引。其中本地索引又可以分为本地前缀索引和本地非前缀索引。 


3.1 全局索引特点 

3.1.1 以整个表的数据为对象建立索引，它和和表之间没有直接的联系。 

3.1.2 索引条目既可能是单键，也可能是多个不同键值的组合。 

3.1.3 索引分区的键值和表分区键值可以相同，也可以不相同。 


例一：全局索引和表没有直接的关联，必须显式的指定maxvalue值。 


 create table orders ( 

 order_no number, 

 part_no varchar2(40), 

 ord_date date 

 ) 

 partition by range (ord_date) 

 (partition Q1 values less than (TO_DATE('01-APR-1999','DD-MON-YYYY')), 

 partition Q2 values less than (TO_DATE('01-JUL-1999','DD-MON-YYYY')), 

 partition Q3 values less than (TO_DATE('01-OCT-1999','DD-MON-YYYY')), 

 partition Q4 values less than (TO_DATE('01-JAN-2000','DD-MON-YYYY')) 

 ) 

 ; 


 create index orders_global_1_idx 

 on orders(ord_date) 

 global partition by range (ord_date) 

 (partition GLOBAL1 values less than (TO_DATE('01-APR-1999','DD-MON-YYYY')), 

 partition GLOBAL2 values less than (TO_DATE('01-JUL-1999','DD-MON-YYYY')), 

 partition GLOBAL3 values less than (TO_DATE('01-OCT-1999','DD-MON-YYYY')), 

 partition GLOBAL4 values less than (MAXVALUE) 

 ) 

 ; 


 create index orders_global_2_idx 

 on orders(part_no) 

 global partition by range (part_no) 

 (partition IND1 values less than (555555), 

 partition IND2 values less than (MAXVALUE) 

 ) 

 ; 


例二：假如表中新加了分区，不会在全局索引中自动增加新的分区，必须手工添加相应的分区。 

alter table orders add partition Q5 values less than (TO_DATE('01-APR-2000','DD-MON-YYYY')); 


select TABLE_NAME, PARTITION_NAME from dba_tab_partitions where table_name='ORDERS'; 

TABLE_NAME PARTITION_NAME 

------------------------------ ------------------------------ 

ORDERS Q1 

ORDERS Q2 

ORDERS Q3 

ORDERS Q4 

ORDERS Q5 


select INDEX_NAME, PARTITION_NAME from dba_ind_partitions where index_name=upper('orders_global_1_idx'); 

INDEX_NAME PARTITION_NAME 

------------------------------ ------------------------------ 

ORDERS_GLOBAL_1_IDX GLOBAL1 

ORDERS_GLOBAL_1_IDX GLOBAL2 

ORDERS_GLOBAL_1_IDX GLOBAL3 

ORDERS_GLOBAL_1_IDX GLOBAL4 


例三：使用全局索引，索引键值必须和索引分区键值相同，这就是所谓的前缀索引。Oracle不支持非前缀的全局分区索引。 

create index orders_global_2_idx 

 on orders(part_no) 

 global partition by range (order_no) 

 (partition IND1 values less than (555555), 

 partition IND2 values less than (MAXVALUE) 

 ); 

 global partition by range (order_no) 


ERROR at line 3: 

ORA-14038: GLOBAL partitioned index must be prefixed 


[b]3.2 本地索引特点[/b] 

3.2.1 本地索引的分区和其对应的表分区数量相等 

3.2.2 每个表分区对应相应的索引分区。使用本地索引，不需要指定分区范围因为索引对于表而言是本地的。 

3.1.3 索引分区的键值和表分区键值可以相同，也可以不相同。 

3.1.4 为表新添加表分区时，会自动添加相应的索引分区。 


例一：创建本地索引不必显式的指定maxvalue值，因为为表新添加表分区时，会自动添加相应的索引分区。 

create index orders_local_1_idx 

on orders(ord_date) 

 local 

 (partition LOCAL1, 

 partition LOCAL2, 

 partition LOCAL3, 

 partition LOCAL4 

 ) 

; 


select INDEX_NAME, PARTITION_NAME from dba_ind_partitions where index_name=upper('orders_local_1_idx'); 

INDEX_NAME PARTITION_NAME 

------------------------------ ------------------------------ 

ORDERS_LOCAL_1_IDX LOCAL1 

ORDERS_LOCAL_1_IDX LOCAL2 

ORDERS_LOCAL_1_IDX LOCAL3 

ORDERS_LOCAL_1_IDX LOCAL4 


alter table orders add partition Q5 values less than (TO_DATE('01-APR-2000','DD-MON-YYYY')); 

select INDEX_NAME, PARTITION_NAME from dba_ind_partitions where index_name=upper('orders_local_1_idx'); 

INDEX_NAME PARTITION_NAME 

------------------------------ ------------------------------ 

ORDERS_LOCAL_1_IDX LOCAL1 

ORDERS_LOCAL_1_IDX LOCAL2 

ORDERS_LOCAL_1_IDX LOCAL3 

ORDERS_LOCAL_1_IDX LOCAL4 

ORDERS_LOCAL_1_IDX Q5 


例二：本地索引可以创建成本地非前缀型，而全局索引只能是前缀型。 

本例中虽然索引的键值是part_no，但索引分区的键值仍然和表的分区键值相同，即ord_date，也即是所谓的非前缀型索引。 

create index orders_local_2_idx 

 on orders(part_no) 

 local 

 (partition LOCAL1, 

 partition LOCAL2, 

 partition LOCAL3, 

 partition LOCAL4) 

; 


select INDEX_NAME, PARTITION_NAME, HIGH_VALUE from dba_ind_partitions 

 where index_name=upper('orders_local_2_idx'); 


INDEX_NAME PARTITION_NAME HIGH_VALUE 

------------------------------ ------------------------------ --------------------------------------------------------- 

ORDERS_LOCAL_2_IDX LOCAL1 TO_DATE(' 1999-04-01 00:00:00', 'SYYYY-MM-DD HH24:MI:SS', 

 'NLS_CALENDAR=GREGORIA' 

ORDERS_LOCAL_2_IDX LOCAL2 TO_DATE(' 1999-07-01 00:00:00', 'SYYYY-MM-DD HH24:MI:SS', 

 'NLS_CALENDAR=GREGORIA' 

ORDERS_LOCAL_2_IDX LOCAL3 TO_DATE(' 1999-10-01 00:00:00', 'SYYYY-MM-DD HH24:MI:SS', 

 'NLS_CALENDAR=GREGORIA' 

ORDERS_LOCAL_2_IDX LOCAL4 TO_DATE(' 2000-01-01 00:00:00', 'SYYYY-MM-DD HH24:MI:SS', 

 'NLS_CALENDAR=GREGORIA' 


备注：假设有一个使用DATE列分区的大表。我们经常使用一个VARCHAR2列(VCOL)进行查询，但这个列并不是表的分区键值。有两种可能的方法来访问VCOL列的数据，一是建立基于VCOL列的本地非前缀索引，另一种是建立基于VCOL列的全局索引，可以看出，如果能够保证VCOL列值的唯一性，全局索引将会是最好的选择。如果VCOL列值不唯一，就需要在本地非前缀索引的并行查询和全局索引顺序查询以及高昂的维护代价之间做出选择。 


[b]四、有关表分区的一些维护性操作：[/b] 

4.1 添加分区 

以下代码给SALES表添加了一个P3分区 

ALTER TABLE SALES ADD PARTITION P3 VALUES LESS THAN(TO_DATE('2003-06-01','YYYY-MM-DD')); 

注意：以上添加的分区界限应该高于最后一个分区界限。 

以下代码给SALES表的P3分区添加了一个P3SUB1子分区 

ALTER TABLE SALES MODIFY PARTITION P3 ADD SUBPARTITION P3SUB1 VALUES('COMPLETE'); 

4.2 删除分区 

以下代码删除了P3表分区： 

ALTER TABLE SALES DROP PARTITION P3; 

在以下代码删除了P4SUB1子分区： 

ALTER TABLE SALES DROP SUBPARTITION P4SUB1; 

注意：如果删除的分区是表中唯一的分区，那么此分区将不能被删除，要想删除此分区，必须删除表。 

4.3 截断分区 

截断某个分区是指删除某个分区中的数据，并不会删除分区，也不会删除其它分区中的数据。当表中即使只有一个分区时，也可以截断该分区。通过以下代码截断分区： 

ALTER TABLE SALES TRUNCATE PARTITION P2; 

通过以下代码截断子分区： 

ALTER TABLE SALES TRUNCATE SUBPARTITION P2SUB2; 

4.4 合并分区 

合并分区是将相邻的分区合并成一个分区，结果分区将采用较高分区的界限，值得注意的是，不能将分区合并到界限较低的分区。以下代码实现了P1 P2分区的合并： 

ALTER TABLE SALES MERGE PARTITIONS P1,P2 INTO PARTITION P2; 

4.5 拆分分区 

拆分分区将一个分区拆分两个新分区，拆分后原来分区不再存在。注意不能对HASH类型的分区进行拆分。 

ALTER TABLE SALES SBLIT PARTITION P2 AT(TO_DATE('2003-02-01','YYYY-MM-DD')) INTO (PARTITION P21,PARTITION P22); 

4.6 接合分区(coalesca) 

结合分区是将散列分区中的数据接合到其它分区中，当散列分区中的数据比较大时，可以增加散列分区，然后进行接合，值得注意的是，接合分区只能用于散列分区中。通过以下代码进行接合分区： 

ALTER TABLE SALES COALESCA PARTITION; 

4.7 重命名表分区 

以下代码将P21更改为P2 

ALTER TABLE SALES RENAME PARTITION P21 TO P2; 

4.8 相关查询 

跨分区查询 

select sum( *) from 

(select count(*) cn from t_table_SS PARTITION (P200709_1) 

union all 

select count(*) cn from t_table_SS PARTITION (P200709_2) 

); 

4.9 查询表上有多少分区 

SELECT * FROM useR_TAB_PARTITIONS WHERE TABLE_NAME='tableName' 

4.10 查询索引信息 

select object_name,object_type,tablespace_name,sum(value) 

from v$segment_statistics 

where statistic_name IN ('physical reads','physical write','logical reads')and object_type='INDEX' 

group by object_name,object_type,tablespace_name 

order by 4 desc 


--显示数据库所有分区表的信息： 

select * from DBA_PART_TABLES 


--显示当前用户可访问的所有分区表信息: 

select * from ALL_PART_TABLES 


--显示当前用户所有分区表的信息： 

select * from USER_PART_TABLES 


--显示表分区信息 显示数据库所有分区表的详细分区信息： 

select * from DBA_TAB_PARTITIONS 


--显示当前用户可访问的所有分区表的详细分区信息： 

select * from ALL_TAB_PARTITIONS 


--显示当前用户所有分区表的详细分区信息： 

select * from USER_TAB_PARTITIONS 


--显示子分区信息 显示数据库所有组合分区表的子分区信息： 

select * from DBA_TAB_SUBPARTITIONS 


--显示当前用户可访问的所有组合分区表的子分区信息： 

select * from ALL_TAB_SUBPARTITIONS 


--显示当前用户所有组合分区表的子分区信息： 

select * from USER_TAB_SUBPARTITIONS 


--显示分区列 显示数据库所有分区表的分区列信息： 

select * from DBA_PART_KEY_COLUMNS 


--显示当前用户可访问的所有分区表的分区列信息： 

select * from ALL_PART_KEY_COLUMNS 


--显示当前用户所有分区表的分区列信息： 

select * from USER_PART_KEY_COLUMNS 


--显示子分区列 显示数据库所有分区表的子分区列信息： 

select * from DBA_SUBPART_KEY_COLUMNS 


--显示当前用户可访问的所有分区表的子分区列信息： 

select * from ALL_SUBPART_KEY_COLUMNS 


--显示当前用户所有分区表的子分区列信息： 

select * from USER_SUBPART_KEY_COLUMNS 


--怎样查询出oracle数据库中所有的的分区表 

select * from user_tables a where a.partitioned='YES' 


--删除一个表的数据是 

truncate table table_name; 


--删除分区表一个分区的数据是 

alter table table_name truncate partition p5;

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。