mysql hash分区创建分区索引和全局索引

转载

AIGC创想家 2024-10-28 07:08:24

文章标签 数据库性能优化表分区数据分区表 文章分类 MySQL 数据库

由于说的比较清楚所以复制过来。

此文从以下几个方面来整理关于分区表的概念及操作:

1.表空间及分区表的概念

2.表分区的具体作用

3.表分区的优缺点

4.表分区的几种类型及操作方法

5.对表分区的维护性操作.

(1.) 表空间及分区表的概念

表空间：

　　是一个或多个数据文件的集合，所有的数据对象都存放在指定的表空间中，但主要存放的是表，所以称作表空间。

分区表：

当表中的数据量不断增大，查询数据的速度就会变慢，应用程序的性能就会下降，这时就应该考虑对表进行分区。表进行分区后，逻辑上表仍然是一张完整的表，只是将表中的数据在物理上存放到多个表空间(物理文件上)，这样查询数据时，不至于每次都扫描整张表。

( 2).表分区的具体作用

Oracle的表分区功能通过改善可管理性、性能和可用性，从而为各式应用程序带来了极大的好处。通常，分区可以使某些查询以及维护操作的性能大大提高。此外,分区还可以极大简化常见的管理任务，分区是构建千兆字节数据系统或超高可用性系统的关键工具。

分区功能能够将表、索引或索引组织表进一步细分为段，这些数据库对象的段叫做分区。每个分区有自己的名称，还可以选择自己的存储特性。从数据库管理员的角度来看，一个分区后的对象具有多个段，这些段既可进行集体管理，也可单独管理，这就使数据库管理员在管理分区后的对象时有相当大的灵活性。但是，从应用程序的角度来看，分区后的表与非分区表完全相同，使用 SQL DML 命令访问分区后的表时，无需任何修改。

什么时候使用分区表：

1、表的大小超过2GB。

2、表中包含历史数据，新的数据被增加都新的分区中。

(3).表分区的优缺点

表分区有以下优点：

1、改善查询性能：对分区对象的查询可以仅搜索自己关心的分区，提高检索速度。

2、增强可用性：如果表的某个分区出现故障，表在其他分区的数据仍然可用；

3、维护方便：如果表的某个分区出现故障，需要修复数据，只修复该分区即可；

4、均衡I/O：可以把不同的分区映射到磁盘以平衡I/O，改善整个系统性能。

缺点：

分区表相关：已经存在的表没有方法可以直接转化为分区表。不过 Oracle 提供了在线重定义表的功能。

(4).表分区的几种类型及操作方法

一.范围分区：

范围分区将数据基于范围映射到每一个分区，这个范围是你在创建分区时指定的分区键决定的。这种分区方式是最为常用的，并且分区键经常采用日期。举个例子：你可能会将销售数据按照月份进行分区。

当使用范围分区时，请考虑以下几个规则：

1、每一个分区都必须有一个VALUES LESS THEN子句，它指定了一个不包括在该分区中的上限值。分区键的任何值等于或者大于这个上限值的记录都会被加入到下一个高一些的分区中。

2、所有分区，除了第一个，都会有一个隐式的下限值，这个值就是此分区的前一个分区的上限值。

3、在最高的分区中，MAXVALUE被定义。MAXVALUE代表了一个不确定的值。这个值高于其它分区中的任何分区键的值，也可以理解为高于任何分区中指定的VALUE LESS THEN的值，同时包括空值。

例一：

假设有一个CUSTOMER表，表中有数据200000行，我们将此表通过CUSTOMER_ID进行分区，每个分区存储100000行，我们将每个分区保存到单独的表空间中，这样数据文件就可以跨越多个物理磁盘。下面是创建表和分区的代码，如下：

CREATE TABLE CUSTOMER 

 ( 

     CUSTOMER_ID NUMBER NOT NULL PRIMARY KEY, 

     FIRST_NAME  VARCHAR2(30) NOT NULL, 

     LAST_NAME   VARCHAR2(30) NOT NULL, 

     PHONE        VARCHAR2(15) NOT NULL, 

     EMAIL        VARCHAR2(80), 

     STATUS       CHAR(1) 

 ) 

 PARTITION BY RANGE (CUSTOMER_ID) 

 ( 

     PARTITION CUS_PART1 VALUES LESS THAN (100000) TABLESPACE CUS_TS01, 

     PARTITION CUS_PART2 VALUES LESS THAN (200000) TABLESPACE CUS_TS02 

 )

例二：按时间划分

CREATE TABLE ORDER_ACTIVITIES 

 ( 

     ORDER_ID      NUMBER(7) NOT NULL, 

     ORDER_DATE    DATE, 

     TOTAL_AMOUNT NUMBER, 

     CUSTOTMER_ID NUMBER(7), 

     PAID           CHAR(1) 

 ) 

 PARTITION BY RANGE (ORDER_DATE) 

 ( 

   PARTITION ORD_ACT_PART01 VALUES LESS THAN (TO_DATE('01- MAY -2003','DD-MON-YYYY')) TABLESPACEORD_TS01, 

   PARTITION ORD_ACT_PART02 VALUES LESS THAN (TO_DATE('01-JUN-2003','DD-MON-YYYY')) TABLESPACE ORD_TS02, 

   PARTITION ORD_ACT_PART02 VALUES LESS THAN (TO_DATE('01-JUL-2003','DD-MON-YYYY')) TABLESPACE ORD_TS03 

 )

例三：MAXVALUE

CREATE TABLE RangeTable 

 ( 

   idd   INT PRIMARY KEY , 

   iNAME VARCHAR(10), 

   grade INT  

 ) 

 PARTITION  BY  RANGE (grade) 

 ( 

       PARTITION  part1 VALUES  LESS  THEN (1000) TABLESPACE  Part1_tb, 

       PARTITION  part2 VALUES  LESS  THEN (MAXVALUE) TABLESPACE  Part2_tb 

 );

二.列表分区：

该分区的特点是某列的值只有几个，基于这样的特点我们可以采用列表分区。

例一

CREATE TABLE PROBLEM_TICKETS 

 ( 

     PROBLEM_ID   NUMBER(7) NOT NULL PRIMARY KEY, 

     DESCRIPTION  VARCHAR2(2000), 

     CUSTOMER_ID  NUMBER(7) NOT NULL, 

     DATE_ENTERED DATE NOT NULL, 

     STATUS       VARCHAR2(20) 

 ) 

 PARTITION BY LIST (STATUS) 

 ( 

       PARTITION PROB_ACTIVE   VALUES ('ACTIVE') TABLESPACE PROB_TS01, 

       PARTITION PROB_INACTIVE VALUES ('INACTIVE') TABLESPACE PROB_TS02

例二

CREATE  TABLE  ListTable 

 ( 

     id    INT  PRIMARY  KEY , 

     name  VARCHAR (20), 

     area  VARCHAR (10) 

 ) 

 PARTITION  BY  LIST (area) 

 ( 

     PARTITION  part1 VALUES ('guangdong','beijing') TABLESPACE  Part1_tb, 

     PARTITION  part2 VALUES ('shanghai','nanjing')  TABLESPACE  Part2_tb 

 ); 

 )

三.散列分区：

这类分区是在列值上使用散列算法，以确定将行放入哪个分区中。当列的值没有合适的条件时，建议使用散列分区。

散列分区为通过指定分区编号来均匀分布数据的一种分区类型，因为通过在I/O设备上进行散列分区，使得这些分区大小一致。

例一：

简写：

CREATE TABLE HASH_TABLE 

 ( 

   COL NUMBER(8), 

   INF VARCHAR2(100) 

 ) 

 PARTITION BY HASH (COL) 

 ( 

   PARTITION PART01 TABLESPACE HASH_TS01, 

   PARTITION PART02 TABLESPACE HASH_TS02, 

   PARTITION PART03 TABLESPACE HASH_TS03 

 )

CREATE TABLE emp 

 ( 

     empno NUMBER (4), 

     ename VARCHAR2 (30), 

     sal   NUMBER 

 ) 

 PARTITION BY  HASH (empno) PARTITIONS 8 

 STORE IN (emp1,emp2,emp3,emp4,emp5,emp6,emp7,emp8);

hash分区最主要的机制是根据hash算法来计算具体某条纪录应该插入到哪个分区中,hash算法中最重要的是hash函数，Oracle中如果你要使用hash分区，只需指定分区的数量即可。建议分区的数量采用2的n次方，这样可以使得各个分区间数据分布更加均匀。

四.组合分区

这种分区是基于范围分区和列表分区，表首先按某列进行范围分区，然后再按某列进行列表分区，分区之中的分区被称为子分区。

CREATE TABLE SALES 

 ( 

 PRODUCT_ID VARCHAR2(5), 

 SALES_DATE DATE, 

 SALES_COST NUMBER(10), 

 STATUS VARCHAR2(20) 

 ) 

 PARTITION BY RANGE(SALES_DATE) SUBPARTITION BY LIST (STATUS) 

 ( 

    PARTITION P1 VALUES LESS THAN(TO_DATE('2003-01-01','YYYY-MM-DD'))TABLESPACE rptfact2009 

           ( 

               SUBPARTITION P1SUB1 VALUES ('ACTIVE') TABLESPACE rptfact2009, 

               SUBPARTITION P1SUB2 VALUES ('INACTIVE') TABLESPACE rptfact2009 

           ), 

    PARTITION P2 VALUES LESS THAN (TO_DATE('2003-03-01','YYYY-MM-DD')) TABLESPACE rptfact2009 

           ( 

               SUBPARTITION P2SUB1 VALUES ('ACTIVE') TABLESPACE rptfact2009, 

               SUBPARTITION P2SUB2 VALUES ('INACTIVE') TABLESPACE rptfact2009 

           ) 

 )

2) 这种分区是基于范围分区和散列分区，表首先按某列进行范围分区，然后再按某列进行散列分区。

create table dinya_test 

 ( 

 transaction_id number primary key, 

 item_id number(8) not null, 

 item_description varchar2(300), 

 transaction_date date 

 ) 

 partition by range(transaction_date)subpartition by hash(transaction_id)  subpartitions 3 store in (dinya_space01,dinya_space02,dinya_space03) 

 ( 

      partition part_01 values less than(to_date(‘2006-01-01’,’yyyy-mm-dd’)), 

      partition part_02 values less than(to_date(‘2010-01-01’,’yyyy-mm-dd’)), 

      partition part_03 values less than(maxvalue) 

);

建立表分区步骤：
1、建文件组并给每个文件组下最少建一个次要文件。
2、建立分区函数，指定按哪种数据类型去分区，一般用到的类型为，数值类型和时间类型。同时，为分区函数指定分区边界值，谓词有LEFT和RIGHT，left指包括边界值，Right指不包括边界值。
3、建立分区方案，指定分区方案属于哪一个分区函数，并为分区方案指定数据存储的文件组。如果分区函数有4个边界值，那么分区方案指定的文件组必须是5个，分区方案指定文件组个数必须比分区函数的边界值个数多一个。
4、建立分区表，就是建表的时候，需要指定表建在哪一个分区方案上面，即在create table tablename() 后面加上 on 分区方案(分区字段)，这个字段的数据类型必须与分区函数中指定的数据类型一致。

在先建表的情况下再分区：
前面3步跟都相同，
4、先删除表中的聚集索引，然后在重建聚集索引的语句后面+on 分区方案（分区字段），这样表分区就做好了。
这个原理是，聚集索引是包含列，而且聚集索引和数据存放的位置必须在同一个文件，重建聚集索引并指定存放位置，会使数据跟聚集索引一起存放到一个文件，表中的数据也会自动移动到聚集索引所在的文件。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。