gp数据仓库数据备份 gp数据库vacuum

转载

mob64ca14061c9e 2023-11-29 17:53:02

文章标签 gp数据仓库数据备份 postgresql vacuum autovacuum 数据库 文章分类 数据仓库大数据

文章目录

一、vacuum的背景

1.1 常见数据库MVCC实现对比

二、vacuum工作机制

2.1 vacuum
2.2 autovacuum

我们常用的关系型数据库有MySQL、Oracle、SQL Server、PostgreSQL等…但是vacuum的概念只有PG数据库有，而且运维过PG数据库的工程师都应该对它很熟悉，vacuum是PG数据库非常关键的一个操作。那么PG数据库的vacuum是用来干什么的？为什么会有vacuum？

一、vacuum的背景

1.1 常见数据库MVCC实现对比

在了解vacuum之前，我们首先要了解数据库很关键的一个特性：多版本并发控制（MVCC），显而易见这个特性就是为了提高数据库并发而设计的，但是不同的数据库实现MVCC的使用了不同的方法：

以Oracle、MySQL为例

这两种数据库是通过undo日志来实现MVCC。
当数据记录被DML修改，将修改前的数据记录在undo log中，客户端可以读取数据时，通过undo log指针进行回滚找到对应可见的版本。
长事物、大事物会导致undo log暴涨，一定程度上会导致系统日志文件磁盘空间占用的暴涨。只有将事物提交/回滚，相关版本记录不再需要时，对应的版本数据才会被清理，undo系统文件空间才会把无效的版本空间进行释放，具体空间释放操作需要看数据库版本以及参数设置。

以SQL Server为例

它是通过tempdb数据库来实现的。
当数据记录被DML修改，将旧版本数据写入tempdb进行存储，客户端读取数据时，可从通过指针找到tempdb数据库中对应可见的版本。
长事物、大事物会导致tempdb空间暴涨，只有事物提交，相关版本记录不再需要时，才会将相关的版本记录进行释放，需要注意的是这部分磁盘空间消耗是没有释放给操作系统的，需要手动进行磁盘空间收缩。

以PostgreSQL为例

它是通过保留变更前的记录来实现MVCC的。
当数据记录被DML修改，旧版本记录仍保留不变，仅仅需要修改相关记录的xmin、xmax属性，并新增写入变更后的版本记录数据。
由于历史版本数据仍然保留在原表空间中，默认情况下autovacuum会按照一定的参数设置策略检测并进行一定的清理，但频繁的数据变极大可能导致旧版本数据空间来不及进行空间回收，从而导致表空间膨胀。

各MVCC实现方法的优缺点对比：

通过undo log或者tempdb来进行旧版本存储的方式，有效的避免了表空间膨胀，相对于PG直接保留旧版本数据的方式，每次DML操作都需要额外的日志写入，存在一定的IO消耗（目前SSD盘存储下，感觉影响不会很大）；
PG这种直接保留旧版本数据的方式，无需额外的日志写入的消耗，但是一定程度上会导致旧版本数据没有及时清理，导致表空间膨胀，影响该表数据的查询效率（扫描了不必要的数据页）

二、vacuum工作机制

2.1 vacuum

由于对表记录进行DML后，旧版本数据其实并没有真正的进行物理删除，而是继续保留且进行相应的记录打标，这些不在需要的旧版本记录称为dead tuple。
vacuum的作用就是回收表膨胀出现的dead tuple，将对应的表空间释放给数据库or操作系统。

1、命令格式

VACUUM [ ( option [, ...] ) ] [ table_and_columns [, ...] ]
VACUUM [ FULL ] [ FREEZE ] [ VERBOSE ] [ ANALYZE ] [ table_and_columns [, ...] ]

where option can be one of:

    FULL [ boolean ]
    FREEZE [ boolean ]
    VERBOSE [ boolean ]
    ANALYZE [ boolean ]
    DISABLE_PAGE_SKIPPING [ boolean ]
    SKIP_LOCKED [ boolean ]
    INDEX_CLEANUP [ boolean ]
    TRUNCATE [ boolean ]
    PARALLEL integer

and table_and_columns is:

    table_name [ ( column_name [, ...] ) ]

2、vacuum的几种关键变体

vacuum full : 执行期间需要获取对应表的独占锁，阻塞其他客户端的读写操作。该模式下会将对应表数据重新写入一个新的表空间文件，最后替换为新的表文件，这种方式下可以回收dead tuple空间并释放给操作系统。该操作执行消耗是比较大的，且耗时的。
vacuum freeze : 使用一种激进的方式冻结元祖，相当于把参数 vacuum_freeze_min_age 、 vacuum_freeze_table_age 设置为0。该模式下Full参数指定是多余的，该操作执行消耗同样是比较大的，且耗时的。
vacuum verbose : 执行期间不需要获取对应表的独占锁，允许其他客户端的并发读写操作。该模式下仅仅会将dead tuple空间进行回收并释放给数据库，并不会释放给操作系统，vacuum期间打印每张表详细的垃圾回收记录。
vacuum analyze : 执行期间不需要获取对应表的独占锁，允许其他客户端的并发读写操作，执行完毕vacuum后会再次执行analyza重新采集相关表的统计信息。该模式下仅仅会将dead tuple空间进行回收并释放给数据库，并不会释放给操作系统。

3、运维建议

vacuum_cost_delay ：计算每个毫秒级别所允许消耗的最大IO，vacuum_cost_limit/vacuum_cost_dely。默认vacuum_cost_delay为20毫秒。
vacuum_cost_page_hit ：vacuum时，page在buffer中命中时，所花的代价。默认值为1。
vacuum_cost_page_miss：vacuum时，page不在buffer中，需要从磁盘中读入时的代价默认为10。
vacuum_cost_page_dirty：当vacuum时，修改了clean的page。这说明需要额外的IO去刷脏块到磁盘。默认值为20。
vacuum_cost_limit：当超过此值时，vacuum会sleep。默认值为200。

2.2 autovacuum

autovacuum为PG数据库中可以实现自动vacuum的一个守护进程，需要数据库将参数autovacuum参数打开。autovacuum会自动检测发生了大量DML操作的表对象，并对其进行垃圾回收和统计信息的重新采集，相当于手动执行 vacuum analyze 。

1、重点参数

autovacuum : 是否开启autovacuum守护进程，默认开启
log_autovacuum_min_duration : 指定autovacuum执行耗时超过该参数时，将对应操作记录到日志，-1表示禁用autovacuum的日志记录
autovacuum_max_workers : autovacuum可启动的最大worker数，默认为3
autovacuum_naptime : 指定两次autovacuum之间的时间延迟，默认为1min
autovacuum_vacuum_threshold 、autovacuum_vacuum_scale_factor : 指定一张表Delete、Update的tuple数超过 autovacuum_vacuum_scale_factor * table_size + autovacuum_vacuum_threshold 时，自动触发autovacuum。默认autovacuum_vacuum_threshold为50，autovacuum_vacuum_scale_factor为20
autovacuum_vacuum_insert_threshold 、 autovacuum_vacuum_insert_scale_factor : 指定一张表Insert的tuple数超过 autovacuum_vacuum_insert_scale_factor * table_size + autovacuum_vacuum_insert_threshold 时，自动触发autovacuum。默认autovacuum_vacuum_insert_threshold为50，autovacuum_vacuum_insert_scale_factor为20
autovacuum_analyze_threshold 、autovacuum_analyze_scale_factor : 指定一张表Insert、Delete、Update的tuple数超过 autovacuum_analyze_scale_factor * table_size + autovacuum_analyze_threshold 时，自动触发analyza操作。默认autovacuum_analyze_threshold为50，autovacuum_analyze_scale_factor为20
autovacuum_freeze_max_age : 为防止表中事物ID回卷，指定表的最大事物ID（pg_class.relfrozenxid），超过该参数值自动触发autovacuum，即使autovacuum参数设置为off
autovacuum_multixact_freeze_max_age : 为防止表中多个事物ID回卷，指定表的最大事物ID（pg_class.relminmxid），超过该参数值自动触发autovacuum，即使autovacuum参数设置为off
autovacuum_vacuum_cost_delay : 指定计算autovacuum的代价延迟值
autovacuum_vacuum_cost_limit : 指定autovacuum操作的代价限制值

2、工作原理

当参数autovacuum设置为on时，数据库会启动一个autovacuum的守护进程，当满足触发条件时启动相关的autovacuum经常进行垃圾回收操作
当表update,delete的tuples数量超过 autovacuum_vacuum_scale_factor * table_size + autovacuum_vacuum_threshold 时，自动触发autovacuum操作
当表insert的tuples数量超过 autovacuum_vacuum_insert_scale_factor * table_size + autovacuum_vacuum_insert_threshold 时，自动触发autovacuum操作
当表的insert,delete,update的tuple超过 autovacuum_analyze_scale_factor * table_size + autovacuum_analyze_threshold 时，自动触发analyza操作
当表的最大事物ID超过autovacuum_freeze_max_age、autovacuum_multixact_freeze_max_age 时，自动触发autovacuum操作
默认两次autovacuum之前的时间间隔为autovacuum_naptime，且每次进行autovacuum时可启动的最大并发数为autovacuum_max_workers

3、运维建议

全局参数并不一定适用于所有表，特殊表可在表级别定义相关参数。例如变更频繁的表，可适当减少autovacuum_vacuum_scale_factor、autovacuum_vacuum_threshold参数值，使得其可以及时的垃圾回收，避免表膨胀影响其查询效率
autovacuum_max_workers可根据操作系统CPU资源进行适当调整

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。