随着数据库技术在各个行业和各个领域大量广泛的应用,在对数据库应用的过程中,人为误操作、人为恶意破坏、系统的不稳定、存储介质的损坏等等原因,都有可能造成重要数据的丢失。一旦数据出现丢失或者损坏,都将给企业和个人带来巨大的损失。这就需要进行数据库恢复。数据库恢复实际上就是利用技术手段把不可见或不可正常运行的数据文件恢复成正常运行的过程。下面对南大通用GBase 8c基于XID(Transaction ID,事务ID)备份恢复进行实验演练。

在GBase 8c数据库中,XID是用于标识一个事务的唯一编号,它主要用于在数据库中跟踪和管理事务的提交和回滚操作

0.准备环境

模拟全备:

gs_probackup backup -B /home/gbase/backup/ -b full  -p 15400  -U test -W xxxxx --instance hosname -d postgres

模拟数据库新变化:

create database pit;
create table test(id int);
insert into test values(1),(11),(111);
create table ccc(id int);
insert into ccc values(1),(11),(111);
select * from ccc;
select * from test;
drop database pit;

此时假如误操作drop发生。

让我们整理一下如何补救,大致思路:

  • 有前一天的全备
  • 有当前的归档
  • 有当前的redo
  • 恢复到drop之前

1. 确认当前redo

首先确认当前redo日志,执行SQL语句:

select pg_xlogfile_name(pg_current_xlog_location());

例如返回如下信息:

pg_xlogfile_name
--------------------------
00000001000000000000001F
(1 row)

那么在日志路径下,查看该日志:

ll /opt/database/install/data/dn/pg_xlog/00000001000000000000001F

2.切换归档日志

首先查看可切换的归档日志:

postgres=# select pg_switch_xlog();
pg_switch_xlog
----------------
0/1FFB0138
(1 row)

查看当前日志位置:

postgres=# select pg_xlogfile_name(pg_current_xlog_location());
   pg_xlogfile_name
--------------------------
000000010000000000000020
(1 row)

根据返回信息,需要注意的是:

  • drop操作都在 00000001000000000000001F文件中存储。
  • 切换归档日志后,在备份服务器上查看是否有 00000001000000000000001F文件。
     

3.关闭当前损坏的数据库

执行命令停止当前GBase 8c数据库

gs_om -t stop

 
4.恢复全备

copy备份文件放入数据目录下,并恢复全备文件:

cp  /home/gbase/backup/DB-2024xxx.tar.gz  /data
cd /data
tar xf  DB-2024xxx.tar.gz
mv DB-2024xxx.tar.gz  /opt/database/install/data/dn

5.恢复archive系统,并查找drop位置点

mkdir -p /opt/database/install/data/dn/pg_xlog/
cp archive/*  /opt/database/install/data/dn/pg_xlog/
pg_xlogdump /opt/database/install/data/dn/pg_xlog/00000001000000000000001F

执行返回如下信息:

rmgr: Heap        len (rec/tot):     59/    59, tx:      22849, lsn: 0/5F00A1B8, prev 0/5F00A178, desc: INSERT off 3 flags 0x08, blkref #0: rel 1663/40976/40980 blk 0
rmgr: Transaction len (rec/tot):     46/    46, tx:      22849, lsn: 0/5F00A1F8, prev 0/5F00A1B8, desc: COMMIT 2021-10-29 16:59:33.596676 CST
rmgr: Standby     len (rec/tot):     50/    50, tx:          0, lsn: 0/5F00A228, prev 0/5F00A1F8, desc: RUNNING_XACTS nextXid 22850 latestCompletedXid 22849 oldestRunningXid 22850
rmgr: Heap2       len (rec/tot):     60/    60, tx:      22850, lsn: 0/5F00A260, prev 0/5F00A228, desc: NEW_CID rel 1664/0/1262; tid 0/12; cmin: 4294967295, cmax: 0, combo: 4294967295
rmgr: Heap        len (rec/tot):     54/    54, tx:      22850, lsn: 0/5F00A2A0, prev 0/5F00A260, desc: DELETE off 12 flags 0x00 KEYS_UPDATED , blkref #0: rel 1664/0/1262 blk 0
rmgr: Standby     len (rec/tot):     54/    54, tx:          0, lsn: 0/5F00A2D8, prev 0/5F00A2A0, desc: RUNNING_XACTS nextXid 22851 latestCompletedXid 22849 oldestRunningXid 22850; 1 xacts: 22850
rmgr: Standby     len (rec/tot):     54/    54, tx:          0, lsn: 0/5F00A310, prev 0/5F00A2D8, desc: RUNNING_XACTS nextXid 22851 latestCompletedXid 22849 oldestRunningXid 22850; 1 xacts: 22850
rmgr: XLOG        len (rec/tot):    114/   114, tx:          0, lsn: 0/5F00A348, prev 0/5F00A310, desc: CHECKPOINT_ONLINE redo 0/5F00A310; tli 13; prev tli 13; fpw true; xid 0:22851; oid 49168; multi 1; offset 0; oldest xid 478 in DB 1; oldest multi 1 in DB 1; oldest/newest commit timestamp xid: 0/0; oldest running xid 22850; online
rmgr: Database    len (rec/tot):     38/    38, tx:      22850, lsn: 0/5F00A3C0, prev 0/5F00A348, desc: DROP dir 1663/40976

修改postgresql.auto.conf配置设置recovery_target_xid恢复点(切记需要将原drop归档切换)

vim /opt/database/install/data/dn/postgresql.auto.conf

编辑:

# Do not edit this file manually!
# It will be overwritten by the ALTER SYSTEM command.
restore_command = 'cp /data/archive/%f %p'
recovery_target_xid = '22849'
#recovery_target = 'immediate'

6.启动数据库

完成操作后启动GBase 8c数据库:

gs_om -t start

登录数据库:

gsql -d postgres -r -p 15400

查看数据是否恢复!确定已经恢复执行以下操作:

select pg_xlog_replay_resume();

例如返回:

pg_controldata   /opt/database/install/data/dn|grep 'Database cluster state'

7.恢复集群

手动恢复重建集群

mv /opt/database/install/data/dn  /data/gbase500/database/install/data/dn1
mkdir  /opt/database/install/data/dn
cp /data/gbase500/database/install/data/dn1/postgresql.conf  /opt/database/install/data/dn
gs_ctl build -D  /opt/database/install/data/dn  -b full -M standby

8.验证集群状态

查看集群状态,并登录数据库查看内部状态:

gs_om -t status --detail
gsql -d postgres -r -p 15400
select * from pg_stat_replication;
select * from pg_stat_activity;

以上就是基于XID的故障恢复全流程。