rsync

rsync 全名 Remote Sync, 是类 unix 系统下的数据镜像备份工具。可以方便的实现本地,远程备份,rsync 提供了丰富的选项来控制其行为。rsync 优于其他工具的重要一点就是支持增量备份。
rsync 是一个功能非常强大的工具,其命令也有很多功能选项,它的特性如下:

可以保持文件原来的权限、时间、所有者、组信息、软硬链接等等
可以从远程或者本地镜像保存整个目录树和文件系统
无须特殊权限 super-user 即可安装使用
快速:要比 scp (Secure Copy) 要快;第一次同步时 rsync 会复制全部内容,但在下一次只传输修改过的文件。rsync 在传输数据的过程中可以实行压缩及解压缩操作,可以使用更少的带宽
安全:可以使用 scp、ssh 等方式来传输文件,当然也可以通过直接的 socket 连接
支持匿名传输,以方便进行网站镜像

rsync 官方网址: https://rsync.samba.org

1 rsync 的使用

Rsync 的命令格式可以为以下六种:

# 本地模式
rsync [OPTION]... SRC [SRC]... DEST

# 远程 Push
rsync [OPTION]... SRC [SRC]... [USER@]HOST:DEST

# 远程 Pull
rsync [OPTION]... [USER@]HOST:SRC [DEST]

# 远程 Rsync daemon Push
rsync [OPTION]... SRC [SRC]... [USER@]HOST::DEST
rsync [OPTION]... SRC [SRC]... rsync://[USER@]HOST[:PORT]/DEST

# 通过 Rsync daemon Pull
rsync [OPTION]... [USER@]HOST::SRC [DEST]
rsync [OPTION]... rsync://[USER@]HOST[:PORT]/SRC [DEST]

上述命令中,SRC 表示源地址,而 DEST 表示目标地址,这二者可以是本地目录,也可以是远程服务器地址。当只有 SRC 地址没有 DEST 时会列出所有的文件列表,而不会执行拷贝。
rsync 有两种方式来连接远程服务器

  • 使用 remote shell 程序,比如 ssh 或者 rsh
  • 或者直接通过 TCP 来连接 daemon
    这两种方式的直接区别体现在路径中的冒号(:),当只有一个冒号时使用 remote shell, 当有两个冒号时使用 daemon 连接。

rsync 有六种不同的工作模式:

  • 拷贝本地文件:当 SRC 和 DEST 路径信息都不包含有单个冒号“:”分隔符时就启动这种工作模式。
  • 使用一个远程 shell 程序(如 rsh、ssh)来实现将本地机器的内容拷贝到远程机器。当 DEST 路径地址包含单个冒号“:” 分割符时启动该模式。
  • 使用一个远程 shell 程序 (如 rsh、ssh) 来实现将远程机器的内容拷贝到本地机器。当 SRC 地址路径包含单个冒号”:“ 分割符时启动该模式。
  • 从远程 rsync 服务器中拷贝文件到本地机。当 SRC 路径信息包含”::”分隔符时启动该模式。
  • 从本地机器拷贝文件到远程 rsync 服务器中。当 DEST 路径信息包含”::”分隔符时启动该模式。
  • 列远程机的文件列表。这类似于 rsync 传输,不过只要在命令中省略掉本地机信息即可。

这 6 中方式看似复杂,其实只要记住一些常用参数,然后记住一些常用方法就能够将 rsync 利用起来。

可以 man rsync 参考 rsync 文档
下面是 rsync 参数的具体解释:

-v, --verbose 详细模式输出
-q, --quiet 精简输出模式
-c, --checksum 打开校验开关,强制对文件传输进行校验
-a, --archive 归档模式,表示以递归方式传输文件,并保持所有文件属性,等于 -rlptgoD
-r, --recursive 对子目录以递归模式处理
-R, --relative 使用相对路径信息
-b, --backup 创建备份,也就是对于目的已经存在有同样的文件名时,将老的文件重新命名为~filename。可以使用 --suffix 选项来指定不同的备份文件前缀。
--backup-dir 将备份文件(如~filename) 存放在在目录下。
-suffix=SUFFIX 定义备份文件前缀
-u, --update 仅仅进行更新,也就是跳过所有已经存在于 DST,并且文件时间晚于要备份的文件。(不覆盖更新的文件)
-l, --links 保留软链结
-L, --copy-links 想对待常规文件一样处理软链结
--copy-unsafe-links 仅仅拷贝指向 SRC 路径目录树以外的链结
--safe-links 忽略指向 SRC 路径目录树以外的链结
-H, --hard-links 保留硬链结
-p, --perms 保持文件权限
-o, --owner 保持文件属主信息
-g, --group 保持文件属组信息
-D, --devices 保持设备文件信息
-t, --times 保持文件时间信息
-S, --sparse 对稀疏文件进行特殊处理以节省 DST 的空间
-n, --dry-run 现实哪些文件将被传输
-W, --whole-file 拷贝文件,不进行增量检测
-x, --one-file-system 不要跨越文件系统边界
-B, --block-size=SIZE 检验算法使用的块尺寸,默认是 700 字节
-e, --rsh=COMMAND 指定使用 rsh、ssh 方式进行数据同步
--rsync-path=PATH 指定远程服务器上的 rsync 命令所在路径信息
-C, --cvs-exclude 使用和 CVS 一样的方法自动忽略文件,用来排除那些不希望传输的文件
--existing 仅仅更新那些已经存在于 DST 的文件,而不备份那些新创建的文件
--delete 删除那些 DST 中 SRC 没有的文件
--delete-excluded 同样删除接收端那些被该选项指定排除的文件
--delete-after 传输结束以后再删除
--ignore-errors 及时出现 IO 错误也进行删除
--max-delete=NUM 最多删除 NUM 个文件
--partial 保留那些因故没有完全传输的文件,以是加快随后的再次传输
--force 强制删除目录,即使不为空
--numeric-ids 不将数字的用户和组 ID 匹配为用户名和组名
--timeout=TIME IP 超时时间,单位为秒
-I, --ignore-times 不跳过那些有同样的时间和长度的文件
--size-only 当决定是否要备份文件时,仅仅察看文件大小而不考虑文件时间
--modify-window=NUM 决定文件是否时间相同时使用的时间戳窗口,默认为 0
-T --temp-dir=DIR 在 DIR 中创建临时文件
--compare-dest=DIR 同样比较 DIR 中的文件来决定是否需要备份
-P 等同于 --partial
--progress 显示备份过程
-z, --compress 对备份的文件在传输时进行压缩处理
--exclude=PATTERN 指定排除不需要传输的文件模式
--include=PATTERN 指定不排除而需要传输的文件模式
--exclude-from=FILE 排除 FILE 中指定模式的文件
--include-from=FILE 不排除 FILE 指定模式匹配的文件
--version 打印版本信息

2 工作模式实例

下面举例说明 rsync 的六种不同工作模式

2.1 同机器拷贝文件到不同位置

当 SRC 和 DES 路径信息都不包含有单个冒号 “:” 分隔符时就启动这种工作模式

同步文件
rsync -ahvz backup.tar.gz /backups/  # DESC 不存在时自动创建

将备份文件同步到 /backups/ 目录下

同步目录
rsync -avzh /home/ci-user  /backup/ci-user/

解释:/home/ci-user 目录下的文件同步发送到 backup/ci-user/ 目录下,记住如果目标地址没有 src 目录,rsync 会自动创建该文件夹。

比较区别

rsync -avzh /home/ci-user/   /backup/ci-user/

解释: SRC 路径末尾的 / 表示不自动创建 DEST 文件夹,在 man rsync 中的解释就是末尾的 / 表示”拷贝当前目录下的文件” ,而不是”拷贝当前的目录”.

2.2 不同机器利用远程机器 shell 拷贝本地机器的内容到远程机器

使用一个远程 shell 程序(如 rsh、ssh) 来实现将本地机器的内容拷贝到远程机器。当 DES 路径地址包含单个冒号”:”分隔符时启动该模式。

rsync -avz /home/ci-user/  user@remoteip:/path/

解释: 将本地 /home/ci-uesr/ 中的文件同步备份到远程 /path/ 目录

2.3 不同机器利用远程机器 shell 拷贝远程机器的内容到本地机器

使用一个远程 shell 程序(如 rsh、ssh) 来实现将远程机器的内容拷贝到本地机器。当 SRC 地址路径包含单个冒号”:”分隔符时启动该模式。

rsync -avz user@remoteip:/home/ci-user    /home/data

2.4 不同机器利用远程机器 rsync 程序 拷贝远程内容到本地机器

从远程 rsync 服务器中拷贝文件到本地机。当 SRC 路径信息包含”::”分隔符时启动该模式。

rsync -av user@remoteip::clickhouse  /data/clickhouse

2.5 不同机器利用远程机器 rsync 程序 拷贝本地内容到远程机器

从本地机器拷贝文件到远程 rsync 服务器中。当 DES 路径信息包含”::”分隔符时启动该模式。

rsync -av /data/clickhouse  user@remoteip::clickhouse

2.6 文件列表

列远程机器的文件列表。这类似于 rsync 传输,不过只要在命令中省略掉本地机器信息即可

rsync -v rsync://remoteip  /www

3 rsync 使用非标准端口

经常遇见的一种情况就是 ssh 更改了默认 22 端口,这个时候就需要使用 -e 参数
rsync 在不同机器间使用时,有两种常用的认证方式,一个是 daemon 方式,一个是 ssh。
当远程机器的 ssh 端口不再是默认的22时,当我们执行下面命令就会出现错误

rsync /home/ci-user  user@remoteip:/path/   # 报错

rsync 中的命令参数 -e, --rsh=COMMAND 指定使用 rsh、ssh 方式进行数据同步
当ssh端口不是默认的情况下,我们可以这样写

rsync -avz -e "ssh -p $port" /home/ci-user/ user@remoteip:/path/  
# 注意 /home/ci-user 和 /home/ci-user/ 效果是不一样的,区别在于要不要把ci-user目录也传递过去

4 显示备份进度-针对单个文件传输而言

可以使用 --progress 选项来显示进度

rsync -avzhe ssh --progress /home/ci-user/  root@remoteip:/path/

5 限制传输速率

rsync --bwlimit=10000 -avzhe ssh /mtn/disks/2/  root@remoteip:/data/

6 全量备份-ssh方式

rsync --bwlimit=10000 --progress -azue ssh /mnt/disks/2/data ci-user@10.176.6.24:/data01/dev8-ck-backup/
# 这里限制传输速度 1w Kb,但是实际中是最高是超过 1w Kb 但是在 2w Kb 之下,具体什么原因还没查出来,难道是指整个传输过程中的平均速率?
01 00 * * * rsync --bwlimit=10000 --progress -azue ssh /mnt/disks/2/data ci-user@192.168.1.24:/data01/dev8-ck-backup/ >/dev/null 2>&1

7 全量备份+实时备份

上面一个远程容灾系统已经搭建完成,但这并非是一个完整意义上的容灾方案,由于rsync需要通过触发才能将服务器端数据同步,因此两次触发同步的时间间隔内,
服务器和客户端的数据可能不一致,如果在这个时间间隔内,网站系统出现问题,数据必然丢失,Linux 2.6.13以后的内核提供了inotify文件系统监控机制,
用过rsync与inotify的组合,完全可以实现rsync服务器端和客户端的实时数据同步。

7.1 rsync服务端配置文件 (clickhouse-backup-test01(192.168.1.24)服务端,dev8客户端)

root用户启动rsync服务端
[root@clickhouse-backup-test01 run]# cat /etc/rsyncd.conf

# /etc/rsyncd: configuration file for rsync daemon mode

# See rsyncd.conf man page for more options.

# configuration example:

# uid = nobody
# gid = nobody
# use chroot = yes
# max connections = 4
# pid file = /var/run/rsyncd.pid
# /etc/rsyncd: configuration file for rsync daemon mode
# exclude = lost+found/
# transfer logging = yes
# timeout = 900
# ignore nonreadable = yes
# dont compress   = *.gz *.tgz *.zip *.z *.Z *.rpm *.deb *.bz2

# [ftp]
#        path = /home/ftp
#        comment = ftp export area


uid = root
gid = root
use chroot = no
max connections = 0
ignore errors
exclude = lost+found/
log file = /var/log/rsyncd.log
pid file = /var/run/rsyncd.pid
lock file = /var/run/rsyncd.lock
reverse lookup = yes
[clickhouse]
path = /data01/dev8-ck-backup/ckdata
comment = clickhouse-backup
read only = no
auth users = rsyncuser
secrets file = /etc/rsync.pass

需要注意上面配置文件中的目录,不要写错了

添加 /etc/rsync.pass 文件

echo "rsyncuser:clickhouse"  >/etc/rsync.pass

修改 /etc/rsync.pass 文件权限

chmod 600 /etc/rsync.pass

root 用户启动

rsync --daemon

7.2 客户端dev8 启动命令

首先检查客户端是否已经安装rsync软件

[root@dev8 ~]# rsync  --bwlimit=10240 --progress -avz --password-file=/etc/rsync.pass /mnt/disks/2/data/ rsyncuser@192.168.1.24::clickhouse
# 每两个小时做一次增量备份
00 */2 * * * rsync --bwlimit=10240 --progress -avz --password-file=/etc/rsync.pass /mnt/disks/2/data/ rsyncuser@192.168.1.24::clickhouse

7.3 rsync客户端安装inotify软件 实时同步

安装 inotify 的客户端工具 inotify-tools,我们可以理解 inotify 是内核一个功能,属于内核空间,我们需要一个用户空间工具来操作它,这点应该和 netfiler 与 iptables 的关系类似。

[root@dev8 ~]# yum -y install inotify-tools

摘抄自ZERO@如下,该脚本一旦被执行,就会通过内核的 inotify 机制实时监控同步路径下的目录和文件,当这些目录和文件发生create、delete、attrib、close_write、move ./ 动作时,就会产生事件通知,rsync客户端的进程sender就会把这些变化的目录或文件发送到服务端进行校验处理

[root@dev8 ~]# cat >> inotify_rsync.sh << EOF
#!/bin/bash
src=/mnt/disks/2/data                          # 需要同步的源路径
des=clickhouse                             # 目标服务器上 rsync --daemon 发布的名称,rsync --daemon这里就不做介绍了,网上搜一下,比较简单。
rsync_passwd_file=/etc/rsync.pass            # rsync验证的密码文件
ip1=10.176.6.24                 # 目标服务器1
user=rsyncuser                            # rsync --daemon定义的验证用户名
cd ${src}                              # 此方法中,由于rsync同步的特性,这里必须要先cd到源目录,inotify再监听 ./ 才能rsync同步后目录结构一致,有兴趣的同学可以进行各种尝试观看其效果
inotifywait -mrq --format  '%Xe %w%f' -e modify,create,delete,attrib,close_write,move ./ | while read file         # 把监控到有发生更改的"文件路径列表"循环
do
        INO_EVENT=$(echo $file | awk '{print $1}')      # 把inotify输出切割 把事件类型部分赋值给INO_EVENT
        INO_FILE=$(echo $file | awk '{print $2}')       # 把inotify输出切割 把文件路径部分赋值给INO_FILE
        echo "-------------------------------$(date)------------------------------------"
        echo $file
        #增加、修改、写入完成、移动进事件
        #增、改放在同一个判断,因为他们都肯定是针对文件的操作,即使是新建目录,要同步的也只是一个空目录,不会影响速度。
        if [[ $INO_EVENT =~ 'CREATE' ]] || [[ $INO_EVENT =~ 'MODIFY' ]] || [[ $INO_EVENT =~ 'CLOSE_WRITE' ]] || [[ $INO_EVENT =~ 'MOVED_TO' ]]         # 判断事件类型
        then
                echo 'CREATE or MODIFY or CLOSE_WRITE or MOVED_TO'
                rsync -avzcR --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip1}::${des}         # INO_FILE变量代表路径哦  -c校验文件内容
                 #仔细看 上面的rsync同步命令 源是用了$(dirname ${INO_FILE})变量 即每次只针对性的同步发生改变的文件的目录(只同步目标文件的方法在生产环境的某些极端环境下会漏文件 现在可以在不漏文件下也有不错的速度 做到平衡) 然后用-R参数把源的目录结构递归到目标后面 保证目录结构一致性
        fi
        #删除、移动出事件
        if [[ $INO_EVENT =~ 'DELETE' ]] || [[ $INO_EVENT =~ 'MOVED_FROM' ]]
        then
                echo 'DELETE or MOVED_FROM'
                rsync -avzR --delete --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip1}::${des}
                #看rsync命令 如果直接同步已删除的路径${INO_FILE}会报no such or directory错误 所以这里同步的源是被删文件或目录的上一级路径,并加上--delete来删除目标上有而源中没有的文件,这里不能做到指定文件删除,如果删除的路径越靠近根,则同步的目录月多,同步删除的操作就越花时间。这里有更好方法的同学,欢迎交流。
        fi
        #修改属性事件 指 touch chgrp chmod chown等操作
        if [[ $INO_EVENT =~ 'ATTRIB' ]]
        then
                echo 'ATTRIB'
                if [ ! -d "$INO_FILE" ]                 # 如果修改属性的是目录 则不同步,因为同步目录会发生递归扫描,等此目录下的文件发生同步时,rsync会顺带更新此目录。
                then
                        rsync -avzcR --password-file=${rsync_passwd_file} $(dirname ${INO_FILE}) ${user}@${ip1}::${des}
                fi
        fi
done

EOF

放到后台运行

bash inotify_rsync.sh &

7.4 优化 Inotify

在 /proc/sys/fs/inotify 目录下有三个文件,对inotify机制有一定的限制,可以通过修改下面参数的值,来提高 inotify 的性能

[root@dev8 ~]# ll /proc/sys/fs/inotify/
total 0
-rw-r--r--. 1 root root 0 Sep  5 19:00 max_queued_events
-rw-r--r--. 1 root root 0 Sep  5 19:00 max_user_instances
-rw-r--r--. 1 root root 0 Sep  5 19:00 max_user_watches

# 我们可以把这三个参数修改后,写入 /etc/sysctl.conf 文件中
[root@dev8 ~]# cat >>/etc/sysctl.conf <eof
fs.inotify.max_user_watches=212400
fs.inotify.max_user_instances=1024
fs.inotify.max_queued_events=999999
eof

# 临时使上面文件生效
[root@dev8 ~]# sysctl -p

# max_user_watches:  设置inotifywait 或 inotifywatch命令可以监视的文件数量(单进程)
# max_user_instances: 设置每个用户可以运行的 inotifywait 或 inotifywatch 命令的进程数
# max_queued_events: 设置 inotify 实例事件(event)队列可容纳的事件数量

参考