一、cgroup简介

Linux CGroup全称Linux Control Group, 是Linux内核的一个功能,用来限制,控制与分离一个进程组群的资源(如CPU、内存、磁盘输入输出等)。这个项目最早是由Google的工程师在2006年发起(主要是Paul Menage和Rohit Seth),最早的名称为进程容器(process containers)。在2007年时,因为在Linux内核中,容器(container)这个名词太过广泛,为避免混乱,被重命名为cgroup,并且被合并到2.6.24版的内核中去。然后,其它开始了他的发展。 

  Linux CGroupCgroup 可让您为系统中所运行任务(进程)的用户定义组群分配资源 — 比如 CPU 时间、系统内存、网络带宽或者这些资源的组合。您可以监控您配置的 cgroup,拒绝 cgroup 访问某些资源,甚至在运行的系统中动态配置您的 cgroup。

主要功能:

1 限制资源使用,比如内存使用上限以及文件系统的缓存限制。
2 优先级控制,CPU利用和磁盘IO吞吐。
3 一些审计或一些统计,主要目的是为了计费。
4 挂起进程,恢复执行进程。

cgroups子系统:

1 cpu 子系统,主要限制进程的 cpu 使用率。
 2 cpuacct 子系统,可以统计 cgroups 中的进程的 cpu 使用报告。
 3 cpuset 子系统,可以为 cgroups 中的进程分配单独的 cpu 节点或者内存节点。
 4 memory 子系统,可以限制进程的 memory 使用量。
 5 blkio 子系统,可以限制进程的块设备 io。
 6 devices 子系统,可以控制进程能够访问某些设备。
 7 net_cls 子系统,可以标记 cgroups 中进程的网络数据包,然后可以使用 tc 模块(traffic control)对数据包进行控制。
 8 net_prio — 这个子系统用来设计网络流量的优先级
 9 freezer 子系统,可以挂起或者恢复 cgroups 中的进程。
10 ns 子系统,可以使不同 cgroups 下面的进程使用不同的 namespace
11 hugetlb — 这个子系统主要针对于HugeTLB系统进行限制,这是一个大页文件系统。

cgred简介

Cgred 是一个守护进程,它可根据在 /etc/cgrules.conf 文件中设定的参数将任务移动到 cgroup 中。/etc/cgrules.conf 文件中的条目可以使用以下两个格式之一:
user hierarchies control_group
user:command hierarchies control_group
例如:
maria            devices        /usergroup/staff
这个条目指定任何属于名为 maria 用户的进程根据在 /usergroup/staff cgroup 中指定的参数访问设备子系统。要将具体命令与具体 cgroup 关联,请添加 command 参数,如下:
maria:ftp        devices        /usergroup/staff/ftp
该条目现在指定何时名为 maria 的用户使用 ftp 命令,自动将该进程移动到包含 devices 子系统的层级中的 /usergroup/staff/ftp cgroup 中。请注意:该守护进程只有在符合适当的条件后才可将该进程移动到该 cgroup 中。因此,ftp 可能会在错误的组群中短暂运行。再有,如果该进程在错误组群中迅速生出子进程,则不会移动这些子进程。
/etc/cgrules.conf 文件中的条目可包括以下额外符号:
@ - 当在 user 使用前缀时,代表是一个组群而不是单独用户。例如:@admins 是 admins 组群中的所有用户。
* - 代表“所有”。例如:subsystem 字段中的 * 代表所有子系统。
% - 代表与以上行中项目相同的项目。例如:
@adminstaff        devices        /admingroup
@labstaff        %        %

小结:通过cgroup设置我们想要的规则,通过cgred将规则应用到进程之上

二、CPU限制

1.查看已经使用的子系统

[root@reddhat6_155_200 ~]# lssubsys -m
cpuset /cgroup/cpuset
cpu /cgroup/cpu
cpuacct /cgroup/cpuacct
memory /cgroup/memory
devices /cgroup/devices
freezer /cgroup/freezer
net_cls /cgroup/net_cls
blkio /cgroup/blkio

2.编辑cgroup配置文件,添加两个group对CPU使用率的限制

[root@reddhat6_155_200 ~]# vim /etc/cgconfig.conf  #添加以下两段
group lesscpu{
    cpu{

}
}

group morecpu{
    cpu{
}
}

3.重启并查看CPU子系统目录

[root@reddhat6_155_200 ~]# /etc/init.d/cgconfig restart
Stopping cgconfig service:                                 [确定]
Starting cgconfig service:                                 [确定]
[root@reddhat6_155_200 ~]# ll /cgroup/cpu
总用量 0
--w--w--w-. 1 root root 0 2019-09-07 15:50 cgroup.event_control
-rw-r--r--. 1 root root 0 2019-09-07 15:50 cgroup.procs
-rw-r--r--. 1 root root 0 2019-09-07 15:50 cpu.cfs_period_us
-rw-r--r--. 1 root root 0 2019-09-07 15:50 cpu.cfs_quota_us
-rw-r--r--. 1 root root 0 2019-09-07 15:50 cpu.rt_period_us
-rw-r--r--. 1 root root 0 2019-09-07 15:50 cpu.rt_runtime_us
-rw-r--r--. 1 root root 0 2019-09-07 15:50 cpu.shares
-r--r--r--. 1 root root 0 2019-09-07 15:50 cpu.stat
drwxr-xr-x. 2 root root 0 2019-09-07 15:50 lesscpu    #多出两个目录,和我们定义的group名称是一至的
drwxr-xr-x. 2 root root 0 2019-09-07 15:50 morecpu
-rw-r--r--. 1 root root 0 2019-09-07 15:50 notify_on_release
-rw-r--r--. 1 root root 0 2019-09-07 15:50 release_agent
-rw-r--r--. 1 root root 0 2019-09-07 15:50 tasks

4.查看目录内容

[root@reddhat6_155_200 ~]# ll /cgroup/cpu         仔细观察可以发现每个目录中的文件都是相同的,也就是默认情况下group会继承该子系统的所有规则
[root@reddhat6_155_200 ~]# ll /cgroup/cpu/morecpu/   
[root@reddhat6_155_200 ~]# ll /cgroup/cpu/morecpu/

5.添加group规则

[root@reddhat6_155_200 ~]# cat /cgroup/cpu/cpu.shares  #cpu.shares表示程序可以在 cgroup 中的任务可用的相对共享 CPU 时间的整数值,默认为1024
1024
[root@reddhat6_155_200 ~]# vim /etc/cgconfig.conf 
group lesscpu{
    cpu{
          cpu.shares=100;    #该值不可以超过总大小(1024)
}
}

group morecpu{
    cpu{
          cpu.shares=200;
}
}
[root@reddhat6_155_200 ~]# /etc/init.d/cgconfig restart
Stopping cgconfig service:                                 [确定]
Starting cgconfig service:                                 [确定]

 [root@reddhat6_155_200 ~]# cat /cgroup/cpu/lesscpu/cpu.shares
 100
 [root@reddhat6_155_200 ~]# cat /cgroup/cpu/morecpu/cpu.shares
 200

6.为了减少演示的复杂度,我们下线其他CPU,只保留一个CPU

[root@reddhat6_155_200 ~]# lscpu |grep -A 1  "^CPU\(s\):"  #查看当前CPU个数及在线个数
CPU(s):                2
On-line CPU(s) list:   0,1
[root@reddhat6_155_200 ~]# echo 0 > /sys/devices/system/cpu/cpu1/online   #将cpu1下线,cpu0为主cpu无法下线
[root@reddhat6_155_200 ~]# lscpu |grep -A 1  "^CPU\(s\):"   #查看在线状态,目前只有cpu0在线
CPU(s):                2
On-line CPU(s) list:   0

7.新开一个窗口,同时执行dd命令,分别选择lesscpu和morecpu

[root@reddhat6_155_200 ~]# cgexec -g cpu:lesscpu time dd if=/dev/zero of=/dev/null bs=1M count=200000   #窗口1 分配少的先执行
[root@reddhat6_155_200 ~]# cgexec -g cpu:morecpu time dd if=/dev/zero of=/dev/null bs=1M count=200000   #窗口2
[root@reddhat6_155_200 ~]# top   #窗口3 使用top命令监控命令状态

注意观察两个dd命令CPU使用率

centos6 cgroup及cgred简介和简单使用_sed

lesscpu结果:

[root@reddhat6_155_200 ~]# cgexec -g cpu:lesscpu time dd if=/dev/zero of=/dev/null bs=1M count=200000
记录了200000+0 的读入
记录了200000+0 的写出
209715200000字节(210 GB)已复制,21.7357 秒,9.6 GB/秒   #注意CPU使用时间
0.01user 10.83system 0:21.73elapsed 33%CPU (0avgtext+0avgdata 7776maxresident)k   #注意CPU使用率
0inputs+0outputs (0major+521minor)pagefaults 0swaps

morecpu结果:

[root@reddhat6_155_200 ~]# cgexec -g cpu:morecpu time dd if=/dev/zero of=/dev/null bs=1M count=200000
记录了200000+0 的读入
记录了200000+0 的写出
209715200000字节(210 GB)已复制,16.26 秒,12.9 GB/秒
0.02user 10.77system 0:16.26elapsed 66%CPU (0avgtext+0avgdata 7744maxresident)k
0inputs+0outputs (0major+519minor)pagefaults 0swaps

 三、MEM限制

1.编辑cgroup配置文件,添加一个mem限制

[root@reddhat6_155_200 ~]# cat /cgroup/memory/memory.limit_in_bytes  #查看MEM(物理内存)默认限制大小 单位为字节 以目前机器配置,等同于无限制
9223372036854775807
[root@reddhat6_155_200 ~]# cat /cgroup/memory/memory.memsw.limit_in_bytes #查看MEM(物理内存)+Swap总的大小 此值必须大于等于 memory.limit_in_bytes 
9223372036854775807
[root@reddhat6_155_200 ~]# vim /etc/cgconfig.conf     #添加一个MEM 限制
group poormem{
    memory{
        memory.limit_in_bytes=268435456;   #限制可以使用内存大小为256M
}
[root@reddhat6_155_200 ~]# /etc/init.d/cgconfig restart
Stopping cgconfig service:                                 [确定]
Starting cgconfig service:                                 [确定]
[root@reddhat6_155_200 ~]# cat /cgroup/memory/poormem/memory.limit_in_bytes 
268435456

 2.创建一个内存盘

[root@reddhat6_155_200 ~]# mkdir /mnt/tmpfs
[root@reddhat6_155_200 ~]# mount -t tmpfs none /mnt/tmpfs  #注意没有挂载源 使用none
[root@reddhat6_155_200 ~]# df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/mapper/vg_redhat6demo01-lv_root
                       50G  5.4G   42G  12% /
tmpfs                 2.0G  224K  2.0G   1% /dev/shm
/dev/vda1             477M   33M  419M   8% /boot
/dev/mapper/vg_redhat6demo01-lv_home
                      5.5G   12M  5.2G   1% /home
none                  2.0G     0  2.0G   0% /mnt/tmpfs   #大小2G,具体大小和系统剩余内存大小有关

3.测试tmpfs特性

[root@reddhat6_155_200 ~]# free -m  #查看当前内存大小
             total       used       free     shared    buffers     cached
Mem:          3959       2508       1451          2        246       1784
-/+ buffers/cache:        477       3482
Swap:         3967          0       3967
[root@reddhat6_155_200 ~]# dd if=/dev/zero of=/mnt/tmpfs/test bs=1M count=1000  #向 tmpfs 挂载点写入1G内存
记录了1000+0 的读入
记录了1000+0 的写出
1048576000字节(1.0 GB)已复制,0.466811 秒,2.2 GB/秒
[root@reddhat6_155_200 ~]# free -m   #查看系统内存  少了1G
             total       used       free     shared    buffers     cached
Mem:          3959       3511        448       1002        246       2784
-/+ buffers/cache:        480       3479
Swap:         3967          0       3967
[root@reddhat6_155_200 ~]# rm -f /mnt/tmpfs/test  #删除刚刚创建的文件
[root@reddhat6_155_200 ~]# free -m   #查看当前剩余内存
             total       used       free     shared    buffers     cached
Mem:          3959       2509       1450          2        246       1784
-/+ buffers/cache:        478       3481
Swap:         3967          0       3967

4.测试

[root@reddhat6_155_200 ~]# cgexec -g memory:poormem dd if=/dev/zero of=/mnt/tmpfs/test bs=1M count=200 #配置的为256M 先创建一个200M 测试文件
记录了200+0 的读入
记录了200+0 的写出
209715200字节(210 MB)已复制,0.097221 秒,2.2 GB/秒
[root@reddhat6_155_200 ~]# rm -f /mnt/tmpfs/test 
[root@reddhat6_155_200 ~]# cgexec -g memory:poormem dd if=/dev/zero of=/mnt/tmpfs/test bs=1M count=300 #创建一个300M测试文件 挂了  很奇怪,按照文档说明此处不应该挂的,应该不够的会从Swap中读取 只有 memory.memsw.limit_in_bytes 也设置了才会限制从Swap中读取 不知道为啥??????
已杀死 [root@reddhat6_155_200 ~]# ll -h /mnt/tmpfs/test #查看大小只有
255M -rw-r--r--. 1 root root 255M 2019-09-07 22:03 /mnt/tmpfs/test

四、磁盘IO限制  #使用IO限制时当前系统调度算法必须为cfq算法

[root@reddhat6_155_200 ~]# cat /sys/block/vda/queue/scheduler   #查看下当前系统磁盘调度算法 vda表示磁盘名称
noop anticipatory deadline [cfq] 
[root@reddhat6_155_200 ~]# cat /cgroup/blkio/blkio.weight       #查看磁盘io权重默认值
1000
[root@reddhat6_155_200 ~]# vim /etc/cgconfig.conf  #创建io限制规则
group lowio{
        blkio{
          blkio.weight=100;   #设置io优先级 一个低 一个高
}
}

group highio{
        blkio{
          blkio.weight=200;
}
}

group ddio{
        blkio{
          blkio.throttle.read_bps_device="252:0 1000000";   
          #限制程序读取磁盘的速度  252表示当前主盘符号 0表示副盘符号 1000000表示读取速率  单位为字节 即1M  需要注意的是,如果是物理设备 SCSI设备重启后主副盘符会发生变化 可以通过设置逻辑卷
}
}
[root@reddhat6_155_200 ~]# /etc/init.d/cgconfig restart
Stopping cgconfig service:                                 [确定]
Starting cgconfig service:                                 [确定]

测试

[root@reddhat6_155_200 ~]# dd if=/dev/zero of=/root/bigfile1 bs=1M count=10000 #创建两个大的文件用于实验
[root@reddhat6_155_200 ~]# dd if=/dev/zero of=/root/bigfile2 bs=1M count=10000
[root@reddhat6_155_200 ~]# echo 3 > /proc/sys/vm/drop_caches    #情况缓存 避免影响结果
[root@reddhat6_155_200 ~]# iotop       #使用iotop命令监控io状态

新开两个窗口,分别使用lowio和highio

[root@reddhat6_155_200 ~]# cgexec -g blkio:lowio time cat /root/bigfile1 > /dev/null 
[root@reddhat6_155_200 ~]# cgexec -g blkio:highio time cat /root/bigfile2 > /dev/null

结果:当两个cat命令都读取时,使用highio磁盘速度大约是lowio的两倍

centos6 cgroup及cgred简介和简单使用_物理内存_02

当highio执行完成后lowio开始独占磁盘io

centos6 cgroup及cgred简介和简单使用_物理内存_03

[root@reddhat6_155_200 ~]# cgexec -g blkio:lowio time cat /root/bigfile1 > /dev/null 
0.08user 7.52system 0:40.54elapsed 18%CPU (0avgtext+0avgdata 2416maxresident)k
20480360inputs+0outputs (1major+182minor)pagefaults 0swaps

[root@reddhat6_155_200 ~]# cgexec -g blkio:highio time cat /root/bigfile2 > /dev/null
0.08user 7.16system 0:32.64elapsed 22%CPU (0avgtext+0avgdata 2432maxresident)k
20480072inputs+0outputs (1major+183minor)pagefaults 0swaps

限制指定用户执行指定命令

[root@reddhat6_155_200 ~]# vim /etc/cgrules.conf 
admin:dd    blkio   ddio/        #此行配置表示 admin用户执行dd命令时 使用 blkio子系统下ddio group进行限制  此处不仅可以现在命令也可以现在程序 添加程序的启动命令即可 例 nginx java等
[root@reddhat6_155_200 ~]# /etc/init.d/cgred restart
正在停止 CGroup Rules Engine 守护进程......                [确定]
Starting CGroup Rules Engine Daemon:                    [确定]

使用root用户测试dd命令

[root@reddhat6_155_200 ~]# dd if=/tmp/bigfile1 of=/dev/null
记录了20480000+0 的读入
记录了20480000+0 的写出
10485760000字节(10 GB)已复制,18.5243 秒,566 MB/秒  #速度正常

切换至admin用户执行dd命令

[root@reddhat6_155_200 ~]# mv /root/bigfile1 /tmp/
[root@reddhat6_155_200 ~]# su -  admin
[admin@reddhat6_155_200 ~]$ dd if=/tmp/bigfile1 of=/dev/null

新开一个窗口,使用iotop命令监控

centos6 cgroup及cgred简介和简单使用_物理内存_04

[admin@reddhat6_155_200 ~]$ dd if=/tmp/bigfile1 of=/dev/null 
记录了210657+0 的读入
记录了210656+0 的写出
107855872字节(108 MB)已复制,107.986 秒,999 kB/秒  #注意此处的速率  时间是因为我提前中断了程序

我们发现,无论怎样,IO读取不会大于1M

注意事项:

1 磁盘IO调度算法必须为cfq
2 测试前需要先清空磁盘缓存
3 不要使用SSD硬盘
4 读取速率注意SCSI物理硬盘盘符会随机更改

五、创建两个及以上资源控制子系统(默认每种资源只能单独控制)

1.修改配置文件,配置一个多控制项的子系统

[root@reddhat6_155_200 ~]# vim /etc/cgconfig.conf 
mount {
    cpuset  = /cgroup/cpuset;
#   cpu = /cgroup/cpu;                  #以CPU内存为例,注释cpu、memory字段
    cpuacct = /cgroup/cpuacct;
#   memory  = /cgroup/memory;
    cpu = /cgroup/cpumem;               #新添加cpu、memory字段将其路径指向同一路径
    memory = /cgroup/cpumem;
    devices = /cgroup/devices;
    freezer = /cgroup/freezer;
    net_cls = /cgroup/net_cls;
    blkio   = /cgroup/blkio;
}

2.重启服务(注意:重启时需要退出/cgroup目录,否则会重启失败)

[root@reddhat6_155_200 ~]# /etc/init.d/cgconfig restart
Stopping cgconfig service:                                 [确定]
Starting cgconfig service:                                 [确定]

3.检查目录

[root@reddhat6_155_200 ~]# ll /cgroup/
总用量 8
drwxr-xr-x. 2 root root    0 2019-09-07 15:07 blkio
drwxr-xr-x. 2 root root 4096 2019-08-30 17:24 cpu
drwxr-xr-x. 2 root root    0 2019-09-07 15:07 cpuacct
drwxr-xr-x. 2 root root    0 2019-09-07 15:07 cpumem     #我们自定义的 
drwxr-xr-x. 2 root root    0 2019-09-07 15:07 cpuset
drwxr-xr-x. 2 root root    0 2019-09-07 15:07 devices
drwxr-xr-x. 3 root root    0 2019-09-07 15:07 freezer
drwxr-xr-x. 2 root root 4096 2019-08-30 17:24 memory
drwxr-xr-x. 2 root root    0 2019-09-07 15:07 net_cls
[root@reddhat6_155_200 ~]# ll /cgroup/cpu                  #原先的cpu及memory已经失效了
总用量 0
[root@reddhat6_155_200 ~]# ll /cgroup/memory/
总用量 0
[root@reddhat6_155_200 ~]# ll /cgroup/cpumem/              #所有mem和cpu配置都在cpumem目录下
总用量 0
--w--w--w-. 1 root root 0 2019-09-07 15:07 cgroup.event_control
-rw-r--r--. 1 root root 0 2019-09-07 15:07 cgroup.procs
-rw-r--r--. 1 root root 0 2019-09-07 15:07 cpu.cfs_period_us
-rw-r--r--. 1 root root 0 2019-09-07 15:07 cpu.cfs_quota_us
-rw-r--r--. 1 root root 0 2019-09-07 15:07 cpu.rt_period_us
-rw-r--r--. 1 root root 0 2019-09-07 15:07 cpu.rt_runtime_us
-rw-r--r--. 1 root root 0 2019-09-07 15:07 cpu.shares
-r--r--r--. 1 root root 0 2019-09-07 15:07 cpu.stat
-rw-r--r--. 1 root root 0 2019-09-07 15:07 memory.failcnt
--w-------. 1 root root 0 2019-09-07 15:07 memory.force_empty
......

参考文档:https://access.redhat.com/documentation/zh-cn/red_hat_enterprise_linux/6/html/resource_management_guide/sec-moving_a_process_to_a_control_group#The_cgred_Daemon

"一劳永逸" 的话,有是有的,而 "一劳永逸" 的事却极少