文本处理的工具sed

Stream EDitor, 行编辑器

sed是一种流编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。然后读入下行,执行下一个循环
如果没有使诸如‘D’ 的特殊命令,那会在两个循环之间清空模式空间,但不会清空保留空间。这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。
功能:主要用来自动编辑一个或多个文件,简化对文件的反复操作,编写转换程序等
参考: http://www.gnu.org/software/sed/manual/sed.html

sed工具

用法:

sed [option]... 'script' inputfile...

常用选项:

-n 不输出模式空间内容到屏幕,即不自动打印
-e 多点编辑
-f /PATH/SCRIPT_FILE inputfile:从指定文件中读取script来对后面的inputfile进行处理
-r 支持使用扩展正则表达式
-i 直接个修改原文件,批量,不备份(比较危险,不建议这么使用)
-i.bak 备份文件并原处编辑,相当于把修改后的内容存到原文件中修改它,把没有修改之前的原文件加个.bak后缀备份一份在原处。(注意使用的时候是相当于把sed要输出到标准输出的内容重定向到原文件中,因此不要用-n选项和p命令)

script格式:

'地址命令'

地址定界:

(1) 不给地址:对全文进行处理
(2) 单地址:
#:指定的行,$:最后一行
/regular expression/:被此处模式所能够匹配到的每一行,注意它是正则表达式
(3) 地址范围:
#,#
#,+#
/pat1/,/pat2/
#,/pat1/
(4) ~:步进
1~2 奇数行
2~2 偶数行

编辑命令:

d 删除模式空间匹配的行,并立即启用下一轮循环
p 打印当前模式空间内容,追加到默认输出之后
a [\]text 在指定行后面的下一行追加文本,支持使用\n实现多行追加
i [\]text 在行前面的前一行插入文本
c [\]text 替换当前行为单行或多行文本
w /path/file 保存模式匹配的行至指定文件
r /path/file 读取指定文件的文本至模式空间中匹配到的行后
= 为模式空间中的行打印行号:注意它也用在地址定界后面,在每一行的前面一行打印出来行号,后面跟上p命令无效,要分成两个地址命令才可,注意如果分成两个了 匹配的地址定界一定也要写上并相同。
! 模式空间中匹配行取反处理:注意它用在地址定界后面

  • 注意:w相当于重定向\> ,但重定向命令时是把当前要打印出来的行写入文件中,根据加不加-n p 判断要输出到屏幕上的行来判断真正写入文件中的内容。而w命令即使加了-n ,不输出到屏幕,只要匹配到了这一行,仍然会重定向到文件中。
    例如:
seq 10 |sed -n "1,10w sedtest"
seq 10 |sed  "1,10w sedtest"
以上两个命令都会把1到10输入到sedtest文件中,只是第一个不打印出来到屏幕,第二个会在屏幕也打印一下。
但是如果
seq 10 |sed -n "“ >sedtest     :sedtest文件内为空,因为没有打印到屏幕,屏幕为空,重定向只是重定向屏幕中的内容
seq 10 |sed -n  "p" >sedtest   :sedtest文件内有1到10

注意sed后面的“script" 如果跟了地址定界,后面必须跟命令,否则报错缺失命令

下面两个命令相同功能:
sed '1,10w filename' Originalfile 
cat Originalfile |sed -n '1,10p' >filename

s/// 查找替换,支持使用其它分隔符,s@@@,s###.

  • 替换标记:
    g 行内全局替换,和vim相同,如果不加g只替换每一行第一个搜索到的partern
    p 显示替换成功的行
    w /PATH/FILE 将替换成功的行保存至文件中

需要注意的点:

  1. sed命令默认是每一个匹配的行找到之后都会打印一遍,用-n选项取消默认打印(写在script外面),用p命令控制打印(写在script里面的命令里)。
    要注意如果没有-n选项,但后面有命令处理的的话,默认则是处理当模式空间行之后再打印当前模式空间的行,比如d命令就会删除当前行,删除之后再打印也是空行,就相当于此行不打印了。
    例子:
    sed '' passwd : 相当于把passwd显示一遍
    sed 'p' passwd: 相当于把passwd每行显示两边
    swd -n 'p' passwd : 相当于和第一个一样,每一行打印一遍
  2. 它要用单引号引起来,并前面是地址定界,后面是命令
  3. sed命令的一个script里面可以跟多个地址命令,中间用分号;隔开。其执行的时候的逻辑是从左往右一个分号一个分号执行。
    先判断第一个分号内的,当前模式空间的行是否符合地址定界,符合便执行命令,然后判断后一个分号内的,当前行是否属于其地址定界,然后决定是否执行命令。
    相当于对一行进行多次处理,
    当然sed也可以在每个script前面加上-e进行多个script的编辑,和这个没有区别
    它处理过程都是针对一行判断所有脚本的地址定界和命令,而不是先从头搜索到尾执行一个script, 然后从头到尾再执行另一个script。
  4. sed支持标准输入,因此可以用管道,也可用xargs将每一个文件都放到参数位置来进行多个文件的相同的处理
  5. !命令用在地址定界的后面,表示非
  6. i.bak 执行的时候相当于是把本来要显示在默认输出的内容存入并覆盖掉原文件中,因此如果要修改原文件内容,前面不要加-n ,命令里面也不要加p.
  7. sed中地址定界的模式匹配范围,它是从匹配到前面partern的行然后到匹配到后面partern的行给选中,然后后面的内容再从匹配到前面partern的行到匹配到后面partern的行给选中,一直到最后。如果只匹配到前面的partern的行,到最后没匹配到包含后面的partern的行,则会把前面partern的行后面的行全部当做匹配到的地址定界的行。
  8. 追加文本的a i c 后面可以用反斜线界定输入起始范围,这样后面最开始输入的的空格也能追加进去了,可以用\n 换行。 如果想要追加变量内的内容,需要在变量外面加三个单引号,然后变量还得用$var的$符号给引用。但是命令结果不支持,最好用变量先存入命令结果,然后引用变量即可。
  9. 一定要注意重定向是把要打印到屏幕的显示内容存到文件中,就想i i.bak命令本质就是重定向,而w命令虽然本质也是重定向,但是只管匹配到的行,而且忽略sed打印不打印-n 和p 选项。需要谨记
  10. 注意替换命令的三个///都需要加上,不能缺少任何一个,后面可以跟g之后再跟其他的命令比如p两个同时。如果用扩展的正则表达式前面的选项要加上-r(也可以控制地址定界正则表达式)

重中之重复习:

  • 除了find的regex需要全部路径匹配之外,sed ,vim,grep,locate都只需要部分匹配(包含或者含有)即可。
  • 注意vim的查找和替换与sed里面的查找替换非常类似
  • 但是注意sed如果替换的并且打印的话,它打印的是整个行,因此如果目的是为了取其中一部分内容,则替换的时候最好把整行给替换,要多用.*,[partern]*等匹配到整行然后分组(尤其用了后向引用的时候),这样打印的时候才不会留下某些不被替换的部分。(有点类似整行全部匹配的find -regex 方式,但这里sed其原理并非是全部匹配,只是为了我们的目的取其中一部分打印出来,为了不留其他字符,才这样整行替换的做法)
  • 同时从例子中可以看出,多次对一行处理的时候从左往右(-e或者;),然后处理后的结果重新存入模式空间当做原来的内容的当前行,后面继续处理的时候一定要注意地址定界匹配(行号或者模式匹配),不然会匹配到其他行或者其他问题。
  • 搜索替换中可用&符号替换s///,中前面搜索中的所有内容,不需要加\。
    例子:
1在某一行后面添加内容: sed -r '/要匹配的行/s@(.*)@\1 要添加的内容@'
2在某一行中间添加内容: sed -r '/要匹配的行/s@^(pattern1)(pattern2)$@\1 要添加的内容 \2@'
3找出基名和目录名: 
echo /data/scripts/ttt/ | sed -nr 's@(^.*/)([^/]+)/?$@\1@p' 目录名
echo /data/scripts/ttt/ | sed -nr 's@(^.*/)([^/]+)/?$@\2@p' 基名
echo /data/scripts/ttt/ | sed -r 's@(^.*)/([^/]+)/?$@\1@' 目录名
echo /data/scripts/ttt/ | sed -r 's@(^.*)/([^/]+)/?$@\2@' 基名
4找出ipv4地址
ifconfig ens33 | sed -nr '2s/.*inet //p' | sed -r 's/ .*//'
或者 
11:55[root@centos7 /data]# ifconfig ens33 | sed -nr -e '2s/.*inet //p' -e '2s/ .*//p'  
192.168.36.102  netmask 255.255.255.0  broadcast 192.168.36.255
192.168.36.102
11:55[root@centos7 /data]# ifconfig ens33 | sed -nr -e '2s/.*inet //' -e '2s/ .*//p'  
192.168.36.102
11:57[root@centos7 /data]# ifconfig ens33 | sed -nr  '2s/.*inet //p ; 2s/ .*//p' 
192.168.36.102  netmask 255.255.255.0  broadcast 192.168.36.255
192.168.36.102
11:56[root@centos7 /data]# ifconfig ens33 | sed -nr  '2s/.*inet // ; 2s/ .*//p'  
192.168.36.102
或者搜索替代:
12:02[root@centos7 /data]# ifconfig ens33 | sed -nr  '2s/^[^0-9]*([0-9.]+).*/\1/p'
192.168.36.102

附加:ifconfig中的网卡名修改,需要改/boot/grub2/grub.cfg 文件中的 linux16这两行的最后都加上 net.ifnames=0 ,便可将centos7中的 ens33 改为eth0

12:27[root@centos7 /data]# sed -nr '/linux16/p' /boot/grub2/grub.cfg
    linux16 /vmlinuz-3.10.0-957.el7.x86_64 root=UUID=fe52cb5a-c690-43e7-a830-b31f3ba7cd57 ro crashkernel=auto rhgb quiet LANG=en_US.UTF-8 net.ifnames=0
    linux16 /vmlinuz-0-rescue-77888ea49ac54db891160345c9275da3 root=UUID=fe52cb5a-c690-43e7-a830-b31f3ba7cd57 ro crashkernel=auto rhgb quiet net.ifnames=0
12:27[root@centos7 /data]# sed -r -i.bak '/linux16/s/.*/& net.ifnames=0/' /boot/grub2/grub.cfg

Sed更多用法

P: 打印模式空间开端至\n内容,并追加到默认输出之前
h: 把模式空间中的内容覆盖至保持空间中
H:把模式空间中的内容追加至保持空间中
g: 从保持空间取出数据覆盖至模式空间
G:从保持空间取出内容追加至模式空间
x: 把模式空间中的内容与保持空间中的内容进行互换
n: 读取匹配到的行的下一行覆盖至模式空间
N:读取匹配到的行的下一行追加至模式空间
d: 删除模式空间中的行
D:如果模式空间包含换行符,则删除直到第一个换行符的模式空间中的文本,并不会读取新的输入行,而使用合成的模式空间重新启动循环。如果模式空间不包含换行符,则会像发出d命令那样启动正常的新循环

自己测试一下结果:

sed -n 'n;p' FILE
sed '1!G;h;$!d' FILE
sed‘N;D’ FILE
sed '$!N;$!D' FILE
sed '$!d' FILE
sed ‘G’ FILE
sed ‘g’ FILE
sed ‘/^$/d;G’ FILE
sed 'n;d' FILE
sed -n '1!G;h;$p' FILE