shell比较两个文件

原创

a591244761 2013-07-31 09:15:04 博主文章分类：机房建设和运维 ©著作权

©著作权归作者所有：来自51CTO博客作者a591244761的原创作品，请联系作者获取转载授权，否则将追究法律责任

shell比较两个文件

1.方法一：diff
#diff file1 fil2

2.方法二：实用comm
#comm -3 file1 file2 这个方法看起来最简单。命令comm的功能就是，逐行比较两个排好序的文件，默认输出有三列：只在file1中有的行、只在file2中有的行、在 file1和file2中共有的行。有参数-1 -2 -3，分别来抑制输出对应的列。例如在我们的方法二中，实用-3参数，不输出file1和file2中共有的部分。即能达到我们本文的目的。
但是注意到，comm比较排好序的两个文件，comm在处理文件的时候，首先要查看文件是否有序，例如file1和file2的内容如下：

$cat file1
line1
line2
line3

$cat file2
line0
line1
line3
line2
调用前面方法二的命令的时候，就会提示file2文件时无序的，输出的结果如下：
# comm -3 file1 file2
line0
line2
comm: file 2 is not in sorted order
line2如果使用--nocheck-order参数，不进行有序性检测，结果如下：

#comm -3 --nocheck-order file1 file2
line0
line2
line2
从这个结果中我们可以看到，这还是不是我们真正想要的结果。这里可体现comm的另一个特征，就是逐行比较。它是对file1和file2进行逐行往下的比较，检测是否相同。所以，在用comm的时候，要根据具体的情况进行分析了。

3.方法三：使用awk
#awk '{print NR, $0}' file1 file2 |sort -k2|uniq -u -f 1|sort -k1|awk '{print $2}'
或者：
awk '{print $0}' file1 file2 |sort|uniq -uawk命令的使用，听牛人说可谓博大精深，我也没有太搞清楚。这里只是使用了一些简单的功能。下面以我自己的理解来解释一下上面的shell代码。 awk就是文本的解释器和过滤器。
awk把每一行看成是一个记录(record)，每个记录使用分隔符(默认是空格)把每条记录分成若干域。awk内置参数$0表示整行，$1、$2...分别表示各域，内置参数NR，表示记录的计数，
awk '{print NR, $0}' file1 file2表示依次读取file1 file2，
打印出每行，并且在前面添加行号。
命令sort，就是对行进行排序，参数-k表示根据各行的第几个参数关键字开进行排序，这里的-k2表示根据第二个关键字开始进行排序。
命令uniq，进行报告或者忽略重复的行，参数-u，表示只是打印出唯一的行(unique lines)，-f表示忽略的每行的前n个域的比较。