grep比较两个文件内容比较 grep 两个文件

转载

蓝梦之翼 2024-04-22 10:00:48

文章标签 grep比较两个文件内容比较 grep 两个字符串 grep同时包含两个字符串 txt文件最多多少行 文章分类 云原生云计算

问题：

如何得到两个文件的交集、并集和差集？

交集：两个文件中都出现的行

并集：两个文件中的所有行加起来，去掉重复

差集：在一个文件中存在，而在另一个文件中不存在。

grep比较两个文件内容比较 grep 两个文件_grep比较两个文件内容比较

比如以下两个文件：

a.txt

aaa

bbb

ccc

111

222

b.txt

ccc

ddd

eee

111

333

结果：

a.txt和b.txt的交集：

ccc

111

a.txt和b.txt的并集：

111

222

333

aaa

bbb

ccc

ddd

eee

a.txt中存在b.txt中不存在：

222

aaa

bbb

b.txt中存在a.txt中不存在：

333

ddd

eee

· 正 · 文 · 来 · 啦 ·

grep比较两个文件内容比较 grep 两个文件_grep 两个字符串_02

方法一：sort+uniq

grep比较两个文件内容比较 grep 两个文件_grep比较两个文件内容比较_03

sort:用于将文本文件内容加以排序

uniq:删除文件中重复的行，得到文件中唯一的行

交集

sort a.txt b.txt | uniq -d

(用sort将a.txt b.txt文件进行排序，uniq使得两个文件中的行唯一，使用-d输出两个文件中次数大于1的内容，即是得到交集)

并集

sort a.txt b.txt | uniq

(将a.txt b.txt文件进行排序，uniq使得两个文件中的内容为唯一的，即可得到两个文件的并集)

差集

a.txt-b.txt:

sort a.txt b.txt b.txt | uniq -u

(将两个文件排序，最后输出a.txt b.txt b.txt文件中只出现过一次的内容，因为有两个b.txt所以只会输出只在a.txt出现过一次的内容，即是a.txt-b.txt差集)

b.txt-a.txt:

sort b.txt a.txt a.txt | uniq -u

(同a.txt-b.txt:)

uniq参数说明：

-d 仅显示重复出现的行列;
-u 仅显示出一次的行列。

grep比较两个文件内容比较 grep 两个文件_grep 两个字符串_02

方法二：comm

grep比较两个文件内容比较 grep 两个文件_grep比较两个文件内容比较_03

comm:用于比较两个已排过序的文件

交集

comm -12 a.txt b.txt

差集

a.txt-b.txt:

comm -23 a.txt b.txt

b.txt-a.txt:

comm -13 a.txt b.txt

注：

a.txt b.txt两个文件需要先分别排序

comm 默认输出为三列，第一列为是A-B，第二列B-A，第三列为A交B.

$ comm a.txt b.txt

aaa

bbb

ccc

111

222

ddd

eee

111

333

comm [-123][--help][--version][file1][file2]

参数说明：

-1 不显示只在第1个文件里出现过的列。

-2 不显示只在第2个文件里出现过的列。

-3 不显示只在第1和第2个文件里出现过的列。

grep比较两个文件内容比较 grep 两个文件_grep 两个字符串_07

grep比较两个文件内容比较 grep 两个文件_grep 两个字符串_02

方法三：grep

grep比较两个文件内容比较 grep 两个文件_grep比较两个文件内容比较_03

grep:用于查找文件里符合条件的字符串

交集

grep -F -f a.txt b.txt

差集

a.txt-b.txt:

grep -F -v -f b.txt a.txt

b.txt-a.txt:

grep -F -v -f a.txt b.txt

注:1. grep求交集不要求输入文件是排序的，但最好是唯一的2. 差集时注意输入文件的顺序

grep参数说明：

-F 将样式视为固定字符串的列表
-f 指定规则文件，其内容含有一个或多个规则样式，让grep查找符合规则条件的文件内容，格式为每行一个规则样式。
-v 显示不包含匹配文本的所有行

grep比较两个文件内容比较 grep 两个文件_grep同时包含两个字符串_10

grep比较两个文件内容比较 grep 两个文件_grep 两个字符串_02

方法四：awk

grep比较两个文件内容比较 grep 两个文件_grep比较两个文件内容比较_03

交集

awk 'NR==FNR{ a[$1]=a[$1]+1} NR>FNR{ if(a[$1]>=1 &&b[$1]<1){ print $1;b[$1]=b[$1]+1}}' a.txt b.txt

差集

a.txt-b.txt:

awk 'NR==FNR{ a[$1]=$1 } NR>FNR{ if(a[$1] == ""){ print $1}}' b.txt a.txt

b.txt-a.txt:

awk 'NR==FNR{ a[$1]=$1 } NR>FNR{ if(a[$1] == ""){ print $1}}' a.txt b.txt

(当NR(表示已经处理的行数)==FNR(表示当前文件处理的行数)时，处理的是a.txt，NR>FNR时，处理的是b.txt，在处理a.txt时，把a数组记录不同字符串个数，且起到去重作用。在处理b.txt时，判断a数组中是否含当前字符串，并且在本文件中出现的次数小于1，同样也是起到了去重的作用。)

·end·

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。