通过sort/uniq获取文件内容的交集、合集和不同之处:假设有a、b两个文本文件,文件本身已经去除了重复内容。下面是效率最高的方法,可以处理任何体积的文件,甚至几个G的文件。(Sort对内存没有要求,但也许你需要用 -T 参数。)可以试着比较一下,你可以看看如果用Java来处理磁盘上文件的合并,需要用多少行代码。

cat a b | sort | uniq > c   # c 是a和b的合集
cat a b | sort | uniq -d > c   # c 是a和b的交集
cat a b | sort | uniq -u > c   # c 是a和b的不同



汇总一个文本内容里第三列数字的和(这个方法要比用Python来做快3倍并只需1/3的代码量):

awk ‘{ x += $3 } END { print x }’ myfile


如果你想查看一个目录树里的文件的体积和修改日期,用下面的方法,相当于你挨个目录做”ls -l”,而且输出的形式比你用”ls -lR”更可读:

find . -type f -ls


使用xargs命令。这个命令非常的强大。注意每行上你可以控制多少个东西的执行。如果你不确定它是正确的执行,先使用xargs echo。同样,-I{} 也非常有用。例子:

find . -name \*.py | xargs grep some_function
cat hosts | xargs -I{} ssh root@{} hostname



假设你有一个文本文件,比如一个web服务器日志,在某些行上有一些值,比如URL中的acct_id参数。如果你想统计每个acct_id的所有请求记录:

cat access.log | egrep -o ‘acct_id=[0-9]+’ | cut -d= -f2 | sort | uniq -c | sort -rn 

******************************************

如果你有一个4.2GB的CSV文件,里面有超过1200万条记录,每条记录都有50列。现在你要做的是把其中某一列的值全加起来。你怎么办?

这是我最近看到的一篇文章的开头部分。文章介绍的是如何使用unix命令来分析大体积文件的文章。像我这样一个基本上都在Windows平台上开发的程序员,对他提出的这样一个问题,首先出现在脑子里的就是内存溢出、CPU达到100%、跑一个晚上。而对于一个Linux/unix高手来说,这真是小菜一碟,正如文章中介绍的方法,一行命令就完成了这个任务。

(假设文件名叫做data.csv,行数据用竖线分割,我们需要总计其中的第四列。)


cat data.csv | awk -F “|” ‘{ sum += $4 } END { printf “%.2f\n”, sum }’


简洁干净,而且里面的{ sum += $4 }很有闭包的味道。让我对Linux的向往又加深了一层。

我写这篇博客的目的并不是抒发对Linux的感情的,而是重点讲一下发生在这篇文章评论里的事情。这篇文章吸引了不少Linux爱好者的评论,而且都是Liunx高手,仅仅是第一条评论,看了后就让我惊讶的合不上嘴。

这位叫做California Lotto的网名的评论是:

如果你认为自己是一个Linux命令行高手,那恭喜你赢得今天的“最没用的Cat用法”大奖。你应该这样写这个命令:

awk -F "|" '{ sum += $4 } END { printf "%.2f\n", sum }' < data.csv

的确,cat在这里似乎是没必要的。我首先是佩服,可之后马上感觉这个人可真讨厌,卖弄。虽然我不喜欢他无视作者写这片好博文的辛苦,但作为外行人,他和作者一样都是我高不可及的。

可是当我读第二条评论时,事情出现了戏剧性的变化,这第二条评论明显是真对第一条评论的:

如果你认为自己是一个Linux命令行高手,那恭喜你赢得今天的“最没用的重定向用法”奖。你应该这样写这个命令:

awk -F "|" '{ sum += $4 } END { printf "%.2f\n", sum }' data.csv

正所谓强中自有强中手,一山更比一山高。我突然意识到,其实没必要在这里比谁比谁更强,在这个浩瀚的互联网里,永远都会有比你在某方法更出众的人。这里重要的是探讨和参与。通过这种探讨,不仅丰富了你我的知识,而且对问题的解决方案有了更丰富的认识。正像接下来的评论里继续指出,命令行这的重定向符放在什么地方都可以,写成这样也是好用的:


<data.csv awk -F “|” ‘{ sum += $4 } END { printf “%.2f\n”, sum }’


神奇吧!而接下来继续有人指出,作者在实验时写成这样:


head -1 data.psv | awk -F’|’ ‘{print NF}’


实验成功后直接把head改成cat是顺理成章的事。

不管怎样,这是一篇好文章,这些人都是高手,都是我的老师,不仅教我编程知识,更教我如何做人。

原文:http://www.gregreda.com/2013/07/15/unix-commands-for-data-science/

译文:http://www.aqee.net/useful-unix-commands-for-data-science/