Java咖啡馆(9)——一个压缩归档实用软件
作者:Gary Chan

 优秀的创意造就实用的工具。借助Java内置强大的API,即使是Java的初学者,只要善于调兵遣将,也能够成为力拔山兮气盖世的霸王!

先睹为快


  在病毒肆虐以及BT下载流行的年代,按时备份是一个好习惯。一般而言,只有满足下列这些蛮横需求的软件,才称得上是一个得心应手的好工具:

  ★需要备份的文件可能分布在硬盘的各个角落;
  ★文件名可能比较复杂,不是用DOS的通配符就能够描述清楚的 ;
  ★按照文件的时间、大小、类型(文件或者目录)、最后修改时间等进行筛选;
  ★能够把这些文件压缩,并添加适当的注释帮助辨认 ;
  ★能够添加校验值以确保复制和网络传输时不出错;
  ★保持备份时的目录结构以便恢复;
  ★最好能够同时在多个平台运行;

  这样的软件存在吗?没错,这就是我们这回咖啡馆的主题,我们将综合运用所学的知识,编写一个这样的实用软件—ExpZip。

  首先介绍一下软件的使用方法。由于Java咖啡馆开馆以来才短短几期,还未介绍到GUI(图形用户界面)的设计,所以它仍然是一个命令行工具。举个实际例子,对于Java爱好者而言,自己编写的程序再重要不过了,这是N个小时的心血啊,自然应该经常备份,世界上没有后悔药卖的。打开“命令提示符”窗口,进入项目所在文件夹,输入:

java ExpZip "C:\Documents and Settings\Gary Chan\workspace" "[a-zA-Z_$][\w$]*\.java"

  其中java是Java解释器,ExpZip就是我们将要编写的Java类编译以后的class文件。第一个参数代表目标文件夹,第二个参数代表目标文件文件名的表达式,具体含义请看后文详述。回车以后,Eclipse工作区文件夹中包括所有子文件夹中的所有Java源程序都已经备份到Backup.zip中了。可以用WinRAR打开这个ZIP包。

  可以看到,这个压缩包保留了文件的路径信息,并且还有注释,记载着当时的压缩信息。而且,这是一个Java程序,理论上拿到MacOS上运行都是没有问题的。

  总之,这是一个非常强大的软件,而且,我们已经有足够的知识来编写这个软件了。不再赘述,先新建一个项目

Java文件操作


  1.File类

  Java中是通过File类来存取文件和路径的。没错,这是一个非常容易混淆的名字,
你可能认为它仅仅能够处理文件,实际上它既可以代表了一个特定的文件,又可以代表某
个文件夹内的文件名列表。如果它是文件,你可以通过length()方法获取它的大小、通
过lastModified()方法最后修改时间,等等;如果它代表文件名列表,则可以用list()
得到表示文件名列表的字符串数组,或者用listFiles()方法得到表示子文件列表的
File数组。总之,在Java中文件夹和文件已经被统一成一个抽象的概念,只要了解它的
原理,使用起来将会感到非常方便。

  2.文件过滤

  我们说过,File类的listFiles()方法可以得到表示子文件列表的File数组,如
果仅仅想要得到特定的子文件而过滤掉其他的文件,则可以给listFiles()方法加上参
数——一个过滤器。
所谓的过滤器,就是一个实现FilenameFilter接口的Java类。所谓接口(interface)
,就是仅仅定义了行为协议,所有声明实现这个接口的类必须具体实现这个接口的行为。
换句话说,接口是一种契约,比如这里FilenameFilter的定义是这样子的:

public interface FilenameFilter {
boolean accept(File dir, String name);
}

  我们要得到某个File类的所有子文件夹,过滤器FolderFilter类可以这么写:

class FolderFilter implements FilenameFilter {
public boolean accept(File dir, String name) {
return new File(dir + "\\" + name).isDirectory();
}
}

  你看,FolderFilter类通过implements表示对FilenameFilter接口的支持,
然后实现了这个接口的accept方法。具体地,在accept方法中,通过传入的dir参数和
name参数新建一个File实例,然后通过调用isDirectory()方法判断这个实例是否是
文件夹,是则返回True,否则返回False。

  注意到这个方法必须和FilenameFilter接口里面声明的一模一样。正因为如此,
每次手动输入接口声明既麻烦又容易出错。还是让Eclipse干体力活吧!打开Eclipse,
新建一个类,名字为FolderFilter,按下Interfaces文本列表右边的Add按钮,
在弹出的对话框中输入FilenameFilter即可。实际上,Eclipse会根据你的输入进行
筛选,非常聪明(见图1)。



  别忘记只在Inherited abstract methods前面打勾。最后按下Finish,
FolderFilter便创建好了,请根据上文补足代码。

  假设path是一个File类的实例,我们便可以通过File[] subFolders =
path.listFiles(new FolderFilter())得到path的子文件夹列表了。

  这就是接口的使用。加上前两次我们讲解的Java语言中关于封装、继承和多态的知
识,Java面向对象编程就基本讲完了。

  3.过滤器原理

  或许你会觉得过滤文件夹还要手动编写一个类,实在是太麻烦了。实则不然。
给listFiles()参数提供一个实现FilenameFilter接口的类的实例,惟一目的就是让
listFiles()反过来调用作为参数的实例的accept方法。仔细体会一下这句绕口令,
真是意味深长啊。这意味着你可以把任何实现FilenameFilter接口的类的实例当作参数
传递,甚至是在运行时动态改变,从而使得程序更加灵活。而且,如果你要加入更多的
过滤器,写额外的类就可以了,完全不需要修改原先的过滤器,这种动态策略的思想就
是一种Strategy模式的体现。
 
黄糖故事

  设计模式(Design Patterns)

  建筑工程师Cristopher Alexander总结了建筑中的经验教训,发现有些问题总是
一遍又一遍重复出现,当你总结出一套解决这种问题的核心方法以后,你只要放心使用这
种解决方法即可,而完全不必再动脑筋想其他的方案。虽然这句话很朴素,但是却成了软
件工程中一种举足轻重的方法学—设计模式的指导思想。

  我们知道,建筑学有牛顿力学作为辩证的理论根据,只要尊重科学,就不可能设计出
坍塌的建筑(即使坍塌,也是材料施工不过关或其他因素造成的)。但是,编写软件却没
有这样的理论根据,因为程序只是告诉计算机语法,计算机只要如此这般依计而行,愚
忠而已,而没有机制能保证程序的语意符合人类的思想。因此,程序才会有BUG,即使
比尔对Windows XP大吼:“我以老祖宗的名义不准你有BUG!”,Windows XP能够领
会精神吗?

  虽然没有彻底的解决方法,Erich Gamma等四位大师级的计算机科学家通过借鉴建
筑学中的模式的概念,创造出软件中的设计模式,通过精心萃取的23个模式,有效解决了
软件的设计问题,给程序加上了一定程度的模型语意。具体的,请阅读这“四人帮”
(Gang of Four)编写的《Design Patterns》一书。值得一提的是,我们上一回编
写的名字解析器就是运用了其中的Factory模式,结构非常漂亮。

  顺便说一句,现在支持设计模式的工具也越来越多 ,如果你想有朝一日从Java程
序员升级为呼风唤雨的Java构架师,这可是一门必修课哦!

  4.正则表达式(Regular Expression)

  说起正则表达式,即使不熟悉,你也会觉得非常眼熟。没错,现在的文本编辑软件,
无论是UltraEdit还是EditPlus,无一不支持正则表达式。可以说,不支持正则表达式
的编辑器肯定是三流货色啦。

  理论上,正则表达式等价于有限自动机,能够表达相当丰富的语言,DOS中通配符的
能力是无法望其项背的。学过编译原理或者计算机理论的朋友一定很熟悉了,可是,如果
从头开讲,恐怕这期所有版面都不够。因此这里推荐你参考Sun免费的Java Tutorial
中的Regular Expressions一章,写得很详细。即使你熟悉计算机理论的正则表达式,
也建议抽空看一看,因为Java采取的是类Perl风格的语法,和理论书上有些出入。

  比如我们要过滤出所有Java源程序。众所周知,Java文件名必须以字母、美元符号
或者下划线开头,然后可以由数字、字母、美元符号或者下划线的任意组合,最后扩展名
是java。用正则表达式写出来,就是“[a-zA-Z_$][a-zA-Z_$0-9]*\.java”(
不含引号)。

  其中,[a-zA-Z_$]表示小写字母a至z、大写字母A至Z、美元符号或者下划线任取
其一;[a-zA-Z_$0-9]*表示小写字母a至z、大写字母A至Z、美元符号、下划线以及0
至9这十个数字的任意组合;“\.java”表示Java源程序的扩展名,由于“.”在Java
正则表达式中有特殊意义,所以“\.”才表示一个“.”符号。

  当然,Java正则表达式API中还有许多扩充,可以简写为
:[a-zA-Z_$][\w$]*\.java。

  有了这些知识,我们不难写出支持正则表达式的文件过滤器FileFilter,源代码
如下:

public class FileFilter implements FilenameFilter {
private Pattern pattern;

public FileFilter(String regex) {
pattern = Pattern.compile(regex);
}

public boolean accept(File dir, String name) {
File file = new File(dir + "\\" + name);
return pattern.matcher(file.getName()).matches() && file.isFile();
}

}

  Java中通过Pattern类来使用正则表达式。在FileFilter的构造函数中,通过把
regex参数传递给Pattern的compile()方法,便可以得到一个代表这个正则表达式的实
例,之后便可以在accept()方法中调用了。具体地,当且仅当文件名满足正则表达式并
且这的确是一个文件时,accept()方法返回True。

  5.递归搜索子目录

  有了这两个过滤器,递归搜索指定目录中符合正则表达式的文件名就很容易了。先在
项目中生成一个包含main方法的ExpZip类,然后添加一个
recursiveAppend(File path, ArrayList list, String regex)方法,其中,
参数path是指要搜索的文件夹,list是用来返回符合正则表达式的文件名的列表,
regex自然是正则表达式了。源代码如下:

private static void recursiveAppend(File path, ArrayList list, String regex)
{
// 搜索path文件夹中符合要求的文件并添加到list里。
File[] files = path.listFiles(new FileFilter(regex));
if (files.length > 0) {
for (int i = 0; i < files.length; i++) {
list.add(files[i].getAbsolutePath());
}
}

// 递归搜索path子文件夹。
File[] subFolders = path.listFiles(new FolderFilter());
if (subFolders.length > 0) {
for (int i = 0; i < subFolders.length; i++) {
recursiveAppend(subFolders[i], list, regex);
}
}
}

  代码很简单,请参考注释阅读。
 
6.ZIP压缩和CRC校验
  良好的开端是成功的一半,有了上面的准备,完成主程序也就很容易了。

public static void main(String[] args) {
// 程序出现任何异常都将打印使用信息。
try {
// 记录正则表达式和路径名称。
String regex = args[1];
String targetFolder = args[0];

File path = new File(targetFolder);
ArrayList files = new ArrayList();

// 递归搜索path所指定的文件夹内以及子文件夹内满足合正则表达式。
recursiveAppend(path, files, regex);

if (files.size() == 0) {
System.out.println("找不到任何匹配的文件!");
return;
}

// 把符合正则表达式的文件压缩成ZIP格式并且返回CRC校验值。
FileOutputStream file = new FileOutputStream("Backup.zip");
CheckedOutputStream csum = new CheckedOutputStream(file, new CRC32());
ZipOutputStream zos = new ZipOutputStream(csum);
BufferedOutputStream out = new BufferedOutputStream(zos);

// 为ZIP包添加注释。
zos.setComment("Backup " + regex + " in " + targetFolder);

// 开始压缩。
for (int i = 0; i < files.size(); i++) {
String currentFile = (String) files.get(i);
System.out.println("Writing file " + currentFile);
BufferedReader in = new BufferedReader(new FileReader(currentFile));
zos.putNextEntry(new ZipEntry(currentFile));
int c;
while ((c = in.read()) != -1)
out.write(c);
in.close();
}
out.close();

// 当压缩包关闭以后便可以得到CRC校验值。
System.out.println("CRC校验值:" + csum.getChecksum().getValue());
} catch (Exception e) {
printUsage();
}
}

  首先可以看到,整个main函数部分是用一个大的try...catch异常捕获语句
容纳起来的,当程序出现任何异常时,我们都认为是用户的参数不正确,便调用
printUsage()方法打印使用信息,具体代码从略。

  首先通过recursiveAppend()方法递归搜索指定的文件夹内以及子文件夹内
满足合正则表达式的文件名,结果将保存在files中。如果有满足条件的文件,则把
这些文件压缩成ZIP格式,并添加适当的注释。当压缩包关闭以后便可以得到ZIP包的
CRC校验值。

  注意,以上这些代码使用的都是Java API内置的功能,如果你在编写的过程中遇
到找不到类定义的情况,别忘记使用Eclipse内置的Ctrl+Shift+M自动导入功能。
至此,整个软件全部编写好了。你可以在命令行手动输入把玩一下,或者点击Run菜单
的Run...菜单项,配置Eclipse运行的参数如图2所示。



再见


  逝者如斯,连载已经四个多月了。小店开张至今得到众多朋友的支持与鼓励,已经有
200多位朋友在garychan.3322.org上参与讨论,你们的热情让我激动不已。然而,连
续创作技术性、趣味性兼顾的文章,压力实在不小。此外,我还有自己的工作与学习,虽
然想一直和朋友们共同进步,然而力有不逮,实在是遗憾得很。总之,多谢关心咖啡馆的
朋友们这几个月来一直的关心,希望机缘巧合,我们还会再会!