SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。目前,也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案,他们的基本思路就是将小文件进行合并成一个大文件,同时对这些小文件的位置信息构建索引。不过,这类解决方案还涉及到Hadoop的另一种文件格式——MapFile文件。SequenceFile文件并不保证其存储的key-value数据是按照key的某个顺序存储的,同时不支持append操作。在SequenceFile文件中,每一个key-value被看做是一条记录(Record),因此是基于Record的压缩策略.
写入代码
下面是写入了100条(key,value)的信息,其中以LongWriable为key,以Text作为value.
Configuration config = new Configuration();
FileSystem fs = FileSystem.get(conf);
int i = 0;
Path path = new Path("/home/lake/hello.xml");
SequenceFile.Writer writer = null;
SequenceFile.Writer.Option optPath = SequenceFile.Writer.file(path);
//定义key
SequenceFile.Writer.Option optKey = SequenceFile.Writer.keyClass(LongWritable.class);
//定义value
SequenceFile.Writer.Option optVal = SequenceFile.Writer.valueClass(Text.class);
writer = SequenceFile.createWriter(conf, optPath, optKey, optVal);
//写入的数据可以根据你的情况来定,我这只是测试
String value = "hello world";
while(i < 100){
writer.append(new LongWritable(i),new Text(value));
i ++;
}
writer.close();
上面程序运行完成之后,就可以在指定的路径上看到产生的文件。
读取的代码
Configuration config = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path path = new Path("/home/lake/hello.xml");
SequenceFile.Reader reader = new SequenceFile.Reader(fs.getConf(), SequenceFile.Reader.file(path));
List<Object> sampleValues = new ArrayList<Object>();
Writable key = (Writable) ReflectionUtils.newInstance(reader.getKeyClass(), fs.getConf());
Writable value = (Writable) ReflectionUtils.newInstance(reader.getValueClass(), fs.getConf());
int count = 0;
String keyName = "Key";
String valueName = "Value";
//change data to json format
while (reader.next(key, value) && count < 12) {
sampleValues.add("{\"" + keyName + "\": \"" + key + "\", \"" + valueName + "\": \"" + value + "\"}");
count++;
}